Il Blog sta subendo alcuni interventi di manutenzione e aggiornamento, pertanto nei prossimi giorni si potrebbero riscontrare rallentamenti o malfunzionamenti.Ci scusiamo per il disagio.

Google glottologo aiuta a inventare la culturomica

Google ha dato una grossa mano per creare il genoma della cultura universale – il culturoma – e con la culturomica fa il glottologo del sapere universale. Occhio ai due neologismi. L’anno prossimo li ritroveremo nei dizionari, più o meno così: “culturoma: nelle scienze linguistiche attesta, con l’ausilio di software particolari, la ricorrenza delle parole e dei nomi più usati nei libri pubblicati da Gutenberg in poi, svelandone l’origine e l’introduzione nel linguaggio”.

Google, che ha ingoiato nei suoi scanner quindici milioni di libri, ha permesso agli scienziati di analizzarne minuziosamente cinque milioni. Jean-Baptiste Michel e Erez Lieberman Aiden, della Harvard University di Boston, ci hanno lavorato su quattro anni, insieme con un folto numero di ricercatori di Google Books, Encyclopaedia Britannica, American Heritage Dictionary. I risultati della ricerca sono stati pubblicati ieri su Science.

L’abstract della pubblicazione scientifica: “Abbiamo costruito un corpus di testi digitalizzati contenenti circa il 4% di tutti i libri mai stampati. L’analisi di questo corpus ci permette di indagare le tendenze culturali quantitativamente. Abbiamo sondato il vasto terreno della culturomica (culturomics, nell’originale. NdR), puntando sui fenomeni linguistici e culturali che hanno caratterizzato la lingua inglese tra il 1800 e il 2000. Dimostriamo come questo approccio possa fornire spunti su ambiti diversi come lessicografia, l’evoluzione della grammatica, della memoria collettiva, l’introduzione della tecnologia, la ricerca della fama, la censura, e l’epidemiologia. La culturomica allarga i confini di una rigorosa indagine quantitativa alla vasta gamma di nuovi fenomeni che permeano le scienze sociali e umanistiche”.

Strumento di base della ricerca è il software Google Books Ngram Viewer, realizzato nei laboratori Google da Matthew Gray e Yuan K. Shen.

Google Books Ngram Viewer

Così, grazie a Google e ai milioni di libri elettronici presenti nella sua libreria, è stato creato il ‘genoma delle parole’, un set di dati gigantesco per studiare la cultura e la sua evoluzione, come farebbe un paleontologo con i fossili. Con il software messo a disposizione da Google, si può indagare l’origine di ogni parola, vedere quando è stata introdotta nell’uso comune e con che frequenza è stata usata negli anni. Oppure si può studiare un personaggio famoso in base al numero di volte in cui il suo nome è stato citato nei libri nel corso dei secoli.

Gli scienziati hanno creato un database enorme da interrogare: 5,2 milioni di libri (il 72% dei quali in inglese), pari a oltre 500 miliardi di parole in totale. E’ una sequenza di dati 1.000 volte più grande del genoma umano che, se scritta in una linea retta, sarebbe lunga dieci volte il viaggio andata e ritorno Terra-Luna.

Intervistato dall’ANSA, Jean-Baptiste Michel ha tracciato i grafici di alcune parole, come ‘cibo italiano’, mostrando ad esempio che dei piatti italiani si parla oggi circa cinque volte piu’ spesso nei libri in lingua inglese rispetto al 1950, segno della forza crescente della cultura gastronomica italiana.

”Si stima che a oggi siano stati prodotti 129 milioni di libri – spiega lo scienziato – Google ne ha digitalizzato 15 milioni e noi abbiamo lavorato su 5,2 milioni di questi (il 4% dei libri attualmente sulla faccia della Terra) e li abbiamo trasformati in un ‘telescopio’ della cultura umana; uno strumento che ognuno può utilizzare per tracciare e vedere il modo in cui parole e idee sono state usate nei secoli”.

”Con il ‘culturoma’ – chiamato così per assonanza con il genoma, racconta Jean-Baptiste Michel – sono già emerse molte informazioni, per esempio che ogni anno le parole introdotte nel lessico sono circa 8.500 e che il 52% di esse forma una ‘materia oscura’ che è entrata nel lessico, si trova nei libri, ma non è riportata nei dizionari”.


Twitter: @pinobruno

Pino Bruno

Scrivo per passione e per dovere, sono direttore di Tom's Hardware Italy, ho fatto il giornalista all'Ansa e alla Rai e scrivo di digital life per Mondadori Informatica e Sperling&Kupfer

Alcune delle mie Pubblicazioni
Stay in Touch

Sono presente anche sui seguenti social networks :

Calendario
dicembre: 2010
L M M G V S D
« Nov   Gen »
 12345
6789101112
13141516171819
20212223242526
2728293031