Informazioni sull'Interfaccia WEBBIT

Informazioni su WEBBIT

WEBBIT è un corpus di pagine Web italiane che contiene circa 150 millioni di parole.

Il corpus è stato raccolto da Marco Baroni nei primi mesi del 2007 usando un metodo simile a quello descritto nel seguente articolo:

Serge Sharoff. 2006. Creating general-purpose corpora using automated aearch engine queries. In Baroni e Bernardini (a cura di), Wacky! Working Papers on the Web as Corpus. Bologna: Gedit. 63-98.

Il corpus è stato annotato morfosintatticamente usando il TreeTagger (addestrato su risorse sviluppate alla SSLMIT di Forlì), lemmatizzato con morph-it! e indicizzato con l'IMS Corpus WorkBench.

Informazioni sull'interfaccia

La maschera di ricerca è un adattamento da parte mia e di Emiliano Guevara di quella sviluppata da Serge Sharoff per i suoi internet corpora (ringrazio Serge per avermi passato il suo codice, e aiutato a capirlo).

La maniera migliore di imparare a usare la maschera di ricerca è provare ad usarla! (Ovvero: sorry, non ho proprio voglia di scrivere la documentazione ;-)

Alcune cose da tenere a mente quando si usa l'interfaccia:

Ricordarsi la differenza tra parole (forme flesse) e lemmi: una ricerca per cane come parola trova solo occorrenze della stringa esatta cane, mentre una ricerca per lemma troverà anche cani, Cane, ecc.
Oltre a parole singole, si possono inserire sequenze di parole o lemmi, separati/e da uno spazio (si provi, per esempio, a cercare avere fame sia come sequenza di parole che come sequenza di lemmi)
Il sistema supporta le espressioni regolari: la conseguenza più utile anche per i principianti è che la stringa .* funziona come carattere jolly; dunque la ricerca avere .* fame trova le occorrenze di avere e fame separate da esattamente una parola
Se si compie una ricerca per concordanze, le opzioni che riguardano le collocazioni vengono ignorate, e viceversa
Mentre la distinzione tra parole e lemmi vale anche per la ricerca di collocazioni (dunque, cercare i collocati di cane produce risultati diversi a seconda che si compia una ricerca per parole o per lemmi), i collocati medesimi sono sempre lemmi, non forme flesse.

Per ulteriori chiarimenti, scrivetemi: marco baroni AT unitn it