Ho creato un pacchetto (`process.py`, in questa cartella) che contiene una funzione per convertire il corpus in un formato tale da contenere solo i dati che ci servono e una classe iterabile che consente di non caricare tutto il corpus in RAM.

In [1]:
from gensim.models import Word2Vec
from preprocessing import parse_paisa, CorpusIterator

## `parse_paisa()`
Se per esempio volessimo estrarre solo i token grezzi basta utilizzare la funzione in questo modo:

In [2]:
parse_paisa(
    source_fn = "test.txt", #sorgente
    target_fn = "test_processed.txt", #destinazione
    cols = [1], #colonne da cui estrarre i dati
)

In [3]:
with open("test_processed.txt") as r:
    for _, line in zip(range(3), r):
        print(line)

Davide Guglielmini , finito agli arresti domiciliari assieme ad altre quattro persone , hanno presentato alla Procura una documentazione composta da planimetrie e documenti nella quale si spiega che la situazione dei bagni e dei privè sarebbe radicalmente cambiata ( ... ) i bagni non si trovano più all' interno del locale , ma fuori ; anche la zona adibita a privè è stata modificata . 

Due elementi importanti , perché era appunto nei bagni e nel privè che i clienti , vip e persone comuni , consumavano cocaina , come documentato dalle « cimici » piazzate nel 2007 dalla polizia ( guarda il video ) . 

Le modifiche avrebbero eliminato le zone « nascoste » 



Se invece interessa aggregare più livelli di annotazione, basta passare nell'argomento `cols` una lista contenente gli indici delle colonne che nel file originale contenevano i livelli di annotazione.
Es:

In [4]:
parse_paisa(
    source_fn = "test.txt", 
    target_fn = "test_processed2.txt", 
    cols = [1, 2, 3], #1=token, 2=lemma, 3=POS a bassa granularità
    joiner = "|", #carattere utilizzato per aggregare i dati
)

In [5]:
with open("test_processed2.txt") as r:
    for _, line in zip(range(3), r):
        print(line)

Davide|Davide|S Guglielmini|Guglielmini|S ,|,|F finito|finire|V agli|al|E arresti|arresto|S domiciliari|domiciliare|A assieme|assieme|B ad|ad|E altre|altro|D quattro|quattro|N persone|persona|S ,|,|F hanno|avere|V presentato|presentare|V alla|al|E Procura|Procura|S una|una|R documentazione|documentazione|S composta|comporre|V da|da|E planimetrie|planimetria|S e|e|C documenti|documento|S nella|in|E quale|quale|P si|si|P spiega|spiegare|V che|che|C la|il|R situazione|situazione|S dei|di|E bagni|bagno|S e|e|C dei|di|E privè|privè|S sarebbe|essere|V radicalmente|radicalmente|B cambiata|cambiare|V (|(|F ...|...|F )|)|F i|il|R bagni|bagno|S non|non|B si|si|P trovano|trovare|V più|più|B all'|al|E interno|interno|S del|di|E locale|locale|S ,|,|F ma|ma|C fuori|fuori|B ;|;|F anche|anche|B la|il|R zona|zona|S adibita|adibire|V a|a|E privè|privè|S è|essere|V stata|essere|V modificata|modificare|V .|.|F 

Due|due|N elementi|elemento|S importanti|importante|A ,|,|F perché|perché|C era|essere|V appun

## `CorpusIterator()`
I files convertiti in questo modo possono essere letti dalla classe `CorpusIterator`. L'ho documentata abbastanza estensivamente (`help(CorpusIterator)`).
Due esempi:

In [6]:
sentences = CorpusIterator(
    fn = "test_processed.txt",
    remove_stopwords = False,
)
for _, sentence in zip(range(3), sentences):
    print(sentence)
    print()

['davide', 'guglielmini', 'finito', 'agli', 'arresti', 'domiciliari', 'assieme', 'ad', 'altre', 'quattro', 'persone', 'hanno', 'presentato', 'alla', 'procura', 'una', 'documentazione', 'composta', 'da', 'planimetrie', 'e', 'documenti', 'nella', 'quale', 'si', 'spiega', 'che', 'la', 'situazione', 'dei', 'bagni', 'e', 'dei', 'privè', 'sarebbe', 'radicalmente', 'cambiata', 'i', 'bagni', 'non', 'si', 'trovano', 'più', 'all', 'interno', 'del', 'locale', 'ma', 'fuori', 'anche', 'la', 'zona', 'adibita', 'a', 'privè', 'è', 'stata', 'modificata']

['due', 'elementi', 'importanti', 'perché', 'era', 'appunto', 'nei', 'bagni', 'e', 'nel', 'privè', 'che', 'i', 'clienti', 'vip', 'e', 'persone', 'comuni', 'consumavano', 'cocaina', 'come', 'documentato', 'dalle', 'cimici', 'piazzate', 'nel', 'dalla', 'polizia', 'guarda', 'il', 'video']

['le', 'modifiche', 'avrebbero', 'eliminato', 'le', 'zone', 'nascoste']



Qui invece il reader funziona su un corpus dove sono aggregati i livelli token, lemma e POS:

In [7]:
sentences2 = CorpusIterator(
    fn = "test_processed2.txt",
    joiner = "|", #argomento di default
    stopword_index = 0, #altro argomento di default
)
for _, sentence in zip(range(3), sentences2):
    print(sentence)
    print()

['davide|davide|s', 'guglielmini|guglielmini|s', 'finito|finire|v', 'arresti|arresto|s', 'domiciliari|domiciliare|a', 'assieme|assieme|b', 'altre|altro|d', 'quattro|quattro|n', 'persone|persona|s', 'presentato|presentare|v', 'procura|procura|s', 'documentazione|documentazione|s', 'composta|comporre|v', 'planimetrie|planimetria|s', 'documenti|documento|s', 'spiega|spiegare|v', 'situazione|situazione|s', 'bagni|bagno|s', 'privè|privè|s', 'radicalmente|radicalmente|b', 'cambiata|cambiare|v', 'bagni|bagno|s', 'trovano|trovare|v', 'interno|interno|s', 'locale|locale|s', 'fuori|fuori|b', 'zona|zona|s', 'adibita|adibire|v', 'privè|privè|s', 'stata|essere|v', 'modificata|modificare|v']

['due|due|n', 'elementi|elemento|s', 'importanti|importante|a', 'appunto|appunto|b', 'bagni|bagno|s', 'privè|privè|s', 'clienti|cliente|s', 'vip|vip|s', 'persone|persona|s', 'comuni|comune|a', 'consumavano|consumare|v', 'cocaina|cocaina|s', 'documentato|documentare|v', 'cimici|cimice|s', 'piazzate|piazzato|a', 

Infine, gli oggetti corpus `CorpusIterator` possono essere passati direttamente a `Word2Vec`.

In [15]:
model = Word2Vec(
    sentences, 
    size=20, 
    window=5, 
    min_count=1, #giusto perché il corpus test è minuscolo
    iter=100,
)
print("Dimensioni modello:", model.syn0.shape)

Dimensioni modello: (2931, 20)
