In [1]:
from nltk.corpus import stopwords
import numpy as np
import json
import glob
#Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

#spacy
import spacy

import pyLDAvis
import pyLDAvis.gensim

# Data preparation

In [2]:

def load_data(file):
    with open(file, 'r',encoding="utf-8") as f:
        data=json.load(f)
    return data

def write_data(file,data):
    with open(file,"w",encoding="utf-8") as f:
        json.dump(data,f,indent=4)


In [3]:
stopWordsItalian=stopwords.words("italian")
stopWordsItalian

['ad',
 'al',
 'allo',
 'ai',
 'agli',
 'all',
 'agl',
 'alla',
 'alle',
 'con',
 'col',
 'coi',
 'da',
 'dal',
 'dallo',
 'dai',
 'dagli',
 'dall',
 'dagl',
 'dalla',
 'dalle',
 'di',
 'del',
 'dello',
 'dei',
 'degli',
 'dell',
 'degl',
 'della',
 'delle',
 'in',
 'nel',
 'nello',
 'nei',
 'negli',
 'nell',
 'negl',
 'nella',
 'nelle',
 'su',
 'sul',
 'sullo',
 'sui',
 'sugli',
 'sull',
 'sugl',
 'sulla',
 'sulle',
 'per',
 'tra',
 'contro',
 'io',
 'tu',
 'lui',
 'lei',
 'noi',
 'voi',
 'loro',
 'mio',
 'mia',
 'miei',
 'mie',
 'tuo',
 'tua',
 'tuoi',
 'tue',
 'suo',
 'sua',
 'suoi',
 'sue',
 'nostro',
 'nostra',
 'nostri',
 'nostre',
 'vostro',
 'vostra',
 'vostri',
 'vostre',
 'mi',
 'ti',
 'ci',
 'vi',
 'lo',
 'la',
 'li',
 'le',
 'gli',
 'ne',
 'il',
 'un',
 'uno',
 'una',
 'ma',
 'ed',
 'se',
 'perché',
 'anche',
 'come',
 'dov',
 'dove',
 'che',
 'chi',
 'cui',
 'non',
 'più',
 'quale',
 'quanto',
 'quanti',
 'quanta',
 'quante',
 'quello',
 'quelli',
 'quella',
 'quelle',
 'q

In [4]:
def get_list_of_docs(data):
    out=[]
    for k in data.keys():
        current_docs=data[k]
        
        out.extend(current_docs)
    return out


In [5]:
data=load_data("..\index_parsed.json")
data=get_list_of_docs(data)

data


  data=load_data("..\index_parsed.json")


['',
 '',
 ' linguaggio grammatiche linguaggi grammatiche linguaggi informatica •ubiquitari applicazioni –linguaggi programmazione •compilatori interpreti –linguaggi comunicazione •protocolli dialogo traentità omologhe –linguaggi intefacce •specifica sequenze operazioni •paradigmatici teoria –molti importanti problemi teorici riconducibili dell’appartenenza stringa linguaggio ',
 ' linguaggio grammatiche tre approcci diversi •approccio insiemistico –utile determinare proprietà elementari linguaggi •approccio generativo –grammatiche formali •approccio riconoscitivo –automi riconoscitori concetti matematici base •insiemi •relazioni •funzioni ',
 ' linguaggio grammatiche insiemi •consideriamo insiemi finiti insiemi infiniti •a cardinalità dell’insieme finito •alcuni insiemi infiniti numeri n naturali contiene zero n naturali positivi z interi relativi zinteri positivi z interi negativiq razionali relativi q razionali positivi q razionali negativi r reali r reali positivi r reali negativi 

In [6]:
#lemmatization
#usiamo Noun, aggettivi, verbi, avverbi
def lemmatization(texts,allowed_posttags=["NOUN","ADJ","VERB","ADV"]):
    nlp = spacy.load("it_core_news_sm",disable=["parser","ner"])              #spcay non fa parsing e ner (possiamo vedere la differenza utilizzando ner)

    text_out=[]
    for text in texts:
        
        doc=nlp(text)           
        new_text=[]
        #per ogni token nel doc prendo solo le parole che sono etichettate con i tag specificati
        #se un token ha quel tag, allora prendo il suo lemma
        for token in doc:
            if token.pos_ in allowed_posttags:
                new_text.append(token.lemma_)
        final=" ".join(new_text)

        text_out.append(final)
    return text_out


In [7]:
lem_text=lemmatization(data)
print("Esempio frase lemmizzata")
print(lem_text[5][0:90])

Esempio frase lemmizzata
linguaggio grammatico parte pal’ sottoinsieme dire parte indicare pa finito allora pa oper


In [8]:
#preprocessing con gensim
def gen_words(texts):
    final=[]
    for text in texts:
        new=gensim.utils.simple_preprocess(text,deacc=True) #toglie gli accenti
        final.append(new)
    return final




In [9]:
data_words=gen_words(lem_text)

print(data_words[5][0:90])

['linguaggio', 'grammatico', 'parte', 'pal', 'sottoinsieme', 'dire', 'parte', 'indicare', 'pa', 'finito', 'allora', 'pa', 'operazione', 'insiemi', 'unione', 'finire', 'ab', 'commutativa', 'associativo', 'intersezione', 'finire', 'mina', 'commutativa', 'associativo', 'intersezione', 'distributivo', 'rispetto', 'partizione', 'insieme', 'sottoinsieme', 'tale', 'an', 'ai', 'aj']


In [32]:
#BIGRAMS and TRIGRAMS

#iperparametri threshold, count etx...
bigrams_phrases=gensim.models.Phrases(data_words,min_count=2,threshold=100)       #min_count=numero minimo di occorrenze di un ngram per essere definito ngram
trigram_phrases=gensim.models.Phrases(bigrams_phrases[data_words],threshold=100)

bigram=gensim.models.phrases.Phraser(bigrams_phrases)
trigrams=gensim.models.phrases.Phraser(trigram_phrases)

def make_bigrams(texts):
    return [bigram[doc] for doc in texts]

def make_trigrams(texts):
    return [trigrams[bigram[doc]] for doc in texts]


data_bigrams=make_bigrams(data_words)               #bigrammi
data_trigrams_bigrams=make_trigrams(data_bigrams)   #bigrammi e trigrammi


print(data_trigrams_bigrams[9])         #i bigrammi_trigrammi vengono suddivisi da un _


['linguaggio', 'grammatico', 'esempio', 'relazionere', 'equivalenza', 'consideriamo', 'relazione', 'esistere', 'rk', 'tali', 'nqkr', 'relazione', 'equivalenza', 'le', 'classe', 'classe', 'resto', 'divisione', 'operazione', 'relazione', 'unione', 'xy', 'xy', 'chiusuro', 'transitivo', 'yn', 'yny', 'tali', 'yiyi', 'chiusura', 'transitivo', 'riflessivo', 'rr', 'xx']


In [47]:
#TF-IDF con Gensim
from gensim.models import TfidfModel

#creazione vettori
id2words=corpora.Dictionary(data_trigrams_bigrams)

texts=data_trigrams_bigrams

corpus=[id2words.doc2bow(text) for text in texts ]      #bag of words


#tfidf
tfidf=TfidfModel(corpus,id2word=id2words)
'''low_value=0.002
words=[]
words_missing_in_tfidf=[]
#Il metodo permette di lavorare su un corpus composto solo da token ritenuti rilevanti (con tfidf> di una soglia )
for i in range(0,len(corpus)):
    bow=corpus[i]       #bagofword associato alla parola
    
    low_value_words=[]
    tfidf_ids=[id for id in tfidf[bow]]
    
    bow_ids=[id for id, value in bow]
    print("bow ids",bow_ids)
    low_value_words=[id for id, value in tfidf[bow] if value<low_value]     #elimino se il tf-idf della parola è sotto 0.03
    print("sotto soglia",low_value_words)
    drops=low_value_words+words_missing_in_tfidf
    print("drops",drops)
    for item in drops:
        words.append(id2words[item])
    
    words_missing_in_tfidf=[id for id in bow_ids if id not in tfidf_ids]    

    new_bow=[b for b in bow if b[0] not in low_value_words and b[0] not in words_missing_in_tfidf]
    print("new bow",new_bow)
    print("original bow",bow)
    corpus[i]=new_bow
    

'''
print(corpus[20])


[(5, 1), (11, 1), (93, 1), (106, 2), (213, 2), (220, 2), (230, 2), (232, 2), (233, 2), (246, 1), (247, 1), (248, 1), (249, 1)]


In [22]:
id2words=corpora.Dictionary(data_words)

corpus=[]
for text in data_words:
    new=id2words.doc2bow(text)
    corpus.append(new)


print(corpus[5][0:90])      #genera una lista di tuple: (indice, frequenza)

[(5, 1), (11, 1), (13, 1), (45, 1), (49, 2), (50, 1), (52, 1), (67, 2), (71, 1), (72, 1), (73, 1), (74, 1), (75, 2), (76, 2), (77, 1), (78, 1), (79, 1), (80, 1), (81, 2), (82, 1), (83, 2), (84, 1), (85, 2), (86, 1), (87, 1), (88, 1), (89, 1)]


In [48]:
#LDA model
lda_model=gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=id2words, num_topics=30, random_state=100, update_every=1, chunksize=100, passes=10, alpha="auto")

In [24]:
#visualizzazione dinamica
pyLDAvis.enable_notebook()
vis=pyLDAvis.gensim.prepare(lda_model,corpus,id2words,mds="mmds",R=30)
vis



In [49]:
#visualizzazione dinamica
pyLDAvis.enable_notebook()
vis_tfidf=pyLDAvis.gensim.prepare(lda_model,corpus,id2words,mds="mmds",R=30)
vis_tfidf

