In [1]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem.wordnet import WordNetLemmatizer
from nltk.corpus import wordnet as wn
import re

In [2]:
def pre_processing(sentence):
    return remove_stopwords(tokenize_sentence(remove_punctuation(sentence)))

# Remove punctuation from a list of words
def remove_punctuation(sentence):
    return re.sub(r'[^\w\s]', '', sentence)

# Remove stopwords from a list of words
def remove_stopwords(words_list):
    stopwords = open("stop_words_FULL.txt", "r")
    stopwords_list = []
    for word in stopwords:
        stopwords_list.append(word.replace('\n', ''))
    stopwords.close()
    return [value.lower() for value in words_list if value.lower() not in stopwords_list]

# Tokenize the input sentence and also lemmatize its words
def tokenize_sentence(sentence):
    words_list = []
    lmtzr = WordNetLemmatizer()
    for tag in nltk.pos_tag(word_tokenize(sentence)):
        if (tag[1][:2] == "NN"):
            words_list.append(lmtzr.lemmatize(tag[0], pos=wn.NOUN))
        elif (tag[1][:2] == "VB"):
            words_list.append(lmtzr.lemmatize(tag[0], pos=wn.VERB))
        elif (tag[1][:2] == "RB"):
            words_list.append(lmtzr.lemmatize(tag[0], pos=wn.ADV))
        elif (tag[1][:2] == "JJ"):
            words_list.append(lmtzr.lemmatize(tag[0], pos=wn.ADJ))
    return words_list

In [3]:
#ogni articolo del file verrà rappresentato come una lista
#di parole pre-processate
from gensim import corpora,models
import utils

FILE = 'italian_cuisine_2.txt' #il file contiene un insieme di documenti divisi per paragrafi
TOPIC_NUMBER = 10
WORDS_FOR_TOPIC = 5

with open(FILE) as file:
    
    #lista di liste. Ogn lista rappresenta un documento ed è formata da una sequenza di parole
    list_document_words = [] 
    
    for line in file:
        if "<doc" in line: #nuovo documento
            document_words = [] #lista di parole che faranno parte del documento
            while True:
                next_line = file.readline() #read next line
                
                #rimozione tag paragrafi
                new_next_line = next_line.replace("<p> ","").replace("</p>\n","").replace("/p", "")
                
                if "</doc>" in next_line: #documento terminato
                    break
                #rimuovo punteggiatura, tokenizzo e rimuovo stopwords
                sentence_words = utils.pre_processing(new_next_line)
                document_words.extend(sentence_words)
            list_document_words.append(document_words)
    file.close()
         
    print("Numero di documenti: ", len(list_document_words))
    
    #crea un dizionario che incapsula il mapping tra le parole normalizzate
    #e i loro indentificatori (interi)
    dictionary_LDA = corpora.Dictionary(list_document_words)
    
    #elimina tutti i termini che NON appaiono in almeno 3 documenti
    #elimina tutti i termini che appaiono in oltre il 50% dei documenti (vedere doc. ufficiale di filter_extremes)
    dictionary_LDA.filter_extremes(no_below=3)
    
    #converte ogni documento (sottoforma di lista di parole)
    #in un bag of words. Corpus sarà una lista di bag of words ognuna
    #delle quali rappresenta un documento
    corpus = [dictionary_LDA.doc2bow(document_words) for document_words in list_document_words]
        
    lda_model = models.LdaModel(corpus, num_topics=TOPIC_NUMBER, \
                                  id2word=dictionary_LDA, \
                                  passes=4, alpha=[0.01]*TOPIC_NUMBER, \
                                  eta=[0.01]*len(dictionary_LDA.keys()))
    
    for i,topic in lda_model.show_topics(formatted=True, num_topics=TOPIC_NUMBER, num_words=WORDS_FOR_TOPIC):
        print(str(i)+": "+ topic)
        print()

    #distribuzione di probabilità dei topic nel documento 5
    print(lda_model[corpus[5]]) # corpus[0] means the first document.



ModuleNotFoundError: No module named 'utils'