# Modelo LDA

Se utilizó Latent Dirichlet Allocation(LDA) haciendo uso de la implementación del paquete Gensim. Esta algoritmo realiza una reducción de dimensionalidad, a partir del cual se realiza un agrupamientos de palabras que pertenecen al mismo tópico. Los tópicos producidos por el modelo son *clusters* de palabras similares.


In [1]:
%matplotlib inline

import spacy
import pickle
from utils import read_file, get_words_and_lemma, create_counter_word_vector
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel
import pyLDAvis.gensim_models
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

In [2]:
#parametrización
TEXT_FILE = 'lavoztextodump.txt'	# Text to be processed
ENCODING = 'utf8'
MIN_FREQUENCY = 80	# Min word frequency to be considered
MIN_WORDS_COUNT_IN_SENT=10
POS_TAG= ['PROPN', 'ADJ', 'NOUN', 'VERB', 'ADV']
NUM_TOPICS=30

In [3]:
nlp = spacy.load('es_core_news_sm', disable=['parser', 'ner'])
nlp.max_length = 34886712

dataset = read_file(TEXT_FILE, ENCODING)
#doc = nlp(dataset)

filename = "trained/doc_npl_la_voz.pickle"
#fileObj = open(filename, 'wb')
#pickle.dump(doc, fileObj)
#fileObj.close()

with open(filename, 'rb') as f:
    doc = pickle.load(f)

## Pre procesamiento

Se realizan los siguientes procesamientos:
1. Eliminación de *stop words*
2. Lematización utilizando Spacy
3. Eliminación de las palabras menos frecuentes
4. Identificación de biagramas y trigramas: los bigramas son dos palabras que aparecen juntas con frecuencia en el documento y los trigramas son tres palabras que aparecen juntas con frecuencia en el documento. Para hacer esto se uso Phrases de Gensim.
5. Eliminación de palabras no alfanuméricas
6. Solo se consideran palabras cuyo *part-of-speech* son un nombre propio, un adjetivo, un adverbio, un sustantivo o un verbo. [Ver *Universal POS tags*](https://universaldependencies.org/docs/u/pos/)

In [4]:
#identificación de las frecuencias de las palabras
words, words_lemma = get_words_and_lemma(doc, MIN_WORDS_COUNT_IN_SENT, POS_TAG)

counts = create_counter_word_vector(words_lemma)

sents = [sent for sent in doc.sents if len(sent) > MIN_WORDS_COUNT_IN_SENT] #Se eliminan oraciones con menos de 10 palabras

#se obtiene un array con las oraciones (en formato texto), cuyas palabras han pasado por un proceso de lematización y filtrado
doc_list = []
for indexsent, sent in enumerate(sents):
    resultArray = []
    for word in sent:
        if word.is_alpha and not word.is_stop and word.pos_ in POS_TAG and counts[word.lemma_] > MIN_FREQUENCY:
            resultArray.append(word.lemma_)
    if len(resultArray) > 0:
        doc_list.append(resultArray)


#Se convierte cada oración en una lista de palabras, eliminando las puntuaciones y caracteres innecesarios
#para esto usamos simple_preprocess () de Gensim
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))  # deacc=True removes punctuations

data_words = list(sent_to_words(doc_list))

#print(data_words[:1])

# Build the bigram and trigram models
bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100) # higher threshold fewer phrases.
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)  

# Faster way to get a sentence clubbed as a trigram/bigram
bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)

# See trigram example
#print(trigram_mod[bigram_mod[data_words[3]]])

# Define functions for bigrams and trigrams
def make_bigrams(texts):
    return [bigram_mod[doc] for doc in texts]

def make_trigrams(texts):
    return [trigram_mod[bigram_mod[doc]] for doc in texts]

# Form Bigrams
data_words_bigrams = make_bigrams(data_words)

# Form Bigrams
data_lemmatized = make_trigrams(data_words_bigrams)

#Filtrado de oraciones con minima cantidad de palabras
#data_lemmatized = []
#for temp in data_lemmatized_temp:
#    if len(temp) > 5:
#        data_lemmatized.append(temp)
#print(data_lemmatized[:1])


## Crear diccionario y corpus

Las dos principales entradas para un modelo LDA son el diccionario (id2word) y el corpus.

Gensim va a crear identificadores únicos para cada palabra en el documento. Este identificador es usado como entrada por el modelo LDA.

In [5]:
# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# View
#print(corpus[:1])

[[(id2word[id], freq) for id, freq in cp] for cp in corpus[:1]]

[[('martinez', 1), ('pareja', 1), ('sostener', 1)]]

## Construir modelo LDA

Entrenamos el modelo LDA. Además de pasar el corpus y diccionario, se define el número de tópicos a encontrar.


In [6]:
# Build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=NUM_TOPICS,
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)

filename = "trained/doc_lda_model_result.pickle"
fileObj = open(filename, 'wb')
pickle.dump(doc, fileObj)
fileObj.close()

#with open(filename, 'rb') as f:
#    lda_model = pickle.load(f)

In [7]:
# Compute Perplexity
#print('\nPerplexity: ', lda_model.log_perplexity(corpus))  # a measure of how good the model is. lower the better.

# Compute Coherence Score
#coherence_model_lda = CoherenceModel(model=lda_model, texts=data_lemmatized, dictionary=id2word, coherence='c_v')
#coherence_lda = coherence_model_lda.get_coherence()
#print('\nCoherence Score: ', coherence_lda)

## Visualización de tópicos y palabras claves

Se usa pyLDAvis para mostrar los tópicos y las palabras claves. Esta es una herramienta gráfico interactiva.

### Interpretación del gráfico:

Cada burbuja en el gráfico del lado izquierdo representa un tópico. Cuanto más grande es la burbuja, más frecuente es ese tópico. A la derecha del gráfico aparecen las palabras claves del tópico.

Para nuestro caso podemos observar un modelo con demasiados tópicos, ya que vemos muchos tópicos superpuestos y burbujas de tamaño pequeño agrupadas en una región del gráfico.


In [8]:
# Visualize the topics
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(lda_model, corpus, id2word)
vis

In [9]:
for index, topic in lda_model.show_topics(num_topics=30, formatted=False, num_words= 30):
    print('Topic: {} \nWords: {}'.format(index, [w[0] for w in topic]))

Topic: 0 
Words: ['persona', 'asegurar', 'vivir', 'cambiar', 'aceptar', 'preguntar', 'comprar', 'rodriguez', 'carta', 'realidad', 'empresa', 'pesos', 'presentar', 'autoridad', 'libertad', 'nacional', 'provincia', 'nacion', 'privado', 'religioso', 'tener', 'derecho', 'condena', 'servicio', 'auto', 'tucuman', 'investigar', 'peronismo', 'muerto', 'policia']
Topic: 1 
Words: ['social', 'informacion', 'chico', 'responsable', 'ciudadano', 'posicion', 'crecer', 'base', 'respetar', 'democratico', 'consenso', 'dialogo', 'presidente', 'juicio', 'pesos', 'sector', 'capital', 'empresa', 'regimen', 'civil', 'millon', 'innviron', 'tema', 'publico', 'militar', 'sociedad', 'pais', 'politico', 'nacional', 'aca']
Topic: 2 
Words: ['tomar', 'decir', 'agua', 'medida', 'discusion', 'madre', 'sumar', 'completo', 'sabado', 'empresa', 'pais', 'nacional', 'innviron', 'aca', 'maquina', 'luz', 'chofer', 'foto', 'seguro', 'procedimiento', 'iglesia', 'pleno', 'referir', 'pie', 'traer', 'instalar', 'chile', 'superf