In [2]:
from joblib import Parallel, delayed

import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

import matplotlib.pyplot as plt
import numpy as np
from gensim.models.ldamulticore import LdaMulticore
import pandas as pd 
import pyLDAvis
import pyLDAvis.gensim

# Tokeniza cada texto en una lista de palabras
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))  # deacc=True removes punctuations



In [3]:


#dataset_name = sys.argv[1]
#df = pd.read_csv(dataset_name)
df = pd.read_csv("datosProcesados.csv")


# Seleccionar las filas en las que la opinion sea positiva
X = df[df['__target__'] == 2]
X = X[X['airline'] == 'United']


# Paso todos los textos a una lista
textos = X.text.values.tolist()

# Paso cada texto de cada tweet de una string a una lista de palabras
data_words = list(sent_to_words(textos))

# Se crea el diccionario de las palabras; cada palabra unica contiene un identificador. Sirve para crear el corpus
id2word = corpora.Dictionary(data_words)

# Se crea el corpus
corpus = [id2word.doc2bow(text) for text in data_words]
#print(corpus[0])
# Cada palabra: (word_id, word_frequency). Si es (47,3) quiere decir que la palabra con id 47 aparece 3 veces en el documento




In [8]:
lda_model = LdaMulticore(corpus=corpus,  
    id2word=id2word,
    num_topics=5, 
    random_state=100,
    chunksize=100,
    passes=20,
    iterations=100,
    eval_every= None,
    per_word_topics=True,
    workers=8)
    
# La idea es tener la mejor similitud entre los textos de un topico mientras que se minimiza la similitud con los textos de otros
# La coherencia relaciona la distancia intracluster con la distancia intercluster
coherence_model_lda = CoherenceModel(model=lda_model, texts=data_words, dictionary=id2word, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()


# Imprime los topicos; por cada topico muestra su id y luego las palabras mas frecuentes con la frecuencia de esa palabra en ese topico
print(lda_model.print_topics())

[(0, '0.061*"jetblu" + 0.010*"time" + 0.009*"southwestair" + 0.009*"like" + 0.009*"guy" + 0.007*"work" + 0.007*"flight" + 0.006*"go" + 0.006*"would" + 0.006*"cool"'), (1, '0.037*"flight" + 0.027*"thank" + 0.026*"southwestair" + 0.021*"usairway" + 0.013*"get" + 0.013*"amp" + 0.011*"unit" + 0.011*"cancel" + 0.008*"great" + 0.008*"southwest"'), (2, '0.058*"unit" + 0.058*"thank" + 0.029*"southwestair" + 0.017*"flight" + 0.012*"help" + 0.010*"pleas" + 0.010*"respons" + 0.009*"appreci" + 0.009*"make" + 0.008*"follow"'), (3, '0.098*"jetblu" + 0.053*"thank" + 0.020*"flight" + 0.018*"love" + 0.014*"southwestair" + 0.012*"great" + 0.011*"unit" + 0.011*"guy" + 0.010*"fli" + 0.010*"virginamerica"'), (4, '0.087*"usairway" + 0.062*"thank" + 0.036*"southwestair" + 0.022*"great" + 0.021*"flight" + 0.019*"servic" + 0.013*"custom" + 0.012*"crew" + 0.011*"awesom" + 0.010*"us"')]


In [10]:
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, id2word, mds="mmds", R=30)
vis