In [6]:
#Plantilla LDA usando Gemsin con la implementación de Mallet. 
#Lo primero que necesitamos son las stopwords de NLTK y spacy para el pre-procesamiento. 
import nltk
nltk.download()

AttributeError: module 'nltk' has no attribute 'internals'

In [None]:
#Importar los paquetes necesarios para el procesamiento del texto
import re
import numpy as np
import pandas as pd
from pprint import pprint

# Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

# spacy para lemmatization
import spacy

# Plotting tools
import pyLDAvis
import pyLDAvis.gensim  # don't skip this
import matplotlib.pyplot as plt
%matplotlib inline

# Enable logging for gensim - optional
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.ERROR)

import warnings
warnings.filterwarnings("ignore",category=DeprecationWarning)

In [None]:
#Una vez descargadas, importar las stopwords y almacenarlas en una variable
from nltk.corpus import stopwords
stop_words = stopwords.words('spanish')
#Al ejecutar en español, cambiarían las stopwords almacenadas 
stop_words.extend(['from', 'subject', 're', 'edu', 'use']

In [None]:
#Importar el corpus 
with open("tweets.txt",mode="r", encoding="utf-8") as fp:
    lines = fp.readlines()

In [None]:
#Limpiar aquellos elementos que entorpecen el procesamiento del corpus

In [None]:
#Tokenizar y eliminar signos de puntuación y caracteres innecesarios
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence).encode('utf-8'), deacc=True))  # deacc=True removes punctuations
#Una vez hecho eso, almacenar el corpus en una lista
data_words = list(sent_to_words(data))
print(data_words[:1])


In [None]:
#Crear bigramas para almacenar aquellas palabras que suelen aparecer juntas (pueden ser también trigramas o más, lo que más útil resulte)
bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100) # threshold es el umbral más alto.
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)  

#Para obtener el bigrama o trigrama
bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)


print(trigram_mod[bigram_mod[data_words[0]]])

In [None]:
#Una vez conseguido el bigrama, hay que llamar a las funciones de eliminar stopwords, hacer bigramas y lematizar de manera secuencial
# Primero, definir funciones para stopwords, bigramas, trigramas y lemmatización 
def remove_stopwords(texts):
    return [[word for word in simple_preprocess(str(doc)) if word not in stop_words] for doc in texts]

def make_bigrams(texts):
    return [bigram_mod[doc] for doc in texts]

def make_trigrams(texts):
    return [trigram_mod[bigram_mod[doc]] for doc in texts]

def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
    """https://spacy.io/api/annotation"""
    texts_out = []
    for sent in texts:
        doc = nlp(" ".join(sent)) 
        texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
    return texts_out

# Segundo, llanar a las funciones en orden. Para ello: 
# pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.2.0/en_core_web_sm-2.2.0.tar.gz
# Eliminar Stop Words
data_words_nostops = remove_stopwords(data_words)

# Crear Bigramas
data_words_bigrams = make_bigrams(data_words_nostops)

# Iniciar spacy 'spanish' model, keeping only tagger component (for efficiency)
# python3 -m spacy download en
nlp = spacy.load('en_core_web_sm', disable=['parser', 'ner'])

# Lematizar manteniendo solo nombres, adjetivos, veros y adverbios. Sería interesante añadir pronombres en este caso. 
# Importante anotar que sería el modelo 'spanish' de spacy por lo que probablemente se llamarían diferente los postags. 
data_lemmatized = lemmatization(data_words_bigrams, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV'])

print(data_lemmatized[:1])

In [None]:
#Ahora es el momento de crear las dos entradas del Topic Modelling con LDA que son el diccionario y el corpus
# Crear Dictionario (la variable puede definirse con cualquier nombre)
id2word = corpora.Dictionary(data_lemmatized)

# Crear Corpus (la variable puede definirse con cualquier nombre)
texts = data_lemmatized

# La frecuencia de los términos en el documento
corpus = [id2word.doc2bow(text) for text in texts]


print(corpus[:1])

In [None]:
#Lo más interesante de Gensim es que crea un ID para cada palabra del documento
#Da como resultado un mapeo de id y frecuencia de cada palabra (0,1)
#Esto se toma como entrada para el modelo LDA 
#Código para conseguir el id de una determinada palabra
id2word[0]
#Código para conseguir el mapeo más legible, 2 opciones: 
corpus[:1][0][:10]
[[(id2word[id], freq) for id, freq in cp] for cp in corpus[:1]]

In [None]:
#Construyendo el Topic Model LDA
# Build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=20, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)
