In [1]:
import os
import pandas as pd
import re
import pickle

#Preprocesamiento
import spacy
from spacy.lang.es.stop_words import STOP_WORDS #importar set de stopwords
from nltk.stem import SnowballStemmer #importar stemmer
nlp = spacy.load('es_core_news_sm') #python -m spacy download es

#Topic modeling
import gensim
from gensim.corpora import Dictionary, MmCorpus
from gensim.models.ldamodel import LdaModel
from gensim.models import CoherenceModel
import pyLDAvis
import pyLDAvis.gensim
pyLDAvis.enable_notebook()
from IPython.core.display import display, HTML
from gensim.models import HdpModel

#Elimina los warnings
import warnings
warnings.filterwarnings("ignore")



In [2]:
def tokenizer(doc, sep=None, vocabulary = None, homol_dict=None, lemmatization=False, stemming = False):
    '''
    Por defecto divide la sentencia por el carácter espacio.
    Ej: 'Data Mining is the best course'->['Data',  'Mining', 'is', 'the', 'best', 'course']
    
    Input: 
    1. doc: str, documento.
    2. sep: str, carácter para dividir el documento en tokens, por defecto es el espacio.
    3. vocabuary: set, si un vocabulario es dado filtra las palabras que no estan presentes en el.
    4. homol_dict: dict, diccionario de homologaciones.
    5. lemmatization: bool, si es True lleva las palabras a su lema.
    6. stemming: bool, si es True lleva las palabas a su raíz.
    
    Output: 
    list, lista de tokens.
    
    Nota: aplicar stemming y lemmatization al mismo tiempo no es correcto.
    '''
    doc = re.sub(r'\S+@\S+', '', doc) #elimina correos electrónicos  
    doc = re.sub(r'[\xa0]', '', doc) #elimina el patrón \xa0
    doc = re.sub(r'[^\w\s]','', doc) #elimina los símbolos de puntuación excepto underscore
    doc = re.sub(r'[_]', '', doc) #elimina underscore
    doc = re.sub(r'[a-zA-Z]+[0-9]+', '', doc) #elimina los tokens que contienen letras y números
    doc = re.sub(r'([ø ÿ þ])', ' ', doc) #reemplazas los símbolos contenidos por un espacio 
    doc = re.sub(r'[0-9]', '', doc) #elimina los tokens númericos
    tokens = doc.split(sep) #tokenización
    tokens = [word.lower() for word in tokens] #pasar todas las palabras a minúsculas
    
    
    if vocabulary is not None:
        #solo considera caracteres que tokens que estan en vocabulary
        tokens = [word for word in tokens if word in vocabulary]
    
    #if homol_dict is not None:
    
    if lemmatization==True:
        tokens = [nlp(word)[0].lemma_ for word in tokens]
        
    if stemming == True:
        stemmer = SnowballStemmer('spanish')
        tokens = [stemmer.stem(word) for word in tokens]
    
    return tokens


In [3]:
#Importar la base de datos
df = pd.read_pickle('../data/robos_prose_v1.pkl')
df.head()

#Importar vocabulario
with open('../data/vocabulary.pickle', 'rb') as f:
    vocabulary = pickle.load(f)

In [4]:
#Corpus tokenizado utilizando el vocabulario
data_tokenized = [tokenizer(doc, vocabulary=vocabulary) for doc in df['sin_relato']]

#Creamos el diccionario a partir de los textos procesados en el formato que necesita LDA en gensim
dictionary = Dictionary(data_tokenized)

#Transformamos el corpus al formato que requiere la librería
#El corpus contiene una representacion numerica de los textos, un texto es representado por una lista de tuplas
#donde el primer elemento de la tupla es la id de la palabra y el segundo es su frecuencia de aparición en el texto.
corpus = [dictionary.doc2bow(text) for text in data_tokenized]

#Guardamos el diccionario y el corpus
dictionary.save('../data/dictionary.dict')
MmCorpus.serialize('../data/corpus.mm', corpus)

In [21]:
lda_model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=5, alpha='auto', eta='auto', random_state=0) 

In [22]:
#guardamos el modelo
lda_model.save('lda_model.model') 

In [23]:
#printear las topn palabras más probables de un tópico
lda_model.show_topic(topicid=1, topn=15)

[('mecanismo', 0.06720624),
 ('estacionado', 0.04111982),
 ('estacionamiento', 0.038681664),
 ('seguridad', 0.03460389),
 ('informados', 0.014400032),
 ('mall', 0.0138035305),
 ('casa', 0.012337404),
 ('encontraba', 0.010977054),
 ('vidrios', 0.01001468),
 ('ingresada', 0.008947119),
 ('ruido', 0.008045356),
 ('suelo', 0.007937963),
 ('ventana', 0.007869375),
 ('llaves', 0.007554966),
 ('vidrio', 0.00734365)]

In [49]:
lda_vis = pyLDAvis.gensim.prepare(topic_model=lda_model, corpus=corpus, dictionary=dictionary, sort_topics=True, R=30)
lda_vis

HdpModel(
    corpus,
    id2word,
    max_chunks=None,
    max_time=None,
    chunksize=256,
    kappa=1.0,
    tau=64.0,
    K=15,
    T=150,
    alpha=1,
    gamma=1,
    eta=0.01,
    scale=1.0,
    var_converge=0.0001,
    outputdir=None,
    random_state=None,
)

In [9]:
corpus1 = corpus[0:10000]
corpus2 = corpus[10000:20000]

In [44]:
hdp_model = HdpModel(T=20, K=5, corpus=corpus1, id2word=dictionary, random_state=0) 

In [45]:
hdp_model.print_topic(topicno=0, topn=30)

'0.004*"estacionado" + 0.003*"domicilio" + 0.002*"encontraba" + 0.002*"escapo" + 0.002*"sirena" + 0.002*"madrugada" + 0.002*"cortado" + 0.001*"dctos" + 0.001*"lmoquillaza" + 0.001*"cherokee" + 0.001*"izquierdo" + 0.001*"colorado" + 0.001*"inesperadamente" + 0.001*"continuacion" + 0.001*"buin" + 0.001*"registran" + 0.001*"parti" + 0.001*"policias" + 0.001*"minera" + 0.001*"vespucio" + 0.001*"principio" + 0.001*"movistar" + 0.001*"rompio" + 0.001*"gral" + 0.001*"calle" + 0.001*"villa" + 0.001*"toman" + 0.001*"frontier" + 0.001*"responde" + 0.001*"maule"'

In [47]:
hdp_model.update(corpus2)

In [52]:
hdp_model.update?

In [51]:
hdp_model.print_topic(topicno=19, topn=30)

'0.004*"estacionado" + 0.002*"violenta" + 0.002*"compaia" + 0.002*"diego" + 0.002*"colisionan" + 0.002*"identificar" + 0.001*"notificado" + 0.001*"manejar" + 0.001*"derech" + 0.001*"seminario" + 0.001*"puesta" + 0.001*"corredora" + 0.001*"intimidan" + 0.001*"electrónico" + 0.001*"ocasionando" + 0.001*"cilindro" + 0.001*"habitualmente" + 0.001*"desciende" + 0.001*"accion" + 0.001*"detener" + 0.001*"depues" + 0.001*"viajando" + 0.001*"usando" + 0.001*"portería" + 0.001*"mueve" + 0.001*"sacada" + 0.001*"sentada" + 0.001*"enviaron" + 0.001*"sacaba" + 0.001*"copiloto"'

In [15]:
hdp_model

<gensim.models.hdpmodel.HdpModel at 0x20f7d416358>

In [None]:
hdp_model = HdpModel(T=20, K=5, corpus=corpus2, id2word=dictionary, random_state=0) 

In [41]:
#guardamos el modelo
hdp_model.save('hdp_model.model') 

In [43]:
#printear las topn palabras más probables de un tópico
hdp_model.print_topics(num_topics=1, num_words=10)

[(0,
  '0.021*estacionado + 0.010*domicilio + 0.010*calle + 0.008*encontraba + 0.007*casa + 0.006*llaves + 0.005*puerta + 0.004*estacionamiento + 0.004*chapa + 0.003*personas')]

In [46]:
#comparar a través de métricas con lda

Probar pasandole data de forma incremental y ver la cantidad de tópicos que detecta.