In [253]:
import numpy as np 
import pandas as pd 
import matplotlib.pylab as plt 
import seaborn as sb 
import json  
import os
import errno

from time import time 
import datetime as dt

import re
import ast
from collections import Counter

#tópicos
import gensim
import pyLDAvis 
from gensim.models.ldaseqmodel import LdaSeqModel
from gensim.models.wrappers import DtmModel

#metricas
from gensim.matutils import cossim
from itertools import combinations
from dit.divergences import jensen_shannon_divergence
from dit import ScalarDistribution
from tmtoolkit.topicmod.evaluate import metric_cao_juan_2009
from tmtoolkit.topicmod.evaluate import metric_arun_2010
from gensim.models.coherencemodel import CoherenceModel

In [3]:
#Para que no mostrar los warnings
import sys
import warnings

if not sys.warnoptions:
    warnings.simplefilter("ignore")

## PostProcesamiento

Importar datos procesados, eliminación de palabras poco frecuentes, definicion de slice por año y crear corpus

In [4]:
#Importar relatos procesados
df0 = pd.read_excel('robos_prose_clean_2.0.xlsx')
df0.head()

Unnamed: 0,sin_fecha_siniestro,sin_relato,sin_relato_clean
0,29-08-2013 0:0,DEJE ESTACIONADO LA CAMIONETA POR MAS MENOS PO...,"['deje', 'estacionado', 'camioneta', 'menos', ..."
1,05-09-2013 0:0,DEJE LA CAMIONETA ESTACIONADA EL DIA 04/09 Y H...,"['deje', 'camioneta', 'estacionada', 'sali', '..."
2,05-09-2013 0:0,DEJE EL VEHICULO ESTACIONADO APROXIMADAMENTE A...,"['deje', 'estacionado', 'aproximadamente', 'lu..."
3,05-09-2013 0:0,DEJO VEHICULO PARA HACER CONSULTAS EN LUVAL Y ...,"['dejo', 'hacer', 'consultas', 'duval', 'volve..."
4,06-09-2013 0:0,EL VIERNES 06 DE SEPTIEMBRE SALE DEL RESTORAN...,"['viernes', 'septiembre', 'sale', 'restoran', ..."


In [None]:
def date_year(fecha):
    y=int(re.split('\W+', fecha)[2])
    return y

def date_month(fecha):
    m = int(re.split('\W+', fecha)[1])
    return m

In [None]:
#Frecuencia de cada palabra que sobrevivio al preprocesamiento

t1=time()

corpus = [ast.literal_eval(doc) for doc in df0['sin_relato_clean']]
words = [word for doc in corpus for word in doc]
freq_per_words = Counter(words)

dfreq = pd.DataFrame()
dfreq['Palabra'] = freq_per_words .keys()
dfreq['Frecuencia'] = freq_per_words .values()

t2=time()
print(t2-t1)

In [167]:
print('Tamaño del vocabulario: ', len(dfreq))

Tamaño del vocabulario:  30284


In [168]:
dfreq.head()

Unnamed: 0,Palabra,Frecuencia
0,deje,12089
1,estacionado,27620
2,camioneta,6623
3,menos,325
4,media,441


In [169]:
dfreq.tail()

Unnamed: 0,Palabra,Frecuencia
30279,furgonque,1
30280,rosael,1
30281,aprobada,1
30282,leonora,1
30283,sechura,1


In [170]:
t1 = time()
voc_freq = [*dfreq[dfreq['Frecuencia']>=10]['Frecuencia']]
vocabulary = [*dfreq[dfreq['Frecuencia']>=10]['Palabra']]

newcorpus = corpus
for i, doc in enumerate(corpus):
    for j, word in enumerate(doc):
        if freq_per_words[word]<10:  
            newcorpus[i][j]=''
    newcorpus[i] = [elem for elem in newcorpus[i] if elem.strip()]   
    
t2= time()
print(t2-t1)

0.3381326198577881


In [171]:
#Frecuencia de cada palabra que sobrevivio al postprocesamiento

t1=time()


words = [word for doc in newcorpus for word in doc]
freq_per_words = Counter(words)

dfreq = pd.DataFrame()
dfreq['Palabra'] = freq_per_words .keys()
dfreq['Frecuencia'] = freq_per_words .values()

t2=time()
print(t2-t1)

0.16156268119812012


In [176]:
dfreq.sort_values('Frecuencia', ascending=False).tail()

Unnamed: 0,Palabra,Frecuencia
5085,piquetes,10
1649,unos,10
4483,acción,10
3818,acorralan,10
2221,mochilas,10


In [180]:
print('Tamaño del vocabulario: ', len(dfreq))

Tamaño del vocabulario:  5431


In [185]:
df0['year'] = df0.apply(lambda x: date_year(x['sin_fecha_siniestro']), axis=1)
df0['month'] = df0.apply(lambda x: date_month(x['sin_fecha_siniestro']), axis=1)


#Nuevo dataframe con los relatos procesados y por año
df = pd.DataFrame({'corpus':newcorpus, 'slice':df0['month'].tolist(), 'year':df0['year'].tolist()})
df = df[(df['year']>=2011) & (df['year']<=2016)]
df.sort_values(['year', 'slice'], ascending=True, inplace=True)
df.reset_index(inplace=True)

In [189]:
# Cantidad de relatos por mes
time_slices = df.groupby(['year','slice']).count()['index'].tolist()

   

#Creamos el diccionario a partir de los textos procesados en el formato que necesita el modelo
dictionary = gensim.corpora.Dictionary([*df['corpus']])
dictionary.save('dictionary.dict')

#creamos el corpus para darle al modelo (segun el formato de esta libreria)
#El corpus contiene una representacion numerica de los textos, un texto es representada por una lista de tuplas
#donde el primer elemento de la tupla es la id de la palabra y el segundo es su frecuencia de aparición en el texto.
corpus = [dictionary.doc2bow(text) for text in [*df['corpus']]]
gensim.corpora.MmCorpus.serialize('corpora.mm', corpus)

## Cargar Modelo

In [194]:
#Cargar modelos

model = []
model_name = []
K = [2, 3, 4, 5, 6, 7, 8, 9, 10]
for k in K:
    model.append(DtmModel.load('dtm_{k}.model'.format(k=k)))
    model_name.append('dtm_{k}.model'.format(k=k))

# 1. Métricas

## 1.1 $\text{Entropy}^{1}$


$
 Entropy(K) = \sum^{M}_{m=1} \sum^{K}_{k=1} p(z_{m}=k |d=d_{m}) \left( \sum^{N_{m}}_{n=1}-p_{t,k,m} \text{ln } p_{t,k,m} \right)
$, $\quad \quad p_{t,k,m} =  \frac{p(w_{n}=t|z_{n}=k)}{\sum^{V_{m}}_{n=1}p(w_{n}=t|z_{n}=k)}$

http://www.mdpi.com/1099-4300/19/5/173/htm
## 1.2 Perplexity

$
    Perplexity(K) = 2^{Entropy(K)}
$


Mayor entropia indica mayor es la incertidumbre sobre una variable aleatoria, por tanto menor es mejor, además la enstropia es proporcional a la negative log-likelihood, la cual es positiva, mientras menor es mejor. La perplexity es una función monotona (debido a que es proporcional a la NLL), en particular decreciente, por lo que mayor número de tópicos más pequeña es.

In [196]:
def second_term(k, m, D, dictionary, dict_ptk):
    
        #Lista de probabilidades de cada palabra del documento m, con repeticion de palabras
        N_m = [dictionary[D[m][n][0]] for n in range(len(D[m])) for f in range(D[m][n][1])]

        #Lista de probabilidades de cada palabra del documento m, pero sin repetir palabras
        V_m = [dictionary[D[m][n][0]] for n in range(len(D[m]))]
        
        
        
        #Suma de las probabilidades de cada palabra del documento m, pero sin repetir palabras, p[w_n=t|z_n=k] = dict_ptk[k][w]
        den = sum([dict_ptk[k][w] for w in V_m])
    
        return sum([(-dict_ptk[k][w]/den)*np.log(dict_ptk[k][w]/den) for w in N_m])


def entropy(time, model):
    ntopic = model.num_topics
    voc = []
    M = time_slices[time]#número de docs en el slice correspondiente
    V = len(dictionary) #largo del vocabulario
    D = corpus[time_slices[time-1]: time_slices[time]+time_slices[time-1]] #corpus del slice escogido

    
    #lista de diccionarios de probabilidades, 
    #cada diccionario tiene como key una palabra del vocabulario y su probabilidad para cada topico en el slice especificado
    for k in range(ntopic):
        #voc.append(model.print_topic(time = time, topic=k, top_terms= V))
        voc.append(model.show_topic(time = time, topicid=k, topn= V))
    dict_ptk = [dict((key, value) for value, key in voc[k]) for k in range(ntopic)]
    
    
     
        
    doc_topics = model.dtm_vis(time=time, corpus=corpus)[0]
    
    entropy = sum([doc_topics[m, k]*second_term(k, m, D, dictionary, dict_ptk) for m in range(M) for k in range(ntopic)])
      
    return entropy


In [None]:
#Calcular la entropía de todos los modelos
e = np.zeros((len(model), len(time_slices)))
for k in range(len(model)):
    ti = time()
    for t in range(len(time_slices)):
        e[k, t] = entropy(t, model[k])
    tf = time()
    print(tf-ti)

In [9]:
#Guardar los valores de  entropia para cada modelo en un js
entropy = [int(e[i].sum()) for i in range(len(e))]
filename = "dtm_html/entropy_data.js"

with open(filename, "w") as f:
    f.write("var entropy_data = {s}".format(s = entropy))
    f.close()  

## 1.2 Average cosine similarity between topic distribution

Cao et al. (2009), estima la similitud coseno promedio entre las distribuciones de los tópicos $\overrightarrow{\phi_{i}}$, $\overrightarrow{\phi_{j}}$ ($ i \neq j$) y escoge el valor de \textit{K}
que minimiza esta cantidad.\\

La similitud coseno calcula la norma L2 del producto punto de dos vectores. Esto es, si x e y son vectores, su similitud coseno $k$ es definida como:

$$k(x, y) = \frac{xy^{T}}{||x||||y||}$$<br>

Luego la similitud coseno promedio entre las distribuciones de los tópicos queda definida como sigue
$$avg\_cosine\_distance = \frac{\sum^{K}_{i=0}\sum^{K}_{j=i+1}k(\phi_{i},\phi_{j})}{K \times(K-1)/2 }$$

https://stackoverflow.com/questions/942543/operation-on-every-pair-of-element-in-a-list

Revisar la combinatoria de la métrica.

In [214]:
def avg_cosine_distance(time, model): 
    K = model.num_topics
    voc = []
    V = len(dictionary) #largo del vocabulario

    #lista de diccionarios de probabilidades, 
    #cada diccionario tiene como key una palabra del vocabulario y su probabilidad para cada topico en el slice especificado
    for k in range(K):
        voc.append(model.show_topic(time = time, topicid=k, topn= V))
    dict_ptk = [dict((key, value) for value, key in voc[k]) for k in range(K)]
    
    sum_cosine_distance = 0
    
    #Calculo la similitud para todas las combinaciones de tópicos
    pairs = [*combinations(range(K-1), 2)]
    for p in pairs :
            sum_cosine_distance+= cossim(dict_ptk[p[0]], dict_ptk[p[1]])
            
    avg_cosine_distance = sum_cosine_distance/len(pairs)
    return avg_cosine_distance

In [231]:
#prueba 
t1 = time()
avg_cosine_distance(1, model[1])
t2=time()
print(t2-t1)

0.04284787178039551


In [13]:
#Calcular la avg_cosine_distance de todos los modelos en todos sus períodos
avg_cossim = np.zeros((len(model), len(time_slices)))
for k in range(len(model)):
    ti = time()
    for t in range(len(time_slices)):
        avg_cossim[k, t] = avg_cosine_distance(time=t, model=model[k]) 
    tf = time()
    print(tf-ti)

1.3347764015197754
2.3118460178375244
4.08141565322876
5.890650272369385
8.021163702011108
11.037850618362427
13.540852308273315
19.081740140914917
20.48908257484436


In [15]:
#Guardar los valores de  avg_cosine_distance para cada modelo en un js
avgcossim = [round(avg_cossim[i].mean(), 2) for i in range(len(avg_cossim))]
filename = "dtm_html/avgcossim_data.js"
with open(filename, "w") as f:
    f.write("var avgcossim_data = {s}".format(s = avgcossim))
    f.close()  

## 1.3 Average Jensen-Shannon distance between topic distribution


Deveaud et al. (2014) [4] máximiza la distancia \textit{Jensen-Shannon} promedio entre las distribuciones de tópicos  $\overrightarrow{\phi_{i}}$, $\overrightarrow{\phi_{j}}$ ($ i \neq j$), muy similiar a Cao et al. (2009).\\

$$avg\_js\_distance = \frac{\sum^{K}_{i=0}\sum^{K}_{j=i+1}D(\phi_{i},\phi_{j})}{K \times(K-1)/2 }$$


Donde $D$ es la divergencia de Jensen-Shannon, la cual es una medida de divergencia basada en principios que siempre es finita para las variables aleatorias finitas. Cuantifica cuán "distinguibles" son dos o más distribuciones entre sí. En su forma básica es:

$$D(X||Y) = \frac{H(X+Y)}{2}+\frac{H(X)+H(Y)}{2}$$

Donde $H$ es la entropia, la entropía de una variable aleatoria $X$ con posibles valores ${x_{1}, .., x_{n}}$, se define de la siguiente forma:

$$H(X) = -\sum^{n}_{i=1}P(x_{i})log(P(x_{i}) = \sum^{V}_{w=1} \phi^{i}_{w}log(\phi^{i}_{w}), \forall i \in {1, ..., K}$$


Considering it is a non-symmetric measure, we use the Jensen-Shannon divergence,
which is a symmetrised version of the KL divergence, to avoid obvious problems when
computing divergences between all pairs of topics.

In [233]:
def avg_js_distance(time, model):
    K = model.num_topics
    voc = []
    V = len(dictionary) #largo del vocabulario

    #lista de diccionarios de probabilidades, 
    #cada diccionario tiene como key una palabra del vocabulario y su probabilidad para cada topico en el slice especificado
    for k in range(K):
        #voc.append(model.print_topic(time = time, topic=k, top_terms= V))
        voc.append(model.show_topic(time = time, topicid=k, topn= V))
    dict_ptk = [dict((key, value) for value, key in voc[k]) for k in range(K)]
    
    
    
    sum_js_distance = 0
        
    #Calculo la similitud para todas las combinaciones de tópicos
    pairs = [*combinations(range(K-1), 2)]
    for p in pairs :
            X = ScalarDistribution([*dict_ptk[p[0]].keys()], [*dict_ptk[p[0]].values()])
            Y = ScalarDistribution([*dict_ptk[p[1]].keys()], [*dict_ptk[p[1]].values()])
            
            sum_js_distance+= jensen_shannon_divergence([X, Y])
            
    avg_js_distance = sum_js_distance/len(pairs)  
    return avg_js_distance
    

In [236]:
#prueba
t1 = time()
avg_js_distance(time=1, model=model[1]) 
t2 = time()
print(t2-t1)

4.262650966644287


In [144]:
#Calcular la avg_js_distance de todos los modelos en todos sus períodos
avg_js = np.zeros((len(model), len(time_slices)))
for k in range(len(model)):
    ti = time()
    for t in range(len(time_slices)):
        avg_js[k, t] = avg_js_distance(time=t, model=model[k]) 
    tf = time()
    print(tf-ti)

86.86623668670654
249.50126361846924
473.1665823459625
779.6344659328461
1494.8150265216827
3610.90580368042
4598.188099384308
3278.9420113563538
3702.1329233646393


In [146]:
#Guardar los valores de  avg_js_distance para cada modelo en un js
avgjs= [round(avg_js[i].mean(),2) for i in range(len(avg_js))]
filename = "dtm_html/avgjs_data.js"
with open(filename, "w") as f:
    f.write("var avgjs_data = {s}".format(s = avgjs))
    f.close()  

## 1.4 Arun et al. (2010)


Arun et al. (2010) minimiza la \textit{Symetric Kullback-Liebler divergence (Jensen-Shannon distance)} entre los valores singulares de la representación matricial de las probabilidades de cada tópico ($\beta$) y la distribución de tópicos ($\theta$) dentros del corpus.


$$Arun\_Measure(M1,M2) = KL(CM1||CM2) + KL(CM2||CM1) $$

Donde, <br>
$CM1$ es la distribución de los valores singulares de la topic-word matriz M1, <br>
$CM2$ es la distribución obtenida normalizado por el vector $L∗M2$ (donde $L$ es <br> un vector de dimensión $D$  que indica el largo de cada documento en el corpus y $M2$ es la matriz topic-document.

In [238]:
def metric_arun(time, model): 
    K = model.num_topics
    voc = []
    V = len(dictionary) #largo del vocabulario

    #lista de diccionarios de probabilidades, 
    #cada diccionario tiene como key una palabra del vocabulario y su probabilidad para cada topico en el slice especificado
    for k in range(K):
        #voc.append(model.print_topic(time = time, topic=k, top_terms= V))
        voc.append(model.show_topic(time = time, topicid=k, topn= V))
    dict_ptk = [dict((key, value) for value, key in voc[k]) for k in range(K)] # topic distribution
    #Pasar la distribucion de los tópicos al formato de la liberia que calcula la metrica
    d = pd.DataFrame(dict_ptk) # topic distribution
    topic_word_distrib = np.array(d)
    
    doc_topics = model.dtm_vis(time=time, corpus=corpus)[0] #mezcla de tópicos de los documentos
    slices = time
    # mezcla de tópicos de los documentos para el slice de evaluacion
    doc_topic_distrib = np.array(doc_topics[sum(time_slices[0:time]):sum(time_slices[0:time+1])]) 
    
    #largo de cada documento en terminos de palabras
    c = corpus[sum(time_slices[0:time]):sum(time_slices[0:time+1])]
    doc_len=[]
    for i in range(len(c)):
        s = 0
        for j in range(len(c[i])):
            s += c[i][j][1]
        doc_len.append(s)
        
    doc_lengths = np.array([doc_len])
    
    return metric_arun_2010(topic_word_distrib, doc_topic_distrib, doc_lengths)

In [247]:
#prueba
t1 = time()
metric_arun(1, model[2])
t2 = time()
print(t2-t1)

0.46573567390441895


In [None]:
#Calcular la avg_js_distance de todos los modelos en todos sus períodos
avg_arun = np.zeros((len(model), len(time_slices)))
for k in range(len(model)):
    ti = time()
    for t in range(len(time_slices)):
        avg_arun[k, t] = metric_arun(time=t, model=model[k]) 
    tf = time()
    print(tf-ti)

In [None]:
#Guardar los valores de  avg_js_distance para cada modelo en un js
avgarun= [round(avg_arun[i].mean(),2) for i in range(len(avg_arun))]
filename = "dtm_html/avgarun_data.js"
with open(filename, "w") as f:
    f.write("var avgarun_data = {s}".format(s = avgarun))
    f.close()  

## 1.4 Griffiths et al. (2010)


Griffiths y Syteyvers  (2004) dicen: "Para un estadístico Bayesiano enfrentado a una elección entre un conjunto de modelos estadísticos, la respuesta natural es calcular el probabilidad posterior de ese conjunto de modelos dado el observado datos." El componente clave de esta probabilidad posterior será el probabilidad de los datos dados el modelo, integrando sobre todos
los parámetros en el modelo.<br>

En este caso, la data son las palabas en el corpus, $w$, y el modelo es especificado por el número de tópics, $T$, entonces entonces deseamos calcular la probabilidad de palabras para los temas $z$.<br>

Como siempre la likelihood es difícil de calcular, entonces esta se puede aproximar $P(w|T)$, tomando la media armónica de un conjunto de valores de $P(z|w, T)$ cuando $z$ es generado de la posterior $P(z|w, T)$. Entonces el algoritmo Gibb sampling provee tales ejemplos, y el valor de $P(w|z, T)$ pude ser computado. Luego elijen el $K$ que maximiza la media ármonica de la log-likelihoods muestreada.<br>



In [248]:
from tmtoolkit.topicmod.evaluate import metric_griffiths_2004

In [249]:
logliks = model[0].lhood_

In [251]:
metric_griffiths_2004?

In [None]:
metric_griffiths_2004(logliks)

Esta métrica sirve para comparar entre modelos con el mismo número de tópicos, a más tópicos es estrictamente decreciente

## 1.5 Coherence score - U mass

Mimno et al (2011) propone una métrica para evaluación de la calidad de un tópico. Dado un tópico $z$ y sus top $T$ palabras $V^{(z)}=(v^{(z)}_{1}, ..., v^{(z)}_{T})$ ordenadas por $P(w|z)$, la $coherence score$ es definido como:

$$C(z;V^{(z)}) = \sum^{T}_{t=2}\sum^{t}_{l=1}log \frac {D(v^{(z)}_{m}, v^{(z)}_{l})+1}{D(v^{(z)}_{l})}$$

Donde $D(v)$ es la frecuencia de la palabra $v$ a nivel documento, $D(v,v^{'})$ es el número de documentos donde la palabra $v$ y $v'$ co-ocurren. El coherence score se basa en la idea que las palabras dentro de un único concepto tenderán a co-ocurrir dentro del mismo documento. Esto esta empíricamente demostrado que el coherence score es altamente correlacionado con la coherencia de tópicos del juicio humano. Debe enfatizarse que el puntaje de coherencia solo es apropiado para medir palabras frecuentes en un tema. Porque la frecuencia de palabras raras es menos confiable.<br>



Luego se escoge $k$ que máximiza la coherencia promedio:

$$avg\_coherence\_score = \frac{1}{K}\sum^{K}_{k=1} C(z_{k};V^{(z_{k})})$$



In [254]:
def coherence_score(time, model, topn):
    topics_wrapper = model.dtm_coherence(time=time)
    cm_wrapper = CoherenceModel(topics=topics_wrapper, corpus=corpus, dictionary=dictionary, coherence='u_mass', topn=topn)
    
    coherence = cm_wrapper.get_coherence()
    
    return coherence

In [257]:
#prueba
t1=time()
coherence_score(time=1, model=model[0], topn=20)
t2=time()
print(t2-t1)

0.3102695941925049


In [160]:
#Calcular la avg_js_distance de todos los modelos en todos sus períodos
avg_coherence_score = np.zeros((len(model), len(time_slices)))
for k in range(len(model)):
    ti = time()
    for t in range(len(time_slices)):
        avg_coherence_score[k, t] =  coherence_score(time=t, model=model[k], topn=20) 
    tf = time()
    print(tf-ti)

22.3764705657959
24.830121994018555
28.218249797821045
28.622239112854004
35.29431939125061
33.817896604537964
34.77373766899109
33.54385709762573
34.262282609939575


In [162]:
#Guardar los valores de  avg_js_distance para cada modelo en un js
avgcoherence= [round(avg_coherence_score[i].mean(),2) for i in range(len(avg_coherence_score))]
filename = "dtm_html/avgcoherence_data.js"
with open(filename, "w") as f:
    f.write("var avgcoherence_data = {s}".format(s = avgcoherence))
    f.close()  

# 2. Visualizaciones

## 2.1 LDAVis

Esta parte consiste en guardar la data necesaria para realizar las visualizaciones con la librería LDAVis en un diccionario, luego se guarda ese diccionario en una variable en un archivo js que luego será leído por el script a cargo de las visualizaciones.

In [88]:


slices = time_slices

for k in range(len(model)):
    t1 = time()
    dtm = []
    for i in range(len(slices)):
        doc_topic, topic_term, doc_lengths, term_frequency, vocab = model[k].dtm_vis(time=i, corpus=corpus)
        vis_wrapper = pyLDAvis.prepare(topic_term_dists=topic_term, doc_topic_dists=doc_topic, doc_lengths=doc_lengths, vocab=vocab, term_frequency=term_frequency, sort_topics=False, R=30)
        data = pyLDAvis.save_json(vis_wrapper, 'dtm_html/data.js')
        with open('dtm_html/data.js') as f:
            dtm.append(f.read())

    dtm_data = {}
    for i in range(len(dtm)):
        dtm_data[date[i]] = ast.literal_eval(dtm[i])



    dtm_data_json = json.dumps(dtm_data) #parsing

    filename = "dtm_html/dtm.js"
    if not os.path.exists(filename):
            with open(filename, "w") as f:
                f.write("var dtm_data = {}; \n")
                f.close()  
                
                

    with open(filename, "a") as f:
        f.write("dtm_data[{ntopics}] = ".format(ntopics=model_name[k].split('.')[0].split('_')[1]) + repr(ast.literal_eval(dtm_data_json)) + "; \n")
        f.close()  
    t2 = time()
    print(t2-t1)

53.39201378822327
58.38373398780823
60.51923060417175
64.82786440849304
64.37093257904053
68.16515827178955
76.49615502357483
72.90783071517944
80.07492733001709


## 2.2 Serie de tiempo 

Esta parte consiste en guardar en un js un diccionario que contiene los tamaños de los tópicos en el tiempo de cada modelo, para luego ser leído por un script que visualiza las series de tiempo.

In [263]:
month = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']

dft = df.groupby(['year', 'slice']).size().reset_index(name='counts')
dft['month'] = month*6
dft['date'] = dft.apply(lambda x: x['month']+' '+str(x['year']), axis=1)
date = dft['date'].values.tolist()

dft.head()

Unnamed: 0,year,slice,counts,month,date
0,2011,1,475,Jan,Jan 2011
1,2011,2,302,Feb,Feb 2011
2,2011,3,660,Mar,Mar 2011
3,2011,4,544,Apr,Apr 2011
4,2011,5,634,May,May 2011


In [279]:
slices = time_slices
series = []

for j in range(len(model)):
    t1 = time()
    
    doc_topic = model[j].dtm_vis(time=0, corpus=corpus)[0]
    doc_topic_dist = doc_topic
    doc_topic = [np.argmax(doc_topic_dist[i]) for i in range(len(doc_topic_dist))]

    t = time_slices
    b = np.array(doc_topic)
    u = np.unique(b)

    t = time_slices
    t = [0]+t
    c = [len(b[sum(t[0:i]): sum(t[0:i])+t[i+1]] [b[sum(t[0:i]): sum(t[0:i])+t[i+1]] == v]) for v in u for i in range(len(t)-1)]

    
    dft = df.groupby(['year', 'slice']).size().reset_index(name='counts')
    date = [dt.datetime( year=dft['year'][i] , month=dft['slice'][i], day=1).ctime() for i in range(len(dft))]

    d = []
    for i in range(len(slices)):
        d1 = {}
        d1[str(0)] = int(dft['counts'][i])
        for k in u:
            d1[str(k+1)] = c[len(slices)*k+i]
        d1['date'] = date[i]

        d.append(d1)
    
    data_series_json = json.dumps(d) #parsing
  
    filename = "dtm_html/series_data.js"
    if not os.path.exists(filename):
            with open(filename, "w") as f:
                f.write("var series_data  = {}; \n")
                f.close()  
    with open(filename, "a") as f:
        f.write("series_data[{ntopics}] = ".format(ntopics=model_name[j].split('.')[0].split('_')[1]) + repr(ast.literal_eval(data_series_json)) + "; \n")
        f.close()  
    t2 = time()
    print(t2-t1)

0.39002013206481934
0.40934205055236816
0.4426252841949463
0.4508399963378906
0.4085359573364258
0.41791415214538574
0.42386627197265625
0.44089555740356445
0.4330294132232666


Este script es para pasarle los datos que genero el script anterior en un formato que la librería que visualiza la serie de tiempo entiende mejor

In [40]:
filename = "dtm_html/graph_data.js"
if not os.path.exists(filename):
        with open(filename, "w") as f:
            f.write("var graph_data  = {}; \n")
            f.close()  

color = ['#e6194b', '#3cb44b', '#ffe119', '#0082c8', '#f58231', '#911eb4', '#46f0f0', '#f032e6', '#d2f53c', '#fabebe']
for k in K:
    t1 = time()
    data = []
    d = {"id": "g",
         "valueAxis": " ",
         "lineColor": "#808080",
         "bullet": "round",
         "bulletBorderThickness": 1,
         "hideBulletsCount": 30,
         "title": "Total",
         "valueField": "0",
         "fillAlphas": 0}

    data.append(d)
    for j in range(k):

        d = {"id": "g{n}".format(n=j+1),
            "valueAxis": " ",
            "lineColor": color[j],
            "bullet": "round",
            "bulletBorderThickness": 1,
            "hideBulletsCount": 30,
            "title": "Topic{n}".format(n=j+1),
            "valueField": "{n}".format(n=j+1),
            "fillAlphas": 0}

        data.append(d)
        
    graph_data_json = json.dumps(data) #parsing    
    with open(filename, "a") as f:
        f.write("graph_data[{n}] = ".format(n=k) + repr(ast.literal_eval(graph_data_json)) + "; \n")
        f.close()  
    t2 = time()
    print(t2-t1)

0.0029916763305664062
0.0009975433349609375
0.0009975433349609375
0.0009968280792236328
0.0009975433349609375
0.000997304916381836
0.000997304916381836
0.0019948482513427734
0.0009970664978027344


In [268]:
#Ejemplo de datos que usa la libería que visualiza la serie de tiempo del tamaño de los tópicos
pd.read_pickle('dtm_serie_10.pkl').head()

Unnamed: 0,0,1,10,2,3,4,5,6,7,8,9,date
0,475,47,30,41,32,32,0,19,48,54,172,Sat Jan 1 00:00:00 2011
1,302,21,26,22,9,25,0,15,36,34,114,Tue Feb 1 00:00:00 2011
2,660,65,52,53,31,29,0,29,64,73,264,Tue Mar 1 00:00:00 2011
3,544,50,45,46,31,37,0,24,45,65,201,Fri Apr 1 00:00:00 2011
4,634,53,52,56,32,59,0,32,53,78,219,Sun May 1 00:00:00 2011


# Pendientes


#### Aspectos técnicos 

1. Ordenar el código de las visualizaciones, como también los ficheros que generan. 
2. Exportar el js sin la necesidad de un entorno virtual como IPython para elmodulo pyLDAvis.
3. Ver el parsing con las tildes: Es necesario pasar a JSON, o directamente usar diccionario de Python
4. Organizar código de procesamiento y postprocesamiento
5. Implementación .py
6. GITHUB




3. Correr con diferentes número de tópicos para este mismo slice
4. Ver el parsing con las tildes: Es necesario pasar a JSON, o directamente usar diccionario de Python

In [None]:
#Versión alternativa similitud coseno, pero más lenta


def metric_cao_juan(time, model):
    K = model.num_topics
    voc = []
    V = len(dictionary) #largo del vocabulario

    #lista de diccionarios de probabilidades, 
    #cada diccionario tiene como key una palabra del vocabulario y su probabilidad para cada topico en el slice especificado
    for k in range(K):
        #voc.append(model.print_topic(time = time, topic=k, top_terms= V))
        voc.append(model.show_topic(time = time, topicid=k, topn= V))
    dict_ptk = [dict((key, value) for value, key in voc[k]) for k in range(K)] # topic distribution
    #Pasar la distribucion de los tópicos al formato de la liberia que calcula la metrica
    d = pd.DataFrame(dict_ptk) # topic distribution
    topic_word_distrib = [[*d.iloc[0,:]],[*d.iloc[1,:]]]


    return metric_cao_juan_2009(topic_word_distrib)