
> #  **Topic modeling fine tuning**

---

 




In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF, LatentDirichletAllocation
from sklearn.model_selection import ShuffleSplit

import numpy as np
import pandas as pd
import random
import nltk

---
**D**entro del minado de datos existe la tarea de identificar un conjunto de palabras que representen al texto de un `documento` y en esta libreta se mostrara la solucion llamada *Topic Modeling*, el cual utiliza un enfoque probabilistico para resolver esta problematica.

El curso de la libreta es el siguiente:
 - Vectorizacion
 - *Ingenieria de caracteristicas*
 - Aplicar Topic modeling
 - Validacion "*empirica*"
 


Los boletines expedidos por la [pagina](https://presidente.gob.mx/) del presidente mexicano Andres Manuel Lopez Obrador forman el `corpus` usado a lo largo del documento, el cual fue procesado y limpiado en otra libreta. 

El EDA se realizara en la plataforma [Tableau](https://www.tableau.com/es-mx), para esto se guardaran periodicamente algunos valores en un archivo con extencion '.csv'  

In [14]:
corpus = pd.read_json('../primera_iteracion/juve_datos.json',orient='record')

#############################################################################
# Nota, este codigo esta por mientras el tokenizado. Borrar esto despues...
stopword_es = nltk.corpus.stopwords.words('spanish')
def remove_stopwords(text):
    texto = text.split()
    text = [word for word in texto if word not in stopword_es]
    text_r = ' '.join(text)
    return text_r
corpus['Titulo_ns'] = corpus['Titulo'].apply(lambda x: remove_stopwords(x))
#----------------------------------------------------------------------------

corpus_validacion = corpus.sample(frac=8 / len(corpus) , random_state = 564)
corpus_entrenamiento = corpus.drop(corpus_validacion.index)

print(corpus_validacion)

                                                 Titulo       Fecha  \
2255  Poderes Ejecutivo y Judicial coordinan esfuerz...  13.02.2020   
2692  Presidente analiza terminar construcción de 54...  27.07.2019   
1929  Fotogalería – Presidente inaugura Unidad de Me...  31.08.2020   
2291  Avanza adhesión de estados al Instituto de Sal...  28.01.2020   
1184  Reforma eléctrica fortalecerá a CFE y proteger...  23.10.2021   
1436  México recibirá un millón de dosis de vacuna J...  08.06.2021   
918   Presidente presentará iniciativa de reforma el...  31.03.2022   
3011  Presidente encabeza presentación de iniciativa...  02.02.2019   

                                              Titulo_ns  
2255  Poderes Ejecutivo Judicial coordinan esfuerzos...  
2692  Presidente analiza terminar construcción 54 un...  
1929  Fotogalería – Presidente inaugura Unidad Medic...  
2291          Avanza adhesión Instituto Salud Bienestar  
1184  Reforma eléctrica fortalecerá CFE protegerá bi...  
1436  México

**H**ay que recalcar que los documentos no estan etiquetados, por lo que para el *topic modeling* se esta restringido a **algoritmos no supervisados**. Al algoritmo que se utiliza para conseguir la clasificacion de los topicos se le llamara **modelo**. El corpus de validacion es para realizar una evaluacion empirica de nuestro resultado. 

## Vectorizacion
---

**E**l formato de texto suele ser poco amigable para los algoritmos por lo que es conveniente transformar el texto a un formato numerico que nos permita representar las **caracteristicas numericas** del texto. A esto se le llama vectorizado.

La eleccion de las caracteristicas numericas depende en gran medida del modelo que se este usando. Los vectorizadores mas comunes en PLN son los basados en **frecuencias** y los basados en **algoritmos de aprendizaje**, los primeros nos permiten representar un documento por la frecuencia de sus palabras y se suele decir que los segundos logran capturar el lenguaje semantico de las palabras.    

Intuitivamente se puede pensar que las palabras mas recurrentes representan a un documento, pero esto puede no ser verdad en los casos extremos donde una palabra aparece mucho en el corpus. Para resolver este problema existe el vectorizado *term frequency - inverse document frequency* `(tfidf)` .



In [16]:
frecuencias_del_corpus = TfidfVectorizer(
    ngram_range = (1,1),
    max_df=0.99999999999, 
    min_df=0
    )

corpus_vectorizado = frecuencias_del_corpus.fit_transform(corpus_entrenamiento.Titulo_ns) 


### Guardando frecuencias 
---

In [None]:
s

def exportar_a_csv(text):
    texto = text.split()
    text = [word for word in texto if word not in stopword_es]
    text_r = ' '.join(text)
    return text_r

print(frecuencias_del_corpus.stop_words_)

print(frecuencias_del_corpus.transform(['tren']))

#for token in frecuencias_del_corpus.get_feature_names_out():
#    print(token)
    

'''
with open('palabras_por_documento.csv', 'w', encoding='utf-8') as palabras:
    palabras.write('id , palabra , fecha\n')
    c = 0

    for registro in df_articulos.iloc:
        fecha = registro[1]
        for palabra in registro[2].split():
            aux = '' + str(c) + ',' + palabra + ','+fecha+'\n'
            palabras.write(aux)
            c= c+1
'''

## Ingenieria de caracteristicas
---


### Guardando nuevas caracteristicas
---

## Aplicando Topic modeling

In [5]:
# Existen varias formas de descomponer, al parecer el LDA es el mas 'aca'
#Estos parametros son los que debe mover el equipo de Modelado
lda = LatentDirichletAllocation(n_components = 32, random_state = 76)
lda.fit(tfidf_fit)

feature = tfidf.get_feature_names()
for ind, topic in enumerate(lda.components_):
    print('Top 50 words in topic {}'.format(ind))
    print('-'*25)
    topic_ordenado = topic.argsort()[::-1]
    top_50 = topic_ordenado[:50]
    print([feature[i] for i in top_50] , '\n\n')

NameError: name 'tfidf_fit' is not defined

### Guardando entropia del topic modeling

## Evaluacion empirica
---