## Modelo de tópicos: Latent Dirichlet Allocation (LDA) ##

*Topic modeling*, en términos muy generales, consiste en una técnica para identificar tópicos o temas en textos a través de la detección de patrones en una colección de documentos llamado "corpus" y agrupando estas palabras en tópicos. A su vez, podemos definir *Topic modeling generativo* como un modelo que clasifica documentos aún no procesados una vez que el modelo ya ha sido entrenado por el corpus incompleto, característica crucial a la hora de trabajar con un corpus "infinito".

Uno de las técnicas de "Topic modeling generativo" que ha resonado este último tiempo ha sido LDA. La esencia de este modelo consiste en decir que, para un grupo de texto (corpus), cada uno de ellos puede ser modelado por una distribución de tópicos y cada uno de estos tópicos puede ser modelado por una distribución de palabras. Tanto los tópicos como sus respectivas distribuciones (distribución de Dirichlet) son variables latentes del total de datos (Nicolai, F.,2019).

En otras palabras, este modelo permite que un conjunto de observaciones puedan ser explicados por grupos inadvertidos que describen por qué algunas partes de los datos son similares, por ejemplo, si las observaciones son palabras en documentos, cada uno de estos documentos es una mezcla de categorías (tópicos) y la aparición de cada palabra en un documento se debe a una de las categorías a las que el documento pertenece. Así, la intuición detrás de LDA es que cada documento siempre exhibe múltiples temas en su cuerpo. Por ende, LDA es un modelo estadístico para colección de documentos que intenta capturar esta intuición (Chandía, B., 2016).

Veamos la siguiente figura. Se muestra un documento donde palabras que coocurren son agrupadas y categorizadas en un tópico, la etiqueta de éste la ponemos nosotros, por ejemplo "gene", "genomes, "dna" la podemos categorizar dentro de palabras que hablan de genética, luego "organism", "evolve", "survive" dentro de palabras que hablan de biología evolutiva y por último "data", "computer" y "computational" dentro de análisis de datos. Si continuamos con este procedimiento daremos con que todo el texto se desenvuelve dentro de estos tres tópicos . En LDA se define un tema para pasar a ser una distribución sobre un diccionario de palabras ya fijado, por ejemplo, el tema "genética" tiene un vocabulario de palabras que poseen una alta probabilidad de pertenecer al tema "genética"(Chandía, B., 2016).

![Figura 1: Intución detrás de LDA (Blei, David., 2012)](LDAintuicion.png)

#### La matemática tras LDA ####

Entendamos un poco la matemática tras el método sin entrar tanto en tecnisismo ni operaciones matemáticas innecesarias que solo complicarán el entendimiento del método. Primero, definamos un vocabulario (creado por los autores del método):

- Documento (D): Observación o muestra de carácter textual.
- Corpus (C): Colección de todos los documentos a trabajar.
- Vocabulario (V): Todas las palabras únicas encontradas en el corpus posterior al procesamiento.
- Matriz término documento: Matriz cuyas filas son documentos y cuyas columnas son cada palabra del documento.

Con *k-tópicos*,  $B_{(1:k)}$ son distribuciones de Dirichlet($\eta$) de probabilidad sobre un vocabulario fijo. El modelo asume que cada documento D perteneciente al corpus C es generado por el siguiente proceso generativo:

- Escoger mezcla de tópicos $\theta^{d} $ de una distribución sobre un (K) simplex tal como una Dirichlet ($\alpha$)
- Cada una de las palabras del documento se genera escogiendo una asignación de tópico $z$ desde una distribución Multinomial( $\theta^{d} $) y posteriormente una palabra $w$ desde una Multinomial($\beta_{z}$)

Graficamente este modelo lo podemos representar a través de la siguiente estructura donde cada término significa:
- K: número de tópicos
- D: número de documentos
- N: cantidad de palabras en el documento d $\in$ D
- $\alpha$: vector positivo de parámetros $\alpha$ de dimensión K
- $B_{(1:K)}$ representa los tópicos K de la estructura de tópicos ocultos
- $\theta_{(1:D)}$ representa la proporción de tópicos por documentos $d \in D$
- $W_{(d,n)}$ representa las variables observadas dada la asignación del documento $d \in D$
- $Z_{(1:D,1:N)}$ representa la asignación del tópico oculto $\beta_{(k')}$ a la palabra $W_{(d,n)}$

![Figura 1: Esquema funcionamiento LDA](esquemaLDA.png)

Así, la distribución conjunta de una mezcla de tópicos  𝜃  junto a un conjunto de  𝑁  tópicos  𝑧  y un set de  𝑁  palabras  𝑤  se define por:

$$ p( \theta, z, w \vert \alpha, \beta)= p(\theta, \alpha)\prod_{n=1}^{N}p(z_{n} \vert \alpha)p(w_{n} \vert z_{n}, \beta)$$

Ahora bien, a través de operaciones matemáticas que no incluiremos llegamos al computo de la distribución posterior de las variables ocultas dado un documento (así funciona la inferencia dentro de LDA):

$$ p(\theta, z \vert w, \alpha, \beta)= \dfrac{p(\theta, z, w \vert \alpha , \beta)}{p(w \vert \alpha, \beta)} $$

Como comentario, ésta ecuación en la forma que está expresada no se puede computar por lo que se proponen métodos alternativos de resolución como la inferencia varacional.

#### LDA como modelo: ####

La aplicación del algoritmo LDA la podemos describir a través de las siguientes etapas:
- Colección de la DATA (futuro corpus)
- Preprocesamiento de los datos
- Implementación del modelo: entrenamiento y testeo.
- Visualización

Veamos un ejemplo para entender mejor la metodología tras LDA:

1) **Colección de la data:**

Trabajaremos con un Dataset en inglés de más de un millon de titulares publicados por ABC (Australian Broadcasting Corporation) en un periodo de 15 años. Para ello utilizaremos la librería **pandas** para importar la data y crear el dataframe sobre el cual vamos a trabajar:

In [1]:
import pandas as pd
#Importamos la DATAset.
data = pd.read_csv('abcnews-date-text.csv',error_bad_lines=None);
data_text = data[['headline_text']]
data_text['index'] = data_text.index
documents = data_text

Número de documentos pertenecientes a nuestro corpus:

In [35]:
len(documents)

1226258

Visualizamos la información:

In [3]:
documents[:13]

Unnamed: 0,headline_text,index
0,aba decides against community broadcasting lic...,0
1,act fire witnesses must be aware of defamation,1
2,a g calls for infrastructure protection summit,2
3,air nz staff in aust strike for pay rise,3
4,air nz strike to affect australian travellers,4
5,ambitious olsson wins triple jump,5
6,antic delighted with record breaking barca,6
7,aussie qualifier stosur wastes four memphis match,7
8,aust addresses un security council over iraq,8
9,australia is locked into war timetable opp,9


Perfecto, ya tenemos lista la información con la cual vamos a trabajar. Ahora es de vital importancia eliminar y reducir al máximo los datos que no nos aportarán nada para el análisis, para ello vamos el siguiente paso:

2) **Limpieza de información**

Para efectos del preprocesamiento la idea es limpiar todo lo que no sirva en el corpus. Esto lo haremos a través de:
- **Creación de tokens:** Reducimos el texto a oraciones y las oraciones a palabras, dejamos todo en minúscula, removemos puntuación, signos y números. 
- **Eliminación de las stopwords:** importamos un listado de palabras que no aportan en el análisis y las eliminamos de nuestro corpus
- **Lemmatización:** palabras en tercera persona pasan a primera persona y dejamos los verbos en tiempo presente
- **Stemmización:** las palabras se reducen a su raiz.

Tanto gensim como nltk nos entregan las herramientas necesarias para realizar este proceso:

**What is Gensim?**


Gensim = “Generate Similar” is a popular open source natural language processing (NLP) library used for unsupervised topic modeling. It uses top academic models and modern statistical machine learning to perform various complex tasks such as:

- Building document or word vectors
- Corpora
- Performing topic identification
- Performing document comparison (retrieving semantically similar documents)
- Analysing plain-text documents for semantic structure

Más info: [Gensim](https://radimrehurek.com/gensim/intro.html)

**What is Natural Language Toolkit (NLTK)?**

NLTK is a leading platform for building Python programs to work with human language data. It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.

Info provided by (website official): [NLTK](https://www.nltk.org)

In [48]:
## Importamos las librerías correspondientes para la limpieza
import gensim
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
from nltk.stem import WordNetLemmatizer, SnowballStemmer
from nltk.stem.porter import *
import numpy as np
import time
np.random.seed(2018)

In [43]:
##Importamos listado de palabras en inglés para eliminar en el corpus:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\ruben\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Visualizamos un ejemplo de cómo quedarían las palabras post-stemmizado:

In [44]:
stemmer = SnowballStemmer('english')
original_words = ['caresses', 'flies', 'dies', 'mules', 'denied','died', 'agreed', 'owned', 
           'humbled', 'sized','meeting', 'stating', 'siezing', 'itemization','sensational', 
           'traditional', 'reference', 'colonizer','plotted']
singles = [stemmer.stem(plural) for plural in original_words]
pd.DataFrame(data = {'original word': original_words, 'stemmed': singles})

Unnamed: 0,original word,stemmed
0,caresses,caress
1,flies,fli
2,dies,die
3,mules,mule
4,denied,deni
5,died,die
6,agreed,agre
7,owned,own
8,humbled,humbl
9,sized,size


Creamos la función para lemmatizar y stemmizar nuestros textos:

In [45]:
##Lemmatizamos/stemmizamos
def lemmatize_stemming(text):
    return stemmer.stem(WordNetLemmatizer().lemmatize(text, pos='v'))
##Stopwords
def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text):
        if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
            result.append(lemmatize_stemming(token))
    return result

Visualizamos un documento aleatorio original y lo comparamos con uno procesado:

In [46]:
doc_sample = documents[documents['index'] == 4310].values[0][0]

print('original document: ')
words = []
for word in doc_sample.split(' '):
    words.append(word)
print(words)
print('\n\n tokenized and lemmatized document: ')
print(preprocess(doc_sample))

original document: 
['ratepayers', 'group', 'wants', 'compulsory', 'local', 'govt', 'voting']


 tokenized and lemmatized document: 
['ratepay', 'group', 'want', 'compulsori', 'local', 'govt', 'vote']


Podemos notar el cambio para efectos de ratepayers -> ratepay, voting -> vote, etc. Corresponde ahora implementarlos para todo el corpus:

In [52]:
##Agregamos un contador
import time 
t = time.time()
processed_docs = documents['headline_text'].map(preprocess)
t = time.time()-t
print("segundos: ",t)

segundos:  153.07344889640808


In [54]:
##Visualizamos los textos procesados
processed_docs[:20]

0              [decid, communiti, broadcast, licenc]
1                                 [wit, awar, defam]
2             [call, infrastructur, protect, summit]
3                        [staff, aust, strike, rise]
4               [strike, affect, australian, travel]
5                 [ambiti, olsson, win, tripl, jump]
6             [antic, delight, record, break, barca]
7      [aussi, qualifi, stosur, wast, memphi, match]
8              [aust, address, secur, council, iraq]
9                           [australia, lock, timet]
10             [australia, contribut, million, iraq]
11         [barca, record, robson, celebr, birthday]
12                           [bathhous, plan, ahead]
13             [hop, launceston, cycl, championship]
14               [plan, boost, paroo, water, suppli]
15               [blizzard, buri, unit, state, bill]
16         [brigadi, dismiss, report, troop, harass]
17    [british, combat, troop, arriv, daili, kuwait]
18             [bryant, lead, laker, doubl, ov

Antes de seguir hablemos un poco [Scikit-learn](https://scikit-learn.org/stable/index.html). Scikit-learn (Sklearn) is the most useful and robust library for machine learning in Python. It provides a selection of efficient tools for machine learning and statistical modeling including classification, regression, clustering and dimensionality reduction via a consistence interface in Python. This library, which is largely written in Python, is built upon NumPy, SciPy and Matplotlib.([Source](https://www.tutorialspoint.com/scikit_learn/scikit_learn_introduction.htm))

Una de tantas herramientas útiles de Sklearn es el [CountVectorizer()](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html). El CountVectorizer proporciona una manera simple de tokenizar una colección de documentos de texto y construir un vocabulario de palabras conocidas. Los pasos a seguir son:

- Cree una instancia de la clase CountVectorizer.
- Llame a la función fit() para aprender un vocabulario de uno o más documentos.
- Llame a la función transform() en uno o más documentos según sea necesario para codificar cada uno como un vector.

Se devuelve un vector codificado con una longitud de todo el vocabulario y un número entero para el número de veces que cada palabra apareció en el documento. Veamos un ejemplo:

NOTA: También hubiesemos podido hacer limpieza de información a través del CountVectorizer() sin ningún problema a través de sus diversos parámetros (ver website)

In [58]:
from sklearn.feature_extraction.text import CountVectorizer
#Información que queremos tokenizar
corpus = [
    'Carlos is a nice guy.',
    'but Pedro is no a nice guy',
    'Carlos and Pedro are not friends',
    'Is this the last sentence?',]
#Creación de la clase CountVectorizer()
v = CountVectorizer()
#Creamos el diccionario y codificamos como vector
X = v.fit_transform(corpus)

In [60]:
#Veamos el vocabulario
v.get_feature_names_out()

array(['and', 'are', 'but', 'carlos', 'friends', 'guy', 'is', 'last',
       'nice', 'no', 'not', 'pedro', 'sentence', 'the', 'this'],
      dtype=object)

In [61]:
#veamos el vector
print(X.toarray())

[[0 0 0 1 0 1 1 0 1 0 0 0 0 0 0]
 [0 0 1 0 0 1 1 0 1 1 0 1 0 0 0]
 [1 1 0 1 1 0 0 0 0 0 1 1 0 0 0]
 [0 0 0 0 0 0 1 1 0 0 0 0 1 1 1]]


Ahora que ya sabemos cómo funciona CountVectorizer(), lo implementaremos en nuestro corpus para convertir nuestros documents  a una matriz de "token counts". Para ello utilizaremos ["train_test_split"](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) de SKlearn que nos permitirá separar la información en entrenamiento y testeo:

In [123]:
from sklearn.model_selection import train_test_split
info_train, info_test = train_test_split(processed_docs,  test_size=0.2, random_state=42)

In [85]:
#Mostramos la data para entrenamiento:
info_train

905827     ['central', 'west', 'council', 'pilot', 'organ']
487792                     ['seiz', 'dog', 'take', 'rspca']
888351        ['woman', 'court', 'cannabi', 'plant', 'gun']
972375    ['drug', 'arrest', 'adelaid', 'night', 'club',...
488550      ['treasur', 'pitch', 'pulp', 'propos', 'europ']
                                ...                        
110268    ['broadford', 'footbal', 'club', 'warn', 'stop...
259178       ['south', 'promot', 'taylor', 'head', 'coach']
131932      ['jackson', 'give', 'sampl', 'polic', 'report']
671155              ['capello', 'quit', 'england', 'manag']
121958              ['worker', 'admit', 'skim', 'thousand']
Name: headline_text, Length: 981006, dtype: object

In [100]:
from sklearn.feature_extraction.text import CountVectorizer

#Clase del CountVectorizer()
vectorizer = CountVectorizer(min_df= 15 ,lowercase=False)

#Dejamos todo como str (la info contiene números)
info_train=info_train.apply(str)

#Aplicamos el CV
info_train_vec = vectorizer.fit_transform(info_train)

In [153]:
#Mostramos el vocabulario:
vectorizer.vocabulary_

{'central': 2118,
 'west': 13422,
 'council': 2825,
 'pilot': 9275,
 'organ': 8764,
 'seiz': 10914,
 'dog': 3573,
 'take': 12110,
 'rspca': 10539,
 'woman': 13598,
 'court': 2842,
 'cannabi': 1919,
 'plant': 9326,
 'gun': 5271,
 'drug': 3698,
 'arrest': 563,
 'adelaid': 109,
 'night': 8454,
 'club': 2429,
 'strip': 11826,
 'treasur': 12612,
 'pitch': 9308,
 'pulp': 9708,
 'propos': 9657,
 'europ': 4090,
 'plan': 9321,
 'law': 6879,
 'blame': 1269,
 'stifl': 11729,
 'develop': 3368,
 'daryl': 3111,
 'hannah': 5390,
 'make': 7353,
 'splash': 11551,
 'week': 13387,
 'mother': 8117,
 'heartach': 5518,
 'homeless': 5746,
 'women': 13600,
 'fear': 4302,
 'lose': 7187,
 'kid': 6601,
 'firefight': 4430,
 'cancer': 1906,
 'rate': 9918,
 'averag': 737,
 'kennett': 6566,
 'swim': 12045,
 'champ': 2154,
 'swimmer': 12046,
 'break': 1527,
 'world': 13644,
 'record': 10009,
 'hobart': 5694,
 'assault': 621,
 'derryn': 3322,
 'hinch': 5659,
 'sentenc': 10942,
 'breach': 1525,
 'order': 8759,
 'back':

In [101]:
info_train_vec.shape

(981006, 13808)

In [157]:
print('Numéro de traces: ',info_train_vec.shape[0])
print('Número de tokens: ',info_train_vec.shape[1])

Numéro de traces:  981006
Número de tokens:  13808


**3) Implementación del modelo:** Ya contamos con el elemento principal para implementar nuestro modelo [LDA-SKTL](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.LatentDirichletAllocation.html). Acerca de los parámetros que vamos a utilizar:
- n_components: número de tópicos:
- max_iter: the maximum number of passes over the training data.
- learning_method: method used to update_component. Only used in fit method. In general, if the data size is large, the online update will be much faster than the batch update.
- learning_offset: A (positive) parameter that downweights early iterations in online learning
- random_state: Pass an int for reproducible results across multiple function calls.

Existen más parámetros para configurar el modelo pero no aondaremos en ello.

In [89]:
from sklearn.decomposition import LatentDirichletAllocation
n_topics = 10
#Implementamos el modelo
lda = LatentDirichletAllocation(n_components = n_topics, max_iter=5, learning_method='online',learning_offset=50., random_state=0)

lda.fit(info_train_vec)

# making LDA TOP MATRIX USING CORPUS TF
lda_topic_modelling = lda.fit_transform(info_train_vec)

Nota: Las siguientes funciones no tienen otro objetivo más que trabajar con la información que arrojó el modelo, no son fundamentales para efectos del desarrollo del modelo como tal.

In [90]:
#return an integer list of predicted topic catergories for a given topic matrix
def get_keys(topic_matrix):
  # print(topic_matrix.argmax(axis = 1)) # axis = 1, will return maximum index in that array 
  keys = topic_matrix.argmax(axis = 1).tolist()
  print("length of the keys is: ",len(keys))
  return keys


In [91]:
#Return a tuple of topic categories and their accompanying magnitude for a given list of keys
from collections import Counter
def key_to_count(keys):
  count_pairs = Counter(keys).items()
  # print("Count_pairs",count_pairs)
  categories = [pair[0] for pair in count_pairs]
  # print("categories",categories)
  counts = [pair[1] for pair in count_pairs]
  # print("Counts: ",counts)
  return (categories, counts)

In [92]:
lda_keys = get_keys(lda_topic_modelling)
# print("keys: ",lda_keys)
# key_to_count(lda_keys)

lda_categories, lda_count = key_to_count(lda_keys)

length of the keys is:  981006


**4) Visualización de la información:** Con el fin de mostrar de una manera ordenada los resultados arrojados por el modelo mostramos lo siguiente:
- 4.1) El tópico predominante para cada documento perteneciente a la información de entrenamiento
- 4.2) la contribución de cada tópico para cada documento
- 4.3) Número de documentos asociados a cada tópico
- 4.4) Tabla que contenga la contribución de cada palabra a su respectivo tópico 
- 4.5) Las palabras más importantes asociadas a cada tópico
- 4.6) [pyLDAvis](https://pyldavis.readthedocs.io/en/latest/index.html): 

**4.1) Tópico predominante para cada documento:**

In [95]:
#Mostramos el tópico predominante para cada trace_traindata
doc_topic = lda.transform(info_train_vec)

# check for 20 documents
for n in range(20):
  # print(doc_topic[n])
  topic_most_pr = doc_topic[n].argmax()
  # print(topic_most_pr)
  print("Document #{} - topic: {}\n".format(n,topic_most_pr))

Document #0 - topic: 0

Document #1 - topic: 5

Document #2 - topic: 3

Document #3 - topic: 6

Document #4 - topic: 5

Document #5 - topic: 9

Document #6 - topic: 5

Document #7 - topic: 6

Document #8 - topic: 1

Document #9 - topic: 8

Document #10 - topic: 6

Document #11 - topic: 5

Document #12 - topic: 3

Document #13 - topic: 2

Document #14 - topic: 4

Document #15 - topic: 3

Document #16 - topic: 0

Document #17 - topic: 1

Document #18 - topic: 3

Document #19 - topic: 3



**4.2) Tabla tópico-documento**

In [25]:
# making a dataframe from the document-topic matrix
doc_topic_df = pd.DataFrame(data=doc_topic)
doc_topic_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.020000,0.020000,0.020000,0.020000,0.020000,0.820000,0.020000,0.020000,0.020000,0.020000
1,0.025000,0.025000,0.025000,0.025000,0.025000,0.025000,0.025000,0.025000,0.775000,0.025000
2,0.220000,0.420000,0.020000,0.220000,0.020000,0.020000,0.020000,0.020000,0.020000,0.020000
3,0.220000,0.020000,0.020000,0.420000,0.020000,0.020000,0.020000,0.220000,0.020000,0.020000
4,0.020000,0.020000,0.020000,0.020000,0.020000,0.020000,0.020000,0.820000,0.020000,0.020000
...,...,...,...,...,...,...,...,...,...,...
1226253,0.020000,0.020000,0.020000,0.220000,0.020000,0.220000,0.020000,0.220000,0.020000,0.220000
1226254,0.020000,0.020000,0.020000,0.020000,0.420000,0.020000,0.020000,0.420000,0.020000,0.020000
1226255,0.016667,0.016667,0.016667,0.016667,0.016667,0.183333,0.016667,0.516666,0.016667,0.183333
1226256,0.014286,0.300000,0.157143,0.014286,0.157143,0.014286,0.014286,0.157143,0.014286,0.157143


**4.3) Número de documentos asociados a cada tópico**

In [28]:
# Create Document - Topic Matrix
lda_output = lda.transform(processed_docs_vec)

# column names
topicnames = ["Topic" + str(i) for i in range(lda.n_components)]

# index names
docnames = ["Doc" + str(i) for i in range(len(processed_docs))]

# Make the pandas dataframe
df_document_topic = pd.DataFrame(np.round(lda_output, 2), columns=topicnames, index=docnames)

# Get dominant topic for each document
dominant_topic = np.argmax(df_document_topic.values, axis=1)
df_document_topic['dominant_topic'] = dominant_topic

In [29]:
df_document_topic['dominant_topic']

Doc0          5
Doc1          8
Doc2          1
Doc3          3
Doc4          7
             ..
Doc1226253    3
Doc1226254    4
Doc1226255    7
Doc1226256    1
Doc1226257    6
Name: dominant_topic, Length: 1226258, dtype: int64

In [30]:
df_topic_distribution = df_document_topic['dominant_topic'].value_counts().reset_index(name="Num Documents")
df_topic_distribution.columns = ['Topic Num', 'Num Documents']
df_topic_distribution

Unnamed: 0,Topic Num,Num Documents
0,0,212590
1,1,201546
2,2,155160
3,3,124670
4,6,101651
5,4,97856
6,5,91251
7,8,88591
8,9,78178
9,7,74765


**4.4) Topic-Keyword Matrix**

In [97]:
# Topic-Keyword Matrix
df_topic_keywords = pd.DataFrame(lda.components_)

# Assign Column and Index
df_topic_keywords.columns = vectorizer.get_feature_names()
df_topic_keywords.index = topicnames

# View
df_topic_keywords.head()



Unnamed: 0,aaco,aacta,aaron,abalon,abandon,abar,abat,abattoir,abba,abbey,...,zone,zoo,zookeep,zoom,zuckerberg,zuma,zurich,zverev,zvonareva,zygier
Topic0,132.121386,0.100002,0.100005,0.100011,0.100016,0.100009,0.100014,629.153581,0.100014,0.100001,...,0.100012,0.100012,0.100004,0.100024,0.100011,78.339516,0.100007,0.100003,0.100002,0.100002
Topic1,0.100008,0.100007,0.100004,398.294495,0.10001,0.100013,0.100016,0.100009,0.100008,0.100012,...,0.100011,0.10001,0.100002,0.100029,0.100009,0.100023,0.100002,0.100008,0.100002,0.100009
Topic2,0.100008,0.100004,0.100018,0.100006,0.100012,0.100006,15.614606,0.100006,0.100008,0.100011,...,0.100005,0.10001,0.100003,0.100011,0.100005,0.100017,0.100004,0.10002,0.100006,0.100001
Topic3,0.100006,0.10002,0.100007,0.100014,709.410616,0.100014,0.100006,0.100008,183.855465,0.100002,...,0.100009,0.100012,0.100027,0.100007,0.100007,0.100023,0.10004,0.10001,23.598954,0.100024
Topic4,0.100021,0.100019,0.100004,0.100008,0.10001,0.100002,0.100016,0.100009,0.100011,0.100005,...,0.100011,45.519442,0.100013,0.100011,44.207086,0.10001,32.720552,0.100002,0.100004,0.100004


**4.5) Tabla Word-Topic**

In [98]:
# Show top n keywords for each topic
def show_topics(vectorizer, lda_model, n_words):
    keywords = np.array(vectorizer.get_feature_names())
    topic_keywords = []
    for topic_weights in lda_model.components_:
        top_keyword_locs = (-topic_weights).argsort()[:n_words]
        topic_keywords.append(keywords.take(top_keyword_locs))
    return topic_keywords

In [135]:
# Topic - Keywords Dataframe
topic_keywords = show_topics(vectorizer=vectorizer, lda_model=lda, n_words=5) 
df_topic_keywords = pd.DataFrame(topic_keywords)
df_topic_keywords.columns = ['Word '+str(i) for i in range(df_topic_keywords.shape[1])]
df_topic_keywords.index = ['Topic '+str(i) for i in range(df_topic_keywords.shape[0])]
df_topic_keywords.index.name='index'
df_topic_keywords



Unnamed: 0_level_0,Word 0,Word 1,Word 2,Word 3,Word 4
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Topic 0,plan,council,water,call,fear
Topic 1,warn,year,health,rise,test
Topic 2,polic,interview,crash,investig,fight
Topic 3,charg,court,face,murder,woman
Topic 4,hous,elect,govern,help,win
Topic 5,chang,claim,world,trial,record
Topic 6,death,sydney,say,open,polic
Topic 7,australia,farmer,servic,talk,protest
Topic 8,kill,report,australian,urg,fund
Topic 9,govt,market,coast,case,boost


**4.6) pyLDAvis:** The pyLDAvis offers the best visualization to view the topics-keywords distribution

In [102]:
import pyLDAvis
import pyLDAvis.sklearn
pyLDAvis.enable_notebook()
panel = pyLDAvis.sklearn.prepare(lda, info_train_vec, vectorizer, mds='tsne')
panel

  by='saliency', ascending=False).head(R).drop('saliency', 1)


Finalmente correspondería testear nuestro modelo, para ello utilizaremos la información ya prepocesada guardada en info_test. Aplicamos los mismos pasos que antes:

In [113]:
#Dejamos todo como str:
info_test=info_test.apply(str)

#Aplicamos el CV
#la clave acá está en aplicar el .transform() ya que contamos con nuestro vocabulario guardado en CountVectorizer()
#y queremos crear la matrix-tokens de la información externa asociada a ese vocabulario.
info_test_vec = vectorizer.transform(info_test)

In [115]:
#se lo pasamos a nuestro LDA
doc_topic_test = lda.transform(info_test_vec)
# making a dataframe from the document-topic matrix for test info
doc_topic_df_test = pd.DataFrame(data=doc_topic_test)
doc_topic_df_test

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,0.299999,0.014286,0.157143,0.014286,0.014286,0.014286,0.157143,0.014286,0.300000,0.014287
1,0.502660,0.016667,0.016667,0.016667,0.183333,0.016667,0.016667,0.016667,0.016667,0.197340
2,0.016667,0.016667,0.016667,0.016667,0.350000,0.016667,0.350000,0.016667,0.016667,0.183333
3,0.350000,0.016667,0.016667,0.016667,0.016667,0.016667,0.350000,0.183333,0.016667,0.016667
4,0.025000,0.025000,0.275000,0.275000,0.025000,0.025000,0.025000,0.025000,0.025000,0.275000
...,...,...,...,...,...,...,...,...,...,...
245247,0.016667,0.016667,0.183333,0.350000,0.016667,0.016667,0.016667,0.016667,0.016667,0.350000
245248,0.157143,0.157143,0.014286,0.014286,0.300000,0.014286,0.014286,0.157143,0.157143,0.014286
245249,0.366666,0.033333,0.033333,0.033333,0.033333,0.033333,0.033333,0.366667,0.033333,0.033333
245250,0.014292,0.299994,0.014286,0.014286,0.014286,0.300000,0.014286,0.157143,0.014286,0.157143


Debido a que train_test_split() nos hace la partición de manera aleatoria, corresponde hacer coincidir los índices:

In [134]:
info_test_a=pd.DataFrame(info_test)
info_test_a.index.name='Pos in dataset'
info_test_a.reset_index()

Unnamed: 0,Pos in dataset,headline_text
0,519246,"['billion', 'dollar', 'hole', 'liber', 'hospit..."
1,534672,"['plan', 'bauxit', 'bring', 'river', 'worri']"
2,755151,"['hong', 'kong', 'social', 'worker', 'shan', '..."
3,831855,"['teenag', 'girl', 'shoot', 'western', 'sydney']"
4,581991,"['unit', 'overpow', 'arsenal']"
...,...,...
245247,453023,"['east', 'timor', 'prepar', 'possibl', 'cyclon']"
245248,748199,"['respons', 'cattl', 'diseas', 'win', 'industr..."
245249,663514,"['observatori', 'gingin']"
245250,984877,"['giant', 'hors', 'defi', 'drought', 'north', ..."


Y ahora podemos ver cómo, por ejemplo, para la noticia número 534672:

In [138]:
documents[documents['index'] == 534672].values[0][0]

'planned bauxite mine brings river worries'

nos dice que su tópico principal es el tópico 0 con un score de 0.502660:

In [144]:
df_topic_keywords.iloc[0]

Word 0       plan
Word 1    council
Word 2      water
Word 3       call
Word 4       fear
Name: Topic 0, dtype: object

Tiene sentido. Ya para terminar agregamos a nuestro dataset original la contribución de cada uno de sus tópicos arrojados por nuestro modelo LDA:

In [149]:
#Dejamos todo como str:
processed_docs=processed_docs.apply(str)

#Aplicamos el CV
processed_docs_vec = vectorizer.transform(processed_docs)

#se lo pasamos a nuestro LDA
doc_topic_dataset = lda.transform(processed_docs_vec)

# making a dataframe from the document-topic matrix for test info
doc_topic_df_dataset = pd.DataFrame(data=doc_topic_dataset)

#concat
final_data=pd.concat([processed_docs, doc_topic_df_dataset], axis=1,)
final_data

Unnamed: 0,headline_text,0,1,2,3,4,5,6,7,8,9
0,"['decid', 'communiti', 'broadcast', 'licenc']",0.020000,0.020000,0.020000,0.220000,0.220000,0.220000,0.020000,0.020000,0.220000,0.020000
1,"['wit', 'awar', 'defam']",0.025000,0.025000,0.275000,0.275000,0.275000,0.025000,0.025000,0.025000,0.025000,0.025000
2,"['call', 'infrastructur', 'protect', 'summit']",0.220000,0.020000,0.020000,0.220000,0.020000,0.020000,0.220000,0.020000,0.220000,0.020000
3,"['staff', 'aust', 'strike', 'rise']",0.020000,0.220000,0.020000,0.220000,0.020000,0.020000,0.220000,0.020000,0.020000,0.220000
4,"['strike', 'affect', 'australian', 'travel']",0.220000,0.020000,0.020000,0.020000,0.020000,0.020000,0.020000,0.020000,0.220000,0.420000
...,...,...,...,...,...,...,...,...,...,...,...
1226253,"['reader', 'learn', 'look', 'year']",0.020000,0.220000,0.020000,0.020000,0.020000,0.020000,0.220000,0.020000,0.420000,0.020000
1226254,"['south', 'african', 'variant', 'covid']",0.025000,0.525000,0.025000,0.025000,0.025000,0.275000,0.025000,0.025000,0.025000,0.025000
1226255,"['victoria', 'coronavirus', 'restrict', 'mean'...",0.516667,0.183333,0.016667,0.016667,0.016667,0.183333,0.016667,0.016667,0.016667,0.016667
1226256,"['what', 'life', 'like', 'american', 'doctor',...",0.014286,0.157143,0.014286,0.157143,0.014286,0.300000,0.157143,0.014286,0.014286,0.157143


Como comentario, el número óptimo de tópicos no tiene una forma explícita de calcularse, por lo que se recomienda probar con distintos k hasta obtener los mejores resultados. El siguiente esquema muestra potecialmente la construcción del modelo LDA más óptimo:

![Figura 3: esquema solución LDA (Hammoe,L.,2018)](gráficoLDA.png) 

#### ¿Por qué funciona el método? ####

Para entender un poco mejor el fundamento de cómo esta técnica logra agrupar grupos de palabras en un tópico contamos con "El principio de la caja de Dirichlet", éste establece que si contamos con $n$ elementos para distribuir en $m$ lugares distintos (con $n > m $) existirá al menos un lugar de $m$ con más de un elemento, con esto podemos entender intuitivamente porqué si tenemos un texto con cinco palabras y trabajamos con cuatro tópicos, el algoritmo devolverá al menos un grupo de palabras con dos palabras pertenecientes de un mismo tipo.

Además, un hecho muy simple pero no por eso menos importante que revela el LDA es que las palabras agrupadas en un mismo tópico *coocurren* y no así las palabras pertencientes a tópicos distintos.

Una de las mayores ventajas de este modelo es que asume intuitivamente que una palabra pertenece a un tópico y que cada documento pertenece al menos a un tópico (como lo comentamos al inicio del texto). Durante éste proceso intuitivo lo que algoritmo va a decidir es a dónde irá a parar cada palabra teniendo en cuenta lo siguiente (Chandía, B., 2016):
- Una palabra pertenece a un tópico, por lo que, en estricto rigor, si en el corpus se tiene un diccionario de mil palabras; potencialmente, existirán mil tópicos
- Un documento pertenece a un tópico, por lo que, en estricto rigor, las palabras de x documento, pertenecen al tópico de dicho documento. 

Por ejemplo, de acuerdo a estas reglas, si contamos con un corpus de 5 documentos con un vocabulario total de 500 palabras estaremos trabajando potencialmente con un corpus con 500 tópicos y a su vez se tiene que en el corpus hay 5 tópicos (equivalente a la cantidad de documentos) y en estricto rigor cada documento habla de un tópico.

Pero esta intuición estricta intuitivamente (valga la redundancia) no siempre será cierta (basta con mirar el ejemplo anterior)
y es por esto que el LDA contempla la posibilidad de que un documento pueda estar hablando de más de un tema a través de la proporción $\theta_{d}$ fijada con el parámetro Dirichlet $\alpha$. De esta manera, este factor va a establecer en cómo va a influir la proporción de tópicos $\theta_{d}$ de cada documento en la asignación de tópicos de cada palabra (Chandía B., 2016).

#### Biliografía ####
- Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.

- Chandía Sepúlveda, B. (2016). Aplicación y evaluacion LDA para asignaciòn de tópicos en datos de Twitter.

- Hammoe, L. (2018). Detección de tópicos: utilizando el modelo LDA.

- Nicolai Manaut, F. I. (2019). Sistema de análisis de tópicos para interacciones cliente-call center.
