# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Introducción al Procesamiento Superficial de Textos</center></span>

<center>Latent Dirichlet Allocation - LDA</center>

##   <span style="color:blue">Profesores</span>

1. Alvaro Mauricio Montenegro Díaz, ammontenegrod@unal.edu.co
2. Daniel Mauricio Montenegro Reyes, dextronomo@gmail.com 
3. Campo Elías Pardo Turriago, cepardot@unal.edu.co 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

4. Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Asistentes</span>

5. Oleg Jarma, ojarmam@unal.edu.co 
6. Laura Lizarazo, ljlizarazore@unal.edu.co 

## <span style="color:blue">Referencias</span> 

1. Blei et al.,[Latent Dirichlet Allocation, 2003](https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf)
2. [Topic Modeling and Latent Dirichlet Allocation (LDA) in Python, 2018](https://towardsdatascience.com/topic-modeling-and-latent-dirichlet-allocation-in-python-9bf156893c24), en Toward data science.

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Análisis superficial de textos](#Análisis-superficial-de-textos)
* [Terminología general](#Terminología-general)
* [Preprocesamiento de datos textuales](#Preprocesamiento-de-datos-textuales)
* [TF-IDF](#TF-IDF)
* [Semántica latente](#Semántica-latente)
* [Modelos generativos: Latent Dirichlet Allocation](#Modelos-generativos:-Latent-Dirichlet-Allocation)
* [Ejemplo:Un millón de titulares](#Ejemplo:-Un-millón-de-titulares)


## <span style="color:blue">Introducción</span>

Los humanos nos  comunicamos utilizando lenguajes naturales. Los lenguajes naturales difieren de los lenguajes de programación en que éstos últimos siguen reglas sintácticas y semánticas extrictas, mientras que los primeros por su complejidad dependen del contexto.


En general el análisis de textos tiene dos grandes subáreas: el análisis superficial de textos y el procesamiento del lenguaje natural.

En esta lección nos ocupamos del análisis superficial de textos.

## <span style="color:blue">Análisis superficial de textos</span>

Esta subárea se desarrolló primero, debido a que los problemas asociados al lenguaje natural en este caso son mas simples. Se trata de técnicas en la cuales se busca encontar los tópicos subayacentes en los texto. En este sentido, son modelos de tipo no supervisado y consecuencia basados en técnicas de clasificación automática. 

Estas técnicas están orientadas a detectar clusters de palabras y documentos en grandes corpus de datos.

Un documento es en este caso una unidad distinguible de otras en el corpus. Por ejemplo una respuesta abierta en una encuesta, un comentario en una revisión, un abstract de un documento, etc. 

Luego de omitidos términos que se considera que no aportan a la detección de tópicos (temáticas), usualmente conocidos como *palabras vacías* (`stop words`) y de otros procesos de preprocesamiento como lematización, recorte (`steeming`),  es común construir una matriz denominada documento-témino (`dtm`).

Esta matriz `dtm` representa por las filas a cada uno de los documentos individuales del corpus y por las columnas a cada uno de los términos conservados en el análisis. Cada posición de la matriz contiene el número de veces que un término aparece en el documento. En algunos casos esta es una matriz binaria, en cuyo caso la dtm indica cuando un término aparece en un documento.

La  `dtm` es la base de las técnicas conocidas genéricamente como *bolsa de palabras* (`word-bag`). El nombre deriva del hecho de que al organizar la dtm, el contexto de las palabras en cada documento se pierde.

## <span style="color:blue">Terminología general</span>

### Palabras o términos

La palabra es la unidad mínima de información  en el trabajo con lenguaje natural. 

Desde una perspectiva muy moderna las palabras son objetos que puede pensarse como puntos que están en un espacio de alta dimensión, de tal manera que, puntos cercanos en algún sentido de distancia corresponde a palabras que tienen una cercanía dentro de un universo de palabras considerado.

La siguiente imagen corresponde a uno conjunto de palabras de astrofísica, consideradas en un estudio de resumenes de artículos científicos. Este es un gráfico obtenido luego de un procesamiento como lo que mostramos hoy, desarrollado por Montenegro y Montenegro usando una técnica de análisis basada en la teoría de respuesta al ítem multidimensional (TRIM).

En este documeneto las palabaras se denotarán como $w_i, i =1,2,\ldots,K$.

<figure>
<center>
<img src="../Imagenes/cluster_kmeans_10.png" width="700" height="600" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Areas de conocimiento Astrofísica, a partir de artículos científicos</p>
</figcaption>
</figure>
Fuente: Alvaro Montenegro

### Documentos

Los documentos son los sujetos en los análisis textual superficial. Suponemos que se tiene un conjunto de documentos individuales, cada uno de los cuales se denotará por $\mathbf{w}$. Se considera que un documento es una sucesión  de $N$ palabras. Así se tiene que un documento se denota como $\mathbf{w} = \{w_1,\ldots,w_N \}$.

### Corpus

Un corpus es una colección de documentos en un problema particular.

### Tópicos

Los tópicos son áreas latentes a las cuales están asociados tanto las palabras como los documentos. Uno de los propósitos principales del análisis de textos es descubrir o poner en evidencia tales tópicos.

La figura anterior muestra por ejemplo la presencia de 10 tópicos en el conjunto de documentos de astrofísica analizados.

## <span style="color:blue">Preprocesamiento de datos textuales</span> 

En lo que sigue, vamos a utilizar los términos token y tokenizar, que aún no son adoptados por la Real Academia de la Lengua, pero que creemos pronto lo serán como tantos otros provenientes del inglés debido a su enorme utilización actual, por razón de los desarrollos científicos y tecnológicos. 

Realizaremos los siguientes pasos:
    
- **Tokenización**: divide el texto en oraciones y las oraciones en palabras. Ponga las palabras en minúsculas y elimine la puntuación.
- Se **eliminan las palabras que tienen menos de 3 caracteres**.
- Se eliminan todas las **palabras vacías**.
- Las palabras se **lematizan**: las palabras en tercera persona se cambian a primera persona y los verbos en tiempo pasado y futuro se cambian a presente.
- Las palabras se recortan (**stemming**): las palabras se reducen a su forma raíz.

Usaremos  las librerías *gensim* y *nltk* para hacer este trabajo.

### Tokenización

Algunos términos que se utilizarán con frecuencia son:

- `Corpus`: cuerpo del texto, singular. Corpora es el plural de corpus.
- `Léxico`: palabras y sus significados.
- `Token`: cada *entidad* que es parte de lo que sea que se dividió según las reglas que establecemos apara el análisis. Por ejemplo, cada palabra es un token cuando una oración se tokeniza en palabras. Cada oración también puede ser un token, si ha convertido las oraciones en un párrafo.

Básicamente, tokenizar implica dividir oraciones y palabras del cuerpo del texto.

Veá el siguiente ejemplo tomado de [Geek for Geeks](https://www.geeksforgeeks.org/tokenize-text-using-nltk-python/?ref=rp). Usamos la librería *nltk*.

### Importa recursos de `nltk`

In [34]:
# import the existing word and sentence tokenizing  
# libraries 
import nltk


# tokenizadores
from nltk.tokenize import sent_tokenize, word_tokenize 
from nltk.tokenize import TweetTokenizer

# diccionarios especiales para puntuación y palabras vacias
nltk.download('punkt') # Manejo de puntuación
nltk.download('stopwords')

# wordnet
nltk.download('wordnet')

from nltk.corpus import stopwords

# lematizador basado en WordNet de nltk
from nltk.stem import WordNetLemmatizer 

# steemer de nltk. Raiz de las palabras
#from nltk.stem import SnowballStemmer
from nltk.stem import PorterStemmer 

[nltk_data] Downloading package punkt to /home/alvaro/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/alvaro/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/alvaro/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


### Importa recursos de `gensim`

In [30]:
import gensim
from gensim.parsing.preprocessing import STOPWORDS

### Ejemplo de tokenización

In [15]:
text = "Natural language processing (NLP) is a field " \
       + "of computer science, artificial intelligence " \
       + "and computational linguistics concerned with " \
       +"the interactions between computers and human " \
       + "(natural) languages, and, in particular, " \
       + "concerned with programming computers to " \
       + "fruitfully process large natural language " \
       + "corpora. Challenges in natural language " \
       + "processing frequently involve natural " \
       + "language understanding, natural language " \
       + "generation frequently from formal, machine" \
       + "-readable logical forms), connecting language " \
       + "and machine perception, managing human-" \
       + "computer dialog systems, or some combination " \
       + "thereof. There are 365 days usually. " \
       + "This year is 2020."

# sentencias
print('Tokenización por sentencias:\n')
sentences = sent_tokenize(text)
for sentence in sentences:
    print(sentence,'\n')
print('Tokenización por sentencias:\n')
print(sent_tokenize(text)) 

# palabras
tokens = word_tokenize(text)
print('\n Tokenización por palabras:')
for token in tokens:
    print(token, end =' ')
print('')
print('\n Tokenización por palabras:')
print(word_tokenize(text))

# caracteres
chars = [char for char in text]
print('\n Tokenización por caracteres:')
for char in chars:
    print(char, end =' ')
print('')
print('\n Tokenización por caracteres:')
print(chars)


Tokenización por sentencias:

Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process large natural language corpora. 

Challenges in natural language processing frequently involve natural language understanding, natural language generation frequently from formal, machine-readable logical forms), connecting language and machine perception, managing human-computer dialog systems, or some combination thereof. 

There are 365 days usually. 

This year is 2020. 

Tokenización por sentencias:

['Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process 

### Tokenización de tweets

In [17]:
tknzr = TweetTokenizer()
s0 = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
tknzr.tokenize(s0)

['This',
 'is',
 'a',
 'cooool',
 '#dummysmiley',
 ':',
 ':-)',
 ':-P',
 '<3',
 'and',
 'some',
 'arrows',
 '<',
 '>',
 '->',
 '<--']

### Tokenizar tweets usando  los parámetros `strip_handles` y `reduce_len`

In [19]:
tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
s1 = '@remy: This is waaaaayyyy too much for you!!!!!!'
tw = tknzr.tokenize(s1)
print(tw)

[':', 'This', 'is', 'waaayyy', 'too', 'much', 'for', 'you', '!', '!', '!']


###  Cambiar texto a minúsculas

In [20]:
tokens[:] = [token.lower() for token in tokens]
print(tokens)

['natural', 'language', 'processing', '(', 'nlp', ')', 'is', 'a', 'field', 'of', 'computer', 'science', ',', 'artificial', 'intelligence', 'and', 'computational', 'linguistics', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'and', ',', 'in', 'particular', ',', 'concerned', 'with', 'programming', 'computers', 'to', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', '.', 'challenges', 'in', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', ',', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', ',', 'machine-readable', 'logical', 'forms', ')', ',', 'connecting', 'language', 'and', 'machine', 'perception', ',', 'managing', 'human-computer', 'dialog', 'systems', ',', 'or', 'some', 'combination', 'thereof', '.', 'there', 'are', '365', 'days', 'usually', '.', 'this', 'year', 'is', '2020', '.']


### Remueve carateres especiales - expresiones regulares

Las expresiones regulares son objetos matemáticos que permiten interpretar trozos de texto. Son claves en la construcción de los lenguajes de programación. Aquí vamos a usar la librería [re](https://docs.python.org/3/library/re.html) de Python creada para el manejo de expresiones regulares. Les sugerimos este [tutorial sobre re en Python](https://www.w3schools.com/python/python_regex.asp) para aprender a manejar la librería re.

Usaremos aquí para eliminar algunos símbolos: los números y los paréntesis por ejemplo. No siempre es el caso.

In [21]:
import re
# digitos
tokens = [re.sub(r'\d+', '',token) for token in tokens]
# paréntesis
tokens = [re.sub(r'[()]', '',token) for token in tokens]
print(tokens)


['natural', 'language', 'processing', '', 'nlp', '', 'is', 'a', 'field', 'of', 'computer', 'science', ',', 'artificial', 'intelligence', 'and', 'computational', 'linguistics', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '', 'natural', '', 'languages', ',', 'and', ',', 'in', 'particular', ',', 'concerned', 'with', 'programming', 'computers', 'to', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', '.', 'challenges', 'in', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', ',', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', ',', 'machine-readable', 'logical', 'forms', '', ',', 'connecting', 'language', 'and', 'machine', 'perception', ',', 'managing', 'human-computer', 'dialog', 'systems', ',', 'or', 'some', 'combination', 'thereof', '.', 'there', 'are', '', 'days', 'usually', '.', 'this', 'year', 'is', '', '.']


### Remueve palabras de longitud menor o igual a tres

In [22]:
tokens_4 = []
for token in tokens:
    if len(token) > 3:
        tokens_4.append(token)
tokens = tokens_4

print(tokens)

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'with', 'interactions', 'between', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'with', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'some', 'combination', 'thereof', 'there', 'days', 'usually', 'this', 'year']


###  Palabras vacias (stop words)

Las palabras varias o stop words son palabras que en el lenguaje común se considera que no aportan al contenido semántico de los textos. En la técnica de bolsa de palabras son omitidos, debido a que causan clasificaciones confusas. En realidad el concepto de palabras vacía depende del contesto de utlización de las técnicas. 

El siguiente ejemplo muestra el diccionario de palabras vacías del inglés contenidas en la librería `gensim`.

In [26]:
stop_words_g = []
for token  in gensim.parsing.preprocessing.STOPWORDS:
    stop_words_g.append(token)
print(stop_words_g)

['bottom', 'nowhere', 'elsewhere', 'down', 'eleven', 'will', 'herein', 'why', 'whole', 'and', 'fill', 'us', 'everything', 'those', 'already', 'more', 'myself', 'up', 'being', 'does', 'own', 'our', 'their', 'six', 'whence', 'perhaps', 'whither', 'thereby', 'inc', 'so', 'or', 'anyhow', 'yet', 'in', 'this', 'bill', 'with', 'its', 'together', 'who', 'nevertheless', 'four', 'cry', 'whereas', 'interest', 'make', 'regarding', 'still', 'whom', 'used', 'hers', 'top', 'describe', 'hasnt', 'also', 'indeed', 'done', 'then', 'hereafter', 'one', 'around', 'formerly', 'wherever', 'mine', 'no', 'on', 'whatever', 'find', 'while', 'do', 'move', 'nor', 'latterly', 'would', 'call', 'him', 'side', 'toward', 'always', 'fire', 'else', 'others', 'two', 'show', 'towards', 'for', 'therefore', 'if', 'either', 'seems', 'anywhere', 'can', 'really', 'anything', 'at', 'above', 'among', 'using', 'he', 'than', 'various', 'go', 'off', 'thus', 'co', 'is', 'you', 'sincere', 'were', 'anyone', 'where', 'de', 'somewhere', '

En la librería *nltk* el diciconario de palabras vacías del inglés es actualmente:

In [27]:
from nltk.corpus import stopwords
#
stopWords = set(stopwords.words('english'))
#
print(stopWords)


{'o', 'for', 'if', "you'd", "don't", "haven't", 'can', 'that', 'from', 'at', 'the', 'above', 'theirs', 'down', 'will', 'm', 'yourself', 'he', 'than', "that'll", 'few', 'why', 'ourselves', 'me', 'off', 'and', 'did', 'have', "you've", 'herself', 'you', 'is', 'i', 'those', 'more', 'was', 'shouldn', 'myself', 'were', 'we', 'up', 'does', 'being', 'yours', 'where', 'own', 'y', 'his', "it's", 'our', 'their', "mightn't", "isn't", 'against', "couldn't", 'under', 'again', "aren't", 'only', 'don', 'needn', "hasn't", 'ma', 'aren', "you'll", 'because', 'below', "doesn't", 'so', 'or', 'your', "didn't", "won't", 'through', 'd', 'having', 'this', 'am', 'after', 'in', 'with', 'its', 'wouldn', 'who', "you're", 'now', 're', 'not', 'isn', 'before', 'these', 'shan', 'she', 'll', 'they', 'ours', 'each', 'during', 'too', 'it', 'how', 'any', "hadn't", 'out', 'haven', "shouldn't", 'won', 'hers', 'whom', 'a', "she's", 'has', 'should', 'mustn', 'just', 's', 'didn', 'her', 'by', 'further', 'then', 'same', 'once',

### Nota

Observe que los dos conjuntos de palabara vacías son distintos.

Como ejemplo vamos quitar la palabras vacias del objeto text tokenizado definido arriba

### Palabras vacías-Español nltk

In [28]:
palabrasVacias = set(stopwords.words('spanish'))
#
print(palabrasVacias)

{'habida', 'poco', 'fueras', 'estada', 'suya', 'seremos', 'seríais', 'estarán', 'mucho', 'hubiera', 'antes', 'vuestras', 'estés', 'tenemos', 'estuviésemos', 'tenéis', 'tengáis', 'para', 'estamos', 'estén', 'estuvo', 'otra', 'hubiesen', 'sea', 'todos', 'estéis', 'estaba', 'hubiéramos', 'estuviéramos', 'también', 'quien', 'como', 'hay', 'tengas', 'nosotros', 'hubieses', 'ellos', 'sentid', 'yo', 'hubierais', 'tendrán', 'esto', 'más', 'ha', 'ti', 'durante', 'habríamos', 'estar', 'está', 'hubimos', 'uno', 'no', 'sentido', 'te', 'serás', 'tuvieras', 'ella', 'habíais', 'algunas', 'cual', 'estemos', 'tendrías', 'ya', 'le', 'otros', 'tuviste', 'muchos', 'soy', 'habido', 'qué', 'tienes', 'tendrían', 'o', 'fuesen', 'hayan', 'tiene', 'estuviera', 'tenían', 'hubieseis', 'eres', 'estaremos', 'estados', 'tendré', 'estará', 'estarás', 'vuestro', 'hubo', 'he', 'fuéramos', 'sentidos', 'estaban', 'tendréis', 'tengo', 'hubieron', 'tenía', 'mía', 'seamos', 'los', 'todo', 'habríais', 'de', 'estaréis', 'será

### Vamos a quitar las palabras vacías del ejemplo usando nltk

In [42]:
print(tokens)

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'with', 'interactions', 'between', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'with', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'languagegeneration', 'frequently', 'from', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'some', 'combination', 'thereof', 'there', 'days', 'usually', 'this', 'year']


In [31]:
tokens_n_e = []

for token in tokens:
    if token not in stopWords:
        tokens_n_e.append(token)
#
tokens = tokens_n_e
print(tokens)   

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'interactions', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'combination', 'thereof', 'days', 'usually', 'year']


### Lematización

La lematización es el proceso de agrupar las diferentes formas flexionadas de una palabra para que puedan analizarse como un solo elemento. La lematización es similar a la derivación, pero aporta contexto a las palabras. Por lo tanto, vincula palabras con un significado similar a una palabra.

El preprocesamiento de texto incluye tanto `Stemming` como `Lemmatization`. 

Muchas veces las personas encuentran confusos estos dos términos. Algunos tratan a estos dos como iguales. 

En realidad, se prefiere la lematización a la derivación porque la lematización realiza un análisis morfológico de las palabras.

Las aplicaciones de la lematización son:

- Se utiliza en sistemas de recuperación integrales como motores de búsqueda.
- Utilizado en indexación compacta
- Ejemplos de lematización:

* rocas -> roca
*  corpora -> corpus
* mejor -> bueno

Una diferencia importante con la derivación es que lematizar toma una parte del parámetro de voz, "pos". Si no se proporciona, el valor predeterminado es "sustantivo". En el siguiente ejemplo vamos colocar *pos='a'* que significa adjetivo. Si se coloca *pos ='v'* significa verbo. Por defecto es *pos ='n'*, es decir sustantivo.

A continuación se muestra la implementación de lematización de algunas palabras en inglés usando la librería *nltk*:

In [35]:
from nltk.stem import WordNetLemmatizer 
  
lemmatizer = WordNetLemmatizer() 
  
print("rocks :", lemmatizer.lemmatize("rocks")) 
print("corpora :", lemmatizer.lemmatize("corpora")) 
  
# a denotes adjective in "pos" 
print("better :", lemmatizer.lemmatize("better", pos ="a")) 

rocks : rock
corpora : corpus
better : good


In [38]:
#help(lemmatizer)

Y ahora vamos lematizar el texto de ejemplo, primero con verbos y luego con sustantivos

In [42]:
from nltk.stem import WordNetLemmatizer
#
# verbs
lemma_text =[]
for token in tokens:
    lemma_text.append(WordNetLemmatizer().lemmatize(token, pos='v'))

print(tokens)
print('\n')
print(lemma_text)

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'interactions', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'combination', 'thereof', 'days', 'usually', 'year']


['natural', 'language', 'process', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concern', 'interactions', 'computers', 'human', 'natural', 'languages', 'particular', 'concern', 'program', 'computers', 'fruitfully', 'process', 'large', 'natural', 

In [43]:
# nouns
for i in range(len(lemma_text )):
    lemma_text[i] = WordNetLemmatizer().lemmatize(lemma_text[i], pos='n')
print(lemma_text)

['natural', 'language', 'process', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concern', 'interaction', 'computer', 'human', 'natural', 'language', 'particular', 'concern', 'program', 'computer', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpus', 'challenge', 'natural', 'language', 'process', 'frequently', 'involve', 'natural', 'language', 'understand', 'natural', 'language', 'generation', 'frequently', 'formal', 'machine-readable', 'logical', 'form', 'connect', 'language', 'machine', 'perception', 'manage', 'human-computer', 'dialog', 'system', 'combination', 'thereof', 'day', 'usually', 'year']


### Steeming


La derivación (steeming) es el proceso de producir variantes morfológicas de una palabra raíz / base. Los programas de derivación se conocen comúnmente como algoritmos de steeming o derivaciones. Un algoritmo de stemming reduce las palabras como en los siguientes ejemplos

+ "chocolates", "chocolates", "choco" a la raíz de la palabra, "chocolate"
+ "recuperación", "recuperado", "recupera" se reduce a la raíz "recuperar".


### Errores en la derivación:

Hay principalmente dos errores en la derivación: la derivación excesiva y la derivación insuficiente. 

El sobre-recorte excesivo ocurre cuando dos palabras se derivan de la misma raíz que tienen raíces diferentes. 

El  sub-recorte ocurre cuando dos palabras se derivan de la misma raíz pero tienen raíces diferentes.

Como ejemplo:

In [44]:
#from nltk.stem import SnowballStemmer
from nltk.stem import PorterStemmer 
# crea una instancia de PorterStemmer 
ps = PorterStemmer()

for i in range(len(lemma_text)):
    lemma_text[i] = ps.stem(lemma_text[i])
print(lemma_text)

['natur', 'languag', 'process', 'field', 'comput', 'scienc', 'artifici', 'intellig', 'comput', 'linguist', 'concern', 'interact', 'comput', 'human', 'natur', 'languag', 'particular', 'concern', 'program', 'comput', 'fruit', 'process', 'larg', 'natur', 'languag', 'corpu', 'challeng', 'natur', 'languag', 'process', 'frequent', 'involv', 'natur', 'languag', 'understand', 'natur', 'languag', 'gener', 'frequent', 'formal', 'machine-read', 'logic', 'form', 'connect', 'languag', 'machin', 'percept', 'manag', 'human-comput', 'dialog', 'system', 'combin', 'thereof', 'day', 'usual', 'year']


## <span style="color:blue">TF-IDF</span> 

Tomado de [Wikipedia](https://es.wikipedia.org/wiki/Tf-idf).

Tf-idf (del inglés Term frequency – Inverse document frequency), frecuencia de término – frecuencia inversa de documento (o sea, la frecuencia de ocurrencia del término en el corpus de documentos), es una medida numérica que expresa cuán relevante es una palabra para un documento en un corpus. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de textos. 


El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en el corpus de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.

Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. 


Tf-idf puede utilizarse exitosamente para el filtrado de las palabras vacías (stop-words), en diferentes campos del pre-procesamiento de textos.


### Detalles matemáticos

Tf-idf es el producto de dos medidas, *frecuencia de término* y *frecuencia inversa de documento*. Existen varias maneras de determinar el valor de ambas. 

En el caso de la frecuencia de término $\text{tf}(t, d)$, la opción más sencilla es usar la frecuencia bruta del término $t$ en el documento $d$, o sea, el número de veces que el término $t$ ocurre en el documento $d$. Si denotamos la frecuencia bruta de $t$ por $f(t,d)$, entonces el esquema $\text{tf}$ simple es $\text{tf}(t, d) = f(t,d)$. 


Otras posibilidades son:

- *frecuencias" booleanas*: tf(t,d) = 1 si t ocurre en d, y 0 si no;
- *frecuencia escalada logarítmicamente*: tf(t,d) = 1 + log f(t,d) (y 0 si f(t,d)=0);
- *frecuencia normalizada*, para evitar una predisposición hacia los documentos largos. Por ejemplo, se divide la frecuencia bruta por la frecuencia máxima de algún término en el documento:

$$
{\displaystyle \mathrm {tf} (t,d)={\frac {\mathrm {f} (t,d)}{\max\{\mathrm {f} (t,d):t\in d\}}}}
$$

La frecuencia inversa de documento es una medida de si el término es común o no, en el corpus de documentos. Se obtiene dividiendo el número total de documentos por el número de documentos que contienen el término, y se toma el logaritmo de ese cociente:

$$
{\displaystyle \mathrm {idf} (t,D)=\log {\frac {|D|}{|\{d\in D:t\in d\}|}}}
$$

donde

- ${\displaystyle |D|}$: cardinalidad de $D$, o número de documentos en el corpus.
- ${\displaystyle |\{d\in D:t\in d\}|}$ : número de documentos donde aparece el término $t$. Si el término no está en la colección se producirá una división-por-cero. Por lo tanto, es común ajustar esta fórmula a ${\displaystyle 1+|\{d\in D:t\in d\}|}$.

Matemáticamente, la base de la función logaritmo no es importante y constituye un factor constante en el resultado final.

Luego, *tf-idf* se calcula como:

$$
{\displaystyle \text{tf-idf} (t,d,D)=\mathrm {tf} (t,d)\times \mathrm {idf} (t,D)}
$$

Un peso alto en *tf-idf* se alcanza con una elevada frecuencia de término (en el documento dado) y una pequeña frecuencia de ocurrencia del término en corpus de documentos. 

Como el cociente dentro de la función logaritmo del idf es siempre mayor o igual que 1, el valor del *idf* (y del *tf-idf*) es mayor o igual que 0. 

Cuando un término aparece en muchos documentos, el cociente dentro del logaritmo se acerca a 1, ofreciendo un valor de *idf* y de *tf-idf* cercano a 0.



## <span style="color:blue">Semántica latente</span> 

Esta técnica es quizas de las primeras aparecidas en el anális de textos. La idea central es la construcción de análisis de componentes principales (ACP) seguida de un proceso de clasificación automática.

Las componentes principales del ACP, que son construidas a partir de combinaciones lineales de las columnas de los términos se denominan las **componentes léxicas del corpus de datos**. 

Las herramientas habituales para la interpretación del ACP permiten determinar o mejor asignar un contenido semántico a cada componente. 

En consecuencia, es posible determinar las temáticas presentes en el corpus de textos, a partir de los ejes semánticos.


Como es habitual en el ACP, una clasificación automática puede ser obtenida a partir de la representación factorial de la dtm.

El siguente gráfico ilustra la técnica.


<figure>
<center>
<img src="../Imagenes/pca.png" width="500" height="400" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Arquitectura del modelo Semática Latente</p>
</figcaption>
</figure>

Fuente: 
Alvaro Montenegro

Básicamente lo que se hace es una proyección lineal desde el espacio vectores dispersos al espacio Euclideano. Modernamente se ha encontrado que tiene bastante error, básicamente por el tratamiento lineal. 

En general, se ha encontrado que estas técnicas permiten un primer acercamiento al descubrimieontos de las tématicas (tópicos), pero que en general se quedan cortas.

## <span style="color:blue">Modelos generativos: Latent Dirichlet Allocation</span>

La técnica Latent Dirichlet Allocation (LDA) es la más utilizada actualmente para la extracción de toṕicos de corpus de documentos y se debe a [Blei et al](https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf). 

### Las ideas centrales detrás de LDA, Blei et al.(2003)

Las ideas centrales detrás de LDA son las siguientes. El modelo generativo supone que los documentos son gnerados como sigue:

1. El tamaño $N$ del documento es generado por una distribución de Poisson $\text{Poi}(\xi)$.
2. Los tópicos son generados a partir de una distribución multinomial con vector de probabilidades $\mathbf{\theta}$. 
3. A priori se asume que que el vector $\mathbf{\theta}$ es generado por una distribución de Dirichlet con vector de parámetros $\boldsymbol{\alpha}$. De aquí deriva el nombre de la técnica.
4. Cada una de las $N$ palabras en un documentos es generada según el siguiente algoritmo.
     - Se escoge un tópico $z_n \sim \text{Multinomial}(\mathbf{\theta})$.
     - Se escoge la palabra $w_n \sim \text{P}(w_n|z_n,\mathbf{\beta})$. En donde $\mathbf{\beta}$ es una matriz de probabilidades de pertenencia de las palabras a los tópicos. $P$ es una probabilidad multinomial condicionada al tópico $z_n$ y al vector de parámetros $\mathbf{\beta}$.


Al lector interesado en los detalles, lo remitimos al paper original de [Blei et al.](https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf).

La siguiente imagen intenta mostrar las ideas centrales detras  de la técnica.


<figure>
<center>
<img src="../Imagenes/Diagram_Blei.png" width="800" height="700" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Intuición detrás de LDA</p>
</figcaption>
</figure>

Fuente: 
[Intuition behind LDA](http://www.cs.cornell.edu/courses/cs6784/2010sp/lecture/30-BleiEtAl03.pdf)

El modelado de temas (topic modeling) es un tipo de modelado estadístico para descubrir los “temas” abstractos que ocurren en una colección de documentos. La asignación de Dirichlet latente (LDA) es un ejemplo de modelo de tema y se utiliza para clasificar el texto de un documento en un tema en particular. 

Construye un modelo de tema por documento y palabras por modelo de tema, modelado como distribuciones de Dirichlet.

Aquí vamos a aplicar LDA a un conjunto de documentos y dividirlos en temas. ¡Empecemos!

### Importa librerías

In [45]:
import gensim
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
from nltk.stem import WordNetLemmatizer, SnowballStemmer
from nltk.stem.porter import *
import numpy as np
np.random.seed(2018)
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /home/alvaro/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Vamos a escribir una función que lematiza y hace el preprocesamintos del conjunto de datos

In [46]:
from nltk.stem import PorterStemmer 

def lemmatize_stemming(text):
    ps = PorterStemmer()
    return ps.stem(WordNetLemmatizer().lemmatize(text, pos='v'))

def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text): #  gensim.utils.simple_preprocess tokeniza el texto
        if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
            result.append(lemmatize_stemming(token))
    return result

## <span style="color:blue">Ejemplo: Un millón de titulares</span>

El conjunto de datos que usaremos es una lista de más de un millón de titulares de noticias publicados durante un período de 15 años y se puede descargar de [Kaggle](https://www.kaggle.com/therohk/million-headlines/metadata).

Ejemplo adaptado de [Topic Modeling and Latent Dirichlet Allocation (LDA) in Python](https://towardsdatascience.com/topic-modeling-and-latent-dirichlet-allocation-in-python-9bf156893c24)

In [47]:
import pandas as pd
data = pd.read_csv('../Datos/abcnews-date-text.csv', error_bad_lines=False);
data_text = data[['headline_text']]
data_text['index'] = data_text.index
documents = data_text

Veamos algunos datos

In [48]:
print(len(documents))
print(documents[:5])

1226258
                                       headline_text  index
0  aba decides against community broadcasting lic...      0
1     act fire witnesses must be aware of defamation      1
2     a g calls for infrastructure protection summit      2
3           air nz staff in aust strike for pay rise      3
4      air nz strike to affect australian travellers      4


In [49]:
doc_sample = documents[documents['index'] == 4310].values[0][0]
print('documento original: ')
words = []
for word in doc_sample.split(' '):
    words.append(word)
print(words)
print('\n\n documento tokenizado y lematizado: ')
print(preprocess(doc_sample))

documento original: 
['ratepayers', 'group', 'wants', 'compulsory', 'local', 'govt', 'voting']


 documento tokenizado y lematizado: 
['ratepay', 'group', 'want', 'compulsori', 'local', 'govt', 'vote']


### Preprocesamiento de textos


Vamos a procesar previamente los textos, guardando los resultados en el objeto *processed_docs*.

In [51]:
processed_docs = documents['headline_text'].map(preprocess)
processed_docs[:10]

0               [decid, commun, broadcast, licenc]
1                               [wit, awar, defam]
2           [call, infrastructur, protect, summit]
3                      [staff, aust, strike, rise]
4             [strike, affect, australian, travel]
5               [ambiti, olsson, win, tripl, jump]
6           [antic, delight, record, break, barca]
7    [aussi, qualifi, stosur, wast, memphi, match]
8            [aust, address, secur, council, iraq]
9                         [australia, lock, timet]
Name: headline_text, dtype: object

### Construcción del diccionario

Creamos un diccionario a partir de *processed_docs* que contenga la cantidad de veces que aparece una palabra en el conjunto de entrenamiento.

In [52]:
dictionary = gensim.corpora.Dictionary(processed_docs)
count = 0
for k, v in dictionary.iteritems():
    print(k, v)
    count += 1
    if count > 10:
        break

0 broadcast
1 commun
2 decid
3 licenc
4 awar
5 defam
6 wit
7 call
8 infrastructur
9 protect
10 summit


Filtra los tokens que aparecen en
menos de 15 documentos (número absoluto) o
más de 0,5 documentos (fracción del tamaño total del corpus, no número absoluto).
después de los dos pasos anteriores, conserve solo los primeros 100000 tokens más frecuentes.

In [53]:
dictionary.filter_extremes(no_below=15, no_above=0.5, keep_n=100000)

### Gensim doc2bow

Para cada documento creamos un diccionario que informa cuántos
palabras y cuántas veces aparecen esas palabras. 

Colocamos esto en el objeto *bow_corpus*, luego verifique nuestro documento seleccionado anteriormente.

In [54]:
bow_corpus = [dictionary.doc2bow(doc) for doc in processed_docs]
bow_corpus[4310]

[(162, 1), (240, 1), (292, 1), (589, 1), (839, 1), (3578, 1), (3579, 1)]

esta es una vista preliminar de la bolsa de palabras del documento preprocesado.

In [55]:
bow_doc_4310 = bow_corpus[4310]
for i in range(len(bow_doc_4310)):
    print("Word {} (\"{}\") appears {} time.".format(bow_doc_4310[i][0], 
                                               dictionary[bow_doc_4310[i][0]], 
bow_doc_4310[i][1]))

Word 162 ("govt") appears 1 time.
Word 240 ("group") appears 1 time.
Word 292 ("vote") appears 1 time.
Word 589 ("local") appears 1 time.
Word 839 ("want") appears 1 time.
Word 3578 ("compulsori") appears 1 time.
Word 3579 ("ratepay") appears 1 time.


### TF-IDF

Creamos un objeto modelo *tf-idf* usando *models.TfidfModel* a partir de  "bow_corpus" y lo colocamos en *tfidf*, luego aplicamos la transformación a todo el corpus y lo llámamos *corpus_tfidf*. Finalmente, obtenemos una vista previa de las puntuaciones *TF-IDF* para nuestro primer documento.

In [81]:
from gensim import corpora, models
tfidf = models.TfidfModel(bow_corpus)
corpus_tfidf = tfidf[bow_corpus]
from pprint import pprint
for doc in corpus_tfidf:
    pprint(doc)
    break

[(0, 0.5913144510648105),
 (1, 0.38522584492986706),
 (2, 0.49651004561935946),
 (3, 0.5053969162540006)]


### Corriendo LDA usando la bolsa de palabras

Vamos a entrener anuestro modelo LDA usando *gensim.models.LdaMulticore* and save it to ‘lda_model’

In [82]:
lda_model = gensim.models.LdaMulticore(bow_corpus, num_topics=10, id2word=dictionary, passes=2, workers=2)

In [83]:
for idx, topic in lda_model.print_topics(-1):
    print('Topic: {} \nWords: {}'.format(idx, topic))

Topic: 0 
Words: 0.031*"queensland" + 0.024*"perth" + 0.024*"market" + 0.020*"jail" + 0.020*"hospit" + 0.016*"share" + 0.016*"power" + 0.015*"year" + 0.012*"bank" + 0.012*"talk"
Topic: 1 
Words: 0.054*"australia" + 0.021*"countri" + 0.020*"rural" + 0.018*"hour" + 0.017*"live" + 0.015*"west" + 0.015*"nation" + 0.012*"busi" + 0.012*"peopl" + 0.011*"farmer"
Topic: 2 
Words: 0.058*"polic" + 0.026*"death" + 0.024*"sydney" + 0.022*"attack" + 0.021*"crash" + 0.021*"woman" + 0.015*"shoot" + 0.014*"arrest" + 0.014*"investig" + 0.013*"die"
Topic: 3 
Words: 0.030*"south" + 0.022*"north" + 0.019*"tasmania" + 0.014*"kill" + 0.014*"park" + 0.014*"protest" + 0.013*"close" + 0.011*"leav" + 0.011*"build" + 0.010*"program"
Topic: 4 
Words: 0.030*"govern" + 0.018*"council" + 0.018*"say" + 0.016*"plan" + 0.013*"rise" + 0.013*"water" + 0.012*"concern" + 0.011*"industri" + 0.011*"need" + 0.009*"resid"
Topic: 5 
Words: 0.021*"adelaid" + 0.019*"open" + 0.017*"world" + 0.016*"melbourn" + 0.016*"final" + 0.016*

¿Es posible distinguir diferentes temas usando las palabras en cada tema y sus pesos correspondientes?

### Corriendo  LDA usando TF-IDF

In [84]:
lda_model_tfidf = gensim.models.LdaMulticore(corpus_tfidf, num_topics=10, id2word=dictionary, passes=2, workers=4)
for idx, topic in lda_model_tfidf.print_topics(-1):
    print('Topic: {} Word: {}'.format(idx, topic))

Topic: 0 Word: 0.008*"john" + 0.007*"hunter" + 0.007*"friday" + 0.006*"septemb" + 0.006*"project" + 0.005*"coal" + 0.005*"stori" + 0.005*"outback" + 0.005*"jam" + 0.005*"council"
Topic: 1 Word: 0.022*"countri" + 0.021*"hour" + 0.017*"interview" + 0.012*"podcast" + 0.010*"gold" + 0.010*"australia" + 0.009*"coast" + 0.008*"sport" + 0.006*"monday" + 0.006*"juli"
Topic: 2 Word: 0.013*"kill" + 0.011*"crash" + 0.009*"dead" + 0.008*"attack" + 0.008*"donald" + 0.006*"bomb" + 0.006*"wall" + 0.006*"street" + 0.006*"toni" + 0.006*"sexual"
Topic: 3 Word: 0.013*"south" + 0.012*"leagu" + 0.011*"west" + 0.008*"climat" + 0.008*"june" + 0.008*"rugbi" + 0.008*"liber" + 0.007*"peter" + 0.007*"syria" + 0.006*"australia"
Topic: 4 Word: 0.020*"charg" + 0.020*"polic" + 0.017*"murder" + 0.013*"woman" + 0.013*"court" + 0.011*"jail" + 0.010*"death" + 0.009*"assault" + 0.009*"arrest" + 0.009*"drug"
Topic: 5 Word: 0.012*"govern" + 0.009*"health" + 0.007*"elect" + 0.006*"say" + 0.006*"labor" + 0.006*"indigen" + 0.

Nuevamente, ¿podemos distinguir diferentes temas usando las palabras en cada tema y sus pesos correspondientes

### Evaluación del desempeño clasificando el documento de muestra usando el modelo LDA de bolsa de palabras

Comprobaremos dónde se clasificaría nuestro documento de prueba.

In [85]:
processed_docs[4310]

['rain', 'help', 'dampen', 'bushfir']

In [86]:
for index, score in sorted(lda_model[bow_corpus[4310]], key=lambda tup: -1*tup[1]):
    print("\nScore: {}\t \nTopic: {}".format(score, lda_model.print_topic(index, 10)))


Score: 0.22015565633773804	 
Topic: 0.020*"school" + 0.018*"interview" + 0.014*"labor" + 0.014*"indigen" + 0.013*"fund" + 0.013*"children" + 0.013*"life" + 0.012*"student" + 0.012*"help" + 0.012*"miss"

Score: 0.22014997899532318	 
Topic: 0.021*"adelaid" + 0.019*"open" + 0.017*"world" + 0.016*"melbourn" + 0.016*"final" + 0.016*"women" + 0.015*"brisban" + 0.013*"australian" + 0.012*"gold" + 0.011*"coast"

Score: 0.22013133764266968	 
Topic: 0.030*"south" + 0.022*"north" + 0.019*"tasmania" + 0.014*"kill" + 0.014*"park" + 0.014*"protest" + 0.013*"close" + 0.011*"leav" + 0.011*"build" + 0.010*"program"

Score: 0.2194562405347824	 
Topic: 0.035*"court" + 0.026*"charg" + 0.024*"murder" + 0.023*"face" + 0.017*"accus" + 0.016*"child" + 0.016*"trial" + 0.014*"high" + 0.013*"abus" + 0.013*"donald"

Score: 0.02002192847430706	 
Topic: 0.054*"australia" + 0.021*"countri" + 0.020*"rural" + 0.018*"hour" + 0.017*"live" + 0.015*"west" + 0.015*"nation" + 0.012*"busi" + 0.012*"peopl" + 0.011*"farmer"



Nuestro documento de prueba tiene la mayor probabilidad de ser parte del tema que asignó nuestro modelo, que es la clasificación precisa.


### Evaluación del desempeño clasificando el documento de muestra usando el modelo LDA TF-IDF.

In [87]:
for index, score in sorted(lda_model_tfidf[bow_corpus[4310]], key=lambda tup: -1*tup[1]):
    print("\nScore: {}\t \nTopic: {}".format(score, lda_model_tfidf.print_topic(index, 10)))


Score: 0.5712891817092896	 
Topic: 0.009*"weather" + 0.008*"flood" + 0.007*"hill" + 0.007*"farmer" + 0.006*"rain" + 0.006*"michael" + 0.006*"dairi" + 0.006*"price" + 0.006*"queensland" + 0.006*"wednesday"

Score: 0.2686343789100647	 
Topic: 0.020*"charg" + 0.020*"polic" + 0.017*"murder" + 0.013*"woman" + 0.013*"court" + 0.011*"jail" + 0.010*"death" + 0.009*"assault" + 0.009*"arrest" + 0.009*"drug"

Score: 0.020011145621538162	 
Topic: 0.012*"govern" + 0.009*"health" + 0.007*"elect" + 0.006*"say" + 0.006*"labor" + 0.006*"indigen" + 0.006*"fund" + 0.006*"school" + 0.005*"chang" + 0.005*"violenc"

Score: 0.02001083269715309	 
Topic: 0.008*"john" + 0.007*"hunter" + 0.007*"friday" + 0.006*"septemb" + 0.006*"project" + 0.005*"coal" + 0.005*"stori" + 0.005*"outback" + 0.005*"jam" + 0.005*"council"

Score: 0.020009344443678856	 
Topic: 0.026*"rural" + 0.018*"news" + 0.011*"turnbul" + 0.010*"royal" + 0.009*"plead" + 0.009*"nation" + 0.008*"busi" + 0.008*"octob" + 0.007*"victorian" + 0.007*"com

Nuestro documento de prueba tiene la mayor probabilidad de ser parte del tema que asignó nuestro modelo, que es la clasificación precisa.

## Prueba del modelo con un documento no visto antes.

In [88]:
unseen_document = 'How a Pentagon deal became an identity crisis for Google'
bow_vector = dictionary.doc2bow(preprocess(unseen_document))
for index, score in sorted(lda_model[bow_vector], key=lambda tup: -1*tup[1]):
    print("Score: {}\t Topic: {}".format(score, lda_model.print_topic(index, 5)))


Score: 0.8499734401702881	 Topic: 0.031*"queensland" + 0.024*"perth" + 0.024*"market" + 0.020*"jail" + 0.020*"hospit"
Score: 0.01667023077607155	 Topic: 0.030*"south" + 0.022*"north" + 0.019*"tasmania" + 0.014*"kill" + 0.014*"park"
Score: 0.01667018234729767	 Topic: 0.054*"australia" + 0.021*"countri" + 0.020*"rural" + 0.018*"hour" + 0.017*"live"
Score: 0.01667017489671707	 Topic: 0.030*"elect" + 0.024*"hous" + 0.023*"canberra" + 0.016*"chang" + 0.016*"price"
Score: 0.01667015254497528	 Topic: 0.030*"govern" + 0.018*"council" + 0.018*"say" + 0.016*"plan" + 0.013*"rise"
Score: 0.016669869422912598	 Topic: 0.027*"trump" + 0.013*"record" + 0.012*"time" + 0.012*"break" + 0.012*"leagu"
Score: 0.016669215634465218	 Topic: 0.020*"school" + 0.018*"interview" + 0.014*"labor" + 0.014*"indigen" + 0.013*"fund"
Score: 0.016668912023305893	 Topic: 0.058*"polic" + 0.026*"death" + 0.024*"sydney" + 0.022*"attack" + 0.021*"crash"
Score: 0.016668912023305893	 Topic: 0.021*"adelaid" + 0.019*"open" + 0.017

In [None]:
[Regtresar al inicio](Contenido)