# <span style="color:#F72585"><center>Introducción al Procesamiento Superficial de Textos</center></span>

<center>Latent Dirichlet Allocation - LDA</center>

<figure>
<center>
<img src="https://raw.githubusercontent.com/AprendizajeProfundo/Libro-Fundamentos/main/Tratamiento_de_Lenguaje_Natural/Imagenes/library.jpg" width="600" height="600" align="center"/>
</center>
</figure>

Fuente: [Pixabay](https://pixabay.com/es/photos/biblioteca-libros-educación-869061/)

## <span style="color:#4361EE">Introducción</span> 

Los humanos nos  comunicamos utilizando lenguajes naturales. Los lenguajes naturales difieren de los lenguajes de programación en que estos últimos siguen reglas sintácticas y semánticas extrictas, mientras que los primeros por su complejidad dependen del contexto.


En general el análisis de textos tiene dos grandes subáreas: el análisis superficial de textos y el procesamiento del lenguaje natural.

En esta lección nos ocupamos del análisis superficial de textos.

## <span style="color:#4361EE">Análisis superficial de textos</span>

Esta subárea se desarrolló primero, debido a que los problemas asociados al lenguaje natural en este caso son más simples. Se trata de técnicas en las cuales se busca encontrar los tópicos subyacentes en el texto. En este sentido, son modelos de tipo no supervisado y en consecuencia basados en técnicas de clasificación automática. 

Estas técnicas están orientadas a detectar clusters de palabras y documentos en grandes corpus de datos.

Un documento es en este caso una unidad distinguible de otras en el corpus. Por ejemplo una respuesta abierta en una encuesta, un comentario en una revisión, un abstract de un documento, etc. 

Luego de omitir términos que se consideran que no aportan a la detección de tópicos (temáticas), usualmente conocidos como **palabras vacías** (*stop words*) y de otros procesos de preprocesamiento como lematización, recorte (*stemming*),  es común construir una matriz denominada documento-término (***dtm***).

Esta matriz ***dtm*** presenta en las filas a cada uno de los documentos individuales del corpus y en las columnas a cada uno de los términos conservados en el análisis. Cada posición de la matriz contiene el número de veces que un término aparece en el documento. En algunos casos esta es una matriz binaria, en cuyo caso la *dtm* indica cuando un término aparece en un documento.

La  ***dtm*** es la base de las técnicas conocidas genéricamente como **bolsa de palabras** (*word-bag*). El nombre deriva del hecho de que al organizar la *dtm*, el contexto de las palabras en cada documento se pierde.

## <span style="color:#4361EE">Terminología general</span>

### <span style="color:#4CC9F0">Palabras o términos</span>

La palabra es la unidad mínima de información  en el trabajo con lenguaje natural. 

Desde una perspectiva muy moderna las palabras son objetos que puede pensarse como puntos que están en un espacio de alta dimensión, de tal manera, que puntos cercanos en algún sentido de distancia corresponde a palabras que tienen una cercanía dentro de un universo de palabras considerado.

La siguiente imagen corresponde a un conjunto de palabras de astrofísica, consideradas en un estudio de resumenes de artículos científicos. Este es un gráfico obtenido luego de un procesamiento, como lo que mostramos hoy, desarrollado por Montenegro y Montenegro usando una técnica de análisis basada en la teoría de respuesta al ítem multidimensional (*TRIM*).

En este documento las palabaras se denotarán como $w_i,\text{ para } i =1,2,\ldots,k$.

<figure>
<center>
<img src="https://raw.githubusercontent.com/AprendizajeProfundo/Libro-Fundamentos/main/Tratamiento_de_Lenguaje_Natural/Imagenes/cluster_kmeans_10.png" width="600" height="600" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Áreas del conocimiento en Astrofísica, a partir de artículos científicos.</p>
</figcaption>
</figure>
Fuente: Alvaro Montenegro

### <span style="color:#4CC9F0">Documentos</span>

Los documentos son los sujetos en los análisis textual superficial. Suponemos que se tiene un conjunto de documentos individuales, cada uno de los cuales se denotará por $\mathbf{w}$. Se considera que un documento es una sucesión  de $N$ palabras. Así se tiene que un documento se denota como $\mathbf{w} = \{w_1,\ldots,w_N \}$.

### <span style="color:#4CC9F0">Corpus</span>

Un corpus es una colección de documentos en un problema particular.

### <span style="color:#4CC9F0">Tópicos</span>

Los tópicos son áreas latentes a las cuales están asociadas tanto las palabras como los documentos. Uno de los propósitos principales del análisis de textos es descubrir o poner en evidencia tales tópicos.

La figura anterior muestra por ejemplo la presencia de 10 tópicos en el conjunto de documentos de astrofísica analizados.

## <span style="color:#4361EE">Preprocesamiento de datos textuales</span> 

En lo que sigue, vamos a utilizar los términos *token* y *tokenizar*, que aún no son adoptados por la Real Academia de la Lengua, pero creemos que pronto lo serán, como tantos otros provenientes del inglés debido a su enorme utilización actual, por razón de los desarrollos científicos y tecnológicos. 

Realizaremos los siguientes pasos:
    
- **Tokenización**: divide el texto en oraciones y las oraciones en palabras. Ponga las palabras en minúsculas y elimine la puntuación.
- Se **eliminan las palabras que tienen menos de 3 caracteres**.
- Se eliminan todas las **palabras vacías**.
- Las palabras se **lematizan**: las palabras en tercera persona se cambian a primera persona y los verbos en tiempo pasado y futuro se cambian a presente.
- Las palabras se recortan (**stemming**): las palabras se reducen a su forma raíz.

Usaremos las librerías `gensim` y `nltk` para hacer este trabajo.

### <span style="color:#4CC9F0">Tokenización</span>

Algunos términos que se utilizarán con frecuencia son:

- **Corpus**: cuerpo del texto, singular. Corpora es el plural de corpus.
- **Léxico**: palabras y sus significados.
- **Token**: cada *entidad* que es parte de lo que sea que se dividió según las reglas que establecemos para el análisis. Por ejemplo, cada palabra es un token cuando una oración se tokeniza en palabras. Cada oración también puede ser un token, si ha convertido un párrafo en oraciones.

Básicamente, tokenizar implica dividir oraciones y palabras del cuerpo del texto.

Vea el siguiente ejemplo tomado de [Geek for Geeks](https://www.geeksforgeeks.org/tokenize-text-using-nltk-python/?ref=rp). Usamos la librería `nltk`.

### <span style="color:#4CC9F0">Importa recursos de *nltk*</span>

In [1]:
# importar la tokenización de palabras y oraciones existentes.
# librerías

import nltk

# tokenizadores
from nltk.tokenize import sent_tokenize, word_tokenize 
from nltk.tokenize import TweetTokenizer

# diccionarios especiales para puntuación y palabras vacias
nltk.download('punkt') # Manejo de puntuación
nltk.download('stopwords') # Manejo de palabras vacías

# wordnet es una gran base de datos léxica del inglés. 
# los sustantivos, verbos, adjetivos y adverbios se agrupan en conjuntos de sinónimos cognitivos(synsets).
nltk.download('wordnet')

from nltk.corpus import stopwords

# lematizador basado en WordNet de nltk
from nltk.stem import WordNetLemmatizer 

# stemmer de nltk. Raiz de las palabras
# from nltk.stem import SnowballStemmer
from nltk.stem import PorterStemmer 

[nltk_data] Downloading package punkt to /home/kamilo44/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/kamilo44/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/kamilo44/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### <span style="color:#4CC9F0">Importa recursos de *gensim*</span>

In [2]:
import gensim
from gensim.parsing.preprocessing import STOPWORDS

### <span style="color:#4CC9F0">Ejemplo de tokenización</span>

In [3]:
text = "Natural language processing (NLP) is a field " \
       + "of computer science, artificial intelligence " \
       + "and computational linguistics concerned with " \
       + "the interactions between computers and human " \
       + "(natural) languages, and, in particular, " \
       + "concerned with programming computers to " \
       + "fruitfully process large natural language " \
       + "corpora. Challenges in natural language " \
       + "processing frequently involve natural " \
       + "language understanding, natural language " \
       + "generation frequently from formal, machine" \
       + "-readable logical forms), connecting language " \
       + "and machine perception, managing human-" \
       + "computer dialog systems, or some combination " \
       + "thereof. There are 365 days usually. " \
       + "This year is 2020."

# sentencias
print('Tokenización por sentencias:\n')
sentences = sent_tokenize(text)
for sentence in sentences:
    print(sentence,'\n')
print('Tokenización por sentencias:\n')
print(sent_tokenize(text)) 

# palabras
tokens = word_tokenize(text)
print('\n Tokenización por palabras:')
for token in tokens:
    print(token, end =' ')
print('')
print('\n Tokenización por palabras:')
print(word_tokenize(text))

# caracteres
chars = [char for char in text]
print('\n Tokenización por caracteres:')
for char in chars:
    print(char, end =' ')
print('')
print('\n Tokenización por caracteres:')
print(chars)


Tokenización por sentencias:

Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process large natural language corpora. 

Challenges in natural language processing frequently involve natural language understanding, natural language generation frequently from formal, machine-readable logical forms), connecting language and machine perception, managing human-computer dialog systems, or some combination thereof. 

There are 365 days usually. 

This year is 2020. 

Tokenización por sentencias:

['Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process 

### <span style="color:#4CC9F0">Tokenización de tweets</span>

In [4]:
tknzr = TweetTokenizer()
s0 = "This is a cooool #dummysmiley: :-) :-P <3 and some arrows < > -> <--"
tknzr.tokenize(s0)

['This',
 'is',
 'a',
 'cooool',
 '#dummysmiley',
 ':',
 ':-)',
 ':-P',
 '<3',
 'and',
 'some',
 'arrows',
 '<',
 '>',
 '->',
 '<--']

### <span style="color:#4CC9F0">Tokenizar tweets usando  los parámetros *strip_handles* y *reduce_len*</span>

In [5]:
tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
s1 = '@remy: This is waaaaayyyy too much for you!!!!!!'
tw = tknzr.tokenize(s1)
print(tw)

[':', 'This', 'is', 'waaayyy', 'too', 'much', 'for', 'you', '!', '!', '!']


### <span style="color:#4CC9F0">Cambiar texto a minúsculas</span>

In [6]:
tokens[:] = [token.lower() for token in tokens]
print(tokens)

['natural', 'language', 'processing', '(', 'nlp', ')', 'is', 'a', 'field', 'of', 'computer', 'science', ',', 'artificial', 'intelligence', 'and', 'computational', 'linguistics', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '(', 'natural', ')', 'languages', ',', 'and', ',', 'in', 'particular', ',', 'concerned', 'with', 'programming', 'computers', 'to', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', '.', 'challenges', 'in', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', ',', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', ',', 'machine-readable', 'logical', 'forms', ')', ',', 'connecting', 'language', 'and', 'machine', 'perception', ',', 'managing', 'human-computer', 'dialog', 'systems', ',', 'or', 'some', 'combination', 'thereof', '.', 'there', 'are', '365', 'days', 'usually', '.', 'this', 'year', 'is', '2020', '.']


### <span style="color:#4CC9F0">Remueve carateres especiales - expresiones regulares</span>

Las expresiones regulares son objetos matemáticos que permiten interpretar trozos de texto. Son claves en la construcción de los lenguajes de programación. Aquí vamos a usar la [librería re](https://docs.python.org/3/library/re.html) de Python creada para el manejo de expresiones regulares. Les sugerimos este [tutorial sobre re](https://www.w3schools.com/python/python_regex.asp) en Python para aprender a manejar la librería.

La usaremos aquí para eliminar algunos símbolos: los números y los paréntesis por ejemplo. No siempre es el caso.

In [7]:
import re
# digitos
tokens = [re.sub(r'\d+', '',token) for token in tokens]
# paréntesis
tokens = [re.sub(r'[()]', '',token) for token in tokens]
print(tokens)


['natural', 'language', 'processing', '', 'nlp', '', 'is', 'a', 'field', 'of', 'computer', 'science', ',', 'artificial', 'intelligence', 'and', 'computational', 'linguistics', 'concerned', 'with', 'the', 'interactions', 'between', 'computers', 'and', 'human', '', 'natural', '', 'languages', ',', 'and', ',', 'in', 'particular', ',', 'concerned', 'with', 'programming', 'computers', 'to', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', '.', 'challenges', 'in', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', ',', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', ',', 'machine-readable', 'logical', 'forms', '', ',', 'connecting', 'language', 'and', 'machine', 'perception', ',', 'managing', 'human-computer', 'dialog', 'systems', ',', 'or', 'some', 'combination', 'thereof', '.', 'there', 'are', '', 'days', 'usually', '.', 'this', 'year', 'is', '', '.']


### <span style="color:#4CC9F0">Remueve palabras de longitud menor o igual a tres</span>

In [8]:
tokens_4 = []
for token in tokens:
    if len(token) > 3:
        tokens_4.append(token)
tokens = tokens_4

print(tokens)

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'with', 'interactions', 'between', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'with', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'some', 'combination', 'thereof', 'there', 'days', 'usually', 'this', 'year']


### <span style="color:#4CC9F0">Palabras vacías (*stop words*)</span>

Las palabras vacías o *stop words* son palabras que en el lenguaje común se consideran que no aportan al contenido semántico de los textos. En la técnica de bolsa de palabras son omitidos, debido a que causan clasificaciones confusas. En realidad el concepto de palabras vacías depende del contexto de utlización de las técnicas. 

El siguiente ejemplo muestra el diccionario de palabras vacías del inglés contenidas en la librería `gensim`.

In [9]:
stop_words_g = []
for token  in gensim.parsing.preprocessing.STOPWORDS:
    stop_words_g.append(token)
print(stop_words_g)

['hereby', 'those', 'namely', 'keep', 'since', 'your', 'ourselves', 'is', 'inc', 'nothing', 'became', 'third', 'behind', 'these', 'often', 'so', 'whereupon', 'already', 'per', 'top', 'even', 'ever', 'hers', 'everywhere', 'always', 'how', 'done', 'will', 'himself', 'or', 'might', 'over', 'something', 'thereupon', 'everyone', 'not', 'get', 'becomes', 'had', 'who', 'must', 'among', 'his', 'up', 'perhaps', 'last', 'to', 'whenever', 'she', 'whoever', 'towards', 'either', 'four', 'seems', 'am', 'else', 'it', 'whither', 'when', 'find', 'for', 'thence', 'didn', 'thus', 'if', 'together', 'back', 'bill', 'where', 'ie', 'using', 'bottom', 'name', 'many', 'was', 'may', 'various', 'on', 'did', 'thin', 'full', 'they', 'almost', 'system', 'elsewhere', 'all', 'but', 'thick', 'both', 'after', 'off', 'serious', 'cry', 'from', 'than', 'show', 'nevertheless', 'while', 'although', 'please', 'hasnt', 'toward', 'ours', 'indeed', 'seemed', 'latterly', 'another', 'thru', 'fill', 'latter', 'the', 'nine', 'throu

En la librería `nltk` el diccionario de palabras vacías del inglés es actualmente:

In [10]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))

print(stop_words)


{'i', "should've", 'such', "doesn't", 'all', 'those', 'but', "needn't", "you'd", "that'll", "couldn't", 'shouldn', 'needn', 'your', "don't", 'ourselves', 'after', 'off', 'both', 'is', 'more', 'ma', 'been', 'from', 'than', 'o', 'doing', 'him', 'no', 'while', 'against', 'these', 'yourself', 'a', 'so', "haven't", 'too', 'of', 'you', 'by', 'once', 'ours', "it's", 'few', "mustn't", 'hers', 'nor', 'how', 'the', "wasn't", 'under', 'through', 't', 'in', 'her', 'just', 'will', 'himself', 'or', "hasn't", 'its', "shan't", 'isn', 'do', 'yourselves', 'which', 'at', 'over', 'further', "you're", "won't", 'each', 'here', 'some', 'same', 'their', 'should', 'that', 'doesn', 'and', 're', "shouldn't", 'herself', 'out', 'weren', 'we', 'not', 'there', 'very', "mightn't", 's', 'had', 'them', 'ain', "weren't", 'why', 'who', 'wouldn', 'our', 'were', 'has', 'theirs', 'his', 'up', "aren't", 'aren', "didn't", 'again', 'other', 'about', 'to', 'can', 'she', 'me', "you've", 'y', 'between', 'only', 'own', 'couldn', '

```{admonition} Nota
Observe que los dos conjuntos de palabara vacías son distintos.
```

Como ejemplo vamos quitar la palabras vacias del objeto `text` tokenizado definido arriba.

### <span style="color:#4CC9F0">Palabras vacías-Español *nltk*</span>

In [11]:
palabras_vacias = set(stopwords.words('spanish'))

print(palabras_vacias)

{'habrías', 'tuyas', 'tú', 'seamos', 'tenido', 'nuestros', 'tendrían', 'fueses', 'sea', 'durante', 'éramos', 'eso', 'somos', 'antes', 'sentida', 'del', 'tienes', 'mí', 'hayamos', 'estarían', 'hubimos', 'quien', 'fueras', 'algunos', 'nuestro', 'tuvisteis', 'más', 'su', 'hasta', 'les', 'otros', 'mis', 'esto', 'tuviste', 'te', 'estarán', 'ya', 'muy', 'estabais', 'tuvieran', 'serías', 'tuvierais', 'seáis', 'habidos', 'míos', 'lo', 'tenidos', 'quienes', 'estados', 'esté', 'habías', 'todo', 'tus', 'ha', 'erais', 'estaríais', 'fuimos', 'tengáis', 'estuviera', 'tuyos', 'vuestro', 'sí', 'tendrán', 'estuvo', 'haya', 'hubiésemos', 'suyos', 'sus', 'estuvierais', 'tendremos', 'sería', 'habrán', 'cuando', 'estáis', 'mías', 'estén', 'hubisteis', 'estará', 'habría', 'tuviera', 'tenías', 'habrá', 'nuestras', 'hayan', 'habiendo', 'o', 'fuisteis', 'hubiéramos', 'estuvisteis', 'otras', 'nosotros', 'fue', 'las', 'tengo', 'estas', 'mi', 'seremos', 'estarías', 'fuerais', 'para', 'esos', 'tendré', 'vuestras',

### <span style="color:#4CC9F0">Vamos a quitar las palabras vacías del ejemplo usando *nltk*</span>

In [12]:
print(tokens)

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'with', 'interactions', 'between', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'with', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'from', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'some', 'combination', 'thereof', 'there', 'days', 'usually', 'this', 'year']


In [13]:
tokens_n_e = []

for token in tokens:
    if token not in stop_words:
        tokens_n_e.append(token)

tokens = tokens_n_e
print(tokens)   

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'interactions', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'combination', 'thereof', 'days', 'usually', 'year']


### <span style="color:#4CC9F0">Lematización</span>

La lematización (*Lemmatization*) es el proceso de agrupar las diferentes formas flexionadas de una palabra para que puedan analizarse como un solo elemento. La lematización es similar a la derivación (*Stemming*), pero aporta contexto a las palabras. Por lo tanto, vincula palabras con un significado similar a una palabra.

El preprocesamiento de texto incluye tanto ***Stemming*** como ***Lemmatization***.

Muchas veces las personas encuentran confusos estos dos términos. Algunos tratan a estos dos como iguales. 

En realidad, se prefiere la lematización a la derivación porque la lematización realiza un análisis morfológico de las palabras.

Las aplicaciones de la lematización son:

- Se utiliza en sistemas de recuperación integrales como motores de búsqueda.
- Utilizado en indexación compacta.
- Ejemplos de lematización:
    * rocas -> roca
    * corpora -> corpus
    * mejor -> bueno

Una diferencia importante con la derivación es que lematizar toma una parte del parámetro de voz, `pos`. Si no se proporciona, el valor predeterminado es "sustantivo". En el siguiente ejemplo vamos a colocar `pos='a'` que significa adjetivo. Si se coloca `pos ='v'` significa verbo. Por defecto es `pos ='n'`, es decir sustantivo.

A continuación se muestra la implementación de lematización de algunas palabras en inglés usando la librería `nltk`:

In [14]:
nltk.download('omw-1.4') # Data para la lematización

from nltk.stem import WordNetLemmatizer 
  
lemmatizer = WordNetLemmatizer() 
  
print("rocks :", lemmatizer.lemmatize("rocks")) 
print("corpora :", lemmatizer.lemmatize("corpora")) 
  
# "a" denota adjectivo en "pos" 
print("better :", lemmatizer.lemmatize("better", pos ="a")) 

[nltk_data] Downloading package omw-1.4 to /home/kamilo44/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


rocks : rock
corpora : corpus
better : good


Y ahora vamos a lematizar el texto de ejemplo, primero con verbos y luego con sustantivos.

In [15]:
from nltk.stem import WordNetLemmatizer

# verbos
lemma_text =[]
for token in tokens:
    lemma_text.append(WordNetLemmatizer().lemmatize(token, pos='v'))

print(tokens)
print('\n')
print(lemma_text)

['natural', 'language', 'processing', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concerned', 'interactions', 'computers', 'human', 'natural', 'languages', 'particular', 'concerned', 'programming', 'computers', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpora', 'challenges', 'natural', 'language', 'processing', 'frequently', 'involve', 'natural', 'language', 'understanding', 'natural', 'language', 'generation', 'frequently', 'formal', 'machine-readable', 'logical', 'forms', 'connecting', 'language', 'machine', 'perception', 'managing', 'human-computer', 'dialog', 'systems', 'combination', 'thereof', 'days', 'usually', 'year']


['natural', 'language', 'process', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concern', 'interactions', 'computers', 'human', 'natural', 'languages', 'particular', 'concern', 'program', 'computers', 'fruitfully', 'process', 'large', 'natural', 

In [16]:
# sustantivos
for i in range(len(lemma_text )):
    lemma_text[i] = WordNetLemmatizer().lemmatize(lemma_text[i], pos='n')
print(lemma_text)

['natural', 'language', 'process', 'field', 'computer', 'science', 'artificial', 'intelligence', 'computational', 'linguistics', 'concern', 'interaction', 'computer', 'human', 'natural', 'language', 'particular', 'concern', 'program', 'computer', 'fruitfully', 'process', 'large', 'natural', 'language', 'corpus', 'challenge', 'natural', 'language', 'process', 'frequently', 'involve', 'natural', 'language', 'understand', 'natural', 'language', 'generation', 'frequently', 'formal', 'machine-readable', 'logical', 'form', 'connect', 'language', 'machine', 'perception', 'manage', 'human-computer', 'dialog', 'system', 'combination', 'thereof', 'day', 'usually', 'year']


### <span style="color:#4CC9F0">Stemming</span>


La derivación (*stemming*) es el proceso de producir variantes morfológicas de una palabra raíz / base. Los programas de derivación se conocen comúnmente como algoritmos de stemming o derivaciones. Un algoritmo de stemming reduce las palabras como en los siguientes ejemplos:

+ "chocolates", "chocolates", "choco" a la raíz de la palabra, "chocolate".
+ "recuperación", "recuperado", "recupera" se reduce a la raíz "recuperar".


### <span style="color:#4CC9F0">Errores en la derivación</span>

Hay principalmente dos errores en la derivación: la derivación excesiva (*sobrerecorte*) y la derivación insuficiente (*subrecorte*).

* El sobrerecorte ocurre cuando dos palabras que se derivan de la misma raíz, tienen raíces diferentes. 

* El subrecorte ocurre cuando dos palabras que se derivan de la misma raíz, tienen raíces diferentes.

Ejemplo:

Tomado de: [towardsdatascience](https://towardsdatascience.com/stemming-of-words-in-natural-language-processing-what-is-it-41a33e8996e2#Over%20stemming)

* Sobrerecorte: las palabras "universidad" y "universo". Algunos algoritmos de derivación pueden reducir ambas palabras a la raíz "univers", lo que implicaría que ambas palabras significan lo mismo, y eso es claramente incorrecto.

* Subrecorte: las palabras "dato" y "datos". Algunos algoritmos pueden reducir estas palabras a "dat" y "dato" respectivamente, lo que obviamente es incorrecto. Ambos deben reducirse a la misma raíz "dat".

In [17]:
#from nltk.stem import SnowballStemmer
from nltk.stem import PorterStemmer

# crea una instancia de PorterStemmer 
ps = PorterStemmer()

for i in range(len(lemma_text)):
    lemma_text[i] = ps.stem(lemma_text[i])
print(lemma_text)

['natur', 'languag', 'process', 'field', 'comput', 'scienc', 'artifici', 'intellig', 'comput', 'linguist', 'concern', 'interact', 'comput', 'human', 'natur', 'languag', 'particular', 'concern', 'program', 'comput', 'fruit', 'process', 'larg', 'natur', 'languag', 'corpu', 'challeng', 'natur', 'languag', 'process', 'frequent', 'involv', 'natur', 'languag', 'understand', 'natur', 'languag', 'gener', 'frequent', 'formal', 'machine-read', 'logic', 'form', 'connect', 'languag', 'machin', 'percept', 'manag', 'human-comput', 'dialog', 'system', 'combin', 'thereof', 'day', 'usual', 'year']


## <span style="color:#4361EE">TF-IDF</span>

Tomado de [Wikipedia](https://es.wikipedia.org/wiki/Tf-idf).

Tf-idf (del inglés *Term frequency – Inverse document frequency*), **frecuencia de término – frecuencia inversa de documento** (o sea, la frecuencia de ocurrencia del término en el corpus de documentos), es una medida numérica que expresa cuan relevante es una palabra para un documento en un corpus. Esta medida se utiliza a menudo como un factor de ponderación en la recuperación de información y la minería de textos. 


El valor tf-idf aumenta proporcionalmente al número de veces que una palabra aparece en el documento, pero es compensada por la frecuencia de la palabra en el corpus de documentos, lo que permite manejar el hecho de que algunas palabras son generalmente más comunes que otras.

Variaciones del esquema de peso tf-idf son empleadas frecuentemente por los motores de búsqueda como herramienta fundamental para medir la relevancia de un documento dada una consulta del usuario, estableciendo así una ordenación o ranking de los mismos. 


Tf-idf puede utilizarse exitosamente para el filtrado de las palabras vacías (*stop-words*), en diferentes campos del preprocesamiento de textos.


### <span style="color:#4CC9F0">Detalles matemáticos</span>

Tf-idf es el producto de dos medidas, *frecuencia de término* y *frecuencia inversa de documento*. Existen varias maneras de determinar el valor de ambas. 

En el caso de la frecuencia de término $\text{tf}(t, d)$, la opción más sencilla es usar la frecuencia bruta del término $t$ en el documento $d$, o sea, el número de veces que el término $t$ ocurre en el documento $d$. Si denotamos la frecuencia bruta de $t$ por $f(t,d)$, entonces el esquema $\text{tf}$ simple es $\text{tf}(t, d) = f(t,d)$. 


Otras posibilidades son:

- *frecuencias booleanas*: $\text{ tf}(t, d) = 1$ si $t$ ocurre en $d$, y $\text{tf}(t, d) = 0$ si no;
- *frecuencia escalada logarítmicamente*: $\text{ tf}(t, d) = 1 + \log f(t,d)$ y $0$ si $f(t,d)=0$;
- *frecuencia normalizada*: para evitar una predisposición hacia los documentos largos. Por ejemplo, se divide la frecuencia bruta por la frecuencia máxima de algún término en el documento:

$$
{\displaystyle \mathrm {tf} (t,d)={\frac {f(t,d)}{\max\{f(t,d):t\in d\}}}}
$$

La frecuencia inversa de documento es una medida que indica si el término es común o no en el corpus de documentos. Se obtiene dividiendo el número total de documentos, por el número de documentos que contienen el término, y se toma el logaritmo de ese cociente:

$$
{\displaystyle \mathrm {idf} (t,D)=\log {\frac {|D|}{|\{d\in D:t\in d\}|}}}
$$

donde:

- ${\displaystyle |D|}$: cardinalidad de $D$, o número de documentos en el corpus.
- ${\displaystyle |\{d\in D:t\in d\}|}$ : número de documentos donde aparece el término $t$. Si el término no está en la colección se producirá una división por cero. Por lo tanto, es común ajustar esta fórmula a ${\displaystyle 1+|\{d\in D:t\in d\}|}$.

Matemáticamente, la base de la función logaritmo no es importante y constituye un factor constante en el resultado final.

Luego, *tf-idf* se calcula como:

$$
{\displaystyle \text{tf-idf} (t,d,D)=\mathrm {tf} (t,d)\times \mathrm {idf} (t,D)}
$$

Un peso alto en *tf-idf* se alcanza con una elevada frecuencia de término (en el documento dado) y una pequeña frecuencia de ocurrencia del término en corpus de documentos. 

Como el cociente dentro de la función logaritmo del *idf* es siempre mayor o igual que 1, el valor del *idf* (y del *tf-idf*) es mayor o igual que 0. 

Cuando un término aparece en muchos documentos, el cociente dentro del logaritmo se acerca a 1, ofreciendo un valor de *idf* y de *tf-idf* cercano a 0.



## <span style="color:#4361EE">Semántica latente</span> 

Esta técnica es quizás de las primeras aparecidas en el análisis de textos. La idea central es la construcción de análisis de componentes principales (ACP) seguida de un proceso de clasificación automática.

Las componentes principales del ACP, que son construidas a partir de combinaciones lineales de las columnas de los términos se denominan las **componentes léxicas del corpus de datos**. 

Las herramientas habituales para la interpretación del ACP permiten determinar o mejor asignar un contenido semántico a cada componente. 

En consecuencia, es posible determinar las temáticas presentes en el corpus de textos, a partir de los ejes semánticos.


Como es habitual en el ACP, una clasificación automática puede ser obtenida a partir de la representación factorial de la ***dtm***.

El siguente gráfico ilustra la técnica.


<figure>
<center>
<img src="https://raw.githubusercontent.com/AprendizajeProfundo/Libro-Fundamentos/main/Tratamiento_de_Lenguaje_Natural/Imagenes/pca.png" width="500" height="400" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Arquitectura del modelo Semática Latente</p>
</figcaption>
</figure>

Fuente: Alvaro Montenegro

Básicamente lo que se hace es una proyección lineal desde el espacio de vectores dispersos al espacio Euclideano. Modernamente se ha encontrado que tiene bastante error, básicamente por el tratamiento lineal. 

En general, se ha encontrado que estas técnicas permiten un primer acercamiento al descubrimiento de las tématicas (tópicos), pero que en general se quedan cortas.

## <span style="color:#4361EE">Modelos generativos: Latent Dirichlet Allocation</span>

La técnica Latent Dirichlet Allocation (LDA) es la más utilizada actualmente para la extracción de toṕicos de corpus de documentos y se debe a [Blei et al](https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf). 

### <span style="color:#4CC9F0">Las ideas centrales detrás de LDA, Blei et al.(2003)</span>

Las ideas centrales detrás de LDA son las siguientes. El modelo generativo supone que los documentos son generados como sigue:

1. El tamaño $N$ del documento es generado por una distribución de Poisson $\text{Poi}(\xi)$.
2. Los tópicos son generados a partir de una distribución multinomial con vector de probabilidades $\mathbf{\theta}$. 
3. A priori se asume que el vector $\mathbf{\theta}$ es generado por una distribución de Dirichlet con vector de parámetros $\boldsymbol{\alpha}$. De aquí deriva el nombre de la técnica.
4. Cada una de las $N$ palabras en un documento son generadas según el siguiente algoritmo.
     - Se escoge un tópico $z_n \sim \text{Multinomial}(\mathbf{\theta})$.
     - Se escoge la palabra $w_n \sim \text{P}(w_n|z_n,\mathbf{\beta})$. En donde $\mathbf{\beta}$ es una matriz de probabilidades de pertenencia de las palabras a los tópicos. $P$ es una probabilidad multinomial condicionada al tópico $z_n$ y al vector de parámetros $\mathbf{\beta}$.


Al lector interesado en los detalles, lo remitimos al paper original de [Blei et al.](https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf).

La siguiente imagen intenta mostrar las ideas centrales detras  de la técnica.


<figure>
<center>
<img src="https://raw.githubusercontent.com/AprendizajeProfundo/Libro-Fundamentos/main/Tratamiento_de_Lenguaje_Natural/Imagenes/Diagram_Blei.png" width="600" height="500" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Intuición detrás de LDA</p>
</figcaption>
</figure>

Fuente: 
[Intuition behind LDA](https://www.cs.columbia.edu/~blei/papers/Blei2012.pdf)

El modelado de temas (*topic modeling*) es un tipo de modelado estadístico para descubrir los “temas” abstractos que ocurren en una colección de documentos. La asignación de Dirichlet latente (LDA) es un ejemplo de modelo de tema y se utiliza para clasificar el texto de un documento en un tema en particular. 

Construye un modelo de tema por documento y palabras por modelo de tema, modelado como distribuciones de Dirichlet.

Aquí vamos a aplicar LDA a un conjunto de documentos y dividirlos en temas. ¡Empecemos!

### <span style="color:#4CC9F0">Importar librerías</span>

In [18]:
import gensim
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
from nltk.stem import WordNetLemmatizer, SnowballStemmer
from nltk.stem.porter import *
import numpy as np
np.random.seed(2018)
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /home/kamilo44/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

Vamos a escribir una función que lematiza y hace el preprocesamiento del conjunto de datos.

In [19]:
from nltk.stem import PorterStemmer 

def lemmatize_stemming(text):
    ps = PorterStemmer()
    return ps.stem(WordNetLemmatizer().lemmatize(text, pos='v'))

def preprocess(text):
    result = []
    for token in gensim.utils.simple_preprocess(text): #  gensim.utils.simple_preprocess tokeniza el texto
        if token not in gensim.parsing.preprocessing.STOPWORDS and len(token) > 3:
            result.append(lemmatize_stemming(token))
    return result

## <span style="color:#4361EE">Ejemplo: Un millón de titulares</span>

El conjunto de datos que usaremos es una lista de más de un millón de titulares de noticias publicadas durante un período de 15 años y se puede descargar de [Kaggle](https://www.kaggle.com/therohk/million-headlines/metadata).

Ejemplo adaptado de [Topic Modeling and Latent Dirichlet Allocation (LDA) in Python](https://towardsdatascience.com/topic-modeling-and-latent-dirichlet-allocation-in-python-9bf156893c24).

In [20]:
import pandas as pd
data = pd.read_csv('../Datos/Introduccion/abcnews-date-text.csv', on_bad_lines='skip');
data_text = data[['headline_text']]
data_text['index'] = data_text.index
documents = data_text

Veamos algunos datos:

In [21]:
print(len(documents))
print(documents[:5])

1244184
                                       headline_text  index
0  aba decides against community broadcasting lic...      0
1     act fire witnesses must be aware of defamation      1
2     a g calls for infrastructure protection summit      2
3           air nz staff in aust strike for pay rise      3
4      air nz strike to affect australian travellers      4


In [22]:
doc_sample = documents[documents['index'] == 4310].values[0][0]
print('documento original: ')
words = []
for word in doc_sample.split(' '):
    words.append(word)
print(words)
print('\n\n documento tokenizado y lematizado: ')
print(preprocess(doc_sample))

documento original: 
['ratepayers', 'group', 'wants', 'compulsory', 'local', 'govt', 'voting']


 documento tokenizado y lematizado: 
['ratepay', 'group', 'want', 'compulsori', 'local', 'govt', 'vote']


### <span style="color:#4CC9F0">Preprocesamiento de textos</span>


Vamos a procesar previamente los textos, guardando los resultados en el objeto `processed_docs`.

In [23]:
processed_docs = documents['headline_text'].map(preprocess)
processed_docs[:10]

0               [decid, commun, broadcast, licenc]
1                               [wit, awar, defam]
2           [call, infrastructur, protect, summit]
3                      [staff, aust, strike, rise]
4             [strike, affect, australian, travel]
5               [ambiti, olsson, win, tripl, jump]
6           [antic, delight, record, break, barca]
7    [aussi, qualifi, stosur, wast, memphi, match]
8            [aust, address, secur, council, iraq]
9                         [australia, lock, timet]
Name: headline_text, dtype: object

### <span style="color:#4CC9F0">Construcción del diccionario</span>

Creamos un diccionario a partir de `processed_docs` que contenga la cantidad de veces que aparece una palabra en el conjunto de entrenamiento.

In [24]:
dictionary = gensim.corpora.Dictionary(processed_docs)
count = 0
for k, v in dictionary.iteritems():
    print(k, v)
    count += 1
    if count > 10:
        break

0 broadcast
1 commun
2 decid
3 licenc
4 awar
5 defam
6 wit
7 call
8 infrastructur
9 protect
10 summit


Filtra los tokens que aparecen en menos de 15 documentos (número absoluto) o más de 0,5 documentos (fracción del tamaño total del corpus, no número absoluto). Después de los dos pasos anteriores, conserve solo los primeros 100.000 tokens más frecuentes.

In [25]:
dictionary.filter_extremes(no_below=15, no_above=0.5, keep_n=100000)

### <span style="color:#4CC9F0">Gensim doc2bow</span>

Para cada documento creamos un diccionario que informa cuantas palabras y cuantas veces aparecen esas palabras. 

Colocamos esto en el objeto `bow_corpus`, luego verifique nuestro documento seleccionado anteriormente.

In [26]:
bow_corpus = [dictionary.doc2bow(doc) for doc in processed_docs]
bow_corpus[4310]

[(162, 1), (240, 1), (292, 1), (589, 1), (839, 1), (3579, 1), (3580, 1)]

Esta es una vista preliminar de la bolsa de palabras del documento preprocesado.

In [27]:
bow_doc_4310 = bow_corpus[4310]
for i in range(len(bow_doc_4310)):
    print("Word {} (\"{}\") appears {} time.".format(bow_doc_4310[i][0], 
                                               dictionary[bow_doc_4310[i][0]], 
bow_doc_4310[i][1]))

Word 162 ("govt") appears 1 time.
Word 240 ("group") appears 1 time.
Word 292 ("vote") appears 1 time.
Word 589 ("local") appears 1 time.
Word 839 ("want") appears 1 time.
Word 3579 ("compulsori") appears 1 time.
Word 3580 ("ratepay") appears 1 time.


### <span style="color:#4CC9F0">TF-IDF</span>

Creamos un objeto modelo *tf-idf* usando `models.TfidfModel` a partir de `bow_corpus` y lo colocamos en `tfidf`, luego aplicamos la transformación a todo el corpus y lo llamamos `corpus_tfidf`. Finalmente, obtenemos una vista previa de las puntuaciones *TF-IDF* para nuestro primer documento.

In [28]:
from gensim import corpora, models
tfidf = models.TfidfModel(bow_corpus)
corpus_tfidf = tfidf[bow_corpus]
from pprint import pprint
for doc in corpus_tfidf:
    pprint(doc)
    break

[(0, 0.5854395661274623),
 (1, 0.383252758688686),
 (2, 0.50230806644029),
 (3, 0.5080004367704987)]


### <span style="color:#4CC9F0">Corriendo LDA usando la bolsa de palabras</span>

Vamos a entrener a nuestro modelo LDA usando `gensim.models.LdaMulticore` y guardándolo en `lda_model`.

In [29]:
lda_model = gensim.models.LdaMulticore(bow_corpus, num_topics=10, id2word=dictionary, passes=2, workers=2)

Para cada tópico, exploraremos las palabras que ocurren en ese tema y su peso relativo.

In [30]:
for idx, topic in lda_model.print_topics(-1):
    print('Topic: {} \nWords: {}'.format(idx, topic))

Topic: 0 
Words: 0.049*"coronaviru" + 0.037*"covid" + 0.025*"news" + 0.021*"market" + 0.017*"lockdown" + 0.017*"hospit" + 0.016*"morrison" + 0.015*"work" + 0.014*"fight" + 0.013*"student"
Topic: 1 
Words: 0.055*"polic" + 0.038*"case" + 0.027*"charg" + 0.027*"court" + 0.023*"death" + 0.022*"murder" + 0.019*"face" + 0.018*"restrict" + 0.015*"trial" + 0.014*"investig"
Topic: 2 
Words: 0.029*"live" + 0.023*"women" + 0.019*"victorian" + 0.019*"china" + 0.013*"need" + 0.012*"deal" + 0.012*"budget" + 0.012*"rural" + 0.011*"drum" + 0.011*"citi"
Topic: 3 
Words: 0.033*"vaccin" + 0.029*"home" + 0.024*"bushfir" + 0.020*"test" + 0.019*"covid" + 0.015*"australia" + 0.014*"countri" + 0.013*"support" + 0.012*"hotel" + 0.010*"trade"
Topic: 4 
Words: 0.037*"trump" + 0.036*"queensland" + 0.030*"victoria" + 0.019*"world" + 0.019*"australia" + 0.017*"coast" + 0.016*"south" + 0.015*"peopl" + 0.015*"canberra" + 0.013*"busi"
Topic: 5 
Words: 0.022*"elect" + 0.022*"nation" + 0.019*"say" + 0.019*"state" + 0.01

¿Es posible distinguir diferentes temas usando las palabras en cada tema y sus pesos correspondientes?

### <span style="color:#4CC9F0">Corriendo LDA usando TF-IDF</span>

In [31]:
lda_model_tfidf = gensim.models.LdaMulticore(corpus_tfidf, num_topics=10, id2word=dictionary, passes=2, workers=4)
for idx, topic in lda_model_tfidf.print_topics(-1):
    print('Topic: {} Word: {}'.format(idx, topic))

Topic: 0 Word: 0.017*"countri" + 0.012*"hour" + 0.011*"bushfir" + 0.009*"michael" + 0.008*"david" + 0.007*"coronaviru" + 0.007*"mark" + 0.006*"fire" + 0.006*"restrict" + 0.006*"facebook"
Topic: 1 Word: 0.020*"polic" + 0.018*"charg" + 0.015*"murder" + 0.012*"woman" + 0.011*"court" + 0.010*"shoot" + 0.010*"alleg" + 0.010*"arrest" + 0.010*"jail" + 0.009*"death"
Topic: 2 Word: 0.011*"australia" + 0.010*"morrison" + 0.009*"world" + 0.008*"final" + 0.007*"australian" + 0.007*"friday" + 0.007*"scott" + 0.006*"cricket" + 0.006*"leagu" + 0.006*"india"
Topic: 3 Word: 0.012*"market" + 0.008*"coronaviru" + 0.008*"sport" + 0.008*"share" + 0.008*"pandem" + 0.008*"financ" + 0.007*"search" + 0.007*"juli" + 0.006*"eas" + 0.006*"australian"
Topic: 4 Word: 0.018*"donald" + 0.009*"age" + 0.009*"monday" + 0.008*"wednesday" + 0.008*"sexual" + 0.008*"biden" + 0.007*"john" + 0.007*"insid" + 0.007*"hobart" + 0.006*"care"
Topic: 5 Word: 0.029*"covid" + 0.024*"coronaviru" + 0.016*"news" + 0.014*"vaccin" + 0.011*

Nuevamente, ¿podemos distinguir diferentes temas usando las palabras en cada tema y sus pesos correspondientes?

### <span style="color:#4CC9F0">Evaluación del desempeño clasificando el documento de muestra usando el modelo LDA de bolsa de palabras</span>

Comprobaremos donde se clasificaría nuestro documento de prueba.

In [32]:
processed_docs[4310]

['ratepay', 'group', 'want', 'compulsori', 'local', 'govt', 'vote']

In [33]:
for index, score in sorted(lda_model[bow_corpus[4310]], key=lambda tup: -1*tup[1]):
    print("\nScore: {}\t \nTopic: {}".format(score, lda_model.print_topic(index, 10)))


Score: 0.8874779939651489	 
Topic: 0.032*"govern" + 0.018*"plan" + 0.018*"border" + 0.014*"commun" + 0.014*"indigen" + 0.013*"water" + 0.013*"region" + 0.012*"concern" + 0.011*"council" + 0.011*"industri"

Score: 0.01250430103391409	 
Topic: 0.029*"live" + 0.023*"women" + 0.019*"victorian" + 0.019*"china" + 0.013*"need" + 0.012*"deal" + 0.012*"budget" + 0.012*"rural" + 0.011*"drum" + 0.011*"citi"

Score: 0.012502862140536308	 
Topic: 0.022*"elect" + 0.022*"nation" + 0.019*"say" + 0.019*"state" + 0.017*"minist" + 0.016*"call" + 0.014*"miss" + 0.013*"speak" + 0.012*"labor" + 0.012*"care"

Score: 0.012502385303378105	 
Topic: 0.022*"donald" + 0.018*"coronaviru" + 0.016*"year" + 0.016*"tasmania" + 0.014*"chang" + 0.013*"warn" + 0.012*"feder" + 0.012*"high" + 0.011*"travel" + 0.011*"tasmanian"

Score: 0.012502186931669712	 
Topic: 0.033*"vaccin" + 0.029*"home" + 0.024*"bushfir" + 0.020*"test" + 0.019*"covid" + 0.015*"australia" + 0.014*"countri" + 0.013*"support" + 0.012*"hotel" + 0.010*"t

Nuestro documento de prueba tiene la mayor probabilidad de ser parte del tema que asignó nuestro modelo, que es la clasificación precisa.


### <span style="color:#4CC9F0">Evaluación del desempeño clasificando el documento de muestra usando el modelo LDA TF-IDF.</span>

In [34]:
for index, score in sorted(lda_model_tfidf[bow_corpus[4310]], key=lambda tup: -1*tup[1]):
    print("\nScore: {}\t \nTopic: {}".format(score, lda_model_tfidf.print_topic(index, 10)))


Score: 0.8874601721763611	 
Topic: 0.029*"covid" + 0.024*"coronaviru" + 0.016*"news" + 0.014*"vaccin" + 0.011*"case" + 0.009*"lockdown" + 0.009*"rural" + 0.009*"drum" + 0.007*"victoria" + 0.006*"australia"

Score: 0.012507980689406395	 
Topic: 0.011*"elect" + 0.010*"govern" + 0.009*"health" + 0.007*"labor" + 0.006*"state" + 0.006*"thursday" + 0.006*"liber" + 0.006*"mental" + 0.006*"say" + 0.006*"daniel"

Score: 0.012505261227488518	 
Topic: 0.009*"live" + 0.008*"christma" + 0.007*"drought" + 0.006*"cattl" + 0.006*"farmer" + 0.006*"histori" + 0.006*"export" + 0.006*"price" + 0.005*"coal" + 0.005*"america"

Score: 0.01250474900007248	 
Topic: 0.012*"market" + 0.008*"coronaviru" + 0.008*"sport" + 0.008*"share" + 0.008*"pandem" + 0.008*"financ" + 0.007*"search" + 0.007*"juli" + 0.006*"eas" + 0.006*"australian"

Score: 0.012504655867815018	 
Topic: 0.013*"royal" + 0.011*"commiss" + 0.011*"stori" + 0.009*"extend" + 0.008*"mother" + 0.007*"octob" + 0.007*"rollout" + 0.006*"andrew" + 0.006*"i

Nuestro documento de prueba tiene la mayor probabilidad de ser parte del tema que asignó nuestro modelo, que es la clasificación precisa.

## <span style="color:#4361EE">Prueba del modelo con un documento no visto antes.</span>

In [35]:
unseen_document = 'How a Pentagon deal became an identity crisis for Google'
bow_vector = dictionary.doc2bow(preprocess(unseen_document))
for index, score in sorted(lda_model[bow_vector], key=lambda tup: -1*tup[1]):
    print("Score: {}\t Topic: {}".format(score, lda_model.print_topic(index, 5)))


Score: 0.3499571681022644	 Topic: 0.049*"coronaviru" + 0.037*"covid" + 0.025*"news" + 0.021*"market" + 0.017*"lockdown"
Score: 0.18340088427066803	 Topic: 0.029*"live" + 0.023*"women" + 0.019*"victorian" + 0.019*"china" + 0.013*"need"
Score: 0.1833355724811554	 Topic: 0.044*"australia" + 0.021*"open" + 0.014*"australian" + 0.014*"final" + 0.013*"time"
Score: 0.1832621544599533	 Topic: 0.022*"kill" + 0.020*"crash" + 0.019*"attack" + 0.018*"die" + 0.015*"leav"
Score: 0.016674043610692024	 Topic: 0.055*"polic" + 0.038*"case" + 0.027*"charg" + 0.027*"court" + 0.023*"death"
Score: 0.016674043610692024	 Topic: 0.033*"vaccin" + 0.029*"home" + 0.024*"bushfir" + 0.020*"test" + 0.019*"covid"
Score: 0.016674043610692024	 Topic: 0.037*"trump" + 0.036*"queensland" + 0.030*"victoria" + 0.019*"world" + 0.019*"australia"
Score: 0.016674043610692024	 Topic: 0.022*"elect" + 0.022*"nation" + 0.019*"say" + 0.019*"state" + 0.017*"minist"
Score: 0.016674043610692024	 Topic: 0.022*"donald" + 0.018*"coronavir

## <span style="color:#4361EE">Referencias</span> 

1. [Tf-idf](https://es.wikipedia.org/wiki/Tf-idf)
2. [Tokenize text using NLTK in python](https://www.geeksforgeeks.org/tokenize-text-using-nltk-python/?ref=rp)
3. [Stemming of words in Natural Language Processing, what is it?](https://towardsdatascience.com/stemming-of-words-in-natural-language-processing-what-is-it-41a33e8996e2#Over%20stemming)
4. [Topic Modeling and Latent Dirichlet Allocation (LDA) in Python](https://towardsdatascience.com/topic-modeling-and-latent-dirichlet-allocation-in-python-9bf156893c24)
5. [Latent Dirichlet Allocation](https://www.jmlr.org/papers/volume3/blei03a/blei03a.pdf)