# <span style="color:green"><center>Diplomado en Inteligencia Artificial y Aprendizaje Profundo</center></span>

# <span style="color:red"><center>Introducción al Procesamiento Superficial de Textos</center></span>

<center>Latent Dirichlet Allocation - LDA</center>

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Análisis superficial de textos](#Análisis-superficial-de-textos)
* [Terminología general](#Terminología-general)
* [Preprocesamiento de datos textuales](#Preprocesamiento-de-datos-textuales)
* [TF-IDF](#TF-IDF)
* [Semántica latente](#Semántica-latente)
* [Modelos generativos: Latent Dirichlet Allocation](#Modelos-generativos:-Latent-Dirichlet-Allocation)
* [Ejemplo:Un millón de titulares](#Ejemplo:-Un-millón-de-titulares)


## <span style="color:blue">Introducción</span>

Los humanos nos  comunicamos utilizando lenguajes naturales. Los lenguajes naturales difieren de los lenguajes de programación en que éstos últimos siguen reglas sintácticas y semánticas extrictas, mientras que los primeros por su complejidad dependen del contexto.


En general el análisis de textos tiene dos grandes subáreas: el análisis superficial de textos y el procesamiento del lenguaje natural.

En esta lección nos ocupamos del análisis superficial de textos.

## <span style="color:blue">Análisis superficial de textos</span>

Esta subárea se desarrolló primero, debido a que los problemas asociados al lenguaje natural en este caso son mas simples. Se trata de técnicas en la cuales se busca encontar los tópicos subayacentes en los texto. En este sentido, son modelos de tipo no supervisado y consecuencia basados en técnicas de clasificación automática. 

Estas técnicas están orientadas a detectar clusters de palabras y documentos en grandes corpus de datos.

Un documento es en este caso una unidad distinguible de otras en el corpus. Por ejemplo una respuesta abierta en una encuesta, un comentario en una revisión, un abstract de un documento, etc. 

Luego de omitidos términos que se considera que no aportan a la detección de tópicos (temáticas), usualmente conocidos como *palabras vacías* (`stop words`) y de otros procesos de preprocesamiento como lematización, recorte (`steeming`),  es común construir una matriz denominada documento-témino (`dtm`).

Esta matriz `dtm` representa por las filas a cada uno de los documentos individuales del corpus y por las columnas a cada uno de los términos conservados en el análisis. Cada posición de la matriz contiene el número de veces que un término aparece en el documento. En algunos casos esta es una matriz binaria, en cuyo caso la dtm indica cuando un término aparece en un documento.

La  `dtm` es la base de las técnicas conocidas genéricamente como *bolsa de palabras* (`word-bag`). El nombre deriva del hecho de que al organizar la dtm, el contexto de las palabras en cada documento se pierde.

## <span style="color:blue">Terminología general</span>

### Palabras o términos

La palabra es la unidad mínima de información  en el trabajo con lenguaje natural. 

Desde una perspectiva muy moderna las palabras son objetos que puede pensarse como puntos que están en un espacio de alta dimensión, de tal manera que, puntos cercanos en algún sentido de distancia corresponde a palabras que tienen una cercanía dentro de un universo de palabras considerado.

La siguiente imagen corresponde a uno conjunto de palabras de astrofísica, consideradas en un estudio de resumenes de artículos científicos. Este es un gráfico obtenido luego de un procesamiento como lo que mostramos hoy, desarrollado por Montenegro y Montenegro usando una técnica de análisis basada en la teoría de respuesta al ítem multidimensional (TRIM).

En este documeneto las palabaras se denotarán como $w_i, i =1,2,\ldots,K$.

<figure>
<center>
<img src="../Imagenes/cluster_kmeans_10.png" width="700" height="600" align="center"/>
</center>
<figcaption>
<p style="text-align:center">Areas de conocimiento Astrofísica, a partir de artículos científicos</p>
</figcaption>
</figure>
Fuente: Alvaro Montenegro

### Documentos

Los documentos son los sujetos en los análisis textual superficial. Suponemos que se tiene un conjunto de documentos individuales, cada uno de los cuales se denotará por $\mathbf{w}$. Se considera que un documento es una sucesión  de $N$ palabras. Así se tiene que un documento se denota como $\mathbf{w} = \{w_1,\ldots,w_N \}$.

### Corpus

Un corpus es una colección de documentos en un problema particular.

### Tópicos

Los tópicos son áreas latentes a las cuales están asociados tanto las palabras como los documentos. Uno de los propósitos principales del análisis de textos es descubrir o poner en evidencia tales tópicos.

La figura anterior muestra por ejemplo la presencia de 10 tópicos en el conjunto de documentos de astrofísica analizados.

## <span style="color:blue">Preprocesamiento de datos textuales</span> 

En lo que sigue, vamos a utilizar los términos token y tokenizar, que aún no son adoptados por la Real Academia de la Lengua, pero que creemos pronto lo serán como tantos otros provenientes del inglés debido a su enorme utilización actual, por razón de los desarrollos científicos y tecnológicos. 

Realizaremos los siguientes pasos:
    
- **Tokenización**: divide el texto en oraciones y las oraciones en palabras. Ponga las palabras en minúsculas y elimine la puntuación.
- Se **eliminan las palabras que tienen menos de 3 caracteres**.
- Se eliminan todas las **palabras vacías**.
- Las palabras se **lematizan**: las palabras en tercera persona se cambian a primera persona y los verbos en tiempo pasado y futuro se cambian a presente.
- Las palabras se recortan (**stemming**): las palabras se reducen a su forma raíz.

Usaremos  las librerías *gensim* y *nltk* para hacer este trabajo.

### Tokenización

Algunos términos que se utilizarán con frecuencia son:

- `Corpus`: cuerpo del texto, singular. Corpora es el plural de corpus.
- `Léxico`: palabras y sus significados.
- `Token`: cada *entidad* que es parte de lo que sea que se dividió según las reglas que establecemos apara el análisis. Por ejemplo, cada palabra es un token cuando una oración se tokeniza en palabras. Cada oración también puede ser un token, si ha convertido las oraciones en un párrafo.

Básicamente, tokenizar implica dividir oraciones y palabras del cuerpo del texto.

Veá el siguiente ejemplo tomado de [Geek for Geeks](https://www.geeksforgeeks.org/tokenize-text-using-nltk-python/?ref=rp). Usamos la librería *nltk*.

### Importa recursos de `nltk`

In [1]:
# import the existing word and sentence tokenizing  
# libraries 
import nltk


# tokenizadores
from nltk.tokenize import sent_tokenize, word_tokenize 
from nltk.tokenize import TweetTokenizer

# diccionarios especiales para puntuación y palabras vacias
nltk.download('punkt') # Manejo de puntuación
nltk.download('stopwords')

# wordnet
nltk.download('wordnet')

from nltk.corpus import stopwords

# lematizador basado en WordNet de nltk
from nltk.stem import WordNetLemmatizer 

# steemer de nltk. Raiz de las palabras
#from nltk.stem import SnowballStemmer
from nltk.stem import PorterStemmer 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\grand\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\grand\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\grand\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


### Importa recursos de `gensim`

In [3]:
import gensim
from gensim.parsing.preprocessing import STOPWORDS

In [4]:
import pandas as pd

In [5]:
df_reviews = pd.read_csv('restaurant_reviews.csv')

### Tokenizar tweets usando  los parámetros `strip_handles` y `reduce_len`

In [7]:
tknzr = TweetTokenizer(strip_handles=True, reduce_len=True)
reviews_token = []
reviews_token.clear()
for i in df_reviews["Reviews"][:]:
    review = ''.join(i)
    result = tknzr.tokenize(review)
    reviews_token.append(result)

###  Cambiar texto a minúsculas

In [8]:
for k in range(len(reviews_token)): 
    reviews_token[k][:] = [j.lower() for j in reviews_token[k]]


In [9]:
print(reviews_token)

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



### Remueve carateres especiales - expresiones regulares

Las expresiones regulares son objetos matemáticos que permiten interpretar trozos de texto. Son claves en la construcción de los lenguajes de programación. Aquí vamos a usar la librería [re](https://docs.python.org/3/library/re.html) de Python creada para el manejo de expresiones regulares. Les sugerimos este [tutorial sobre re en Python](https://www.w3schools.com/python/python_regex.asp) para aprender a manejar la librería re.

Usaremos aquí para eliminar algunos símbolos: los números y los paréntesis por ejemplo. No siempre es el caso.

In [10]:
import re
# digitos

for k in range(len(reviews_token)): 
    reviews_token[k][:] = [re.sub(r'\d+', '',j) for j in reviews_token[k]]
# parentecis
for k in range(len(reviews_token)): 
    reviews_token[k][:] = [re.sub(r'[()]', '',j) for j in reviews_token[k]]



In [230]:
print(reviews_token)

[['tuve', 'la', 'experiencia', 'de', 'ir', 'almozar', 'a', 'este', 'típico', 'restaurante', 'colombiano', 'en', 'el', 'centro', 'de', 'bogota', '.', 'sus', 'platos', 'están', 'deliciosos', 'y', 'además', 'la', 'mezcla', 'de', 'sabores', 'de', 'esta', 'cultura', 'no', 'se', 'puede', 'dejar', 'de', 'probar', '.'], ['el', 'restaurante', 'es', 'agradable', ',', 'antiguo', 'y', 'familiar', '.', 'en', 'lo', 'personal', 'me', 'agradó', 'bastante', ',', 'el', 'servicio', 'es', 'bueno', 'y', 'su', 'comida', 'típica', 'colombiana', 'está', 'muy', 'bien', 'lograda', '.', 'es', 'un', 'clásico', 'del', 'tour', 'gastronómico', 'de', 'bogotá', ',', 'recomendado', '.']]


### Remueve palabras de longitud menor o igual a tres

In [11]:
reviews_token_cm = []
reviews_token_cm.clear()
for k in range(len(reviews_token)): 
    rev_list = []
    rev_list.clear()
    for i in reviews_token[k]:       
        if len(i) > 3:
            rev_list.append(i)
    reviews_token_cm.append(rev_list)

In [232]:
print(reviews_token_cm)

[['tuve', 'experiencia', 'almozar', 'este', 'típico', 'restaurante', 'colombiano', 'centro', 'bogota', 'platos', 'están', 'deliciosos', 'además', 'mezcla', 'sabores', 'esta', 'cultura', 'puede', 'dejar', 'probar'], ['restaurante', 'agradable', 'antiguo', 'familiar', 'personal', 'agradó', 'bastante', 'servicio', 'bueno', 'comida', 'típica', 'colombiana', 'está', 'bien', 'lograda', 'clásico', 'tour', 'gastronómico', 'bogotá', 'recomendado']]


###  Palabras vacias (stop words)

Las palabras varias o stop words son palabras que en el lenguaje común se considera que no aportan al contenido semántico de los textos. En la técnica de bolsa de palabras son omitidos, debido a que causan clasificaciones confusas. En realidad el concepto de palabras vacía depende del contesto de utlización de las técnicas. 

El siguiente ejemplo muestra el diccionario de palabras vacías del inglés contenidas en la librería `gensim`.

En la librería *nltk* el diciconario de palabras vacías del inglés es actualmente:

### Nota

Observe que los dos conjuntos de palabara vacías son distintos.

Como ejemplo vamos quitar la palabras vacias del objeto text tokenizado definido arriba

### Palabras vacías-Español nltk

In [12]:
palabrasVacias = set(stopwords.words('spanish'))
#
print(palabrasVacias)

{'hube', 'sentidos', 'estarías', 'tengamos', 'teníamos', 'estuviera', 'tus', 'esté', 'tendrían', 'tuya', 'hayamos', 'tuvieras', 'hubiéramos', 'nuestras', 'habido', 'estabais', 'estuvieron', 'teniendo', 'estar', 'hubieras', 'los', 'no', 'estaríais', 'tuvierais', 'pero', 'algunas', 'mi', 'habidos', 'esos', 'fuéramos', 'vosotros', 'algo', 'estábamos', 'sois', 'será', 'y', 'algunos', 'hubieran', 'suyos', 'durante', 'antes', 'hubiese', 'tuviera', 'nuestra', 'tuvimos', 'tendrías', 'hubisteis', 'ti', 'nuestros', 'estos', 'serían', 'había', 'era', 'estaban', 'vuestro', 'fue', 'hubiera', 'habríais', 'muchos', 'mucho', 'e', 'estás', 'desde', 'habidas', 'tuyas', 'estado', 'ya', 'tuviésemos', 'estéis', 'habíamos', 'sentida', 'habré', 'habéis', 'habrán', 'tuviéramos', 'al', 'ante', 'estamos', 'habían', 'sería', 'estés', 'todos', 'teníais', 'entre', 'haya', 'estarás', 'muy', 'fuésemos', 'otros', 'tengo', 'tenías', 'estuvieseis', 'mis', 'estarán', 'fueses', 'sentidas', 'siente', 'os', 'hayas', 'otra'

### Vamos a quitar las palabras vacías del ejemplo usando nltk

In [234]:
print(reviews_token_cm)

[['tuve', 'experiencia', 'almozar', 'este', 'típico', 'restaurante', 'colombiano', 'centro', 'bogota', 'platos', 'están', 'deliciosos', 'además', 'mezcla', 'sabores', 'esta', 'cultura', 'puede', 'dejar', 'probar'], ['restaurante', 'agradable', 'antiguo', 'familiar', 'personal', 'agradó', 'bastante', 'servicio', 'bueno', 'comida', 'típica', 'colombiana', 'está', 'bien', 'lograda', 'clásico', 'tour', 'gastronómico', 'bogotá', 'recomendado']]


In [14]:
reviews_clean = []
reviews_clean.clear()
for k in range(len(reviews_token_cm)):
    rev_list = []
    rev_list.clear()
    for i in reviews_token_cm[k]:     
        if i not in palabrasVacias:
            rev_list.append(i)
    reviews_clean.append(rev_list)
 


In [34]:
reviews_str = []
for i in reviews_clean:
    strA = " ".join(i)
    reviews_str.append(strA)

In [35]:
#print(reviews_clean[:20])


In [31]:
df_reviews["reviews_limpios"] = pd.Series(reviews_str, dtype="O")

In [32]:
df_reviews.head(5)

Unnamed: 0.1,Unnamed: 0,Nombre,Título,Fecha,Rating,Reviews,Tipo,reviews_limpios
0,0,Casa Vieja Restaurante,Comida Tiquita en un ambiente muy colombiano,15 de octubre de 2019,50,Tuve la experiencia de ir almozar a este típic...,"Colombiana, Sudamericana",experiencia almozar típico restaurante colombi...
1,1,Casa Vieja Restaurante,Me gustó!!,22 de octubre de 2018,40,"El restaurante es agradable, antiguo y familia...","Colombiana, Sudamericana",restaurante agradable antiguo familiar persona...
2,2,Casa Vieja Restaurante,Restaurante tradicional frente al Hotel Tequen...,18 de septiembre de 2018,40,"Llegamos tarde como a las 17 horas, ya no habí...","Colombiana, Sudamericana",llegamos tarde horas público atendieron bien c...
3,3,Casa Vieja Restaurante,QUE GRATO VOLVER,4 de agosto de 2016,50,Hace años no disfrutaba de un almuerzo en este...,"Colombiana, Sudamericana",hace años disfrutaba almuerzo agradable restau...
4,4,Casa Vieja Restaurante,Un clásico que no defrauda,1 de agosto de 2016,40,Lugar típico de cocina colombiana que uno no p...,"Colombiana, Sudamericana",lugar típico cocina colombiana puede dejar vis...


In [33]:
df_reviews.to_csv('restaurant_reviews_1.csv')