In [1]:
#Habilitar intellisense
%config IPCompleter.greedy=True

# Procesamiento de Lenguaje Natural (NLP)
__[Definición](https://es.wikipedia.org/wiki/Procesamiento_de_lenguajes_naturales)__

Hacer que la computadora pueden entender y responder en lenguage natural.

## Algunas aplicaciones

### Extracción de palabras clave (Keyword extraction)
Identificación automática de términos que mejor describan el tema de un documento

### Extracción de entidades (Named-Entity Recognition)
Busca localizar en el texto entidades como personas, organizaciones, lugares, expresiones de tiempo y cantidades.

### Clasificación de texto
Asignar una categoría a un documento:

- Detección de Spam
- Sentiment Analysis
- Priorización de contenido (mails, sistema de alearta temprana)

### Resumen automático (Text summarization)
Encontrar las oraciones más informativas en un documento.

### Topic modeling
¿Cuál es el tema de un (conjunto) de documento(s)?

### Traducción automática (Machine translation)


## Tareas/Problemas 
### Tokenización
Dividir el texto en palabras u oraciones. Necesario como primer paso para obtener una representación del texto con la cual se puede realizar el procesamiento.

![Tokenización](01_tokenization.png)

### Eliminar palabras de parada (stopwords)
Eliminar palabras que no le agregan significado al texto (artículos, conjunciones, preposiciones, etc). Necesario cuando se requiera reducir el vocabulario del problema y evitar al mismo tiempo perder la menor cantidad de información posible.

![Tokenización](02_remove_stopwords.png)

**Referencias**

__[Cómo eliminar las palabras de parada usando nltk o python](https://www.pythond.com/21143/como-eliminar-las-palabras-de-parada-usando-nltk-o-python.html)__

__[Proyecto stop-words](https://pypi.org/project/stop-words/)__

__[Proyecto node-nltk-stopwords](https://github.com/xiamx/node-nltk-stopwords/blob/master/data/stopwords/spanish)__

__[Stopwords @ ranks.nl](https://www.ranks.nl/stopwords)__

###  Lematización **
Eliminar las variaciones de la misma palabra para tratar las variaciones como una sola entidad. (close, closed, closing; caminaba, caminando, caminar). Al igual que la eliminación de palabras de parada, se emplea para reducir la cantidad de elementos en el vocabulario de un problema.

**Referencias**

__[Lematización](https://es.wikipedia.org/wiki/Lematizaci%C3%B3n)__

__[Stemmer-es, Un lematizador de español](http://stemmer-es.sourceforge.net/)__


### Identificar n-gramas
Grupos de N palabras que están siempre juntas (Nueva York, Santa Cruz) y que deben tratarse como una sola entidad/palabra.

**Referencias**

__[Modelo bolsa de palabras](https://es.wikipedia.org/wiki/Modelo_bolsa_de_palabras)__

__[N-grama](https://es.wikipedia.org/wiki/N-grama)__

### Desambiguación lingüística (Word Sense Disambiguation)**
Asignar significado en base al contexto. Con qué sentido se usa una palabra? En el caso de la __[polisemia](https://es.wikipedia.org/wiki/Polisemia)__, cuál de los significados es el más apropiado dado el contexto?

Ejemplos:

- Placeres de la carne.
- La carne está sabrosa.


- Puso dos velas a San Pedro.
- Los egipcios fueron los primeros constructores de barcos de vela de los que se tiene noticia.

El desarrollo de algoritmos para reproducir esta capacidad humana (desambiguar el significado) a menudo puede ser una  __[tarea muy difícil](https://es.wikipedia.org/wiki/Problema_no_resuelto)__. En la frase "La carne está sabrosa" hay también cierto contenido implícito: se asume que estamos hablando de carne cocida.

**Referencias**

__[Desambiguación lingüística](https://es.wikipedia.org/wiki/Desambiguaci%C3%B3n_ling%C3%BC%C3%ADstica)__


Recursos lingüísticos

__[WordNet](https://es.wikipedia.org/wiki/WordNet)__

__[Spanish WordNet 3.0](http://timm.ujaen.es/recursos/spanish-wordnet-3-0/)__


Estrategias 

__[Algoritmo Lesk](https://en.wikipedia.org/wiki/Lesk_algorithm)__

__[Desambiguación del Sentido de las Palabras](http://dpinto.cs.buap.mx/pln/Autumn2010/wsd.pdf)__

__[Estudio sobre métodos tipo Lesk usados para la desambiguación de sentidos de palabras](https://pdfs.semanticscholar.org/cd5f/5dd14c126325a81280407ddc2616f3704fca.pdf)__

__[Supervised Word Sense Disambiguation: Facing Current Challenges](http://www.sepln.org/sites/default/files/monografia/archivos/2018-10/monografiaDavid.pdf)__

###  Etiquetado gramatical (Part of Speech Tagging) **
Como parte de la desambiguación, se suele realizar la tarea de asignar una categoría a cada palabra: sujeto, nombre, verbo, adjetivo. 

**Referencias**

__[Etiquetado gramatical](https://es.wikipedia.org/wiki/Etiquetado_gramatical)__

__[Using Wikicorpus & NLTK to build a Spanish part-of-speech tagger](https://www.cnts.ua.ac.be/pages/using-wikicorpus-nltk-to-build-a-spanish-part-of-speech-tagger)__

__[Choosing a Spanish Part-of-Speech tagger for a lexically sensitive task](https://www.researchgate.net/publication/282828110_Choosing_a_Spanish_Part-of-Speech_tagger_for_a_lexically_sensitive_task)__

# Enfoques
Basado en reglas (sistemas expertos)
Aprendizaje Automático (capturar patrones en datos históricos)

Ejemplo: Detección de Spam, Sentiment Analysis

# Representaciones
Dependiendo del tipo de problema NLP, el texto deberá transformarse en una representación adecuada para las herramientas y algoritmos empleandos para abordar el problema. Una de las más usadas es crear representaciones numéricas. Esencialmente, se trata de convertir texto en un vector/arreglo de números.

## Feature Vectors

Representaciones numéricas basados en conteos y frecuencias

### One-hot encoding (tuplas de palabras)
Se crea un vocabulario con todas la palabras de todos los documentos. Y cada documento se representa como una arreglo donde se indica la presencia o ausencia de una palabra en el documento.
![one-hot-encoding](one-hot-encoding.png)

- Cada documento se representa con uno arreglo tan grande como todo el vocabulario! :(
- Se pierde el órden y la frequencia de las palabras.
- No captura relaciones entre palabras.
- Su mayor ventaja es la simplicidad.

### Basadas en frecuencias
**Conteos**

El vector de cada documento contiene la cantidad de veces que aparece una palabra (no solo se marca su presencia/ausencia)

**TF-IDF (Term frequency, inverse document frequency)**

TF - La frecuencia de una palabra en un documento.
IDF - Mientras en más documentos aparece menos significativa es la palabra en los documentos en las aparece.

Captura la frequencia de las palabras en cada documento y en el contenido formado por el conjunto de los documentos.

![tf-idf](tf-idf.png)

El valor de TF-IDF para cada palabra aumenta por su frecuencia en un documento pero disminuye si al mismo tiempo aparece 
todo el conjunto de documentos (es un término común).

La idea es capturar la importancia de las palabras en los documentos. No captura las relaciones entre las palabras.

**Co-ocurrencias**

Se representa con una matrix en la se indica el número de veces que dos palabras aparecen en la misma "ventana" de 
co-ocurrencia (nro de palabras a izquierda, derecha o ambos lados cercanas a otra).

Trata de capturar la relaciones entre las palabras.


### Word embeddings

Asociación de palabras con códigos numéricos que capturan su similitud semánticas. Por ejemplo, Londres tendrá un valor numérico cercano a París porque ambas palabras tiene significado parecido (ambas son ciudades importantes de europa); de la misma manera, la distancia entre las palabras "varón" y "mujer" sería similar a la distancia que existe entre "rey" y "reina".

Son generadas a partir de grandes cuerpos de texto por algoritmos basados en redes neuronales, reducción de la dimensionalidad de matrices de co-ocurrencia y modelos probabilísticos.

https://en.wikipedia.org/wiki/Word2vec

https://github.com/aitoralmeida/spanish_word2vec