# Introducción al Procesamiento de Lenguaje Natural (NLP)

### `El contenido de ésta notebook les va a servir para las clases 33 y 34.`

NLP es un subcampo de la informática y la inteligencia artificial relacionadas con las interacciones entre las computadoras y los lenguajes humanos (naturales). Se utiliza para aplicar algoritmos de aprendizaje automático al texto y al habla.

Por ejemplo, podemos usar NLP para crear sistemas como reconocimiento de voz, resumen de documentos, traducción automática, detección de correo no deseado, reconocimiento de entidades con nombre, respuesta a preguntas, autocompletado, tipeo predictivo, etc.

Hoy en día, la mayoría de nosotros tenemos teléfonos inteligentes que tienen reconocimiento de voz. Estos teléfonos inteligentes usan NLP para entender lo que se dice.

## Introducción a la librería NLTK para Python

`NLTK` (Natural Language Toolkit) es una plataforma líder para crear programas de Python para trabajar con datos de lenguaje humano. Proporciona interfaces fáciles de usar para muchos corpus (corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua) y recursos léxicos. Además, contiene un conjunto de bibliotecas de procesamiento de texto para clasificación, tokenización, derivación, etiquetado, análisis y razonamiento semántico. Lo mejor de todo es que NLTK es un proyecto gratuito, de código abierto y dirigido por la comunidad.

Utilizaremos este kit de herramientas para mostrar algunos conceptos básicos del campo del procesamiento del lenguaje natural.

## ¿Cómo instalo `nltk`?

<img src='https://media.giphy.com/media/U1aN4HTfJ2SmgB2BBK/giphy.gif'>

### La respuesta es simple...

<img src='https://i.pinimg.com/236x/5f/57/8f/5f578f04745bb9de96c703738b4b700a.jpg'>

---
## Los fundamentos de NLP
En este notebook, cubriremos los siguientes temas:

* Tokenización de oraciones (`Clase 33`)
* Tokenización de palabras (`Clase 33`)
* Lematización de Texto y Stemming (`Clase 33`)
* Stops Words (`Clase 33`)
* Regex (`Extra`)
* Vectorización: Bag of Words (`Clase 33`)
* TF-IDF (`Clase 34`)

---

## 1. Tokenización de oraciones
La tokenización de oraciones (también llamada segmentación de oraciones) es el problema de dividir una cadena de lenguaje escrito en sus oraciones componentes. La idea aquí parece muy simple. En muchos idiomas, podemos dividir las oraciones cada vez que vemos un signo de puntuación.

Sin embargo, este problema no es trivial debido al uso del carácter de punto final para las abreviaturas. Al procesar texto sin formato, las tablas de abreviaturas que contienen puntos pueden ayudarnos a evitar la asignación incorrecta de los límites de las oraciones. En muchos casos, utilizamos bibliotecas para hacer ese trabajo por nosotros, así que no se preocupen demasiado por los detalles por ahora.

### Ejemplo:
Veamos un texto sobre un famoso juego de mesa llamado backgammon.

`Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.`

Para aplicar una tokenización de oración con NLTK podemos usar la función `nltk.sent_tokenize`

In [1]:
import nltk
#nltk.download('punkt') #descomentar para descargar datos que usan las funciones de nltk

text = "Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice."
sentences = nltk.sent_tokenize(text)

print("TEXTO ORIGINAL:")
print(text)
print()

print("ORACIONES:")
for sentence in sentences:
    print(sentence)
    print()

TEXTO ORIGINAL:
Backgammon is one of the oldest known board games. Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East. It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.

ORACIONES:
Backgammon is one of the oldest known board games.

Its history can be traced back nearly 5,000 years to archeological discoveries in the Middle East.

It is a two player game where each player has fifteen checkers which move between twenty-four points according to the roll of two dice.



## 2. Tokenización de palabras

La tokenización de palabras (también llamada segmentación de palabras) es el problema de dividir una cadena de lenguaje escrito en sus palabras componentes. En inglés y en muchos otros idiomas que usan alguna forma de alfabeto latino, el espacio es una buena aproximación de un divisor de palabras.

Sin embargo, todavía podemos tener problemas si solo dividimos por espacio para lograr los resultados deseados. Algunos sustantivos compuestos en inglés se escriben de forma variable y, a veces, contienen un espacio. En la mayoría de los casos, utilizamos una biblioteca para lograr los resultados deseados, así que nuevamente no se preocupe demasiado por los detalles.

### Ejemplo:
Usemos las oraciones del paso anterior y veamos cómo podemos aplicar la tokenización de palabras en ellas. Podemos usar la función nltk.word_tokenize.

In [2]:
print("PALABRAS:")
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(words)
    print()

PALABRAS:
['Backgammon', 'is', 'one', 'of', 'the', 'oldest', 'known', 'board', 'games', '.']

['Its', 'history', 'can', 'be', 'traced', 'back', 'nearly', '5,000', 'years', 'to', 'archeological', 'discoveries', 'in', 'the', 'Middle', 'East', '.']

['It', 'is', 'a', 'two', 'player', 'game', 'where', 'each', 'player', 'has', 'fifteen', 'checkers', 'which', 'move', 'between', 'twenty-four', 'points', 'according', 'to', 'the', 'roll', 'of', 'two', 'dice', '.']



## 3. Lematización de Texto y Stemming

Por razones gramaticales, los documentos pueden contener diferentes formas de una palabra, como `anda`, `andar`, `andando`. Además, a veces tenemos palabras relacionadas con un significado similar, como `nación`, `nacionalidad`, `nacionalista`.

El objetivo del Stemming (derivación) y la lematización es reducir las formas flexivas y, a veces, las formas derivadas de una palabra a una forma básica común.

[Fuente](https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html)

### Ejemplos:

* `am, are, is` => `be`
* `dog, dogs, dog’s, dogs’` => `dog`

El resultado de esta asignación aplicada en un texto será algo así:

`the boy’s dogs are different sizes => the boy dog be differ size`

El stemming y la lematización son casos especiales de `normalización`. Sin embargo, son diferentes entre sí.
El stemming generalmente se refiere a un proceso heurístico crudo que corta los extremos de las palabras con la esperanza de lograr cumplir con este objetivo la mayor parte del tiempo, y a menudo incluye la eliminación de afijos derivados.

La lematización generalmente se refiere a hacer las cosas correctamente con el uso de un vocabulario y un análisis morfológico de las palabras, normalmente con el objetivo de eliminar solo las terminaciones de inflexión y devolver la forma básica o de diccionario de una palabra, que se conoce como lema.

[Fuente](https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html)

La diferencia es que un `stemmer opera sin conocimiento del contexto` y, por lo tanto, no puede entender la diferencia entre palabras que tienen un significado diferente dependiendo de una parte del discurso. Pero los stemmers también tienen algunas ventajas, son más fáciles de implementar y generalmente funcionan más rápido. Además, la "precisión" reducida puede no ser importante para algunas aplicaciones.

### Ejemplos:

La palabra `better` tiene `good` como lema. Este enlace se pierde al derivar, ya que requiere una búsqueda en el diccionario.

La palabra `play` es la forma básica de la palabra `playing` y, por lo tanto, esto se corresponde tanto con la derivación como con la lematización.

La palabra `meeting` puede ser la forma básica de un sustantivo o la forma de un verbo (`to meet`) según el contexto; por ejemplo, `in our last meeting` o `We are meeting again tomorrow`. A diferencia de la derivación, la lematización intenta seleccionar el lema correcto según el contexto.

In [3]:
#nltk.download('wordnet') #descomentar para descargar datos que usan las funciones de nltk

from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.corpus import wordnet

def compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word, pos):
    """
    Print the results of stemmind and lemmitization using the passed stemmer, lemmatizer, word and pos (part of speech)
    """
    print("Stemmer:", stemmer.stem(word))
    print("Lemmatizer:", lemmatizer.lemmatize(word, pos))
    print()

lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()
print("Original: seen")
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "seen", pos = wordnet.VERB)

print("Original: drove")
compare_stemmer_and_lemmatizer(stemmer, lemmatizer, word = "drove", pos = wordnet.VERB)

Original: seen
Stemmer: seen
Lemmatizer: see

Original: drove
Stemmer: drove
Lemmatizer: drive



## 4. Stop Words

Las palabras de detención son palabras que se filtran antes o después del procesamiento del texto. Al aplicar el aprendizaje automático al texto, estas palabras pueden agregar mucho ruido. Por eso queremos eliminar estas palabras irrelevantes.

Las palabras de detención generalmente se refieren a las palabras más comunes como “y”, “la”, “a” en un idioma, pero no existe una lista universal única de palabras de detención. La lista de palabras de detención puede cambiar según su aplicación.

La herramienta NLTK tiene una lista predefinida de palabras vacías que se refieren a las palabras más comunes. Si lo usa por primera vez, debe descargar las palabras de detención. Una vez que completamos la descarga, podemos cargar el paquete de palabras de parada de nltk.corpus y usarlo para cargar las palabras de parada.

In [4]:
#nltk.download("stopwords") #descomentar para descargar datos que usan las funciones de nltk

from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

Veamos cómo podemos eliminar las palabras vacías de una oración.

In [5]:
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


Si todavía no estás familiarizado con la lista de comprensiones en Python. Aquí hay otra forma de lograr el mismo resultado.

In [6]:
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = []
for word in words:
    if word not in stop_words:
        without_stop_words.append(word)

print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


## 5. Regex

Una expresión regular, regex o regexp es una secuencia de caracteres que definen un `patrón de búsqueda`. Veamos algunos conceptos básicos.

* `\t` — Representa un tabulador.
* `\r` — Representa el "retorno de carro" o "regreso al inicio" o sea el lugar en que la línea vuelve a iniciar.
* `\n` — Representa la "nueva línea" el carácter por medio del cual una línea da inicio. Es necesario recordar que en Windows es necesaria una combinación de \r\n para comenzar una nueva línea, mientras que en Unix solamente se usa \n y en Mac_OS clásico se usa solamente \r.
* `\a` — Representa una "campana" o "beep" que se produce al imprimir este carácter.
* `\e` — Representa la tecla "Esc" o "Escape"
* `\f` — Representa un salto de página
* `\v` — Representa un tabulador vertical
* `\x` — Se utiliza para representar caracteres ASCII o ANSI si conoce su código. De esta forma, si se busca el símbolo de derechos de autor y la fuente en la que se busca utiliza el conjunto de caracteres latín-1 es posible encontrarlo utilizando \xA9".
* `\u` — Se utiliza para representar caracteres Unicode si se conoce su código. "\u00A2" representa el símbolo de centavos. No todos los motores de Expresiones Regulares soportan Unicode. El .Net Framework lo hace, pero el EditPad Pro no, por ejemplo.
* `\d` — Representa un dígito del 0 al 9.
* `\w` — Representa cualquier carácter alfanumérico.
* `\s` — Representa un espacio en blanco.
* `\D` — Representa cualquier carácter que no sea un dígito del 0 al 9.
* `\W` — Representa cualquier carácter no alfanumérico.
* `\S` — Representa cualquier carácter que no sea un espacio en blanco.
* `\A` — Representa el inicio de la cadena. No un carácter sino una posición.
* `\Z` — Representa el final de la cadena. No un carácter sino una posición.
* `\b` — Marca la posición de una palabra limitada por espacios en blanco, puntuación o el inicio/final de una cadena.
* `\B` — Marca la posición entre dos caracteres alfanuméricos o dos no-alfanuméricos.
* `[abc]` coincide con cualquiera de a, b o c
* `[^abc]` no coincide con a, b o c
* `[a-g]` coincide con un caracter entre a & g

[Fuente](https://docs.python.org/3/library/re.html?highlight=regex)

Podemos usar expresiones regulares para aplicar filtros adicionales a nuestro texto. Por ejemplo, podemos eliminar todos los caracteres que no son palabras. En muchos casos, no necesitamos los signos de puntuación y es fácil eliminarlos con expresiones regulares.

En Python, el módulo `re` proporciona operaciones de coincidencia de expresiones regulares similares a las de Perl. Podemos usar la función `re.sub` para reemplazar las coincidencias de un patrón con una cadena de reemplazo. Veamos un ejemplo cuando reemplazamos todas las no palabras con el carácter de espacio.

In [7]:
import re

sentence = "The development of snowboarding was inspired by skateboarding, sledding, surfing and skiing."
pattern = r"[^\w]" 
print(re.sub(pattern, " ", sentence))

The development of snowboarding was inspired by skateboarding  sledding  surfing and skiing 


## 6. Vectorización: Bag of Words

Los algoritmos de aprendizaje automático no pueden funcionar con texto sin formato directamente, necesitamos convertir el `texto en números`. Esto se llama extracción de características.

El modelo de `bolsa de palabras` es una técnica de extracción de características popular y simple que se utiliza cuando trabajamos con texto. Describe la aparición de cada palabra dentro de un documento.

Para usar este modelo, necesitamos:
* Diseñar un vocabulario de palabras conocidas (también llamadas `tokens`)
* Elegir una medida de la presencia de palabras conocidas

Cualquier información sobre el orden o la estructura de las palabras se descarta, por eso se llama bolsa de palabras. Este modelo intenta comprender si una palabra conocida aparece en un documento, pero no sabe dónde está esa palabra en el documento.

La intuición es que documentos similares tienen contenidos similares. Además, de un contenido, podemos aprender algo sobre el significado del documento.

### Ejemplo:
Veamos cuáles son los pasos para crear un modelo de bolsa de palabras. En este ejemplo, usaremos solo cuatro oraciones para ver cómo funciona este modelo. En los problemas del mundo real, trabajará con cantidades de datos mucho mayores.

#### `A. Cargar los datos`

Digamos que estos son nuestros datos y queremos cargarlos como una matriz.

`I like this movie, it's funny.
I hate this movie.
This was awesome! I like it.
Nice one. I love it.`

Para lograr esto, simplemente podemos leer el archivo y dividirlo por líneas.

In [8]:
with open("review.txt", "r") as file:
    documents = file.read().splitlines()
    
print(documents)

["I like this movie, it's funny.", 'I hate this movie.', 'This was awesome! I like it.', 'Nice one. I love it.']


#### `B. Diseño del vocabulario`

Consigamos todas las palabras únicas de las cuatro oraciones cargadas ignorando la puntuación y los tokens de un carácter (por ejemplo: `,`, `.`, `:`, etc). Estas palabras serán nuestro __vocabulario__ (palabras conocidas).

Podemos usar la clase [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) de la biblioteca `sklearn` para diseñar nuestro vocabulario. Veremos también cómo podemos usarlo después de leer el siguiente paso.

#### `C. Crear los vectores del documento`

Luego, debemos puntuar las palabras en cada documento. La tarea aquí es convertir cada texto sin formato en un vector de números. Después de eso, podemos usar estos vectores como entrada para un modelo de aprendizaje automático. El método de puntuación más simple es marcar la presencia de palabras con 1 para presente y 0 para ausente.

Ahora, veamos cómo podemos crear un modelo de bolsa de palabras utilizando la clase CountVectorizer mencionada anteriormente.

In [9]:
# Import the libraries we need
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# Step 2. Design the Vocabulary
# The default token pattern removes tokens of a single character. 
# That's why we don't have the "I" and "s" tokens in the output
count_vectorizer = CountVectorizer()

# Step 3. Create the Bag-of-Words Model
bag_of_words = count_vectorizer.fit_transform(documents)

# Show the Bag-of-Words Model as a pandas DataFrame
feature_names = count_vectorizer.get_feature_names()
pd.DataFrame(bag_of_words.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0,1,0,1,1,0,1,0,0,1,0
1,0,0,1,0,0,0,1,0,0,1,0
2,1,0,0,1,1,0,0,0,0,1,1
3,0,0,0,1,0,1,0,1,1,0,0


Genial! Pudimos convertir esto:
    
`I like this movie, it's funny.
I hate this movie.
This was awesome! I like it.
Nice one. I love it.`

En números! De ahora en más podemos usar estos datos vectorizados con cualquiera de los modelos de machine learning que hemos visto.

Un buen ejemplo de este tipo de problemas, es el conocido como `Análisis de Sentimientos`. En términos generales, el análisis de sentimiento intenta determinar la actitud de un interlocutor o usuario con respecto a algún tema o la polaridad contextual general de un documento. La actitud puede ser su juicio o evaluación, estado afectivo (o sea, el estado emocional del autor al momento de escribir), o la intención comunicativa emocional (o sea, el efecto emocional que el autor intenta causar en el lector).

[Fuente](https://es.wikipedia.org/wiki/An%C3%A1lisis_de_sentimiento)

---

<img src='https://www.generadormemes.com/media/created/xuvogogh0j87fws3ova74zy83muw78en2ixbiep402454ssglichbj2p2kbzjfkg.jpg.pagespeed.ic.imagenes-memes-fotos-frases-graciosas-chistosas-divertidas-risa-chida-espa%C3%B1ol-whatsapp-facebook.jpg'>

## 7. TF-IDF (Clase 34)

Un problema con la frecuencia de puntuación de palabras es que las palabras más frecuentes en el documento comienzan a tener las puntuaciones más altas. Estas palabras frecuentes pueden no contener tanta "ganancia informativa" para el modelo en comparación con algunas palabras más raras y específicas del dominio. Un enfoque para solucionar ese problema es penalizar las palabras que son frecuentes en todos los documentos. Este enfoque se llama `TF-IDF.`

TF-IDF, abreviatura de `Term Frequency-Inverse Document Frequency` es una medida estadística utilizada para evaluar la importancia de una palabra para un documento en una colección o corpus.

El valor de puntuación TF-IDF aumenta proporcionalmente al número de veces que aparece una palabra en el documento, pero está compensado por el número de documentos en el corpus que contienen la palabra.

Veamos la fórmula utilizada para calcular un puntaje TF-IDF para un término dado `x` dentro de un documento `y`

<img src='Images/a.png'>

Ahora, dividamos un poco esta fórmula y veamos cómo funcionan las diferentes partes.

`Término Frecuencia (TF):` una puntuación de la frecuencia de la palabra en el documento actual.

<img src='Images/b.png'>

`Frecuencia de término inverso (ITF):` una puntuación de cuán rara es la palabra en los documentos.

<img src='Images/c.png'>

Finalmente, podemos usar las fórmulas anteriores para calcular el puntaje `TF-IDF` para un término dado como este:

<img src='Images/d.png'>

### Ejemplo:

En Python, podemos usar la clase `TfidfVectorizer` de la biblioteca `sklearn` para calcular los puntajes de TF-IDF para documentos dados. Usemos las mismas oraciones que hemos usado con el ejemplo de la bolsa de palabras.

In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

tfidf_vectorizer = TfidfVectorizer()
values = tfidf_vectorizer.fit_transform(documents)

# Show the Model as a pandas DataFrame
feature_names = tfidf_vectorizer.get_feature_names()
pd.DataFrame(values.toarray(), columns = feature_names)

Unnamed: 0,awesome,funny,hate,it,like,love,movie,nice,one,this,was
0,0.0,0.571848,0.0,0.365003,0.450852,0.0,0.450852,0.0,0.0,0.365003,0.0
1,0.0,0.0,0.702035,0.0,0.0,0.0,0.553492,0.0,0.0,0.4481,0.0
2,0.539445,0.0,0.0,0.344321,0.425305,0.0,0.0,0.0,0.0,0.344321,0.539445
3,0.0,0.0,0.0,0.345783,0.0,0.541736,0.0,0.541736,0.541736,0.0,0.0


---
## Resumen

* NLP se utiliza para aplicar algoritmos de aprendizaje automático a texto y voz.
* NLTK (Natural Language Toolkit) es una plataforma líder para crear programas de Python para trabajar con datos de lenguaje humano.
* La tokenización de oraciones es el problema de dividir una cadena de lenguaje escrito en sus oraciones componentes.
* La tokenización de palabras es el problema de dividir una cadena de lenguaje escrito en sus palabras componentes.
* El objetivo de la derivación y la lematización es reducir las formas flexivas y, a veces, las formas derivadas de una palabra a una forma básica común.
* Las palabras de detención son palabras que se filtran antes o después del procesamiento del texto. Por lo general, se refieren a las palabras más comunes en un idioma.
* Una expresión regular es una secuencia de caracteres que definen un patrón de búsqueda.
* El modelo de bolsa de palabras es una técnica de extracción de características popular y simple que se utiliza cuando trabajamos con texto. Describe la aparición de cada palabra dentro de un documento.
* TF-IDF es una medida estadística utilizada para evaluar la importancia de una palabra para un documento en una colección o corpus.