# Lecture 10: Procesamiento de Lenguaje Natural - Natural Language Processing (NLP)

## 1. Introducción

Los computadores no son seres con inteligencia y comprensión avanzada, a menos que se les programe explícitamente para eso. Por lo general, los computadores tienden a ser bastante malos para difereciar caracteres en comparación con los humanos. Por ejemplo, para un computador la letra "a" es diferente a la letra "A". Así mismo, la frase "Bad Bunny lanzará un álbum hoy" es diferente a "bad bunny lanzará un álbum hoy". 

Probemos:

In [1]:
# Comparando una letra minúscula con la mayúscula
"a" == "A"

False

In [2]:
# Comparando una misma frase, pero con diferencias en mayúsculas
"Bad Bunny lanzará un álbum hoy" == "bad bunny lanzará un álbum hoy"

False

Los humanos son bastante buenos reconociendo que las dos frases de arriba son iguales, pero los computadores no. Por este hecho, normalmente en las bases de datos podemos encontrar errores 

en muchas ocasiones debemos ayudarle a un computador a entender nuestro lenguaje: el _lenguaje natural_. Esto se llama **Procesamiento de Lenguaje Natural**.

Para explorar esta área de la Ciencia de Datos, vamos a jugar el rol de un consultor de negocios para pequeñas y medianas empresas con un considerable número de consumidores. Algunos ejemplos de empresas que utilizan este tipo de procesamiento son empresas de moda, distribuidores de equipos para hobbies, el procesamiento de documentos legales o testimonios de víctimas del conflicto, entre muchos otros.

Algunos casos relevantes de NLP son Google, Bing, DuckDuckGo y otros motores de búsqueda para otorgar buenas respuestas a búsquedas vagas o mal escritas. También resaltan las traducciones automáticas y subtítulos generados automáticamente por YouTube.

Los usos más comunes del NLP son:

* Ayudar a los computadores a entender el habla humana (como Alexa, Siri, entre otros).
* Traducir automáticamente entre diferentes tipos de lenguajes naturales (como Google Translate).
* Aplicar automáticamente categorías para textos (como los detectores de spam o algunos algoritmos de Machine Learning e IA).
* Lectura de textos en altavoz (Kindle, Google Translate).
* Detección de emociones de textos y opiniones en redes sociales y otras páginas web.

El objetivo en este caso es manipular una base de datos de reseñas en Internet y elegir características importantes para facilitar el análisis y modelamiento de la información.

### 1.1. Retos del NLP

Los retos del procesamiento de lenguaje natural más importantes son:

* **Dimensionalidad extremadamente alta:** Don Quijote de la Mancha tiene 2'034.611 caracteres y 377.032 palabras. Si el computador considerara cada palabra como una variable (que es lo más común), sería imposible realizar un modelo con esa cantidad de variables. Ello tendría varios problemas:
    - Requeriría mucho poder computacional.
    - Acercamientos básicos de ML e IA tendrían un rendimiento terrible por la alta dimensionalidad.
    - Estos acercamientos no captarían relaciones importantes entre las palabras y no podrían diferenciar entre "don't" y "do not" en inglés.
    
* **Los textos dependen del contexto:** muchas palabras tienen un uso diferente dependiendo de dónde se utilizan. Por ejemplo, la palabra "suerte" puede significar una causa o fuerza que determina el destino de alguien, el destino mismo o, en Colombia, una manera de despedirse de alguien.

Para poder atender apropiadamente estos problemas, debemos utilizar librerías y toda _suerte_ de procesos para procesar bien este tipo de datos.

## 2. Importación de los datos

En esta ocasión, vamos a utilizar una base de datos de opiniones de Yelp!:

In [3]:
import pandas as pd
import numpy  as np

# Cargando la base de datos
data = pd.read_csv('sdata.csv')
data.head()

Unnamed: 0,review_id,user_id,business_id,stars,date,text,useful,funny,cool
0,vkVSCC7xljjrAI4UGfnKEQ,bv2nCi5Qv5vroFiqKGopiw,AEx2SYEUJmTxVVB18LlCwA,5,2016-05-28,Super simple place but amazing nonetheless. It...,0,0,0
1,n6QzIUObkYshz4dz2QRJTw,bv2nCi5Qv5vroFiqKGopiw,VR6GpWIda3SfvPC-lg9H3w,5,2016-05-28,Small unassuming place that changes their menu...,0,0,0
2,MV3CcKScW05u5LVfF6ok0g,bv2nCi5Qv5vroFiqKGopiw,CKC0-MOWMqoeWf6s-szl8g,5,2016-05-28,Lester's is located in a beautiful neighborhoo...,0,0,0
3,IXvOzsEMYtiJI0CARmj77Q,bv2nCi5Qv5vroFiqKGopiw,ACFtxLv8pGrrxMm6EgjreA,4,2016-05-28,Love coming here. Yes the place always needs t...,0,0,0
4,L_9BTb55X0GDtThi6GlZ6w,bv2nCi5Qv5vroFiqKGopiw,s2I_Ni76bjJNK9yG60iD-Q,4,2016-05-28,Had their chocolate almond croissant and it wa...,0,0,0


Podemos ver que en esta base de datos tenemos, para cada reseña, los siguientes datos:

1. **review_id:** una identificación única para cada reseña.
2. **user_id:** un identificador anonimizado para cada usuario que escribió la reseña.
3. **business_id:** un identificador anonimizado para cada negocio al que se dirige la reseña.
4. **stars:** la calificación en estrellas que cada persona ha estipulado para calificar el negocio.
5. **date:** la fecha en la que la reseña se hizo.
6. **text:** el texto completo de la reseña.
7. **useful:** número de lectores que indicaron que la reseña fue útil.
8. **funny:** número de lectores que indicaron que la reseña es divertida o cómica.
9. **cool:** número de lectores que indicaron que la reseña es genial.

## 3. Pre-procesamiento y estandarización

Debemos estandarizar los textos o, en caso contrario, al computador le quedará difícil poder entender que algunos textos son parecidos o similares a otros (por ejemplo, entre palabras). Algunos pasos comunes para esto son:

1. **Corregir errores simples:** alguna codificación entre textos es diferente o, incluso, los acentos pueden diferir. Por ello, debemos arreglarlo.
2. **Creación de características:** en algunos casos nos conviene identificar si las palabras son sujetos o verbos, entre otros.
3. **Reemplazar palabras y oraciones completas:** algunas modificaciones de las palabras pueden hacer que se entiendan como diferentes. Por ejemplo, podemos estandarizar "horriiiiiible" por "horrible", ya que algunas personas pueden escribirlo de la primera manera.

Para esto, vamos a utilizar la librería `nltk`, la cual tiene las funciones más básicas de NLP. Otra librería útil es `spaCy`, la cual es más moderna y está más centrada en el uso práctico y avanzado en problemas de negocios. Sin embargo, `nltk` es la más útil en términos didácticos.

In [4]:
# pip install nltk
# pip install plotly

In [5]:
import nltk # Natural Language Tool Kit
nltk.download('punkt')
nltk.download('stopwords')
import string
import plotly
from nltk.stem import PorterStemmer 

[nltk_data] Error loading punkt: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>
[nltk_data] Error loading stopwords: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


Vamos a revisar un poco los textos de las reseñas:

In [6]:
# Revisamos las primeras diez reseñas
AllReviews = data['text']
AllReviews.head(10)

0    Super simple place but amazing nonetheless. It...
1    Small unassuming place that changes their menu...
2    Lester's is located in a beautiful neighborhoo...
3    Love coming here. Yes the place always needs t...
4    Had their chocolate almond croissant and it wa...
5    Cycle Pub Las Vegas was a blast! Got a groupon...
6    Who would have guess that you would be able to...
7    Always drove past this coffee house and wonder...
8    Not bad!! Love that there is a gluten-free, ve...
9    Love this place!\n\nPeggy is great with dogs a...
Name: text, dtype: object

In [7]:
# Hacemos un "zoom" con la primera reseña
AllReviews[0]

"Super simple place but amazing nonetheless. It's been around since the 30's and they still serve the same thing they started with: a bologna and salami sandwich with mustard. \n\nStaff was very helpful and friendly."

In [8]:
# Revisamos varias reseñas completas al tiempo
AllReviews.values

array(["Super simple place but amazing nonetheless. It's been around since the 30's and they still serve the same thing they started with: a bologna and salami sandwich with mustard. \n\nStaff was very helpful and friendly.",
       "Small unassuming place that changes their menu every so often. Cool decor and vibe inside their 30 seat restaurant. Call for a reservation. \n\nWe had their beef tartar and pork belly to start and a salmon dish and lamb meal for mains. Everything was incredible! I could go on at length about how all the listed ingredients really make their dishes amazing but honestly you just need to go. \n\nA bit outside of downtown montreal but take the metro out and it's less than a 10 minute walk from the station.",
       "Lester's is located in a beautiful neighborhood and has been there since 1951. They are known for smoked meat which most deli's have but their brisket sandwich is what I come to montreal for. They've got about 12 seats outside to go along with the i

#### 3.1. Tokenización de oraciones

Como se puede observar, cada una de esas reseñas es _un_ elemento del gran DataFrame de reseñas. Para poder analizar las oraciones y sus relaciones, debemos realizar un proceso llamado **tokenización**. Esto implica convertir cada oración, en este caso, en un elemento separado.

Esto se puede lograr por medio del método `nltk.sent_tokenize()` de la siguiente manera:

In [9]:
# Tokenización de la primera reseña
sentences = nltk.sent_tokenize(AllReviews[0])
for sentence in sentences:
    print(sentence)
    print()
    
AllReviews[0]

Super simple place but amazing nonetheless.

It's been around since the 30's and they still serve the same thing they started with: a bologna and salami sandwich with mustard.

Staff was very helpful and friendly.



"Super simple place but amazing nonetheless. It's been around since the 30's and they still serve the same thing they started with: a bologna and salami sandwich with mustard. \n\nStaff was very helpful and friendly."

La **tokenización** no es trivial: toma las oraciones hasta el primer punto (donde termina la oración) y la separa.

Sin embargo, puede ocurrrir algunos problemas con este método, como, por ejemplo, en la simplificación de palabras. Es decir, si tomáramos el caso de "Mrs. Londoño", la tokenización separaría erróneamente la frase. Lo mismo ocurre con el español en el caso de "Srto. Londoño". Se debe tener cuidado en estos casos. Más adelante atenderemos este problema con las expresiones regulares.

### 3.2. Tokenización de palabras

También se puede realizar una tokenización por palabras individuales. Para ello, se puede utilizar el método `nltk.word_tokenize()`:

In [10]:
# Se separa por oraciones
sentences = nltk.sent_tokenize(data['text'][1])

# Se separa por palabras
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    print(sentence)
    print(words)
    print()

Small unassuming place that changes their menu every so often.
['Small', 'unassuming', 'place', 'that', 'changes', 'their', 'menu', 'every', 'so', 'often', '.']

Cool decor and vibe inside their 30 seat restaurant.
['Cool', 'decor', 'and', 'vibe', 'inside', 'their', '30', 'seat', 'restaurant', '.']

Call for a reservation.
['Call', 'for', 'a', 'reservation', '.']

We had their beef tartar and pork belly to start and a salmon dish and lamb meal for mains.
['We', 'had', 'their', 'beef', 'tartar', 'and', 'pork', 'belly', 'to', 'start', 'and', 'a', 'salmon', 'dish', 'and', 'lamb', 'meal', 'for', 'mains', '.']

Everything was incredible!
['Everything', 'was', 'incredible', '!']

I could go on at length about how all the listed ingredients really make their dishes amazing but honestly you just need to go.
['I', 'could', 'go', 'on', 'at', 'length', 'about', 'how', 'all', 'the', 'listed', 'ingredients', 'really', 'make', 'their', 'dishes', 'amazing', 'but', 'honestly', 'you', 'just', 'need', '

### 3.3. Ejercicio:

Realice un EDA que explore el tamaño de las reseñas: encuentre la más pequeña y la más larga reseña, el promedio y la mediana de palabras y después grafique un histograma mostrando la distribución del tamaño de las reseñas.