# <center> Procesamiento de lenguaje natural (NLP)</center>
El [procesamiento de lenguaje natural](https://es.wikipedia.org/wiki/Procesamiento_de_lenguajes_naturales), abreviado PLN3 —en inglés, natural language processing, NLP— es un campo de las ciencias de la computación, de la inteligencia artificial y de la lingüística que estudia las interacciones entre las computadoras y el lenguaje humano. Se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas y máquinas por medio del lenguaje natural, es decir, de las lenguas del mundo. No trata de la comunicación por medio de lenguas naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación—.


![elgif](https://media.giphy.com/media/xT0xeJpnrWC4XWblEk/giphy.gif)

NLP es considerado uno de los grandes retos de la inteligencia artificial ya que es una de las tareas más complicadas y desafiantes: ¿cómo comprender realmente el significado de un texto? ¿cómo intuir neologísmos, irónias, chistes ó poesía? Si la estrategia/algoritmo que utilizamos no sortea esas dificultades de nada nos servirán los resultados obtenidos.
En NLP no es suficiente con comprender meras palabras, se deberá comprender al conjunto de palabras que conforman una oración, y al conjunto de lineas que comprenden un párrafo. Dando un sentido global al análisis del texto/discurso para poder sacar buenas conclusiones.

Nuestro lenguaje está lleno de ambigüedades, de palabras con distintas acepciones, giros y diversos significados según el contexto. Esto hace que el NLP sea una de las tareas más difíciles de dominar.     

![madfalda](https://www.aprendemachinelearning.com/wp-content/uploads/2018/12/mafalda_mundo.png)

Por tanto, la dificultad del NLP está en varios niveles:

Ambigüedad:

- Nivel léxico: por ejemplo, varios significados
- Nivel referencial: anáforas, metáforas, etc...
- Nivel estructural: la semántica es necesaria para entender la estructura de una oración
- Nivel pragmático: dobles sentidos, ironía, humor
- Detección de espacios

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Los-datos" data-toc-modified-id="Los-datos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Los datos</a></span><ul class="toc-item"><li><span><a href="#Conexiones-con-Mongo" data-toc-modified-id="Conexiones-con-Mongo-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Conexiones con Mongo</a></span></li></ul></li><li><span><a href="#Nos-traemos-todos-los-datos-a-un-dataframe-desde-Mongo" data-toc-modified-id="Nos-traemos-todos-los-datos-a-un-dataframe-desde-Mongo-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Nos traemos todos los datos a un dataframe desde Mongo</a></span></li><li><span><a href="#Nos-traemos-todos-los-datos-a-un-dataframe-desde-MySQL" data-toc-modified-id="Nos-traemos-todos-los-datos-a-un-dataframe-desde-MySQL-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Nos traemos todos los datos a un dataframe desde MySQL</a></span></li><li><span><a href="#Limpiamos-un-poco-🧹" data-toc-modified-id="Limpiamos-un-poco-🧹-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Limpiamos un poco 🧹</a></span><ul class="toc-item"><li><span><a href="#Vamos-a-limpiarlo-con-Regex" data-toc-modified-id="Vamos-a-limpiarlo-con-Regex-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Vamos a limpiarlo con Regex</a></span></li><li><span><a href="#Vamos-a-crear-una-nueva-columna-limpia" data-toc-modified-id="Vamos-a-crear-una-nueva-columna-limpia-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Vamos a crear una nueva columna limpia</a></span></li></ul></li><li><span><a href="#NLP" data-toc-modified-id="NLP-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>NLP</a></span><ul class="toc-item"><li><span><a href="#Stop-Words" data-toc-modified-id="Stop-Words-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Stop Words</a></span></li><li><span><a href="#Tokenizar" data-toc-modified-id="Tokenizar-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Tokenizar</a></span></li></ul></li><li><span><a href="#WordClouds" data-toc-modified-id="WordClouds-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>WordClouds</a></span><ul class="toc-item"><li><span><a href="#Generamos-un-WorCloud-de-una-canción" data-toc-modified-id="Generamos-un-WorCloud-de-una-canción-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Generamos un WorCloud de una canción</a></span></li><li><span><a href="#También-podemos-generarlo-de-un-dataframe-entero" data-toc-modified-id="También-podemos-generarlo-de-un-dataframe-entero-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>También podemos generarlo de un dataframe entero</a></span></li></ul></li><li><span><a href="#Traducimos" data-toc-modified-id="Traducimos-7"><span class="toc-item-num">7&nbsp;&nbsp;</span>Traducimos</a></span></li><li><span><a href="#Sentiment-analysis" data-toc-modified-id="Sentiment-analysis-8"><span class="toc-item-num">8&nbsp;&nbsp;</span>Sentiment analysis</a></span><ul class="toc-item"><li><span><a href="#TextBlob" data-toc-modified-id="TextBlob-8.1"><span class="toc-item-num">8.1&nbsp;&nbsp;</span>TextBlob</a></span></li><li><span><a href="#NLTK" data-toc-modified-id="NLTK-8.2"><span class="toc-item-num">8.2&nbsp;&nbsp;</span>NLTK</a></span></li><li><span><a href="#¿Os-acordáis-de-que-habíamos-hecho-una-función-que-tokenizaba?" data-toc-modified-id="¿Os-acordáis-de-que-habíamos-hecho-una-función-que-tokenizaba?-8.3"><span class="toc-item-num">8.3&nbsp;&nbsp;</span>¿Os acordáis de que habíamos hecho una función que tokenizaba?</a></span></li></ul></li></ul></div>

## Los datos
Nos los vamos a traer de una de nuestras bases de datos, en este caso MongoDB
### Conexiones con Mongo

In [None]:
# Con el comando MongoClient establecemos conexión con el servidor


In [None]:
# ¿Nos acordamos de cómo podemos ver una lista de las caanciones?

## Nos traemos todos los datos a un dataframe desde Mongo

In [None]:
import pandas as pd

## Nos traemos todos los datos a un dataframe desde MySQL

## Limpiamos un poco 🧹
Una primera limpieza inicial que vamos a hacer es quitar las partres en las que nos indica estrofa/estribillo de las letras de las canciones

In [None]:
import re

### Vamos a limpiarlo con Regex
Vemos que se cumple un patrón, y es que son frases o palabras entre corchetes

In [None]:
# Creamos un patrón para quitar las frase


Automatizamos en funciones

### Vamos a crear una nueva columna limpia

## NLP

### Stop Words

Palabras vacías es el nombre que reciben las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos en lenguaje natural.

In [None]:
#!pip install spacy
import string
import spacy

### Tokenizar
Una de las formas de normalizar nuestros tokens es mediante stemming y lemmatization.
El stemming consiste en quitar y reemplazar sufijos de la raíz de la palabra. La lemmatización es un poco más compleja e implica hacer un análisis del vocabulario y su morfología para retornar la forma básica de la palabra (sin conjugar, en singular, etc).    
Leed [este](https://medium.com/escueladeinteligenciaartificial/procesamiento-de-lenguaje-natural-stemming-y-lemmas-f5efd90dca8) interesante artículo.
A la hora de tokenizar, vamos a hacerlo quitando previamente las stop words.

In [None]:
def spacy_tokenizer(sentence):

Vamos a escribir una función que va a tokenizar las letras de nuestras canciones sin importar si están en castellano o en inglés

In [None]:
from langdetect import detect

In [None]:
def tokenizer(txt):  # texto

Comprobamos que funciona pasándole una letra a la función

## WordClouds
Una nube de palabras o nube de etiquetas es una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia

![wordcloud](https://i.imgur.com/8I8aJ1N.png)

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline

### Generamos un WorCloud de una canción

In [None]:
## Lo hacemos función y lo parametrizamos para que podamos reutilizarla con facilidad

### También podemos generarlo de un dataframe entero

## Traducimos
Un poco a nuestro pesar, aunque hay librerías que funcionan en Castellano (la parte de Spacy entrenada en castellano funciona muy bien), lo cierto es que funcionan mejor en inglés, en general, hay otras librerías que no son tan exactas y aún así incluso Spacy funciona mejor en inglés, así que vamos a traducir las letras.     
La librería TextBlob, que vamos a usar más adelante para hacer análisis de sentimientos también traduce, pero mejor vamos a utilizar googletrans y su librería, ojo al instalarla:      
`pip install googletrans==3.1.0a0`      
Hay que instalar la versión alfa que la oficial tiene issues.
Creamos una columna en el dataframe con todas las letras traducidas, y dejamos la original también, por si la necesitáramos.

In [None]:
from googletrans import Translator

In [None]:
# Vemos cómo traducir una frase


De nuevo seguimos con la tónica de automatizar y hacer funciones para todo y así poder reutilizar código

## Sentiment analysis
### TextBlob
`TextBlob(the_string).sentiment`      

**Argumentos:** `string`<br>
**Devuelve:** `polaridad`& `subjetividad`


La propiedad de sentimiento devuelve una tupla con nombre de la forma Sentimiento(polaridad, subjetividad). La puntuación de la polaridad es un float dentro del rango [-1,0, 1,0]. La subjetividad es un float dentro del rango [0.0, 1.0] donde 0.0 es muy objetivo y 1.0 es muy subjetivo.

TextBlob se apoya en dos librerías, NLTK y pattern, os dejo laa [documentación](https://textblob.readthedocs.io/en/dev/)


In [None]:
from textblob import TextBlob

### NLTK
El kit de herramientas de lenguaje natural, o más comúnmente NLTK, es un conjunto de bibliotecas y programas para el procesamiento del lenguaje natural simbólico y estadísticos para el lenguaje de programación Python. NLTK incluye demostraciones gráficas y datos de muestra.

En este caso vamos a sacar también la polaridad con el módulo [SentimentIntensityAnalizer](https://www.nltk.org/api/nltk.sentiment.html#module-nltk.sentiment.vader)      

`sia.polarity_scores(the_string)`

**Arumentoss:** `string`<br>
**Devuelve:** `polaridad`

In [None]:
import nltk
from nltk.sentiment.vader import SentimentIntensityAnalyzer

Información sobre el [compound](https://github.com/cjhutto/vaderSentiment#about-the-scoring)     
Es la suma de las puntuaciones normalizada entre -1 y 1

### ¿Os acordáis de que habíamos hecho una función que tokenizaba?

In [None]:
import plotly.express as px
import plotly.graph_objects as go