In [1]:
%matplotlib inline  
# Figures plotted inside the notebook
%config InlineBackend.figure_format = 'retina'
# High quality figures
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import gensim

In [None]:
## Load NLTK Modules
import nltk
import string
nltk.download('punkt')
punctuation = string.punctuation
nltk.download('wordnet')
from nltk.stem.wordnet import WordNetLemmatizer
lemmatizer  = WordNetLemmatizer()
from nltk.stem.snowball import SnowballStemmer
snowball = SnowballStemmer('english')
nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords   = set(nltk.corpus.stopwords.words('english'))
nltk.download('omw-1.4')

# Reviews de la base de datos YELP academic

En este homework vamos a trabajar con el [Yelp_academic_dataset](https://www.kaggle.com/yelp-dataset/yelp-dataset) que como sabemos contiene revisiones de negocios y establecimientos en 11 áreas metropolitanas de 4 países recogidas de usuarios del servicio Yelp. 

A diferencia de en la sesión de introducción donde ya usasteis este dataset  con la información de los negocios, aquí nos vamos a centrar en la información de las *reviews* y vamos a predecir el *rating* asociado a cada *review* a partir del contenido textual de estas *reviews*. Además, para facilitar el procesado de los datos, ya que el dataset original contine millones de *reviews*, hemos hecho una seleccion de unas 3500 *reviews* con las que trabajar en este homework.

A lo largo del notebook se le pedirá que resuelva diferentes ejercicios, junto con la resolución de cada uno, por favor, **comente los resultados obtenidos**. Cuando realice cualquier elección de diseño, por favor, justifiquela adecuadamente. Todo ello se valorará de cara a la evaluación de la práctica.

La siguiente celda de código carga el fichero que hemos preparado para este homework y separa las variables de texto con las reviews (que seran nuestras observaciones de entrada) de las etiquetas o variable objetivo del problema que serán las `stars`.

In [None]:
reviews_df = pd.read_csv("http://www.tsc.uc3m.es/~vanessa/data_notebooks/yelp/yelp_review_red.csv.zip")
reviews_df.head()

In [None]:
reviews=list(reviews_df['text'])
print(len(reviews))
# Get labels
y = reviews_df['stars']

# Ejercicio 1. Preprocesado de texto (2 ptos)

Aplique el pipeline estandar visto en la sesión de NLP (tokenización, homogeneización y limpieza) para el preprocesado de las reviews.

Nota: de este preprocesado elimine el *stemming* y aplique solo la lematización para obtener palabras completas que podamos analizar y utilizar más adelante.


# Ejercicio 2. Vectorización de la información textual (2 ptos)

A partir del contenido preprocesado de las reviews, genere una representación vectorial para cada review. Para esta representación utilice:
1. BoW
2. TF-IDF

Como para generar estas representaciones necesita definir un diccionario, antes de generar la representación vectorial, analice el diccionario generado y, con el criterio o criterios que considere más adecuados, limite su tamaño a 1000 términos.


## 2.1 Creacción del diccionario

#<SOL>
Para limpiar del diccionario: elegir los 1000 términos más relevantes tenemos en cuenta:
* No hay palabras que están en más 1500-2000 documentos (de 3500) no hace falta fijar `no_above` 
* Para que se quede como mucho con 1000, n_keep = 1000
* Ya no es necesario fijar no_below porque n_keep va a poner ese corte para quedarse con 1000

#</SOL>


## 2.2 Representación BoW
Obtenga la representación BoW de las reviews preprocesadas.

## 2.3 Representación TF-IDF
Obtenga la representación TF-IDF de las reviews preprocesadas.

## 2.4 Conversión a matrices sparse

Use la función `corpus2csc` para convertir las representaciones BoW y TF-IDF a matrices sparse con las que poder trabajar en las siguientes secciones.

# Ejercicio 3. Modelos de predicción con BoW y TFIDF  (2 ptos)

Utilice las representaciones vectoriales obtenidas anteriormente para predecir la puntuación asociada a cada review. Para esta predicción utilice y compare un regresor tipo k-NN (con la distancia coseno) y un modelo *Ridge Regression* lineal.

Para el entrenamiento y evalaución de estos modelos considere:
* 40% de los datos para entrenar y 60% para testear
* Aplique un proceso de CV con 5 fold para validar adecuadamente los parámetros libres de cada modelo
* Evalúe las prestaciones finales en términos de $R^2$.

Además, no se olvide de normalizar los datos 
si lo considera necesario, en cuyo caso justifique la normalización aplicada.

Por último, compare y comente los resultados obtenidos. ¿Qué representación de los datos da mejores resultados? ¿Qué regresor funciona mejor? ¿A qué cree que puede deberse?

**K-NN y *Ridge Regression* con BOW**

**K-NN y *Ridge Regression* con TF-IDF**

# Ejercicio 4. *Embeddings* (2 ptos)

En este ejercicio vamos a utilizar algunos de los *embeddings* que hemos visto para reducir la dimensión de las representaciones vectoriales obtenidas anteriomente. En concreto, vamos a usar tres tipos de *embeddings* en esta sección:
* *Principal Component Analysis* (PCA)
* *Spectral Embedding*
* *Embedding con K-means*

Para simplificar este análisis, a partir de ahora solo vamos a trabajar con la representación TF-IDF. Así que obtenga para los vectores TF-IDF el *embedding* asociado y utilícelo para ver las prestaciones que nos daría el modelo de *ridge regression* lineal. Obtenga estas prestaciones para un *embedding* de tamaño 2, 10, 25, 50 y 100 y analice cómo influye el tamaño del *embedding* en las prestaciones del regresor.

Por último, para el *embedding* de dimensión 2 haga una representación del mismo, donde cada *review* será un punto en este espacio bidimensional y asígnele diferentes colores según las puntuaciones que tenga asociadas (por ejemplo, las *reviews* con puntuación 1 las visualizamos en rojo, las *reviews* con puntuación 2 las visualizamos en azul, ...). 

Finalmente, analice los resultados obtenidos.


## 4.1 *Embeddings* con PCA

El método PCA de sklearn no trabaja con matrices sparse, así que para poder aplicar esta transformación de los datos, tendrá que comenzar transformando la representación sparse TF-IDF a una representación densa (para ello puede usar el método `.toarray()` de las matrices sparse).

## 4.2 *Spectral Embeddings* 
Evalúe aquí las pretaciones proporcionadas por un *Spectral Embedding* usando como matriz de afinidad un kernel [chi_square](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.chi2_kernel.html) definido como:

$$k(x, y) = \exp \left(-\gamma \sum_{d=1}^D \frac{(x_d - y_d)^2}{x_d + y_d}\right)$$
con parámetro $\gamma$ igual a 1 (valor por defecto). Este kernel suele usarse para medir distancias entre histogramas por lo que es una buena opción para medir distancias entre representaciones TF-IDF.

Recuerde que tendrá que calcular esta proyección de manera conjunta sobre los datos de entrenamiento y test y luego volver a separar los datasets. Además, tenga en cuenta que el kernel chi_square no funciona con datos  *sparse*, así que deberá volver transformar los datos a formato denso.

## 4.2 *Embeddings* con K-means

El método K-means sí admite la representación *sparse* de los datos, así que no hace falta que en este caso convierta sus datos a formato denso.

# Ejercicio 5. *Embeddings* con *Word2Vec* (2 ptos)

En esta última sección vamos a obtener la representación *Word2Vec* para obtener un *embedding* de las palabras de nuestro corpus de *reviews* y luego utilizaremos esta representación para predecir la puntuación de cada *review*.

Para ello, vaya resolviendo los siguientes apartados:

## 5.1 *Word2Vec* de las palabras del corpus de *reviews*

Comience entrenando una red neuronal del tipo word2vec para obtener un *embedding* de tamaño 200 con un tamaño de ventana de 5 y eliminando las palabras que aparecen en menos de 20 documentos.

Extraiga del modelo el *embedding* aprendido y use el algoritmo t-SNE para representar este  *embedding* en dos dimensiones.

## 5.2 Análisis del  *Word2Vec* 

Utilice el método `.most_similar` del word2vec que acaba de entrenar para encontrar las palabras más similares a los términos `breakfast`, `great` y  `wrong`. ¿Cree que el modelo ha sido capaz de aprender la semantica del cospus?

## 5.3 Representación de las *reviews* a partir del *Word2Vec* 

En esta sección vamos a representar cada documento con el `word2vec` promedio de las palabras de cada *review*. Para facilitar este cálculo las siguientes celdas de código generan una lista con el vocabulario de las *reviews* y otra lista con el vocabulario del *embedding*. A partir de ellas:
1. Construya una matriz con los embeddings para las palabras del vocabulario de las *reviews*. Llame a esta matriz `embeddings_vocab`
2. Genere un *embedding* por *review* como el producto escalar del BoW de esa review y `embeddings_vocab`. De este modo estará calculando un promedio ponderado de los *embeddings* para las palabras en esa review.
3. Normalice el *embedding* de cada documento a norma 1 para compensar el efecto de los documentos más largos frente a los documentos con menos palabras. Para ello puede usar la función `normalize_dense_vector` que le damos a continuación.

Si lo desea, con ayuda del t-SNE, puede representar estos embeddings en un espacio bidimensional.


In [None]:
def normalize_dense_vector(s):
  norm1 = np.linalg.norm(s, axis =1)
  norm1[norm1==0] =1
  return (s.T/norm1).T

In [None]:
# Vocabulario de las reviews
vocab_reviews = list(D.values()) 
print(len(vocab_reviews))
print(vocab_reviews)

In [None]:
# Vocabulario del embedding
vocab_emb = list(model.wv.vocab)
print(len(vocab_emb))
print(vocab_emb)

In [None]:
#<SOL>

#</SOL>

## 5.4 Estimación de los *ratings* a partir de la representación  *Word2Vec* 

Utilice la representación anterior de cada *review* para estimar su *rating* mediante un modelo *Ridge Regresion* lineal.

In [None]:
#<SOL>

#</SOL>

# Ejercicio 6 (EXTRA). Utilización de modelos *Word2Vec* preentrenados 

Repita el ejercicio anterior, pero utilizando el *Word2Vec* preentrenado de Google News. La siguiente celda de código carga este modelo para su uso y extrae los *embeddings*. Tenga en cuenta que este modelo preentrenado no tiene porque incluir todas las palabras del vocabulario de las *reviews*, así que para las palabras que no estén, simplemente no las tenga en cuenta para generar el *embedding* promedio de la *review*.

In [None]:
import gensim.downloader as api

wv = api.load('word2vec-google-news-300')

In [None]:
# get embeddings
embeddings = wv.vectors 

# Vocabulario del embedding
vocab_emb = list(wv.vocab)
print(len(vocab_emb))
print(vocab_emb)

In [None]:
#<SOL>

#</SOL>