## MIIA-4203 MODELOS AVANZADOS PARA ANÁLISIS DE DATOS II


# Sistemas de Recomendación basados en contenido

## Actividad 11


### Profesor: Camilo Franco (c.franco31@uniandes.edu.co)

En este cuadernos estudiaremos los sistemas de recomendacion basados en contenido. Seguiremos trabajando con  la base de datos de películas de IMDB (https://www.imdb.com/) 



## Introducción

Los recomendadores basados en contenido se construyen a partir de la identificación de ítems que el usuario prefiere, y la búsqueda de ítems similares en función de determinados atributos, como por ejemplo el género, la sinopsis o el reparto (actores, etc). De esta manera, si el usuario tiene unas preferencias específicas sobre un ítem específico, también podría tener preferencia por un ítem *similar*.

Primero carguemos los datos con los que vamos a trabajar:


In [None]:
# Importamos la biblioteca Pandas
import pandas as pd

# Cargamos los datos de peliculas de la base de datos IMDB
metadata = pd.read_csv('movies_metadata.csv', low_memory=False)

print(metadata.shape)
      
list(metadata)


In [None]:
# Así se ven los datos
metadata.head(3)

## 2 .Recomendación de peliculas mas populares por genero

Ahora recordemos la recomendación de películas por género de acuerdo con su popularidad, donde calculamos el voto promedio ponderado $\mu_i$, de la $i$-ésima película como:

$$
\mu_i  = \left( \frac{v_i}{v_{max}} \right) R_i 
$$

donde $v_i$ es el número de votos para la $i$-ésima película, $v_{max}$ es el máximo número de votos que recibe la película más popular, y $R$ es el rating promedio de la pelicula.


In [None]:
import numpy as np
from ast import literal_eval

# trabajamos la informacion por generos
metadata['genres'] = metadata['genres'].fillna('[]').apply(literal_eval).apply(lambda x: [i['name'] for i in x] if isinstance(x, list) else [])

# añadimos la variable del año
metadata['year'] = pd.to_datetime(metadata['release_date'], errors='coerce').apply(lambda x: str(x).split('-')[0] if x != np.nan else np.nan)

metadata.head(3)

Primero nos quedamos con todos los generos:

In [None]:
generos = metadata.apply(lambda x: pd.Series(x['genres']),axis=1).stack().reset_index(level=1, drop=True)
generos.name = 'genre'
gen_md = metadata.drop('genres', axis=1).join(generos)

gen_md.head(3)

Construimos una funcion para un género particular y que tome en cuenta peliculas con un número vmin de votos:

In [None]:
def rec_gen(genero, vmin):
    df = gen_md[gen_md['genre'] == genero]
    v = df[df['vote_count'].notnull()]['vote_count'].astype('int')
    R = df[df['vote_average'].notnull()]['vote_average'].astype('int')
    m = df['vote_average'].max()
    
    pelisG = df[(df['vote_count'] >= vmin) & (df['vote_count'].notnull()) & (df['vote_average'].notnull())][['title', 'year', 'vote_count', 'vote_average', 'popularity', 'overview', 'homepage']]
    pelisG['vote_count'] = pelisG['vote_count'].astype('int')
    pelisG['vote_average'] = pelisG['vote_average'].astype('int')
    
    pelisG['wr'] = v/m * R
    pelisG = pelisG.sort_values('wr', ascending=False).head(250)
    
    return pelisG



Veamos el Top-15 de recomendaciones en Ciencia Ficción:

In [None]:
k = 15
scifi = rec_gen('Science Fiction', 1000)
scifi.head(15)

Inception e Interstellar aparecen en las dos primeras posiciones. Personalmente me gusta más Interstellar (si quieres ver un agujero negro, esta película es lo mejor que podrás conseguir), pero reconozco que Inception tiene mucho nivel. Podemos seguir refinando este tipo de recomendaciones prestando atención a los distintos atributos que tenemos disponibles sobre las películas. 


## 3. Sistemas de recomendación basados en contenido

Este tipo de sistemas basados en contenido utiliza información específica sobre el ítem o producto de recomendación. Por ejemplo, si no contamos con información del rating de las peliculas pero sabemos que un usuario vió o que le gustó cierta película, podríamos utilizar la descripción o resumen de la película para construir nuevas recomendaciones a partir de peliculas con contenidos *similares*.

A continuación vamos a construir un sistema que recomiende películas en función de sus descripciones o "su trama". Entonces necesitamos calcular funciones de similitud de acuerdo con la descripción linguistica de cada película.

En nuestros datos, la descripción de cada película la encontramos bajo el atributo "overview". Veamos a continuación las tramas de las primeras 5 peliculas recomendadas de Ciencia Ficcion:

In [None]:
pd.set_option('display.max_colwidth', -1)
scifi[['title', 'overview']].head()

### 3.1 Estimación de similitudes y procesamiento de lenguage natural

En primera instancia podemos evaluar las similitudes entre las películas a partir de la descripción linguística de su contenido. Pero, **¿cómo calculamos estas similitudes, o más aun, cómo procesamos los caracteres linguisticos, las palabras y las frases para calcular dichas similitudes?**

A continuación vamos a ver una primera aproximación al análisis de texto a nivel de *términos* o *palabras*. Para ello, vamos a computar el ínidice TF-IDF (del inglés "Term Frequency-Inverse Document Frequency"), el cual se puede entender como una ponderación de la relevancia de los términos encontrados en cada resumen.  

### 3.1.1 Indice TF-IDF
El índice TF-IDF mide la relevancia de un término linguístico ($t$) por cada resumen o documento que estemos analizando ($d$), tomando la frecuencia del término en cada resumen $tf(t,d)$, y multiplicandola por la frecuencia inversa de la ocurrencia del término en la muestra de resumenes $idf(t)$. De esta manera se extrae la importancia/significancia de los términos/palabras como información numérica para la estimación de la similitud entre películas.

Consideremos un conjunto de resumenes ($D$). En este conjunto es de esperar que los artículos linguísticos sean muy comunes (en ingles "a", "the",...), los cuales no ofrecen en verdad información relevante acerca del contenido de una película. Entonces, si fueramos a introducir el conteo de las palabras directamente a nuestro cálculo de las similitudes (o a un clasificador), esos términos más frecuentes añadirían ruido sobre otros términos menos frecuentes pero posiblemente más interesantes (en verdad relevantes para entender el contenido de las películas). 

De esta manera, la frecuencia de un término $t$ en un resumen $d$ está dada por $tf(t,d)$, y el índice $tf-idf(t,d)$ está dado por 

$$tf-idf(t,d)=tf(t,d)\times idf(t)  $$

donde $$ idf(t)=\log \frac{1+n}{1+df(t)}+1 $$

siendo $n$ el número total de resumenes en $D$ y $df(t)$ es el número de resumenes en $D$ que contienen el término $t$.
 
El resultado de los vectores $tf-idf(d)$, de todos los términos en cada documento, son normalizados por la norma Euclideana $L2$, tal que 

$$ tf-idf(t,d)_{norm} = \frac{tf-idf(t,d)}{\sqrt{tf-idf(t_1,d)+...+tf-idf(t_T,d)}}$$

donde $T$ es el número total de términos.

**Por ejemplo**, *si tenemos 3 términos en 3 resumenes, el primer término $t_1$ aparece 3 veces en el primer resumen $d_1$, 2 veces en el segundo resumen $d_2$ y 3 veces en el tercer resumen $d_3$. El segundo término $t_2$ aparece dos vez en el primer resumen $d_1$, y el tercer término $t_3$ solo aparece una vez en el tercer resumen $d_3$. *

*Entonces $df(t_1)=3$, $df(t_2)=1$ y $df(t_3)=1$.*

*Luego, $idf(t_1)=log(4/4)+1=1$, $idf(t_2)=idf(t_3)=1.69$.*

*Por lo tanto, antes de normalizar, $tf-idf(t_1,d_1)=3\times 1=3$, $tf-idf(t_2,d_1)=2\times 1.69=3.38$ y $tf-idf(t_3,d_1)=0\times 1.69=0$.* 

*Tras la normalización, tendriamos que  $tf-idf(d_1)=\frac{(3,3.38,0)}{\sqrt{9+11.42+0}}=(0.66,0.74,0)$*

La biblioteca **scikit-learn** ofrece la clase *TfIdfVectorizer*, la cual produce una matriz TF-IDF de manera sencilla. Entonces, este índice lo calculamos utilizando los parámetros por defecto del transformador `TfidfTransformer`: `TfidfTransform(norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)`.


Como resultado, vamos a obtener una matriz cuyas columnas representan la relevancia (TF-IDF) de los términos presentes en los resumenes de cada película. 


In [10]:
# Utilizamos el TfIdfVectorizer de la biblioteca scikit-learn
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
# Definimos el objeto TF-IDF. 
# También se podrían remover articulos (comunes) como 'the', 'a' con (stop_words='english')
tfidf = TfidfVectorizer()  

# Reemplazamos valores NaN con espacio vacío
metadata['overview'] = metadata['overview'].fillna('')

# Construimos la matriz TF-IDF ajustando y transfromando los datos
tfidf_mat = tfidf.fit_transform(metadata['overview'])

# La salida con las dimensiones de tfidf_matrix
tfidf_mat.shape

### Pregunta 3.1

- Cuántos términos fueron necesarios para describir las peliculas de nuestra base de datos?

- Qué tipo de matriz es `tfidf_mat`?

In [None]:
# veamos la primera pelicula y la representacion tfidf de su sinopsis
print(metadata['overview'][0])
print(tfidf_mat[0,:])

### 3.1.2 Cálculo de similitudes

Ahora ya podemos calcular las similitudes entre las peliculas basados en sus resumenes. Podríamos utilizar distintas métricas, como la Euclideana, la correlación de Pearson, o la similitud del coseno. 

Por ejemplo, veamos qué ocurre con la similitud del coseno calculada para todo par de películas. Lo bueno de esta métrica del coseno es que es independiente de la magnitud y mide la dirección de los vectores. De este modo, dos vectores paralelos (con angulo relativo de 0°) tienen una similitud de 1, y dos vectores ortogonales, con un angulo de 90° entre ellos obtienen una similitud de 0.  

La *similitud del coseno* se define para todo $x,y \in [0,1]$ tal que

$$
sim_{cos}(x,y)=\frac{\sum_{i=1}^{n}x_i y_i}{\sqrt{\sum_{i=1}^{n}x_i^2} \sqrt{\sum_{i=1}^{n}y_i^2}}
$$

Como tenemos la matriz de representación vectorizada de las palabras para cada pelicula, el cómputo del producto interno obtiene de manera directa el valor de similitud por coseno. De esta manera, utilizamos el `linear_kernel()` de sklearn en lugar de `cosine_similarities()`.

In [14]:
# Utilizamos el linear_kernel
from sklearn.metrics.pairwise import linear_kernel


El cálculo de las similitudes para cada par de entre todas las 45466 peliculas y sus 76132 entradas es bastante pesado. Si ejecutamos el código sobre toda la matriz `tfidf_mat` en GoogleColab, debemos utilizar los recursos de RAM en la máquina remota. En nuestra máquina local tomemos un conjunto de peliculas más pequeño.

Por ejemplo, tomemos solamente las peliculas más populares:

In [None]:
m = metadata['vote_count'].quantile(0.90)
pelis_P = metadata.copy().loc[metadata['vote_count'] >= m]
pelis_P.shape

In [None]:
tfidf_P = tfidf_mat[ pelis_P.index, :]
tfidf_P.shape

In [17]:
# Calculamos la matriz de similitudes por coseno (para un numero reducido de observaciones)
sim_cos = linear_kernel(tfidf_P, tfidf_P)#], dense_output=False)

In [None]:
sim_cos

### Ejercicio 3.2

Calcule las similitudes entre peliculas utilizando una funcion de similitud distinta.

Ahora vamos a definir una funcion que tome como entrada el título de una película y devuelve una lista de las peliculas más similares a esa película de entrada

Para ello, primero tomamos una lista de referencia con los distintos titulos e indices de las peliculas:

In [None]:
indices = pd.Series(pelis_P.index, index=pelis_P['title']).drop_duplicates()
indices.head()

### 3.2 Funcion de recomendacion

A continuación construimos la función de recomendación. Los pasos que se van a seguir son los siguientes:

- Obtener el índice de la pelicula dado su título
- Obtener la lista con los scores de similitud para esa película con respecto a las demás películas. 
- Ordenar la lista de tuplas en base al score de similitud
- Obtener el top-k de peliculas más similares
- Devolver los títulos que corresponden con los índices de las peliculas más similares


In [20]:
def rec_pelis(titulo, num_pelis, sim):
    # Indice de la pelicula para el titulo
    idx = indices[titulo]

    # Obtiene los valores de similtud para la pelicula de entrada
    sim_scores = list(enumerate(sim[idx]))

    # Ordena las peliculas a base a los scores de similitud
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    # Scores de las k películas más similares (nótese que dejamos el primer elemento fuera)
    sim_scores = sim_scores[1:num_pelis+1]

    # Indices de las peliculas
    pelis_indices = [i[0] for i in sim_scores]

    # Devuelve las k peliculas mas similares
    return pelis_P['title'].iloc[pelis_indices]



In [None]:
rec_pelis('Toy Story', 7, sim_cos)

Aunque las primeras dos entradas de la recomendación parecen bastante acertadas, la tercera o la séptima recomendación parece totalmente inapropiada, sobre todo si tenemos en cuenta que la película de entrada está dirigida al público infantil. 


Recordemos los géneros de nuestra base de datos:

In [None]:
generos = pelis_P.apply(lambda x: pd.Series(x['genres']),axis=1).stack().reset_index(level=1, drop=True)
list(pd.unique(generos))

### Pregunta 3.3

Qué solución puede plantear para este problema?

### Ejercicio 3.4

Escriba su codigo a continuación, donde explore un mejor recomendador que el propuesto arriba. Note que no tenemos más información que la descripcion de las peliculas y su valoracion media. Por ello la evaluacion de la salida es, por el momento, completamente subjetiva (depende de usted). Explique por qué su propuesta es mejor que la que hemos desarrollado hasta el momento.

### Ejercicio 3.5 

Proponga una metodología, con su respectivo algoritmo, que permita medir, de acuerdo con una métrica de su elección, el nivel de acierto de las recomendaciones.

*Ayuda: considere un sistema de recomendación basado en contenido donde solo hay un usuario (promedio)*