## Parte 3: Construyendo un Sistema de Recomendacion con Feedback Implicito

En este ejercicio, desarrollaremos un sistema de recomendacion con feedback implicito utilizando la libreria     [implicit](https://github.com/benfred/implicit).

**Pero, a que nos referimos con feedback implicito?**

En el primer ejercicio abordamos el filtro colaborativo el cual se basa en la suposicion de que `usuarios similares gustan de las mismas cosas/items`. La matriz usuario-item, o "matriz de utilidad" es la piedra angular del filtrado colaborativo. En la matriz de utilidad las filas representan a los usuarios y las columnas representan a los items.



Las celdas de la matriz se llenan a partir del grado de preferencia de un usuario a un item determinado y esto se representa en cualquiera de las dos formas:
1. **Feedback explicito:** feedback directo hacia un item (por ejemplo el rating de una pelicula como lo vimos en el [Ejercicio 1](https://experiencia21.tec.mx/courses/481176/assignments/15386625?module_item_id=28379086))

2. **Feedback implicito:** comportamiento indirecto hacia un item (por ejemplo el historial de compra, el historial de navegacion o historial de busquedas)

El feedback implicito hace suposiciones sobre las preferencias del usuario a partir de las acciones hacia dichos items. Si retomamos el ejemplo si miraste todos los episodios de un show y viste todas las temporadas en una semana, entonces existe la elevada posibilidad de que te guste ese show. Sin embargo, si empiezas a mirar una serie y te detienes a la mitad del primer episodio, entonces es probable que se pueda asumir que no te haya gustado ese show.



### Paso 1: Agregando las Librerias

Estos seran las librerias que utilizaremos:

- [numpy](https://numpy.org/)
- [pandas](https://pandas.pydata.org/)
- [implicit](https://github.com/benfred/implicit)
- scipy (en especifico la clase **csr_matrix**)

In [1]:
import numpy as np
import pandas as pd
from scipy.sparse import csr_matrix

import implicit

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)

### Paso 2: Cargando los datos

Dado que ya te has familiarizado con el dataset de MovieLens de los ejercicios 1 y 2 en este ejercicio continuaremos utilizando este dataset que puede encontrar[aqui](https://grouplens.org/datasets/movielens/), o lo puedes descargar directamente de [aqui](http://files.grouplens.org/datasets/movielens/ml-latest-small.zip). (Recuerda que estamos trabajando con los datasets `ml-latest-small.zip` )


In [2]:
#ratings = pd.read_csv("datos/ratings.csv")
#movies = pd.read_csv("datos/movies.csv").drop_duplicates(keep="last", subset=['title'])

# URL del archivo CSV
data_url = "https://raw.githubusercontent.com/JossueGG/tec_bigdata_equipo17/main/ratings_small_entrega2.csv"

# Cargar los datos desde la URL
df = pd.read_csv(data_url)

Revisamos el contenido de ratings

In [3]:
df.head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,release_date,year
0,1,2294,2.0,1260759108,Antz,"[{'id': 12, 'name': 'Adventure'}, {'id': 16, '...",02/10/1998,1998
1,1,1405,1.0,1260759203,Beavis and Butt-Head Do America,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",15/12/1996,1996
2,1,1287,2.0,1260759187,Ben-Hur,"[{'id': 28, 'name': 'Action'}, {'id': 12, 'nam...",26/12/1959,1959
3,1,3671,3.0,1260759117,Blazing Saddles,"[{'id': 37, 'name': 'Western'}, {'id': 35, 'na...",07/02/1974,1974
4,1,1343,2.0,1260759131,Cape Fear,"[{'id': 80, 'name': 'Crime'}, {'id': 53, 'name...",15/11/1991,1991


En este ejercicio, definiremos el rating de las peliculas como el numero de veces que un usuario las ha mirado. Por ejemplo, si Jimena (una usuaria en nuestro dataset) le dio a la pelicula de`Batman` un rating de 1 y a `Jurassic Park` un rating de 5, podemos asumir que ha mirado la pelicula de Batman una vez y la de Jurassic Park un total de 5 veces.

### NOTA ###

Es necesario realizar una limpieza del dataset antes de proceder con el ejercicio pues contiene registros duplicados que arrojaran un problema en el numero de registros de los titulos de las peliculas. 

Para lo cual es necesario eliminar duplicados que contiene el dataset de peliculas y proceder con el ejercicio

### Paso 3: Transformando los datos

Tal y como lo hicimos en el [Ejercicio 1](https://experiencia21.tec.mx/courses/481176/assignments/15386625?module_item_id=28379086), necesitamos transformar el dataframe de `ratings` a una matriz usuario-item donde las filas representan a los usuarios y las columnas representan a las peliculas. Las celdas en esta matriz contendran el feedback implicito que en este caso es el numero de veces que un usuario ha visto una pelicula.

La funcion  `create_X()` crea una matriz de dispersion **X** con 4 diccionarios de mapeo:

- **user_mapper:** mapea user id al user index
- **movie_mapper:** mapea movie id al movie index
- **user_inv_mapper:** mapea user index al user id
- **movie_inv_mapper:** mapea movie index al movie id

Necesitamos estos diccionario por que hay que mapear las filas y columnas con la matriz de utilidad que les corresponde al user ID con su movie ID respectivamente.

Esta matriz dispersa **usuario-item** es una matriz que se obtiene al `usar scipy.sparse.csr_matrix`que almacena los datos de una manera dispersa.

In [4]:
def create_X(df: pd.DataFrame):
    """
    Generates a sparse matrix from ratings dataframe.
    
    Args:
        df: pandas dataframe
    
    Returns:
        X: sparse matrix
        user_mapper: dict that maps user id's to user indices
        user_inv_mapper: dict that maps user indices to user id's
        movie_mapper: dict that maps movie id's to movie indices
        movie_inv_mapper: dict that maps movie indices to movie id's
    """
    N = df['userId'].nunique()
    M = df['movieId'].nunique()

    user_mapper = dict(zip(np.unique(df["userId"]), list(range(N))))
    movie_mapper = dict(zip(np.unique(df["movieId"]), list(range(M))))
    
    user_inv_mapper = dict(zip(list(range(N)), np.unique(df["userId"])))
    movie_inv_mapper = dict(zip(list(range(M)), np.unique(df["movieId"])))
    
    user_index = [user_mapper[i] for i in df['userId']]
    movie_index = [movie_mapper[i] for i in df['movieId']]

    X = csr_matrix((df["rating"], (movie_index, user_index)), shape=(M, N))
    
    return X, user_mapper, movie_mapper, user_inv_mapper, movie_inv_mapper

In [6]:
X, user_mapper, movie_mapper, user_inv_mapper, movie_inv_mapper = create_X(df)

### Creando los Mapeos de los titulos de las peliculas

Necesitamos traducir el titulo de una pelicula a partir de su indice en la matriz usuario-item y vice versa. Vamos a crear dos funciones que nos ayuden con esta traduccion.

- `get_movie_index()` - convierte el titulo de una pelicula a su indice. Hace uso de la funcion de comparacion de strings que se le pasan a [fuzzywuzzy](https://github.com/seatgeek/fuzzywuzzy) 
 para obtener el titulo de una pelicula que se le pase. Esto significa que no necesitamos saber la forma de escribir o el formato de una pelicula para obtener su indice.

- `get_movie_title()` - convierte el indice de una pelicula a su titulo.

In [8]:
from fuzzywuzzy import process

def movie_finder(title):
    all_titles = df['title'].tolist()
    closest_match = process.extractOne(title,all_titles)
    return closest_match[0]

movie_title_mapper = dict(zip(df['title'], df['movieId']))
movie_title_inv_mapper = dict(zip(df['movieId'], df['title']))

def get_movie_index(title):
    fuzzy_title = movie_finder(title)
    movie_id = movie_title_mapper[fuzzy_title]
    movie_idx = movie_mapper[movie_id]
    return movie_idx

def get_movie_title(movie_idx): 
    movie_id = movie_inv_mapper[movie_idx]
    title = movie_title_inv_mapper[movie_id]
    return title 

Vamos a probar esta funcion para obtener el indice de `Jurassic Park`. 

In [9]:
get_movie_index('Jurasc prk')

427

Utilizemos el indice obtenido con la funcion `get_movie_title()`. Tendremos que obtener el titulo de Jurassic Park.

In [10]:
get_movie_title(427)

'Jurassic Park'

Con esto podemos comprobar que las funciones nos permitiran interpretar las recomendaciones obtenidas del sistema.

### Paso 4: Construyendo el modelo de modelo de Recomendacion de Feedback Implicito

Una vez que hemos transformado nuestros datos ahora si podemos empezar a construir nuestro modelo de recomendacion.


La libreria [implicit](https://github.com/benfred/implicit) esta basada en un factorizacion de matrices (tomado del algebra lineal). Esto nos permite hallar caracteristicas
latentes que se esconden en las interacciones entre los usuarios y las peliculas. Estas caracteristicas latentes nos brindan una representacion mas compacta de los gustos
de los usuarios y la descripcion de un item. La factorizacion matricial es particularmente util para datos muy dispersos y puede mejorar la calidad de las recomendaciones
obtenidas. El algoritmo opera al factorizar la matris usuario-item en dos matrices:

- matriz usuario-factorers  (n_users, k)
- matriz item-factorers     (k, n_items)

Reduciremos las dimensiones de nuestra matriz original a nuestras dimensiones particulares. No es posible interpretar cada caracteristica latente $k$. Sin embargo,
podemos suponer que una caracteristica latente puede representar a los usuarios que gusten de comedia romantica de los 90s, mientras que otra caracteristica lantente
puede representar a peliculas independientes extranjeras.


$$X_{mn} \approx P_{mk} \times Q_{nk}^T = \hat{X}$$



En el caso de una factorizacion matricial tradicional como [SVD](https://www.freecodecamp.org/news/singular-value-decomposition-vs-matrix-factorization-in-recommender-systems-b1e99bc73599/) lo que hariamos seria intentar resolver la factorizacion de una sola vez, sin embargo esto resultaria muy costoso computacionalmente. Otra forma de atacar este problem es utilizando una tecnica denominada
[Minimos Cuadrados Alternos, Alternating Least Squares (ALS)](https://sophwats.github.io/2018-04-05-gentle-als.html). Ocupando ALS, podemos resolver una matriz de factores a la vez:

- Paso 1: Fijamos la matriz de factores de usuario (user-factor) y resolvemos la matriz de factores de elementos (item-factor)
- Paso 2: Fijamos la matriz de factores de elementos (item-factor) y resolvemos la matriz de factores de usuario (user-factor)

Al alternar los pasos 1 y 2 hasta que el producto punto de la matriz de factores de elementos (item-factor) y la matriz de factores de usuarios (user-item) es aproximadamente igual a la matrix original X (user-item). Este procedimiento es comptacionalmente menos costoso y puede ser parelelizado.

La libreria `implicit` implementa una factorizacion matricial utilizando ALS (puedes consultar los detalles [aqui](https://implicit.readthedocs.io/en/latest/als.html))

In [11]:
model = implicit.als.AlternatingLeastSquares(factors=50)

  check_blas_config()
  check_blas_config()


Este modelo viene con algunos hyperparametros que deben ser ajustados para generar resultados optimos:

- los factores ($k$): numero de factores latentes,
- regularizacion ($\lambda$): evita que el modelo caiga en overfitting durante el entrenamiento

Para este ejercicio definiremos $k = 50$ y $\lambda = 0.01$ como los valores a utilizar. 

El siguiente paso ahora es ajustar nuestro modelo a la matriz user-item.


In [12]:
model.fit(X.T.tocsr())

  0%|          | 0/15 [00:00<?, ?it/s]


Ahora pongamos a prueba las recomendaciones de nuestro modelo. Podemos utilizar el metodo `similar_items()` que nos muestra las peliculas mas relevantes dada una pelicula en especifico. De igual forma, podemos utilizar la funcion `get_movie_index()` para obtener el indice de la pelicula si es que es una pelicula que nos interesa a partir de las recomendaciones obtenidas.

In [13]:
movie_of_interest = 'forrest gump'

movie_index = get_movie_index(movie_of_interest)
related = model.similar_items(movie_index)
related

(array([321, 100, 427, 472, 525, 284, 266, 522, 328, 521]),
 array([1.0000001 , 0.7897375 , 0.77727455, 0.7719147 , 0.758106  ,
        0.7355936 , 0.70683116, 0.6684458 , 0.66388416, 0.60543776],
       dtype=float32))

Lo que obtenemos de `similar_items()` no es facil de leer por lo que necesitamos de la funcion `get_movie_title()` para interpretar los resultados.

In [14]:
print(f"Por que miraste la pelicula de {movie_finder(movie_of_interest)} te pueden interesar las siguientes peliculas:")
for t, r in zip(related[0], related[1]):
    
    recommended_title = get_movie_title(t)
    if recommended_title != movie_finder(movie_of_interest):
        print(recommended_title)



Por que miraste la pelicula de Forrest Gump te pueden interesar las siguientes peliculas:
Braveheart
Jurassic Park
Schindler's List
The Silence of the Lambs
The Shawshank Redemption
Pulp Fiction
Terminator 2: Judgment Day
The Lion King
Aladdin


Al usar el rating de los usuarios como feedback implicito, los resultados se ven bien. Intenta cambiando la variable `movie_of_interest`.

### Paso 5: Generando las recomendaciones del usuario

Una caracteristica interesante de `implicit` es que puedes obtener recomendaciones personalizadas para un usuario determinado. Intentemos ver los resultados con un usuario especifico de nuestro dataset.

In [15]:
user_id = 90

In [16]:
#user_ratings = ratings[ratings['userId']==user_id].merge(movies[['movieId', 'title']])
user_ratings = df
user_ratings = user_ratings.sort_values('rating', ascending=False)
print(f"El numero de peliculas rankeadas por el usuario {user_id} es de: {user_ratings['movieId'].nunique()}")

El numero de peliculas rankeadas por el usuario 90 es de: 9025


En este caso vemos que el usuario 90 miro 54 peliculas y el rating de su favoritas son:

In [17]:
#user_ratings = ratings[ratings['userId']==user_id].merge(movies[['movieId', 'title']])
user_ratings = df
user_ratings = user_ratings.sort_values('rating', ascending=False)
top_5 = user_ratings.head()
top_5

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,release_date,year
82559,563,1213,5.0,1397077128,GoodFellas,"[{'id': 18, 'name': 'Drama'}, {'id': 80, 'name...",12/09/1990,1990
59250,430,4616,5.0,1111579241,Lean On Me,"[{'id': 18, 'name': 'Drama'}]",03/03/1989,1989
19797,132,6003,5.0,1296286136,No disponible,"[{'id': 35, 'name': 'Comedy'}, {'id': 80, 'nam...",30/12/2002,2002
19796,132,5971,5.0,1284797310,My Neighbor Totoro,"[{'id': 14, 'name': 'Fantasy'}, {'id': 16, 'na...",16/04/1988,1988
87679,585,541,5.0,975364896,Blade Runner,"[{'id': 878, 'name': 'Science Fiction'}, {'id'...",25/06/1982,1982


Las peliculas con el menor rating son:

In [18]:
bottom_5 = user_ratings[user_ratings['rating']<5].tail()
bottom_5

Unnamed: 0,userId,movieId,rating,timestamp,title,genres,release_date,year
85254,574,2383,0.5,1232809499,Police Academy 6: City Under Siege,"[{'id': 35, 'name': 'Comedy'}, {'id': 80, 'nam...",09/03/1989,1989
5022,29,2942,0.5,1313925693,Flashdance,"[{'id': 18, 'name': 'Drama'}, {'id': 10402, 'n...",14/04/1983,1983
5024,29,2367,0.5,1313925185,King Kong,"[{'id': 12, 'name': 'Adventure'}, {'id': 18, '...",08/09/1976,1976
5026,29,1681,0.5,1313925259,Mortal Kombat: Annihilation,"[{'id': 28, 'name': 'Action'}, {'id': 14, 'nam...",21/11/1997,1997
13502,88,1517,0.5,1239767713,Austin Powers: International Man of Mystery,"[{'id': 878, 'name': 'Science Fiction'}, {'id'...",02/05/1997,1997


A partir de las preferencias anteriores, podemos inferir algo acerca del usuario 90. Veamos que recomendaciones se pueden generar para este usuario en particular.

Utilizaremos `recommend()` que utiliza el indice del usuario y lo transpone con la matriz user-item.

In [19]:
X_t = X.T.tocsr()
user_idx = user_mapper[user_id]
recommendations = model.recommend(user_idx, X_t[user_idx])
recommendations

(array([ 441,   87,  647,    6, 1127,  649,   58,  658,  962,  340]),
 array([0.8710942 , 0.8186082 , 0.79213536, 0.782732  , 0.7740252 ,
        0.74823076, 0.7037704 , 0.7027069 , 0.6924297 , 0.6856322 ],
       dtype=float32))

No podemos interpretar los resultados obtenidos pues estan listados los indices. Hagamos una conversion del indice al titulo de las peliculas recomendadas.

In [20]:
for t, r in zip(recommendations[0], recommendations[1]):
    recommended_title = get_movie_title(t)
    print(recommended_title)

Executive Decision
Broken Arrow
Eraser
Sabrina
Jerry Maguire
The Nutty Professor
Mr. Holland's Opus
A Time to Kill
Return of the Jedi
The River Wild


Que podemos decir acerca de las recomendaciones para este usuario?

Intentemos con otro usuario y analicemos los resultados obtenidos.