<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Sistemas-de-Recomendación---Clase-IV" data-toc-modified-id="Sistemas-de-Recomendación---Clase-IV-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Sistemas de Recomendación - Clase IV</a></span></li><li><span><a href="#Implementación-de-un-FWLS" data-toc-modified-id="Implementación-de-un-FWLS-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Implementación de un FWLS</a></span></li><li><span><a href="#Modelo-de-Filtrado-Colaborativo" data-toc-modified-id="Modelo-de-Filtrado-Colaborativo-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Modelo de Filtrado Colaborativo</a></span></li><li><span><a href="#Modelo-predictivo-basado-en-contenido" data-toc-modified-id="Modelo-predictivo-basado-en-contenido-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Modelo predictivo basado en contenido</a></span></li><li><span><a href="#Feature-Weighted-Linear-Stacking" data-toc-modified-id="Feature-Weighted-Linear-Stacking-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Feature Weighted Linear Stacking</a></span><ul class="toc-item"><li><span><a href="#Meta-atributos-de-modelos" data-toc-modified-id="Meta-atributos-de-modelos-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Meta atributos de modelos</a></span></li><li><span><a href="#Funciones-atributo" data-toc-modified-id="Funciones-atributo-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Funciones atributo</a></span></li><li><span><a href="#Generación-de-atributos-de-entrenamiento" data-toc-modified-id="Generación-de-atributos-de-entrenamiento-5.3"><span class="toc-item-num">5.3&nbsp;&nbsp;</span>Generación de atributos de entrenamiento</a></span></li><li><span><a href="#Entrenamiento-del-modelo" data-toc-modified-id="Entrenamiento-del-modelo-5.4"><span class="toc-item-num">5.4&nbsp;&nbsp;</span>Entrenamiento del modelo</a></span></li><li><span><a href="#Evaluación-del-modelo" data-toc-modified-id="Evaluación-del-modelo-5.5"><span class="toc-item-num">5.5&nbsp;&nbsp;</span>Evaluación del modelo</a></span></li><li><span><a href="#Comparación-de-los-modelos" data-toc-modified-id="Comparación-de-los-modelos-5.6"><span class="toc-item-num">5.6&nbsp;&nbsp;</span>Comparación de los modelos</a></span></li></ul></li></ul></div>

<h1 style="font-size:2.5em;text-align:center;">Sistemas de Recomendación - Clase IV</h1>

# Implementación de un FWLS

En este notebook veremos los pasos para crear (y evaluar) un modelo de Ensemble de **Feature Weighted Linear Stacking** basado en dos sistemas de recomendación: un filtrado colaborativo y un filtrado por contenido.

# Modelo de Filtrado Colaborativo

Para el primer modelo vamos a utilizar [Surpr!se](http://surpriselib.com/) como lo venimos haciendo. Además, haremos uso de su sistema de `Dataset`s que nos serviará para la división del conjunto de datos en entrenamiento y evaluación.

In [None]:
import pandas as pd

from surprise import Dataset, Reader, KNNWithMeans
from surprise.model_selection import train_test_split

In [None]:
ratings = pd.read_csv("../data/ml-latest-small/ratings.csv")
reader = Reader(rating_scale=(ratings.rating.min(), ratings.rating.max()))
ratings = Dataset.load_from_df(ratings[["userId", "movieId", "rating"]], reader)
ratings_train, ratings_test = train_test_split(ratings, test_size=0.2)

Notar que en este casos el filtrado es basado en items (películas), en lugar de usuarios.

In [None]:
cf_model = KNNWithMeans(k=5, sim_options={"user_based": False, "name": "pearson"}).fit(ratings_train)

# Modelo predictivo basado en contenido

Primero debemos crear nuestro modelo predictivo basado en información de contenido. En este caso, basado en los géneros de las películas. La idea es, a partir de los géneros de las películas, buscar aquellas más similares. Luego, en base a los ratings hechos por un usuario, se pueden generar ratings usando algún algoritmo clásico de KNearestNeigbors y en base a ello devolver lo predicho.

In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

class GenresBasedFilter(object):
    def __init__(self, movies, k=5):
        self.movie_to_idx = {row["movieId"]: idx for idx, row in movies.iterrows()}
        self.idx_to_movie = {idx: movie for movie, idx in self.movie_to_idx.items()}
        self.k = k

        genres = set(g for G in movies['genres'] for g in G)
        for g in genres:
            movies[g] = movies.genres.transform(lambda x: int(g in x))

        self.movie_genres = movies.drop(columns=['movieId', 'title', 'genres'])

    def fit(self, ratings):
        self.movies_cosine_sim_ = cosine_similarity(self.movie_genres, self.movie_genres)

        self.user_ratings_ = {}
        for (user_id, movie_id, rating) in ratings.build_testset():
            if user_id not in self.user_ratings_:
                self.user_ratings_[user_id] = {}
            self.user_ratings_[user_id][movie_id] = rating

        return self

    def predict(self, user, movie):
        if not user in self.user_ratings_ or not movie in self.movie_to_idx:
            global_mean = np.mean([
                rating for movies in self.user_ratings_.values() for rating in movies.values()
            ])
            return global_mean

        movie_idx = self.movie_to_idx[movie]
        sim_scores = list(enumerate(self.movies_cosine_sim_[movie_idx]))
        sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
        sim_scores = sim_scores[1:]

        sims = []

        for movie, score in sim_scores:
            if self.idx_to_movie[movie] in self.user_ratings_[user]:
                sims.append((self.user_ratings_[user][self.idx_to_movie[movie]], score))
                if len(sims) >= self.k:
                    break

        user_mean = np.mean(list(self.user_ratings_[user].values()))

        pred = 0
        sim_sum = 0

        for rating, score in sims:
            pred += score * (rating - user_mean)
            sim_sum += score

        if sim_sum == 0:
            return user_mean

        return user_mean + pred / sim_sum

Para este modelo cargamos el conjunto de datos que tiene información de los géneros de las películas. Necesitamos esta información para calcular la matriz de similitud coseno. Por otra parte, utilizamos el conjunto de entrenamiento de Surpr!se para entrenar el modelo.

In [None]:
movies = pd.read_csv("../data/ml-latest-small/movies.csv")
movies['genres'] = movies['genres'].apply(lambda x: x.split("|"))

In [None]:
cb_model = GenresBasedFilter(movies).fit(ratings_train)

# Feature Weighted Linear Stacking

## Meta atributos de modelos

Con nuestros dos modelos bases, pasamos a crear nuestro modelo FWLS. Para ello, lo primero que tenemos que hacer es transformar los meta atributos de los modelos a partir de la información de usuario y película (esto lleva un tiempo, porque el algoritmo de filtrado por contenido no está optimizado).

In [None]:
from tqdm import tqdm_notebook

transformed_ratings_train = []

for u, m, r in tqdm_notebook(ratings_train.build_testset()):
    transformed_ratings_train.append({
        "userId": u,
        "movieId": m,
        "cb_rating": cb_model.predict(u, m),
        "cf_rating": cf_model.predict(u, m).est,
        "rating": r
    })

transformed_ratings_train = pd.DataFrame(transformed_ratings_train)

## Funciones atributo

El siguiente paso se basa en definir nuestras funciones atributo que se le darán en conjunto a los meta atributos de los modelos para entrenar el algoritmo de regresión logística. En este caso solo definiremos tres muy sencillas.

In [None]:
from collections import defaultdict

user_mean_rating = defaultdict(
    lambda: transformed_ratings_train["rating"].mean(),
    transformed_ratings_train.groupby("userId")["rating"].mean().to_dict()
)
user_num_rating = defaultdict(
    lambda: 0,
    transformed_ratings_train.groupby("userId").size().to_dict()
)

def feature_function_constant():
    return 1

def feature_function_mean(user_id):
    return user_mean_rating[user_id]

def feature_function_over(user_id, min_ratings=3):
    return int(user_num_rating[user_id] >= min_ratings)

## Generación de atributos de entrenamiento

A partir de nuestros meta atributos de lo modelos y nuestras funciones atributo, podemos definir nuestros atributos finales que serán utilizados en el modelo de regresión logística. Para ello tenemos que aplicar las funciones atributo a los meta atributos de los modelos.

In [None]:
for base_model in ["cb", "cf"]:
    transformed_ratings_train["{}_rating_fc".format(base_model)] =\
        transformed_ratings_train.apply(
            lambda row: row["{}_rating".format(base_model)] * feature_function_constant(),
            axis=1
        )
    transformed_ratings_train["{}_rating_fm".format(base_model)] =\
        transformed_ratings_train.apply(
            lambda row: row["{}_rating".format(base_model)] * feature_function_mean(row["userId"]),
            axis=1
        )
    transformed_ratings_train["{}_rating_fo".format(base_model)] =\
        transformed_ratings_train.apply(
            lambda row: row["{}_rating".format(base_model)] * feature_function_over(row["userId"]),
            axis=1
        )

## Entrenamiento del modelo

El último paso es el entrenamiento del modelo de regresión lineal en base a nuestros atributos generados en el paso anterior. Este es el paso más sencillo porque utilizamos directamente el algoritmo de `scikit-learn` para regresión lineal.

In [None]:
from sklearn.linear_model import LinearRegression

fwls_model = LinearRegression()

feature_cols = ["{}_rating_{}".format(fm, ff) for fm in ["cb", "cf"] for ff in ["fc", "fo", "fm"]]

fwls_model.fit(
    transformed_ratings_train[feature_cols],
    transformed_ratings_train["rating"]
)

## Evaluación del modelo

Para evaluar los modelos tenemos que realizar el mismo paso de transformación sobre los datos de evaluación que se utilizaron para los datos de entrenamiento. Empezando por la obtención de meta atributos de los modelos.

In [None]:
transformed_ratings_test = []

for u, m, r in tqdm_notebook(ratings_test):
    transformed_ratings_test.append({
        "userId": u,
        "movieId": m,
        "cb_rating": cb_model.predict(u, m),
        "cf_rating": cf_model.predict(u, m).est,
        "rating": r
    })

transformed_ratings_test = pd.DataFrame(transformed_ratings_test)

Y siguiendo por los atributos a partir de las funciones atributo.

In [None]:
for base_model in ["cb", "cf"]:
    transformed_ratings_test["{}_rating_fc".format(base_model)] =\
        transformed_ratings_test.apply(
            lambda row: row["{}_rating".format(base_model)] * feature_function_constant(),
            axis=1
        )
    transformed_ratings_test["{}_rating_fm".format(base_model)] =\
        transformed_ratings_test.apply(
            lambda row: row["{}_rating".format(base_model)] * feature_function_mean(row["userId"]),
            axis=1
        )
    transformed_ratings_test["{}_rating_fo".format(base_model)] =\
        transformed_ratings_test.apply(
            lambda row: row["{}_rating".format(base_model)] * feature_function_over(row["userId"]),
            axis=1
        )

transformed_ratings_test["fwls_rating"] = fwls_model.predict(transformed_ratings_test[feature_cols])

## Comparación de los modelos

Finalmente, tenemos todo lo necesario para hacer una comparación (e.g. midiento el error) de los distintos modelos sobre el conjunto de evaluación.

In [None]:
from sklearn.metrics import mean_squared_error

for model in ["cf", "cb", "fwls"]:
    rmse = np.sqrt(
        mean_squared_error(
            transformed_ratings_test["rating"],
            transformed_ratings_test["{}_rating".format(model)]
        )
    )
    
    print("RMSE for {} model: {:03f}".format(model, rmse))