# Sistemas de recomendación
___
![](https://www.fundacionctic.org/sites/default/files/inline-images/3_4.png)

## Recordando
### Tipos de sistemas de generación de candidatos
1. **Content-based filtering System**

2. **Collaborative filtering System**

___


## Pasos involucrados en el filtrado colaborativo

Para crear un sistema que pueda recomendar automáticamente elementos a los usuarios en función de las preferencias de otros usuarios,
1. Encontrar usuarios o elementos similares
2. Predecir las calificaciones de los elementos que aún no han sido calificados.

Y se deben responder las siguientes preguntas:

    + ¿Cómo determina qué usuarios o elementos son similares entre sí?
    + Dado que sabe qué usuarios son similares, ¿cómo determina la calificación que un usuario le daría a un elemento en función de las calificaciones de usuarios similares?
    + ¿Cómo mide la precisión de las calificaciones que calcula?


**Respuesta: Filtro Colaborativo.**

El filtro colaborativo es una familia de algoritmos en la que hay múltiples formas de encontrar usuarios o elementos similares y múltiples formas de calcular la calificación en función de las calificaciones de usuarios similares. Dependiendo de las elecciones que haga, terminará con un tipo de enfoque de filtrado colaborativo.

- Memory Based
- Model Based
    - Reducción de dimensionalidad
    - Algoritmos de Factorización de Matrices


Una cosa importante a tener en cuenta es que en un enfoque basado únicamente en el filtrado colaborativo, **la similitud NO se calcula utilizando factores como la edad de los usuarios, el género de la película o cualquier otro dato sobre usuarios o elementos**. Se calcula únicamente sobre la base de la calificación (explícita o implícita) que un usuario otorga a un elemento.


La tercera pregunta sobre cómo medir la precisión de sus predicciones tiene múltiples respuestas, que incluyen técnicas de cálculo de errores que se pueden usar en muchos lugares y no solo recomendaciones basadas en filtrado colaborativo.

Uno de los enfoques para medir la precisión de su resultado es el error cuadrático medio (RMSE), en el que predice calificaciones para un conjunto de datos de prueba de pares de elementos de usuario cuyos valores de calificación ya se conocen. La diferencia entre el valor conocido y el valor predicho sería el error. Eleve al cuadrado todos los valores de error para el conjunto de prueba, encuentre el promedio (o la media) y luego saque la raíz cuadrada de ese promedio para obtener el RMSE.

Otra métrica para medir la precisión es el error absoluto medio (MAE), en el que encuentra la magnitud del error al encontrar su valor absoluto y luego tomar el promedio de todos los valores de error.

### PREGUNTA: QUE PROBLEMA PRESENTAN ESTAS METRICAS?


### Memory Based
- Encontrar **usuarios similares** basados en el rating: Medidas de similaridad (Distancia Euclidiana, Coseno de similaridad, coseno centrado). Remover biases.
- Predicción:
    - **Basado en el usuario:** para un usuario **U**, con un conjunto de usuarios similares (determinados en función de los vectores de calificación que consisten en las calificaciones de elementos), la calificación de un elemento **I**, que no ha sido calificado por **U**, se encuentra seleccionando **N** usuarios más similares quiénes han calificado el elemento **I** y se calcula la calificación en función de estas **N** calificaciones.
      - Fórmula: $R_U =$
    - **Basado en elementos:** para un elemento **I**, con un conjunto de elementos similares (determinados en función de los vectores de calificación que consisten en las calificaciones recibidas de los usuarios), la calificación de un usuario **U**, que no ha calificado el elemento **I**, se encuentra seleccionando **N** elementos de la lista de similitud que han sido calificadas por **U** y calculando la calificación con base a estas **N** calificaciones.

**NOTA:** Amazon desarrolló el filtrado colaborativo basado en elementos. En un sistema donde hay más usuarios que elementos, el filtrado basado en elementos es más rápido y más estable que el basado en usuarios. Es efectivo porque, por lo general, la calificación promedio que recibe un elemento no cambia tan rápido como la calificación promedio otorgada por un usuario a diferentes elementos. También se sabe que funciona mejor que el enfoque basado en el usuario cuando la matriz de calificaciones es escasa.

Sin embargo, el enfoque basado en elementos funciona mal para conjuntos de datos con elementos relacionados con la navegación o el entretenimiento, como **MovieLens**, donde las recomendaciones que brinda parecen muy obvias para los usuarios objetivo. Dichos conjuntos de datos obtienen mejores resultados con técnicas de **factorización matricial**, o con **recomendadores híbridos** que también tienen en cuenta el contenido de los datos como el género mediante el uso de filtrado basado en contenido.

### Model Based

#### Factorización Matricial
Videos:
https://campus.datacamp.com/courses/recommendation-engines-in-pyspark/how-does-als-work?ex=4
https://campus.datacamp.com/courses/recommendation-engines-in-pyspark/how-does-als-work?ex=7

![](https://miro.medium.com/max/4800/1*7uW5hLXztSu_FOmZOWpB6g.png)

## Desarrollo del modelo!

Ahora sí, vamos a lo divertido.

Seguiremos la guía oficial de la librería `surprise`

https://surprise.readthedocs.io/en/stable/getting_started.html#basic-usage

In [4]:
from surprise import accuracy, Dataset, SVD, Reader
from surprise.model_selection import train_test_split
import pandas as pd

df = pd.read_csv("ml-latest-small/ratings.csv")

# A reader is still needed but only the rating_scale param is requiered.
reader = Reader(rating_scale=(1, 5))

# The columns must correspond to user id, item id and ratings (in that order).
data = Dataset.load_from_df(df[["userId", "movieId", "rating"]], reader)

# sample random trainset and testset
# test set is made of 25% of the ratings.
trainset, testset = train_test_split(data, test_size=0.25)

# We'll use the famous SVD algorithm.
algo = SVD()

# Train the algorithm on the trainset, and predict ratings for the testset
algo.fit(trainset)
predictions = algo.test(testset)

# Then compute RMSE
accuracy.rmse(predictions)

RMSE: 0.8728


0.8728355838495945

In [23]:
import pickle
with open('modelIris.pickle', 'wb') as file:
    pickle.dump(knn, file)

In [24]:
with open("modelIris.pickle", "rb") as openfile:
    model1 = pickle.load(openfile)


In [21]:
import numpy as np
from sklearn import datasets
iris_X, iris_y = datasets.load_iris(return_X_y=True)

In [22]:
np.random.seed(0)
indices = np.random.permutation(len(iris_X))
iris_X_train = iris_X[indices[:-10]]
iris_y_train = iris_y[indices[:-10]]
iris_X_test = iris_X[indices[-10:]]
iris_y_test = iris_y[indices[-10:]]
# Create and fit a nearest-neighbor classifier
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
knn.fit(iris_X_train, iris_y_train)
KNeighborsClassifier()

In [36]:
knn.predict([[1.4,0.4,5.1, 3.5]])

array([2])