# Sistema de Recomendación


- Un sistema de recomendación es un algoritmo que nos permite dar predicciones de cuál es el producto o ítem más adecuado para un usuario.

- Los sistemas de recomendación pueden ser de varias clases según el algoritmo utilizado: basados en contenido, filtrado colaborativo, etc.

- Los sistemas de recomendación basados en algoritmos de filtrado colaborativo utilizan las valoraciones o interacciones de los usuarios sobre ciertos elementos del conjunto total para predecir interés en el resto de los elementos y recomendar los de mayor valoración predicha.



# Sistema de Recomendación user - user

- Personas con intereses similares en el pasado es probable que tengan intereses parecidos en el futuro.

- Para predecir el interés de un usuario sobre un producto (ítem) usamos la opinión o interacciones de usuarios similares. Cuánto más similar sea el usuario, más tendremos en cuenta su opinión o historial de interacciones.

- Se calculan las similitudes entre usuarios en base a las opiniones o interacciones sobre los productos usando una determinada distancia.

**Recomendaciones basadas en la actividad de usuarios similares a mí.**

<img src="figures/recommender_2.png" width="50%">


In [1]:
# load libraries
import pandas as pd 
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity as cos
from sklearn.metrics import jaccard_score as jacc
from scipy.stats import pearsonr as pearson

In [2]:
weight = [1,1,1]
# weight = [1,5.5,0.25]

## Paso 1: Se calcula una matriz de puntuaciones o interacción usuario-ítem (L7x5)

### Creación de la matriz de interacciones

In [3]:
# create purchases data
compras = {'SCQ': [0, 0, 1, 0, 2, 0, 0], 
           'SVQ': [0, 0, 0, 0, 0, 0, 0],
           'TFN': [1, 0, 0, 0, 0, 0, 1],
           'VAL': [1, 0, 0, 0, 1, 0, 0],
           'VGO': [0, 0, 0, 0, 1, 0, 0],
          }
compras = pd.DataFrame(data=compras, index=['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7'])
compras


Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,1,1,0
user2,0,0,0,0,0
user3,1,0,0,0,0
user4,0,0,0,0,0
user5,2,0,0,1,1
user6,0,0,0,0,0
user7,0,0,1,0,0


In [4]:
# create searches data
busquedas = {'SCQ': [0, 0, 1, 0, 3, 0, 0], 
             'SVQ': [0, 0, 0, 0, 0, 1, 0],
             'TFN': [0, 0, 0, 0, 0, 0, 1],
             'VAL': [0, 1, 0, 0, 0, 3, 0],
             'VGO': [0, 0, 2, 0, 0, 0, 0],
            }
busquedas = pd.DataFrame(data=busquedas, index=['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7'])
busquedas


Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,0,0,0
user2,0,0,0,1,0
user3,1,0,0,0,2
user4,0,0,0,0,0
user5,3,0,0,0,0
user6,0,1,0,3,0
user7,0,0,1,0,0


In [5]:
# create clicks data
clicks = {'SCQ': [0, 0, 1, 0, 0, 0, 0], 
          'SVQ': [0, 0, 0, 1, 0, 0, 0],
          'TFN': [0, 0, 0, 1, 0, 1, 2],
          'VAL': [0, 0, 0, 1, 0, 1, 1],
          'VGO': [0, 0, 0, 0, 0, 0, 0],
            }
clicks = pd.DataFrame(data=clicks, index=['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7'])
clicks

Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,0,0,0
user2,0,0,0,0,0
user3,1,0,0,0,0
user4,0,1,1,1,0
user5,0,0,0,0,0
user6,0,0,1,1,0
user7,0,0,2,1,0


In [6]:
## create total interaction data
data = weight[0] * compras + weight[1] * busquedas + weight[2] * clicks
data

Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,1,1,0
user2,0,0,0,1,0
user3,3,0,0,0,2
user4,0,1,1,1,0
user5,5,0,0,1,1
user6,0,1,1,4,0
user7,0,0,4,1,0


## Paso 2: Se calcula una matriz de similitudes entre los usuarios (S7x7)

### Distancia del coseno

La distancia del coseno entre dos usuarios se define con la siguiente fórmula:

![imagen.png](attachment:imagen.png)

Vamos a calcular la similitud basada en el coseno entre los usuarios 1 y 2. En este caso nos fijamos en las filas y no en las columnas, como hacíamos en el enfoque item-item.

In [7]:
# calculate similarity between SCQ and VGO
float(cos(X = np.array(data.loc['user1']).reshape(1, -1), Y = np.array(data.loc['user2']).reshape(1, -1)))

0.7071067811865475

### Distancia de Jaccard

La distancia de Jaccard se define con la siguiente fórmula:

<img src="figures/Jaccard-formula.png" width="50%">

Calculemos ahora la misma similitud pero esta vez usando la distancia de Jaccard. Como esta distancia necesita datos binarios primero transformamos todos los valores por encima de cero en unos.

In [8]:
x = data.loc['user1']
x[x > 0] = 1
y = data.loc['user2']
y[y > 0] = 1
jacc(x,y)

0.5

### Correlación de Pearson

La correlación de Pearson se define con la siguiente fórmula:

<img src="figures/pearson.png" width="50%">

Calculemos de nuevo la similitud entre los usarios 1 y 2 pero esta vez usando la correlación de Pearson.

In [9]:
x = data.loc['user1']
y = data.loc['user2']
pearson(x,y)[0]

0.6123724356957946

### Calculo de la matriz de similitudes

Calculamos la matriz de similitudes para cada usuario con la distancia del coseno. 

Obtenemos una matriz de dimension 7x7

In [10]:
sim = cos(X = data)
sim


array([[1.        , 0.70710678, 0.        , 0.81649658, 0.13608276,
        0.83333333, 0.85749293],
       [0.70710678, 1.        , 0.        , 0.57735027, 0.19245009,
        0.94280904, 0.24253563],
       [0.        , 0.        , 1.        , 0.        , 0.90739287,
        0.        , 0.        ],
       [0.81649658, 0.57735027, 0.        , 1.        , 0.11111111,
        0.81649658, 0.70014004],
       [0.13608276, 0.19245009, 0.90739287, 0.11111111, 1.        ,
        0.18144368, 0.046676  ],
       [0.83333333, 0.94280904, 0.        , 0.81649658, 0.18144368,
        1.        , 0.45732956],
       [0.85749293, 0.24253563, 0.        , 0.70014004, 0.046676  ,
        0.45732956, 1.        ]])

## Paso 3: Multiplicar matriz de interacciones por matriz de similitudes para obtener el ítem que tiene más probabilidad de interesarle a cada usuario

Realizamos el cálculo para todos los usuarios en un único paso. Multiplicamos la transpuerta de la matriz de las interacciones de todos los usuarios, Transp(L) 5x7, por las similitudes sim 7x7.

De esta forma, obtenemos la matriz de interés I 5x7 donde:

$$L^T_{7x5} \cdot S_{7x7} = I_{5x7}$$

In [11]:
matriz_interes_users = np.matmul(np.transpose(data),sim)
matriz_interes_users

Unnamed: 0,user1,user2,user3,user4,user5,user6,user7
SCQ,0.680414,0.96225,7.536964,0.555556,7.722179,0.907218,0.23338
SVQ,1.64983,1.520159,0.0,1.816497,0.292555,1.816497,1.15747
TFN,6.079802,3.197409,0.0,5.433553,0.615342,4.479148,6.014963
VAL,6.850512,6.490679,0.907393,6.471084,2.212095,7.231412,4.676163
VGO,0.136083,0.19245,2.907393,0.111111,2.814786,0.181444,0.046676


In [12]:
tops1 = [np.argmax(matriz_interes_users[cols]) for cols in matriz_interes_users.columns]
tops1

['VAL', 'VAL', 'SCQ', 'VAL', 'SCQ', 'VAL', 'TFN']

## Resultados:

**Usuario 1:**
Se le recomendará Valencia.

**Usuario 2:**
Se le recomendará Valencia.

**Usuario 3:**
Se le recomendará Santiago de Compostela.

**Usuario 4:**
Se le recomendará Valencia.

**Usuario 5:**
Se le recomendará Santiago de Compostela.

**Usuario 6:**
Se le recomendará Valencia

**Usuario 7:**
Se le recomendará Tenerife.