# Sistema de Recomendación

- Un sistema de recomendación es un algoritmo que nos permite dar predicciones de cuál es el producto o ítem más adecuado para un usuario.

- Los sistemas de recomendación pueden ser de varias clases según el algoritmo utilizado: basados en contenido, filtrado colaborativo, etc.

- Los sistemas de recomendación basados en algoritmos de filtrado colaborativo utilizan las valoraciones o interacciones de los usuarios sobre ciertos elementos del conjunto total para predecir interés en el resto de los elementos y recomendar los de mayor valoración predicha.




# Sistema de Recomendación item - item

- Si a un usuario le ha interesado en el pasado un determinado producto, es probable que en el futuro le interesen productos similares.

- Para predecir el interés de un usuario sobre un producto (ítem) usamos su opinión o interacciones sobre productos similares. Cuánto más similar sea el ítem, más tendremos el historial de puntuaciones o interacciones.

- En este caso se calculan las similitudes entre ítems o productos en función de las opiniones o interacciones de los usuarios.

**Recomendaciones basadas en la actividad relacionada con productos similares a los que yo he comprado**


<img src="figures/recommender_1.png" width="50%">

## Algoritmo Filtrado colaborativo
**Paso 1:**
Se calcula una matriz de puntuaciones o interacción usuario-ítem (LMxN).

**Paso 2:**
Se calcula una matriz de similitudes entre los ítems o rutas (SNxN) usando alguna distancia, por ejemplo, distancia del coseno.

**Paso 3:**
Multiplicar matriz de interacciones por matriz de similitudes para obtener el ítem que tiene más probabilidad de interesarle a cada usuario.

**Paso 4:**
Generar las recomendaciones (lista con n primeros elementos) mediante la ordenación de las puntuaciones para cada usuario.


In [1]:
# load libraries
import pandas as pd 
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity as cos
from sklearn.metrics import jaccard_score as jacc
from scipy.stats import pearsonr as pearson

In [2]:
# global variables
weight = [1,1,1]
# weight = [1,5.5,0.25]

## Paso 1: Se calcula una matriz de puntuaciones o interacción usuario-ítem (L7x5)

### Creación de datos de clientes

Para este problemas de tenemos tres tipos de datos de interacciones de los clientes con la compañia:

- Datos de compras.
- Datos de navegación web.
- Datos de clics en campañas.

### Datos de compras

**Usuario 1:**
Ha comprado a TFN y VAL.

**Usuario 3:**
Ha comprado a SCQ.

**Usuario 5:**
Ha comprado a VAL, VGO, SCQ (2veces).

**Usuario 7:**
Ha comprado TFN.


In [3]:
# create purchases data
compras = {'SCQ': [0, 0, 1, 0, 2, 0, 0], 
           'SVQ': [0, 0, 0, 0, 0, 0, 0],
           'TFN': [1, 0, 0, 0, 0, 0, 1],
           'VAL': [1, 0, 0, 0, 1, 0, 0],
           'VGO': [0, 0, 0, 0, 1, 0, 0],
          }
compras = pd.DataFrame(data=compras, index=['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7'])
compras


Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,1,1,0
user2,0,0,0,0,0
user3,1,0,0,0,0
user4,0,0,0,0,0
user5,2,0,0,1,1
user6,0,0,0,0,0
user7,0,0,1,0,0


### Datos búsquedas

**Usuario 2:**
Ha buscado en la web VAL.

**Usuario 3:**
Ha buscado SCQ y VGO (2 veces).

**Usuario 5:**
Ha buscado SCQ (3 veces).

**Usuario 6:**
Ha buscado VAL (3 veces) y SVQ.

**Usuario 7:**
Ha buscado TFN.

In [4]:
# create searches data
busquedas = {'SCQ': [0, 0, 1, 0, 3, 0, 0], 
             'SVQ': [0, 0, 0, 0, 0, 1, 0],
             'TFN': [0, 0, 0, 0, 0, 0, 1],
             'VAL': [0, 1, 0, 0, 0, 3, 0],
             'VGO': [0, 0, 2, 0, 0, 0, 0],
            }
busquedas = pd.DataFrame(data=busquedas, index=['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7'])
busquedas


Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,0,0,0
user2,0,0,0,1,0
user3,1,0,0,0,2
user4,0,0,0,0,0
user5,3,0,0,0,0
user6,0,1,0,3,0
user7,0,0,1,0,0


### Datos clics

**Usuario 3:**
Ha clicado en la campaña de SCQ.

**Usuario 4:**
Ha clicado en la campaña de TFN, SVQ y VAL.

**Usuario 6:**
Ha clicado en la campaña de VAL y TFN.

**Usuario 7:**
Ha clicado TFN (2 veces) y VAL.


In [5]:
# create clicks data
clicks = {'SCQ': [0, 0, 1, 0, 0, 0, 0], 
          'SVQ': [0, 0, 0, 1, 0, 0, 0],
          'TFN': [0, 0, 0, 1, 0, 1, 2],
          'VAL': [0, 0, 0, 1, 0, 1, 1],
          'VGO': [0, 0, 0, 0, 0, 0, 0],
            }
clicks = pd.DataFrame(data=clicks, index=['user1', 'user2', 'user3', 'user4', 'user5', 'user6', 'user7'])
clicks


Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,0,0,0
user2,0,0,0,0,0
user3,1,0,0,0,0
user4,0,1,1,1,0
user5,0,0,0,0,0
user6,0,0,1,1,0
user7,0,0,2,1,0


### Creación de dataset final de interacciones

Para crear el dataset final juntamos todo tipo de interacciones. 

Se puede dar diferente importancia a las fuentes de datos en la variable weight definida al inicio del notebook.


In [6]:
## create total interaction data
data = weight[0] * compras + weight[1] * busquedas + weight[2] * clicks
data

Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0,0,1,1,0
user2,0,0,0,1,0
user3,3,0,0,0,2
user4,0,1,1,1,0
user5,5,0,0,1,1
user6,0,1,1,4,0
user7,0,0,4,1,0


## Paso 2: Se calcula una matriz de similitudes entre los ítems o rutas (S5x5)

### Distancia del coseno

La distancia del coseno entre dos items se define con la siguiente fórmula:

![imagen.png](attachment:imagen.png)

Vamos a calcular la similitud basada en el coseno entre los destinos de Santiago de Compostela (SCQ) y Vigo (VGO).

In [7]:
help(cos)

Help on function cosine_similarity in module sklearn.metrics.pairwise:

cosine_similarity(X, Y=None, dense_output=True)
    Compute cosine similarity between samples in X and Y.
    
    Cosine similarity, or the cosine kernel, computes similarity as the
    normalized dot product of X and Y:
    
        K(X, Y) = <X, Y> / (||X||*||Y||)
    
    On L2-normalized data, this function is equivalent to linear_kernel.
    
    Read more in the :ref:`User Guide <cosine_similarity>`.
    
    Parameters
    ----------
    X : ndarray or sparse array, shape: (n_samples_X, n_features)
        Input data.
    
    Y : ndarray or sparse array, shape: (n_samples_Y, n_features)
        Input data. If ``None``, the output will be the pairwise
        similarities between all samples in ``X``.
    
    dense_output : boolean (optional), default True
        Whether to return dense output even when the input is sparse. If
        ``False``, the output is sparse if both input arrays are sparse.
    
 

In [7]:
# calculate similarity between SCQ and VGO
float(cos(X = np.array(data["SCQ"]).reshape(1, -1), Y = np.array(data["VGO"]).reshape(1, -1)))


0.8436614877321074

### Distancia de Jaccard

La distancia de Jaccard se define con la siguiente fórmula:

<img src="figures/Jaccard-formula.png" width="50%">

In [8]:
help(jacc)

Help on function jaccard_score in module sklearn.metrics._classification:

jaccard_score(y_true, y_pred, labels=None, pos_label=1, average='binary', sample_weight=None)
    Jaccard similarity coefficient score
    
    The Jaccard index [1], or Jaccard similarity coefficient, defined as
    the size of the intersection divided by the size of the union of two label
    sets, is used to compare set of predicted labels for a sample to the
    corresponding set of labels in ``y_true``.
    
    Read more in the :ref:`User Guide <jaccard_similarity_score>`.
    
    Parameters
    ----------
    y_true : 1d array-like, or label indicator array / sparse matrix
        Ground truth (correct) labels.
    
    y_pred : 1d array-like, or label indicator array / sparse matrix
        Predicted labels, as returned by a classifier.
    
    labels : list, optional
        The set of labels to include when ``average != 'binary'``, and their
        order if ``average is None``. Labels present in the

Calculemos ahora la misma similitud pero esta vez usando la distancia de Jaccard. Como esta distancia necesita datos binarios primero transformamos todos los valores por encima de cero en unos.

In [9]:
x = np.array(data["SCQ"])
x[x > 0] = 1
y = np.array(data["VGO"])
y[y > 0] = 1
jacc(x,y)

1.0

Realicemos la misma operación pero esta vez para obtener la similitud de SCQ con Valencia (VAL).

In [10]:
y = np.array(data["VAL"])
y[y > 0] = 1
jacc(x,y)

0.14285714285714285

### Correlación de Pearson

La correlación de Pearson se define con la siguiente fórmula:

<img src="figures/pearson.png" width="50%">

In [11]:
help(pearson)

Help on function pearsonr in module scipy.stats.stats:

pearsonr(x, y)
    Pearson correlation coefficient and p-value for testing non-correlation.
    
    The Pearson correlation coefficient [1]_ measures the linear relationship
    between two datasets.  The calculation of the p-value relies on the
    assumption that each dataset is normally distributed.  (See Kowalski [3]_
    for a discussion of the effects of non-normality of the input on the
    distribution of the correlation coefficient.)  Like other correlation
    coefficients, this one varies between -1 and +1 with 0 implying no
    correlation. Correlations of -1 or +1 imply an exact linear relationship.
    Positive correlations imply that as x increases, so does y. Negative
    correlations imply that as x increases, y decreases.
    
    The p-value roughly indicates the probability of an uncorrelated system
    producing datasets that have a Pearson correlation at least as extreme
    as the one computed from these da

Calculemos de nuevo la similitud entre SCQ y VGO pero esta vez usando la correlación de Pearson.

In [12]:
x = np.array(data["SCQ"])
y = np.array(data["VGO"])
pearson(x, y)[0]

0.7879788693213197

### Calculo de la matriz de similitudes

Calculamos la matriz de similitudes para cada item o ruta con la distancia del coseno. 

Obtenemos una matriz de dimension 5x5

In [13]:
sim = cos(X = np.transpose(data))
sim

array([[1.        , 0.        , 0.        , 0.1871203 , 0.84366149],
       [0.        , 1.        , 0.32444284, 0.77151675, 0.        ],
       [0.        , 0.32444284, 1.        , 0.50062617, 0.        ],
       [0.1871203 , 0.77151675, 0.50062617, 1.        , 0.09759001],
       [0.84366149, 0.        , 0.        , 0.09759001, 1.        ]])

## Paso 3: Multiplicar matriz de interacciones por matriz de similitudes para obtener el ítem que tiene más probabilidad de interesarle a cada usuario

Multiplicamos la matriz sim 5x5 por las interacciones de cada usuario. Empezemos con un ejemplo con el usuario 4.

In [15]:
interes_user = np.matmul(np.transpose(data.loc["user4"]),sim)
interes_user

SCQ    0.187120
SVQ    2.095960
TFN    1.825069
VAL    2.272143
VGO    0.097590
Name: user4, dtype: float64

Calculamos el item con el valor más alto para el usuario 4. 

In [16]:
top1 = np.argmax(interes_user)
top1

'VAL'

Por tanto, el usuario 4 tendría como principal destino a recomendar Valencia.

Ahora hacemos lo mismo para todos los usuarios en un único paso. Multiplicamos la matriz de las interacciones de todos los usuarios, L 7x5, por las similitudes sim 5x15

De esta forma, obtenemos la matriz de interés I 7x5, donde: 

$$L_{7x5} \cdot S_{5x5} = I_{5x5}$$

In [17]:
matriz_interes_users = np.matmul(data,sim)
matriz_interes_users

Unnamed: 0,SCQ,SVQ,TFN,VAL,VGO
user1,0.18712,1.09596,1.500626,1.500626,0.09759
user2,0.18712,0.771517,0.500626,1.0,0.09759
user3,4.687323,0.0,0.0,0.756541,4.530984
user4,0.18712,2.09596,1.825069,2.272143,0.09759
user5,6.030782,0.771517,0.500626,2.033191,5.315897
user6,0.748481,4.41051,3.326948,5.272143,0.39036
user7,0.18712,2.069288,4.500626,3.002505,0.09759


Calculamos el item con el valor más alto para cada usuario

In [18]:
tops1 = [np.argmax(matriz_interes_users.iloc[row]) for row in range(data.shape[0])]
tops1

['VAL', 'VAL', 'SCQ', 'VAL', 'SCQ', 'VAL', 'TFN']

## Resultados:

**Usuario 1:**
Se le recomendará Valencia.

**Usuario 2:**
Se le recomendará Valencia.

**Usuario 3:**
Se le recomendará Santiago de Compostela.

**Usuario 4:**
Se le recomendará Valencia.

**Usuario 5:**
Se le recomendará Santiago de Compostela.

**Usuario 6:**
Se le recomendará Valencia

**Usuario 7:**
Se le recomendará Tenerife.