# Recomendación para datos de compra, por ID

## La meta

Al resolver estos problemas, crearemos modelos de filtrado colaborativos para recomendar productos a los clientes utilizando datos de compra. En particular, cubriremos en detalle el proceso paso a paso en la construcción de un sistema de recomendación con Python y el módulo de aprendizaje automático Turicreate. Estos pasos incluyen:

#### Transformando y normalizando datos

#### Modelos de entrenamiento

#### Evaluación del desempeño del modelo

#### Seleccionando el modelo óptimo

#### Descripción del producto

La herramienta también podrá buscar una lista de recomendaciones basada en un usuario específico, de modo que:

#### Entrada: ID del cliente

#### Devoluciones: lista clasificada de artículos (ID de producto), que es más probable que el usuario quiera poner en su "cesta" (vacía)


## 1. Obtención de librerías necesarias

In [0]:
%load_ext autoreload
%autoreload 2

import pandas as pd
import numpy as np
import time
import turicreate as tc
from sklearn.model_selection import cross_validate
from sklearn.model_selection import train_test_split

import sys
sys.path.append("..")

## 2. Obtención de los datos

In [0]:
#Usaremos los datos de los clientes que repiten compras a lo largo del año analizado
data = pd.read_csv('Data.csv')
#Elimino la columna Unnamed: 0
data.drop(['Unnamed: 0'], axis=1, inplace=True)

In [3]:
data.shape

(246858, 3)

## 3. Preparacion de Datos

Nuestro objetivo aquí es dividir cada lista de artículos en la columna de productos en filas y contar la cantidad de productos comprados por un usuario

### 3.1. Crear datos con usuario, elemento y campo de destino.

Chequeo si los datos importados llegan de acuerdo como lo pide el modelo usado.

Se adecuo en el notebook de preparacion de datos. Esta tabla será una entrada para nuestro modelado posterior

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 246858 entries, 0 to 246857
Data columns (total 3 columns):
customerId        246858 non-null int64
productId         246858 non-null int64
purchase_count    246858 non-null int64
dtypes: int64(3)
memory usage: 5.7 MB


In [5]:
data.sample(5)

Unnamed: 0,customerId,productId,purchase_count
710,257,701,1
193753,95179,448,1
130633,52957,937,1
211363,111593,30,1
71616,25171,2421,1


In [6]:
#Sobre el Dataframe creado, generamos un subdataframe con los códigos de clientes:
customers = pd.DataFrame(data['customerId'].unique(), columns=['user_id'])
customers.sample(5)

Unnamed: 0,user_id
8758,22827
15536,42929
36695,139445
24669,75772
32440,112125


### 3.2. Crear dummy

¿Por qué crear un dummy en lugar de normalizarlo? Normalizar el recuento de compras, por ejemplo, por cada usuario, no funcionaría porque los clientes pueden tener diferentes frecuencias de compra y no tienen el mismo gusto. Sin embargo, podemos normalizar los artículos por frecuencia de compra en todos los usuarios, lo que se hace en la sección 3.3. 

In [0]:
def create_data_dummy(data):
    data_dummy = data.copy()
    data_dummy['purchase_dummy'] = 1
    return data_dummy

In [0]:
data_dummy = create_data_dummy(data)

### 3.3. Normalizar los items entre los usuarios

In [9]:
# Para hacer esto, normalizamos la frecuencia de compra de cada artículo entre los usuarios creando primero un artículo
# de usuario matriz de la siguiente manera
df_matrix = pd.pivot_table(data, values='purchase_count', index='customerId', columns='productId')
print(df_matrix.shape)
df_matrix.sample(5)

(39037, 2280)


productId,3,4,5,6,8,9,11,17,18,19,22,23,24,26,29,30,32,33,34,36,38,40,41,42,43,44,46,47,49,50,51,52,54,55,56,57,59,61,62,63,...,2766,2767,2769,2770,2772,2777,2778,2779,2780,2781,2782,2783,2784,2785,2790,2791,2793,2794,2795,2796,2797,2799,2800,2802,2803,2804,2805,2806,2807,2808,2810,2811,2812,2813,2814,2816,2817,2819,2823,2828
customerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1
86430,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
69337,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
34887,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
71945,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1.0,,,,,,,1.0,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
106171,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [10]:
df_matrix_norm = (df_matrix-df_matrix.min())/(df_matrix.max()-df_matrix.min())
print(df_matrix_norm.shape)
df_matrix_norm.sample(5)

(39037, 2280)


productId,3,4,5,6,8,9,11,17,18,19,22,23,24,26,29,30,32,33,34,36,38,40,41,42,43,44,46,47,49,50,51,52,54,55,56,57,59,61,62,63,...,2766,2767,2769,2770,2772,2777,2778,2779,2780,2781,2782,2783,2784,2785,2790,2791,2793,2794,2795,2796,2797,2799,2800,2802,2803,2804,2805,2806,2807,2808,2810,2811,2812,2813,2814,2816,2817,2819,2823,2828
customerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1,Unnamed: 58_level_1,Unnamed: 59_level_1,Unnamed: 60_level_1,Unnamed: 61_level_1,Unnamed: 62_level_1,Unnamed: 63_level_1,Unnamed: 64_level_1,Unnamed: 65_level_1,Unnamed: 66_level_1,Unnamed: 67_level_1,Unnamed: 68_level_1,Unnamed: 69_level_1,Unnamed: 70_level_1,Unnamed: 71_level_1,Unnamed: 72_level_1,Unnamed: 73_level_1,Unnamed: 74_level_1,Unnamed: 75_level_1,Unnamed: 76_level_1,Unnamed: 77_level_1,Unnamed: 78_level_1,Unnamed: 79_level_1,Unnamed: 80_level_1,Unnamed: 81_level_1
51424,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
168,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
412,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
66211,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
103261,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,...,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [11]:
# crear una tabla para ingresar al modelado  
d = df_matrix_norm.reset_index() 
d.index.names = ['scaled_purchase_freq'] 
data_norm = pd.melt(d, id_vars=['customerId'], value_name='scaled_purchase_freq').dropna()
print(data_norm.shape)
data_norm.head()

(202870, 3)


Unnamed: 0,customerId,productId,scaled_purchase_freq
36,112,3,0.0
213,547,3,0.0
227,575,3,0.0
347,868,3,0.0
1094,2737,3,0.0


In [0]:
# Los pasos anteriores se pueden combinar con una función definida a continuación:
def normalize_data(data):
    df_matrix = pd.pivot_table(data, values='purchase_count', index='customerId', columns='productId')
    df_matrix_norm = (df_matrix-df_matrix.min())/(df_matrix.max()-df_matrix.min())
    d = df_matrix_norm.reset_index()
    d.index.names = ['scaled_purchase_freq']
    return pd.melt(d, id_vars=['customerId'], value_name='scaled_purchase_freq').dropna()
# En este paso, hemos normalizado su historial de compras, de 0 a 1 (donde 1 es la mayor cantidad de compras para 
# un artículo y 0 es 0 recuento de compras para ese artículo).

## 4. Split train and test set

Dividir los datos en conjuntos de entrenamiento y prueba es una parte importante de la evaluación del modelado predictivo, en este caso un modelo de filtrado colaborativo. Por lo general, utilizamos una porción más grande de los datos para capacitación y una porción más pequeña para pruebas.
Utilizamos la proporción 80:20 para nuestro tamaño de conjunto de prueba de entrenamiento.


In [13]:
train, test = train_test_split(data, test_size = .2)
print(train.shape, test.shape)

(197486, 3) (49372, 3)


In [0]:
def split_data(data):
    '''
    Divide el conjunto de datos en el conjunto de entrenamiento y prueba..
    
    Args:
        data (pandas.DataFrame)
        
    Returns
        train_data (tc.SFrame)
        test_data (tc.SFrame)
    '''
    train, test = train_test_split(data, test_size = .2)
    train_data = tc.SFrame(train)
    test_data = tc.SFrame(test)
    return train_data, test_data

In [0]:
# Ahora que tenemos tres conjuntos de datos con recuentos de compras, ficticios de compra y recuentos de compras
# a escala, nos gustaría dividir cada uno para modelar.
train_data, test_data = split_data(data)
train_data_dummy, test_data_dummy = split_data(data_dummy)
train_data_norm, test_data_norm = split_data(data_norm)

## 5. Definir modelos usando la biblioteca Turicreate

Antes de ejecutar un enfoque más complicado, como el filtrado colaborativo, debemos ejecutar un modelo de referencia para comparar y evaluar modelos. Dado que la línea de base generalmente usa un enfoque muy simple, las técnicas utilizadas más allá de este enfoque deben elegirse si muestran una precisión y complejidad relativamente mejores. En este caso, utilizaremos el modelo de popularidad.

In [0]:
# variables constantes para definir nombres de campo incluyen:
user_id = 'customerId'
item_id = 'productId'
users_to_recommend = list(data.customerId.unique())
n_rec = 10 # número de artículos para recomendar
n_display = 30 # para mostrar las primeras filas en un conjunto de datos de salida

In [0]:
def model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display):
    if name == 'popularity':
        model = tc.popularity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target)
    elif name == 'cosine':
        model = tc.item_similarity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target, 
                                                    similarity_type='cosine')
    elif name == 'pearson':
        model = tc.item_similarity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target, 
                                                    similarity_type='pearson')
    recom = model.recommend(users=users_to_recommend, k=n_rec)
    recom.print_rows(n_display)
    return model

## 6. Modelo de popularidad como línea de base

El modelo de popularidad toma los artículos más populares como recomendación. Estos artículos son productos con el mayor número de ventas entre clientes.

In [18]:
# i. Usando el conteo de compras
name = 'popularity'
target = 'purchase_count'
popularity = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
popularity

+------------+-----------+-------------------+------+
| customerId | productId |       score       | rank |
+------------+-----------+-------------------+------+
|     0      |    1160   | 7.333333333333333 |  1   |
|     0      |    585    |        6.0        |  2   |
|     0      |    2292   |        6.0        |  3   |
|     0      |    588    | 4.666666666666667 |  4   |
|     0      |    607    | 4.428571428571429 |  5   |
|     0      |    596    |        4.0        |  6   |
|     0      |    1005   |        4.0        |  7   |
|     0      |    1109   |        4.0        |  8   |
|     0      |    1108   |        4.0        |  9   |
|     0      |    593    | 3.642857142857143 |  10  |
|     2      |    1160   | 7.333333333333333 |  1   |
|     2      |    585    |        6.0        |  2   |
|     2      |    2292   |        6.0        |  3   |
|     2      |    588    | 4.666666666666667 |  4   |
|     2      |    607    | 4.428571428571429 |  5   |
|     2      |    596    |  

Class                            : PopularityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : purchase_count
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 197486
Number of users                  : 39019
Number of items                  : 2257

Training summary
----------------
Training time                    : 0.0375

Model Parameters
----------------
Model class                      : PopularityRecommender

In [19]:
# ii. Usando el dummy de compras
name = 'popularity'
target = 'purchase_dummy'
pop_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
pop_dummy

+------------+-----------+-------+------+
| customerId | productId | score | rank |
+------------+-----------+-------+------+
|     0      |    2215   |  1.0  |  1   |
|     0      |    1492   |  1.0  |  2   |
|     0      |    2415   |  1.0  |  3   |
|     0      |    462    |  1.0  |  4   |
|     0      |    1475   |  1.0  |  5   |
|     0      |    601    |  1.0  |  6   |
|     0      |    1817   |  1.0  |  7   |
|     0      |    474    |  1.0  |  8   |
|     0      |    2037   |  1.0  |  9   |
|     0      |    926    |  1.0  |  10  |
|     2      |    2215   |  1.0  |  1   |
|     2      |    1492   |  1.0  |  2   |
|     2      |    2415   |  1.0  |  3   |
|     2      |    462    |  1.0  |  4   |
|     2      |    1475   |  1.0  |  5   |
|     2      |    601    |  1.0  |  6   |
|     2      |    1817   |  1.0  |  7   |
|     2      |    474    |  1.0  |  8   |
|     2      |    2037   |  1.0  |  9   |
|     2      |    926    |  1.0  |  10  |
|     5      |     90    |  1.0  |

Class                            : PopularityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : purchase_dummy
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 197486
Number of users                  : 39015
Number of items                  : 2256

Training summary
----------------
Training time                    : 0.0168

Model Parameters
----------------
Model class                      : PopularityRecommender

In [20]:
# iii. Uso del recuento de compras escalado
name = 'popularity'
target = 'scaled_purchase_freq'
pop_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
pop_norm

+------------+-----------+--------------------+------+
| customerId | productId |       score        | rank |
+------------+-----------+--------------------+------+
|     0      |    2705   |        1.0         |  1   |
|     0      |    2766   |        1.0         |  2   |
|     0      |    2505   |        1.0         |  3   |
|     0      |    2710   |        1.0         |  4   |
|     0      |    1316   |        1.0         |  5   |
|     0      |    923    | 0.9444444444444444 |  6   |
|     0      |    1500   |        0.8         |  7   |
|     0      |    1324   | 0.7631578947368421 |  8   |
|     0      |    1317   |        0.75        |  9   |
|     0      |    2250   |        0.75        |  10  |
|     2      |    2705   |        1.0         |  1   |
|     2      |    2766   |        1.0         |  2   |
|     2      |    2505   |        1.0         |  3   |
|     2      |    2710   |        1.0         |  4   |
|     2      |    1316   |        1.0         |  5   |
|     2   

Class                            : PopularityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : scaled_purchase_freq
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 162296
Number of users                  : 38802
Number of items                  : 1619

Training summary
----------------
Training time                    : 0.016

Model Parameters
----------------
Model class                      : PopularityRecommender

### 6.1. Resumen de referencia

Una vez que creamos el modelo, predijimos los ítems de recomendación usando puntajes por popularidad. Como puede ver para los resultados de cada modelo anteriores, las filas muestran los primeros 30 registros de 1000 usuarios con 10 recomendaciones. Estos 30 registros incluyen 3 usuarios y sus elementos recomendados, junto con puntaje y rangos descendentes.
En el resultado, aunque diferentes modelos tienen diferentes listas de recomendaciones, a cada usuario se le recomienda la misma lista de 10 elementos. Esto se debe a que la popularidad se calcula tomando los elementos más populares entre todos los usuarios.


In [21]:
train.groupby('productId')['purchase_count'].mean().sort_values(ascending=False).head(20)

productId
1160    10.500000
2292     6.000000
588      4.666667
1108     4.166667
1109     4.000000
1005     4.000000
607      3.857143
1769     3.789474
1770     3.777778
593      3.581395
1767     3.571429
1699     3.538462
1772     3.534091
1617     3.500000
1765     3.433962
1773     3.413534
1777     3.333333
1766     3.250000
1431     3.229885
606      3.223404
Name: purchase_count, dtype: float64

## 7. Modelo de filtrado colaborativo

En el filtrado colaborativo, recomendamos artículos basados en cómo usuarios similares compran artículos. Por ejemplo, si el cliente 1 y el cliente 2 compraron artículos similares, p. 1 compró X, Y, Z y 2 compró X, Y, recomendaríamos un artículo Z al cliente 2.

### 7.1. Metodología


Para definir la similitud entre los usuarios, utilizamos los siguientes pasos:
1. Cree una matriz de elementos de usuario, donde los valores de índice representan ID de clientes únicos y los valores de columna representan ID de productos únicos
2. Cree una matriz de similitud de artículo a artículo. La idea es calcular qué tan similar es un producto a otro producto. Hay varias formas de calcular esto. En los pasos 7.2 y 7.3, utilizamos la medida de similitud de coseno o de Pearson, respectivamente.
Para calcular la similitud entre los productos X e Y, observe a todos los clientes que han calificado estos dos artículos. Por ejemplo, tanto X como Y han sido calificadas por los clientes 1 y 2.
Luego creamos dos ítems-vectores, v1 para el ítem X y v2 para el ítem Y, en el espacio de usuario de (1, 2) y luego encontramos el coseno o el ángulo / distancia de Pearson entre estos vectores. Un ángulo cero o vectores superpuestos con un valor de coseno de 1 significa similitud total (o por usuario, en todos los elementos, hay la misma calificación) y un ángulo de 90 grados significaría un coseno de 0 o ninguna similitud.
3. Para cada cliente, predecimos su probabilidad de comprar un producto (o su compra cuenta) para productos que no había comprado.
Para nuestro ejemplo, calcularemos la calificación para el usuario 2 en el caso del elemento Z (elemento objetivo). Para calcular esto, sopesamos la medida de similitud calculada entre el artículo objetivo y otros artículos que el cliente ya ha comprado. El factor de ponderación es el recuento de compras otorgado por el usuario a los artículos que ya compró.
Luego escalamos esta suma ponderada con la suma de las medidas de similitud para que la calificación calculada permanezca dentro de límites predefinidos. Por lo tanto, la calificación prevista para el elemento Z para el usuario 2 se calcularía utilizando medidas de similitud.


### 7.2. Similitud de coseno

La similitud es el coseno del ángulo entre los 2 vectores de los vectores ítems de A y B
Se define por la siguiente fórmul
![image.png](attachment:image.png)

Más cerca de los vectores, más pequeño será el ángulo y más grande el coseno


In [22]:
# i. Usando el conteo de compras
name = 'cosine'
target = 'purchase_count'
cos = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
cos

+------------+-----------+----------------------+------+
| customerId | productId |        score         | rank |
+------------+-----------+----------------------+------+
|     0      |    1485   | 0.09834958612918854  |  1   |
|     0      |    1488   | 0.07510887086391449  |  2   |
|     0      |    1483   | 0.06732180714607239  |  3   |
|     0      |    2613   | 0.06428401172161102  |  4   |
|     0      |    449    | 0.05813249945640564  |  5   |
|     0      |    1482   | 0.05463084578514099  |  6   |
|     0      |    1487   | 0.04139558970928192  |  7   |
|     0      |    2494   | 0.04111619293689728  |  8   |
|     0      |    1484   | 0.03186045587062836  |  9   |
|     0      |    2519   | 0.030281350016593933 |  10  |
|     2      |    1102   | 0.17433321475982666  |  1   |
|     2      |    447    | 0.12682161728541055  |  2   |
|     2      |    462    | 0.11564582586288452  |  3   |
|     2      |    813    | 0.10048749049504598  |  4   |
|     2      |    1101   | 0.09

Class                            : ItemSimilarityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : purchase_count
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 197486
Number of users                  : 39019
Number of items                  : 2257

Training summary
----------------
Training time                    : 1.1677

Model Parameters
----------------
Model class                      : ItemSimilarityRecommender
threshold                        : 0.001
similarity_type                  : cosine
training_method                  : auto

Other Settings
--------------
degree_approximation_threshold   : 4096
max_data_passes                  : 4096
max_item_neighborhood_size       : 64
nearest_neighbors_interaction_proportion_threshold : 0.05
seed_item_set_size   

In [23]:
# ii. Usando el dummy de compras
name = 'cosine'
target = 'purchase_dummy'
cos_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
cos_dummy

+------------+-----------+----------------------+------+
| customerId | productId |        score         | rank |
+------------+-----------+----------------------+------+
|     0      |    449    | 0.06875088214874267  |  1   |
|     0      |    1481   |  0.0593183159828186  |  2   |
|     0      |    1485   | 0.05345419645309448  |  3   |
|     0      |    2470   | 0.04444639682769776  |  4   |
|     0      |    2494   | 0.04078186750411987  |  5   |
|     0      |    1488   | 0.03972734212875366  |  6   |
|     0      |    1482   | 0.038307344913482665 |  7   |
|     0      |    615    | 0.03579730987548828  |  8   |
|     0      |    1483   | 0.034350454807281494 |  9   |
|     0      |    842    | 0.032827889919281004 |  10  |
|     2      |    447    | 0.11021105448404948  |  1   |
|     2      |    1102   | 0.09561467170715332  |  2   |
|     2      |    615    | 0.06772643327713013  |  3   |
|     2      |    813    | 0.06710286935170491  |  4   |
|     2      |    474    | 0.05

Class                            : ItemSimilarityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : purchase_dummy
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 197486
Number of users                  : 39015
Number of items                  : 2256

Training summary
----------------
Training time                    : 0.1704

Model Parameters
----------------
Model class                      : ItemSimilarityRecommender
threshold                        : 0.001
similarity_type                  : cosine
training_method                  : auto

Other Settings
--------------
degree_approximation_threshold   : 4096
max_data_passes                  : 4096
max_item_neighborhood_size       : 64
nearest_neighbors_interaction_proportion_threshold : 0.05
seed_item_set_size   

In [24]:
# iii. Uso del recuento de compras escalado
name = 'cosine' 
target = 'scaled_purchase_freq' 
cos_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
cos_norm

+------------+-----------+----------------------+------+
| customerId | productId |        score         | rank |
+------------+-----------+----------------------+------+
|     0      |    2646   |         0.0          |  1   |
|     0      |    1588   |         0.0          |  2   |
|     0      |    2216   |         0.0          |  3   |
|     0      |    2035   |         0.0          |  4   |
|     0      |    214    |         0.0          |  5   |
|     0      |     42    |         0.0          |  6   |
|     0      |    916    |         0.0          |  7   |
|     0      |    1477   |         0.0          |  8   |
|     0      |    1029   |         0.0          |  9   |
|     0      |    144    |         0.0          |  10  |
|     2      |    1102   | 0.017420679330825806 |  1   |
|     2      |    1196   | 0.011894673109054565 |  2   |
|     2      |    1244   | 0.011443018913269043 |  3   |
|     2      |    462    | 0.010324537754058838 |  4   |
|     2      |    1574   | 0.01

Class                            : ItemSimilarityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : scaled_purchase_freq
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 162296
Number of users                  : 38802
Number of items                  : 1619

Training summary
----------------
Training time                    : 0.121

Model Parameters
----------------
Model class                      : ItemSimilarityRecommender
threshold                        : 0.001
similarity_type                  : cosine
training_method                  : auto

Other Settings
--------------
degree_approximation_threshold   : 4096
max_data_passes                  : 4096
max_item_neighborhood_size       : 64
nearest_neighbors_interaction_proportion_threshold : 0.05
seed_item_set_si

### 7.3. Pearson similarity

La similitud es el coeficiente de Pearson entre los dos vectores.
Se define por la siguiente fórmula
![image.png](attachment:image.png)

In [25]:
# i. Usando el conteo de compras
name = 'pearson'
target = 'purchase_count'
pear = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
pear

+------------+-----------+--------------------+------+
| customerId | productId |       score        | rank |
+------------+-----------+--------------------+------+
|     0      |    1160   | 7.333333333333334  |  1   |
|     0      |    585    |        6.0         |  2   |
|     0      |    2292   |        6.0         |  3   |
|     0      |    588    | 4.666666666666667  |  4   |
|     0      |    607    | 4.428571428571429  |  5   |
|     0      |    596    |        4.0         |  6   |
|     0      |    1005   |        4.0         |  7   |
|     0      |    1109   |        4.0         |  8   |
|     0      |    1108   |        4.0         |  9   |
|     0      |    1769   | 3.7333333333333334 |  10  |
|     2      |    1160   | 7.333333333333334  |  1   |
|     2      |    585    |        6.0         |  2   |
|     2      |    2292   |        6.0         |  3   |
|     2      |    588    | 4.666666666666667  |  4   |
|     2      |    607    | 4.428571428571429  |  5   |
|     2   

Class                            : ItemSimilarityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : purchase_count
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 197486
Number of users                  : 39019
Number of items                  : 2257

Training summary
----------------
Training time                    : 0.1978

Model Parameters
----------------
Model class                      : ItemSimilarityRecommender
threshold                        : 0.001
similarity_type                  : pearson
training_method                  : auto

Other Settings
--------------
degree_approximation_threshold   : 4096
max_data_passes                  : 4096
max_item_neighborhood_size       : 64
nearest_neighbors_interaction_proportion_threshold : 0.05
seed_item_set_size  

In [26]:
# ii. Usando el dummy de compras
name = 'pearson'
target = 'purchase_dummy'
pear_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
pear_dummy

+------------+-----------+-------+------+
| customerId | productId | score | rank |
+------------+-----------+-------+------+
|     0      |    2215   |  0.0  |  1   |
|     0      |    1492   |  0.0  |  2   |
|     0      |    2415   |  0.0  |  3   |
|     0      |    462    |  0.0  |  4   |
|     0      |    1475   |  0.0  |  5   |
|     0      |    601    |  0.0  |  6   |
|     0      |    1817   |  0.0  |  7   |
|     0      |    474    |  0.0  |  8   |
|     0      |    2037   |  0.0  |  9   |
|     0      |    926    |  0.0  |  10  |
|     2      |    2215   |  0.0  |  1   |
|     2      |    1492   |  0.0  |  2   |
|     2      |    2415   |  0.0  |  3   |
|     2      |    462    |  0.0  |  4   |
|     2      |    1475   |  0.0  |  5   |
|     2      |    601    |  0.0  |  6   |
|     2      |    1817   |  0.0  |  7   |
|     2      |    474    |  0.0  |  8   |
|     2      |    2037   |  0.0  |  9   |
|     2      |    926    |  0.0  |  10  |
|     5      |     90    |  0.0  |

Class                            : ItemSimilarityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : purchase_dummy
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 197486
Number of users                  : 39015
Number of items                  : 2256

Training summary
----------------
Training time                    : 0.1554

Model Parameters
----------------
Model class                      : ItemSimilarityRecommender
threshold                        : 0.001
similarity_type                  : pearson
training_method                  : auto

Other Settings
--------------
degree_approximation_threshold   : 4096
max_data_passes                  : 4096
max_item_neighborhood_size       : 64
nearest_neighbors_interaction_proportion_threshold : 0.05
seed_item_set_size  

In [27]:
# iii. Uso del recuento de compras escalado
name = 'pearson'
target = 'scaled_purchase_freq'
pear_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)
pear_norm

+------------+-----------+--------------------+------+
| customerId | productId |       score        | rank |
+------------+-----------+--------------------+------+
|     0      |    2705   |        1.0         |  1   |
|     0      |    2766   |        1.0         |  2   |
|     0      |    2505   |        1.0         |  3   |
|     0      |    2710   |        1.0         |  4   |
|     0      |    1316   |        1.0         |  5   |
|     0      |    923    | 0.9444444444444444 |  6   |
|     0      |    1500   | 0.7999468525250754 |  7   |
|     0      |    1324   | 0.7631566430393019 |  8   |
|     0      |    2250   |        0.75        |  9   |
|     0      |    1507   |        0.75        |  10  |
|     2      |    2705   |        1.0         |  1   |
|     2      |    2766   |        1.0         |  2   |
|     2      |    2505   |        1.0         |  3   |
|     2      |    2710   |        1.0         |  4   |
|     2      |    1316   |        1.0         |  5   |
|     2   

Class                            : ItemSimilarityRecommender

Schema
------
User ID                          : customerId
Item ID                          : productId
Target                           : scaled_purchase_freq
Additional observation features  : 0
User side features               : []
Item side features               : []

Statistics
----------
Number of observations           : 162296
Number of users                  : 38802
Number of items                  : 1619

Training summary
----------------
Training time                    : 0.1638

Model Parameters
----------------
Model class                      : ItemSimilarityRecommender
threshold                        : 0.001
similarity_type                  : pearson
training_method                  : auto

Other Settings
--------------
degree_approximation_threshold   : 4096
max_data_passes                  : 4096
max_item_neighborhood_size       : 64
nearest_neighbors_interaction_proportion_threshold : 0.05
seed_item_set_

## 8. Evaluación del modelo

Para evaluar los motores de recomendación, podemos usar el concepto de RMSE y la recuperación de precisión.

1. RMSE (errores cuadráticos medios de raíz)
Mide el error de los valores pronosticados.
Menor el valor RMSE, mejores las recomendaciones.

2. Recordar
 ¿Qué porcentaje de productos que compra un usuario se recomiendan realmente?
Si un cliente compra 5 productos y la recomendación decidió mostrar 3 de ellos, entonces el retiro es 0.6

3. Precisión
De todos los elementos recomendados, ¿cuántos le gustaron realmente al usuario?
Si se recomendaron al cliente 5 productos de los cuales compra 4, entonces la precisión es 0.8
¿Por qué son importantes tanto el recuerdo como la precisión?
Considere un caso en el que recomendamos todos los productos, por lo que nuestros clientes seguramente cubrirán los artículos que les gustaron y compraron. ¡En este caso, tenemos un 100% de retiro! ¿Esto significa que nuestro modelo es bueno?
Tenemos que considerar la precisión. Si recomendamos 300 artículos pero al usuario le gusta y compra solo 3 de ellos, ¡la precisión es del 0.1%! Esta precisión muy baja indica que el modelo no es excelente, a pesar de su excelente recuperación.
Por lo tanto, nuestro objetivo debe ser optimizar tanto el recuerdo como la precisión (para estar lo más cerca posible de 1).

In [0]:
# Primero creemos variables invocables iniciales para la evaluación del modelo:
models_w_counts = [popularity, cos, pear]
models_w_dummy = [pop_dummy, cos_dummy, pear_dummy]
models_w_norm = [pop_norm, cos_norm, pear_norm]

names_w_counts = ['Popularity Model on Purchase Counts', 'Cosine Similarity on Purchase Counts',\
                  'Pearson Similarity on Purchase Counts']
names_w_dummy = ['Popularity Model on Purchase Dummy', 'Cosine Similarity on Purchase Dummy',\
                 'Pearson Similarity on Purchase Dummy']
names_w_norm = ['Popularity Model on Scaled Purchase Counts', 'Cosine Similarity on Scaled Purchase Counts',\
                'Pearson Similarity on Scaled Purchase Counts']

## 8.1. Resultado de evaluación

In [0]:
#### Comparemos todos los modelos que hemos construido basados en RMSE y características de recuperación de precisión:

In [30]:
eval_counts = tc.recommender.util.compare_models(test_data, models_w_counts, model_names=names_w_counts)

PROGRESS: Evaluate model Popularity Model on Purchase Counts



Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    |          0.0           |          0.0           |
|   2    |          0.0           |          0.0           |
|   3    | 1.202935161794771e-05  | 1.804402742692161e-05  |
|   4    | 1.8044027426921644e-05 | 2.7066041140382474e-05 |
|   5    | 2.8870443883074587e-05 | 4.009783872649303e-05  |
|   6    | 3.007337904486936e-05  | 5.814186615341492e-05  |
|   7    | 2.5777182038459882e-05 | 5.814186615341492e-05  |
|   8    | 2.7066041140382453e-05 | 7.618589358033522e-05  |
|   9    | 2.4058703235895398e-05 | 7.618589358033522e-05  |
|   10   | 4.691447130999609e-05  | 0.00020850876137776226 |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.5092568920853667

Per User RMSE (best)
+------------+--


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.06257668711656425  | 0.038870990671784726 |
|   2    | 0.049494767232046065 | 0.060777057058182676 |
|   3    | 0.04198243714663773  | 0.07752174266248603  |
|   4    | 0.037224828581739484 |  0.0921056286429798  |
|   5    | 0.03380007217610957  | 0.10439181726447429  |
|   6    | 0.03113797666305804  | 0.11540935974002142  |
|   7    | 0.028901376501520883 | 0.12478565999055492  |
|   8    | 0.027106640202093003 |  0.1337125272609809  |
|   9    | 0.025558362404266472 |  0.141131804322986   |
|   10   | 0.02421147600144354  | 0.14817249920290812  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 1.3099848081726708

Per User RMSE (best)
+------------+--------------------+-------+
| customerId |        rmse  


Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    |          0.0           |          0.0           |
|   2    | 1.8044027426921623e-05 | 1.8044027426921623e-05 |
|   3    | 1.2029351617947708e-05 | 1.8044027426921623e-05 |
|   4    | 1.8044027426921644e-05 | 2.7066041140382504e-05 |
|   5    | 2.8870443883074587e-05 | 4.009783872649303e-05  |
|   6    | 3.007337904486936e-05  | 5.814186615341492e-05  |
|   7    | 3.0932618446151706e-05 |  7.61858935803352e-05  |
|   8    | 2.7066041140382453e-05 |  7.61858935803352e-05  |
|   9    | 2.4058703235895405e-05 |  7.61858935803352e-05  |
|   10   | 3.969686033922788e-05  | 0.00021151609928224874 |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.5073068055253008

Per User RMSE (best)
+------------+--

In [31]:
eval_dummy = tc.recommender.util.compare_models(test_data_dummy, models_w_dummy, model_names=names_w_dummy)

PROGRESS: Evaluate model Popularity Model on Purchase Dummy



Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00018007635237340545 | 0.0001320559917404977  |
|   2    | 0.0001620687171360665  | 0.00019208144253163404 |
|   3    | 0.00018007635237340548 | 0.0003631539772863697  |
|   4    | 0.00015306489951739594 | 0.00039916924776104844 |
|   5    | 0.00015126413599366104 | 0.0004463321019540855  |
|   6    | 0.00014406108189872604 | 0.0004823473724287649  |
|   7    | 0.00012862596598100514 | 0.0004913511900474353  |
|   8    | 0.00012605344666138496 | 0.0005285669695379425  |
|   9    | 0.00013605768845990728 | 0.0006846331415948925  |
|   10   | 0.0001368580278037899  |  0.000765667500162926  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.0

Per User RMSE (best)
+------------+------+-------+
|


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    |  0.0747677015054382  | 0.046768611059920424 |
|   2    | 0.059929410069869744 | 0.07471108854050264  |
|   3    | 0.05124972988547161  | 0.09564545945061086  |
|   4    | 0.04536123316286117  | 0.11209824971939862  |
|   5    | 0.04097097169199697  | 0.12580529137519114  |
|   6    | 0.03767797546159581  |  0.1391488633354173  |
|   7    |  0.0346106749261685  | 0.14900650011626712  |
|   8    |  0.0322831880717423  |  0.1585900778389377  |
|   9    | 0.03033286113312051  | 0.16701680791534534  |
|   10   | 0.02863574155441901  | 0.17510206463562572  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.9849732205561309

Per User RMSE (best)
+------------+---------------------+-------+
| customerId |         rmse


Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00018007635237340556 | 0.0001320559917404977  |
|   2    | 0.0001620687171360666  | 0.00019208144253163393 |
|   3    | 0.00018007635237340537 | 0.0003631539772863691  |
|   4    | 0.0001530648995173963  | 0.00039916924776104947 |
|   5    | 0.00015126413599366088 | 0.00044633210195408604 |
|   6    | 0.00014406108189872618 | 0.00048234737242876534 |
|   7    | 0.00012862596598100525 | 0.0004913511900474357  |
|   8    | 0.00012605344666138477 |  0.000528566969537943  |
|   9    | 0.00013605768845990687 | 0.0006846331415948929  |
|   10   | 0.00013685802780379077 | 0.0007656675001629252  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 1.0

Per User RMSE (best)
+------------+------+-------+
|

In [32]:
eval_norm = tc.recommender.util.compare_models(test_data_norm, models_w_norm, model_names=names_w_norm)

PROGRESS: Evaluate model Popularity Model on Scaled Purchase Counts



Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00012050128534704375 | 7.029241645244174e-05  |
|   2    | 0.00010041773778920306 |  9.17148671808055e-05  |
|   3    | 6.694515852613504e-05  |  9.17148671808055e-05  |
|   4    | 5.020886889460153e-05  |  9.17148671808055e-05  |
|   5    | 4.820051413881787e-05  | 0.0001318819622964865  |
|   6    | 4.686161096829482e-05  | 0.0001363449728648958  |
|   7    | 5.164340800587602e-05  | 0.00016981755212796363 |
|   8    | 9.539685089974318e-05  | 0.00037371337781042256 |
|   9    | 8.479720079977193e-05  | 0.00037371337781042245 |
|   10   | 8.033419023136291e-05  | 0.00039379692536826007 |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.1683386116177798

Per User RMSE (best)
+------------+--


Precision and recall summary statistics by cutoff
+--------+-----------------------+----------------------+
| cutoff |     mean_precision    |     mean_recall      |
+--------+-----------------------+----------------------+
|   1    |  0.007149742930591267 | 0.004853858718937477 |
|   2    |  0.005281973007712073 | 0.006965420594115968 |
|   3    |  0.004739717223650379 | 0.009345320979720049 |
|   4    |  0.004368171593830319 | 0.011436353006283916 |
|   5    |  0.004233611825192829 | 0.013751364406088082 |
|   6    |  0.004043487574978601 |  0.0156596839678459  |
|   7    | 0.0039134226955563805 | 0.017618276155792128 |
|   8    |  0.003916291773778928 | 0.020051445760394825 |
|   9    | 0.0037712439303056447 | 0.02178934207573339  |
|   10   |  0.003703406169665816 | 0.023647404950626425 |
+--------+-----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.18943607062753104

Per User RMSE (best)
+------------+------+-------+
| customerId | rmse | count


Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 8.033419023136253e-05  | 5.0208868894601395e-05 |
|   2    | 4.0167095115681265e-05 | 5.0208868894601395e-05 |
|   3    | 4.016709511568114e-05  | 9.037596401028229e-05  |
|   4    | 3.012532133676094e-05  | 9.037596401028229e-05  |
|   5    | 4.820051413881787e-05  | 0.0001318819622964863  |
|   6    | 4.6861610968294766e-05 | 0.0001363449728648955  |
|   7    | 5.164340800587591e-05  | 0.00016981755212796336 |
|   8    |  9.03759640102834e-05  | 0.0003656799587872843  |
|   9    | 8.033419023136235e-05  | 0.0003656799587872843  |
|   10   | 7.631748071979436e-05  |  0.000385763506345125  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.16788540295623328

Per User RMSE (best)
+------------+-

## 8.2. Resumen de evaluación

Basado en precisión, recuperación y RMSE

Popularidad vs. Filtrado colaborativo: podemos ver que los algoritmos de filtrado colaborativo funcionan mejor que el modelo de popularidad para los recuentos de compras. De hecho, el modelo de popularidad no ofrece personalizaciones, ya que solo ofrece la misma lista de elementos recomendados para cada usuario.

Precisión y recuperación: al observar el resumen anterior, vemos que la precisión y la recuperación son mejores para el uso de dummies. De hecho, el RMSE no es muy diferente entre los modelos dummy y los de los datos normalizados. RMSE: Dado que RMSE es mayor usando la distancia de Pearson que la coseno, elegiríamos modelar los errores cuadrados medios más pequeños, que en este caso serían coseno. Por lo tanto, seleccionamos la similitud de coseno en el método de compra dummy como nuestro modelo final.

# 9. Output Final 

Finalmente, nos gustaría manipular el formato de salida de recomendación a uno que podamos exportar a csv, y también una función que devolverá la lista de recomendaciones dada una ID de cliente.
Primero tenemos que volver a ejecutar el modelo usando todo el conjunto de datos, ya que llegamos a un modelo final usando datos del tren y evaluado con el conjunto de prueba.


In [33]:
#users_to_recommend = list(customers[user_id])
users_to_recommend = list(data.customerId.unique())

final_model = tc.item_similarity_recommender.create(tc.SFrame(data_dummy), 
                                            user_id=user_id, 
                                            item_id=item_id, 
                                            target='purchase_dummy', similarity_type='cosine')
recom = final_model.recommend(users=users_to_recommend, k=n_rec)
recom.print_rows(n_display)

+------------+-----------+----------------------+------+
| customerId | productId |        score         | rank |
+------------+-----------+----------------------+------+
|     0      |    1485   | 0.08583279450734456  |  1   |
|     0      |    449    | 0.07797364393870036  |  2   |
|     0      |    1488   | 0.07060692707697551  |  3   |
|     0      |    1482   | 0.05586062868436178  |  4   |
|     0      |    1483   | 0.053239633639653526 |  5   |
|     0      |    2470   | 0.04967816670735677  |  6   |
|     0      |    2494   | 0.04459953308105469  |  7   |
|     0      |    1487   | 0.042245298624038696 |  8   |
|     0      |    2613   |  0.0421900749206543  |  9   |
|     0      |    1484   | 0.04127179582913717  |  10  |
|     2      |    447    | 0.13119147221247354  |  1   |
|     2      |    1102   | 0.10631694396336873  |  2   |
|     2      |    813    | 0.08165814479192098  |  3   |
|     2      |    462    | 0.08100934823354085  |  4   |
|     2      |    615    | 0.07

## 9.1. CSV output file

In [34]:
# Aquí queremos manipular nuestro resultado a una salida csv. Veamos que tenemos
df_rec = recom.to_dataframe()
print(df_rec.shape)
df_rec.head()

(390370, 4)


Unnamed: 0,customerId,productId,score,rank
0,0,1485,0.085833,1
1,0,449,0.077974,2
2,0,1488,0.070607,3
3,0,1482,0.055861,4
4,0,1483,0.05324,5


In [0]:
#df_rec['recommendedProducts'] = df_rec.groupby([user_id])[item_id].transform(lambda x: '|'.join(x.astype(str)))
#df_output = df_rec[['customerId', 'recommendedProducts']].drop_duplicates().sort_values('customerId').set_index('customerId')

In [0]:
# Definamos una función para crear una salida deseada:
def create_output(model, users_to_recommend, n_rec, print_csv=True):
    recomendation = model.recommend(users=users_to_recommend, k=n_rec)
    df_rec = recomendation.to_dataframe()
    df_rec['recommendedProducts'] = df_rec.groupby([user_id])[item_id] \
        .transform(lambda x: '|'.join(x.astype(str)))
    df_output = df_rec[['customerId', 'recommendedProducts']].drop_duplicates() \
        .sort_values('customerId').set_index('customerId')
    if print_csv:
        df_output.to_csv('ID_recommendation.csv')
        print("An output file can be found in 'output' folder with name 'ID_recommendation.csv'")
    return df_output

In [37]:
# Vamos a imprimir el resultado a continuación y setprint_csv a verdadero, de esta manera podríamos literalmente imprimir
# nuestro archivo de salida en csv, que también puede encontrar aquí.
df_output = create_output(pear_norm, users_to_recommend, n_rec, print_csv=True)
print(df_output.shape)
df_output.head()

An output file can be found in 'output' folder with name 'ID_recommendation.csv'
(39037, 1)


Unnamed: 0_level_0,recommendedProducts
customerId,Unnamed: 1_level_1
0,2705|2766|2505|2710|1316|923|1500|1324|2250|1507
2,2705|2766|2505|2710|1316|923|1500|1324|1317|2250
5,2705|2766|2505|2710|1316|923|1500|1324|1317|2250
6,2705|2766|2505|2710|1316|923|1500|1324|1317|2250
7,2705|2766|2505|2710|1316|923|1500|1324|2250|1507


## 9.2. Función de recomendación del cliente

In [0]:
# Definamos una función que devolverá la lista de recomendaciones con un ID de cliente:
def customer_recomendation(user_id):
    if user_id not in df_output.index:
        print('Customer not found.')
        return user_id
    return df_output.loc[user_id]

In [39]:
# a modo de ejemplo:
customer_recomendation(2)

recommendedProducts    2705|2766|2505|2710|1316|923|1500|1324|1317|2250
Name: 2, dtype: object

In [40]:
customer_recomendation(534)

recommendedProducts    2705|2766|2505|2710|1316|923|1500|1324|1317|2250
Name: 534, dtype: object

In [41]:
customer_recomendation(0)

recommendedProducts    2705|2766|2505|2710|1316|923|1500|1324|2250|1507
Name: 0, dtype: object

In [42]:
customer_recomendation(2737)

recommendedProducts    2705|2766|2505|2710|1316|923|1500|1324|1317|2250
Name: 2737, dtype: object

In [43]:
customer_recomendation(53870)

recommendedProducts    2705|2766|2505|2710|1316|923|1500|1324|1317|2250
Name: 53870, dtype: object