# Como construir um Sistema de Recomendação para compras (passo a passo)
* Descrição: Uma documentação sobre a construção de modelos de filtragem colaborativa para recomendar produtos para clientes

* Link: https://medium.com/datadriveninvestor/how-to-build-a-recommendation-system-for-purchase-data-step-by-step-d6d7a78800b6
* Autora: Moorissa Tjokro

## Problema
Neste desafio de dados, nós vamos construir modelos de filtragem colaboratica para recomendar itens de produtos. Os passoas abaixo tem como objetivo recomendar aos usuários 10 itens para colocar na sua sacola de compras. O resultado final será um arquivo csv na pasta `output`, e uma função que busca por uma lista de recomendações baseado em um usuário específico:

* Entrada: usuário - Cliente ID
* Retorna: ranking de uma lista de itens (ID do produto), provável que o usuário vai querer colocar em sua sacola de compras (que até então estava vazia)

## 1. Modulos para importr
* `pandas` e `numpy` para a manupulação de dados
* `turicreate` para executar a seleção e avaliação do modelo
* `sklearn` para dividir os dados em conjunto de trem e teste

In [2]:
#%load_ext autoreload
#autoreload 2

import pandas as pd
import numpy as np
import time
import turicreate as tc
from sklearn.model_selection import train_test_split
import data_layer as data_layer

## 2. Load data
Dois conjuntos de dados são usados ​​neste exercício, que podem ser encontrados na pasta `data`: 
* `recommend_1.csv` consistindo em uma lista de 1000 IDs de clientes para recomendar, na pasta `output`
* `trx_data.csv` consistindo em transações do usuário

The format is as follows.

In [3]:
customers = pd.read_csv('../data/recommend_1.csv')
transactions = pd.read_csv('../data/trx_data.csv')

In [4]:
print(customers.shape)
customers.head()

(7987, 1)


Unnamed: 0,customerId
0,1076254
1,1268548
2,1709459
3,1712393
4,1721053


In [27]:
print(transactions.shape)
transactions.head()

(7987, 2)


Unnamed: 0,customerId,products
0,1076254,124321|920089|920083|920090|123465|123507
1,1268548,124321|122912
2,1709459,124321|124464|920089
3,1712393,124321
4,1721053,124321|123661|124640


## 3. Preparação dos dados
* Nosso objetivo aqui é dividir cada lista de itens na coluna `products` em linhas e contar o número de produtos comprados por um usuário

In [5]:
# example 1: split product items
transactions['products'] = transactions['products'].apply(lambda x: [int(i) for i in x.split('|')])
transactions.head(2).set_index('customerId')['products'].apply(pd.Series).reset_index()

Unnamed: 0,customerId,0,1,2,3,4,5
0,1076254,124321.0,920089.0,920083.0,920090.0,123465.0,123507.0
1,1268548,124321.0,122912.0,,,,


In [6]:
# exemplo 2: organizar uma determinada tabela em um dataframe com customerId, productId único e contagem de compras
pd.melt(transactions.head(2).set_index('customerId')['products'].apply(pd.Series).reset_index(), 
             id_vars=['customerId'],
             value_name='products') \
    .dropna().drop(['variable'], axis=1) \
    .groupby(['customerId', 'products']) \
    .agg({'products': 'count'}) \
    .rename(columns={'products': 'purchase_count'}) \
    .reset_index() \
    .rename(columns={'products': 'productId'})

Unnamed: 0,customerId,productId,purchase_count
0,1076254,123465.0,1
1,1076254,123507.0,1
2,1076254,124321.0,1
3,1076254,920083.0,1
4,1076254,920089.0,1
5,1076254,920090.0,1
6,1268548,122912.0,1
7,1268548,124321.0,1


### 3.1. Crie dados com o usuário, item e campo de destino
* Esta tabela será uma entrada para nossa modelagem posteriormente
    * Nesse caso, nosso usuário é `customerId`,` productId` e `purchase_count`

In [7]:
s=time.time()

data = pd.melt(transactions.set_index('customerId')['products'].apply(pd.Series).reset_index(), 
             id_vars=['customerId'],
             value_name='products') \
    .dropna().drop(['variable'], axis=1) \
    .groupby(['customerId', 'products']) \
    .agg({'products': 'count'}) \
    .rename(columns={'products': 'purchase_count'}) \
    .reset_index() \
    .rename(columns={'products': 'productId'})
data['productId'] = data['productId'].astype(np.int64)

print("Execution time:", round((time.time()-s)/60,2), "minutes")

Execution time: 0.08 minutes


In [31]:
print(data.shape)
data.head()

(24463, 3)


Unnamed: 0,customerId,productId,purchase_count
0,360153,123750,1
1,360153,920086,1
2,360478,124352,1
3,360714,124603,1
4,360847,124224,1


### 3.2. Criando o dummy
* Dummy para marcar se um cliente comprou ou não esse item.
* Se alguém compra um item, o `purchase_dummy` é marcado como 1
* Por que criar um dummyo em vez de normalizá-lo, você poderia perguntar?
    * Normalizar a contagem de compras, digamos por cada usuário, não funcionaria porque os clientes podem ter diferentes frequências de compra e não têm o mesmo gosto
    * No entanto, podemos normalizar itens pela frequência de compra em todos os usuários, o que é feito na seção 3.3. abaixo

In [8]:
def create_data_dummy(data):
    data_dummy = data.copy()
    data_dummy['purchase_dummy'] = 1
    return data_dummy

In [9]:
data_dummy = create_data_dummy(data)

### 3.3. Normalizar valores de itens entre usuários
* Para fazer isso, normalizamos a frequência de compra de cada item entre os usuários criando primeiro uma matriz de itens do usuário da seguinte maneira

In [10]:
df_matrix = pd.pivot_table(data, values='purchase_count', index='customerId', columns='productId')
df_matrix.head()

productId,10001,10004,10005,10006,10007,10008,11119,120014,120018,120192,...,920107,920113,920115,920121,920122,920128,920135,920137,920139,920140
customerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
360153,,,,,,,,,,,...,,,,,,,,,,
360478,,,,,,,,,,,...,,,,,,,,,,
360714,,,,,,,,,,,...,,,,,,,,,,
360847,,,,,,,,,,,...,,,,,,,,,,
361280,,,,,,,,,,,...,,,,,,,,,,


In [11]:
(df_matrix.shape)

(7987, 723)

In [12]:
df_matrix_norm = (df_matrix-df_matrix.min())/(df_matrix.max()-df_matrix.min())
print(df_matrix_norm.shape)
df_matrix_norm.head()

(7987, 723)


productId,10001,10004,10005,10006,10007,10008,11119,120014,120018,120192,...,920107,920113,920115,920121,920122,920128,920135,920137,920139,920140
customerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
360153,,,,,,,,,,,...,,,,,,,,,,
360478,,,,,,,,,,,...,,,,,,,,,,
360714,,,,,,,,,,,...,,,,,,,,,,
360847,,,,,,,,,,,...,,,,,,,,,,
361280,,,,,,,,,,,...,,,,,,,,,,


In [13]:
# crie uma tabela para entrada na modelagem

d = df_matrix_norm.reset_index()
d.index.names = ['scaled_purchase_freq']
data_norm = pd.melt(d, id_vars=['customerId'], value_name='scaled_purchase_freq').dropna()
print(data_norm.shape)
data_norm.head()

(20746, 3)


Unnamed: 0,customerId,productId,scaled_purchase_freq
8014,397773,10004,0.0
8247,911508,10004,0.0
8291,934537,10004,0.0
8410,1009947,10004,0.0
8559,1075868,10004,0.0


#### Definir uma função para normalizar dados

In [20]:
def normalize_data(data):
    df_matrix = pd.pivot_table(data, values='purchase_count', index='customerId', columns='productId')
    df_matrix_norm = (df_matrix-df_matrix.min())/(df_matrix.max()-df_matrix.min())
    d = df_matrix_norm.reset_index()
    d.index.names = ['scaled_purchase_freq']
    return pd.melt(d, id_vars=['customerId'], value_name='scaled_purchase_freq').dropna()

* Podemos normalizar o histórico de compras deles, de 0 a 1 (sendo 1 o número de compras mais alto para um item e 0 sendo 0 a contagem de compras para esse item).

## 4. Treinamento po partes e conjunto de testes
* Dividir os dados em conjuntos de treinamento e teste é uma parte importante da avaliação da modelagem preditiva, neste caso, um modelo de filtragem colaborativa. Normalmente, usamos uma porção maior dos dados para treinamento e uma porção menor para teste. 
* Usamos a proporção 80:20 para o nosso conjunto de testes configurar o tamanho.
* Nossa parte de treinamento será usada para desenvolver um modelo preditivo, enquanto a outra para avaliar o desempenho do modelo
* Agora que temos três conjuntos de dados com contagens de compra, dummy de compra e contagens de compra em escala, gostaríamos de dividir cada um.

In [14]:
train, test = train_test_split(data, test_size = .2)
print(train.shape, test.shape)

(19570, 3) (4893, 3)


In [17]:
# Usando a biblioteca turicreate, convertemos o dataframe em SFrame - isso será útil na parte de modelagem

train_data = tc.SFrame(train)
test_data = tc.SFrame(test)

In [18]:
train_data

customerId,productId,purchase_count
1803867,124603,1
1713061,123678,1
1781784,920091,2
933401,121716,1
1806862,123434,2
1710364,920088,1
1749416,124411,1
1759753,920082,2
1747184,124411,1
1761096,124411,1


In [19]:
test_data

customerId,productId,purchase_count
1780259,920088,2
1792380,920081,1
1759157,10006,1
1832794,920094,1
1727817,124392,1
1763534,123743,1
1724764,920085,1
1795768,123487,1
1730200,120601,1
1252386,920080,1


#### Defina uma função `split_data` para dividir dados no conjunto de treinamento e teste

In [21]:
# Podemos definir uma função para esta etapa da seguinte maneira

def split_data(data):
    '''
    Splits dataset into training and test set.
    
    Args:
        data (pandas.DataFrame)
        
    Returns
        train_data (tc.SFrame)
        test_data (tc.SFrame)
    '''
    train, test = train_test_split(data, test_size = .2)
    train_data = tc.SFrame(train)
    test_data = tc.SFrame(test)
    return train_data, test_data

In [22]:
# Vamos tentar com tabela dummy e com a tabela de compra escalada/normalizada

train_data_dummy, test_data_dummy = split_data(data_dummy)
train_data_norm, test_data_norm = split_data(data_norm)

## 5. Modelo Baseline
Antes de executar uma abordagem mais complicada, como a filtragem colaborativa, gostaríamos de usar um modelo de linha de base para comparar e avaliar modelos. Como a linha de base geralmente usa uma abordagem muito simples, as técnicas usadas além dessa abordagem devem ser escolhidas se mostrarem uma precisão e complexidade relativamente melhores.

### 5.1. Usando um modelo de popularidade como linha de base
* O modelo de popularidade leva os itens mais populares para recomendação. Esses itens são produtos com o maior número de vendas entre clientes.
* Usamos a biblioteca `turicreate` para executar e avaliar os modelos de filtragem de linha de base e de colaboração abaixo
* Os dados de treinamento são usados para a seleção do modelo

#### Usando contagens de compra

In [23]:
# Variaveis para definir os nomes dos campos
user_id = 'customerId'
item_id = 'productId'
target = 'purchase_count'
users_to_recommend = list(transactions[user_id])
n_rec = 10 # número de ítens para recomendar
n_display = 30

In [26]:
popularity_model = tc.popularity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target)

In [28]:
# Obtenha recomendações para uma lista de usuários a recomendar (do arquivo de clientes)
# A seguir, estão impressas as principais / 30 principais linhas para os 3 primeiros clientes, com 10 recomendações cada

popularity_recomm = popularity_model.recommend(users=users_to_recommend, k=n_rec)
popularity_recomm.print_rows(n_display)

+------------+-----------+--------------------+------+
| customerId | productId |       score        | rank |
+------------+-----------+--------------------+------+
|  1076254   |   124838  |        2.0         |  1   |
|  1076254   |   124738  |        2.0         |  2   |
|  1076254   |   123123  |        2.0         |  3   |
|  1076254   |   124788  |        2.0         |  4   |
|  1076254   |   124136  |        2.0         |  5   |
|  1076254   |   124074  | 1.6666666666666667 |  6   |
|  1076254   |   124568  | 1.6666666666666667 |  7   |
|  1076254   |   123429  |        1.5         |  8   |
|  1076254   |   124689  |        1.5         |  9   |
|  1076254   |   124517  |        1.5         |  10  |
|  1268548   |   124838  |        2.0         |  1   |
|  1268548   |   124738  |        2.0         |  2   |
|  1268548   |   123123  |        2.0         |  3   |
|  1268548   |   124788  |        2.0         |  4   |
|  1268548   |   124136  |        2.0         |  5   |
|  1268548

#### Define a `model` function for model selection

In [33]:
# Como turicreate é uma biblioteca muito acessível, podemos definir uma função de seleção de modelo como abaixo

def model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display):
    if name == 'popularity':
        model = tc.popularity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target)
    elif name == 'cosine':
        model = tc.item_similarity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target, 
                                                    similarity_type='cosine')
    elif name == 'pearson':
        model = tc.item_similarity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target, 
                                                    similarity_type='pearson')
        
    recom = model.recommend(users=users_to_recommend, k=n_rec)
    recom.print_rows(n_display)
    return model

In [34]:
# variáveis para definir os nomes dos campos
# variaveis constantes incluídas:
user_id = 'customerId'
item_id = 'productId'
users_to_recommend = list(customers[user_id])
n_rec = 10 # número da lista para recomendar
n_display = 30 # para mostrar o cabeçalho / primeiras linhas em um conjunto de dados definido

#### Usando as compras do dummy

In [35]:
# essas variáveis mudarão de acordo
name = 'popularity'
target = 'purchase_dummy'
pop_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+-------+------+
| customerId | productId | score | rank |
+------------+-----------+-------+------+
|  1076254   |   121413  |  1.0  |  1   |
|  1076254   |   121439  |  1.0  |  2   |
|  1076254   |   920088  |  1.0  |  3   |
|  1076254   |   122180  |  1.0  |  4   |
|  1076254   |   920085  |  1.0  |  5   |
|  1076254   |   124640  |  1.0  |  6   |
|  1076254   |   920084  |  1.0  |  7   |
|  1076254   |   920086  |  1.0  |  8   |
|  1076254   |   123235  |  1.0  |  9   |
|  1076254   |   124411  |  1.0  |  10  |
|  1268548   |   121439  |  1.0  |  1   |
|  1268548   |   920088  |  1.0  |  2   |
|  1268548   |   122180  |  1.0  |  3   |
|  1268548   |   920085  |  1.0  |  4   |
|  1268548   |   124640  |  1.0  |  5   |
|  1268548   |   920084  |  1.0  |  6   |
|  1268548   |   920086  |  1.0  |  7   |
|  1268548   |   123235  |  1.0  |  8   |
|  1268548   |   920089  |  1.0  |  9   |
|  1268548   |   124411  |  1.0  |  10  |
|  1709459   |   121439  |  1.0  |

#### Usando a contagem normalizada de compras

In [36]:
name = 'popularity'
target = 'scaled_purchase_freq'
pop_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+--------------------+------+
| customerId | productId |       score        | rank |
+------------+-----------+--------------------+------+
|  1076254   |   124193  |        1.0         |  1   |
|  1076254   |   123429  |        1.0         |  2   |
|  1076254   |   120386  |        1.0         |  3   |
|  1076254   |   124290  | 0.5714285714285714 |  4   |
|  1076254   |   123123  |        0.5         |  5   |
|  1076254   |   124517  |        0.5         |  6   |
|  1076254   |   124669  |        0.5         |  7   |
|  1076254   |   124074  |        0.5         |  8   |
|  1076254   |   124412  |        0.5         |  9   |
|  1076254   |   120976  | 0.3333333333333333 |  10  |
|  1268548   |   124193  |        1.0         |  1   |
|  1268548   |   123429  |        1.0         |  2   |
|  1268548   |   120386  |        1.0         |  3   |
|  1268548   |   124290  | 0.5714285714285714 |  4   |
|  1268548   |   123123  |        0.5         |  5   |
|  1268548

#### Notas
* Depois de criar o modelo, previmos os itens de recomendação usando pontuações por popularidade. Como você pode dizer para os resultados de cada modelo acima, as linhas mostram os 30 primeiros registros de 1000 usuários com 10 recomendações. Esses 30 registros incluem 3 usuários e seus itens recomendados, além de classificações e classificações decrescentes. 
* No resultado, embora modelos diferentes tenham uma lista de recomendações diferente, cada usuário é recomendado com a mesma lista de 10 itens. Isso ocorre porque a popularidade é calculada levando os itens mais populares para todos os usuários.
* Se um exemplo de agrupamento abaixo, os produtos 132, 248, 37 e 34 forem os mais populares (mais vendidos) entre os clientes. Usando as contagens de compras divididas pelo número de clientes, vemos que esses produtos são comprados pelo menos três vezes em média no conjunto de transações de treinamento (o mesmo que a primeira medida de popularidade na variável `purchase_count`)

In [37]:
train.groupby(by=item_id)['purchase_count'].mean().sort_values(ascending=False).head(20)

productId
123123    2.000000
124788    2.000000
124738    2.000000
124136    2.000000
124838    2.000000
124074    1.666667
124568    1.666667
123429    1.500000
124517    1.500000
124475    1.500000
124689    1.500000
124386    1.500000
124290    1.444444
124412    1.400000
123553    1.333333
124659    1.333333
124693    1.333333
123480    1.333333
124859    1.333333
124697    1.333333
Name: purchase_count, dtype: float64

## 6. Modelo de filtragem colaborativa

* Na filtragem colaborativa, recomendamos itens com base em como usuários semelhantes compram itens. Por exemplo, se o cliente 1 e o cliente 2 compraram itens semelhantes, por exemplo, 1 comprou X, Y, Z e 2 comprou X, Y, recomendamos um item Z ao cliente 2.

* Para definir semelhança entre os usuários, usamos as seguintes etapas:
    1. Crie uma matriz de itens do usuário, em que os valores do índice representam IDs de clientes exclusivos e os valores da coluna representam IDs de produtos exclusivos
    
    2. Crie uma matriz de similaridade item a item. A idéia é calcular a semelhança entre um produto e outro. Existem várias maneiras de calcular isso. Nas etapas 6.1 e 6.2, usamos a medida de similaridade de cosseno e pearson, respectivamente. 
    
        * Para calcular a semelhança entre os produtos X e Y, observe todos os clientes que classificaram esses dois itens. Por exemplo, X e Y foram classificados pelos clientes 1 e 2. 
        * Em seguida, criamos dois vetores de itens, v1 para o item X e v2 para o item Y, no espaço do usuário de (1, 2) e, em seguida, localizamos o ângulo / distância `coseno` ou` pearson` entre esses vetores. Um ângulo zero ou vetores sobrepostos com valor de cosseno de 1 significa similaridade total (ou por usuário, em todos os itens, há a mesma classificação) e um ângulo de 90 graus significaria cosseno de 0 ou nenhuma similaridade.
        
    3. Para cada cliente, prevemos sua probabilidade de comprar um produto (ou sua contagem de compra) para produtos que ele não comprou. 
    
        * No nosso exemplo, calcularemos a classificação para o usuário 2 no caso do item Z (item de destino). Para calcular isso, pesamos a medida de similaridade recém-calculada entre o item de destino e outros itens que o cliente já comprou. O fator de pesagem é a contagem de compras dada pelo usuário aos itens já comprados por ele. 
        * Em seguida, escalamos essa soma ponderada com a soma das medidas de similaridade para que a classificação calculada permaneça dentro de limites predefinidos. Assim, a classificação prevista para o item Z para o usuário 2 seria calculada usando medidas de similaridade.

* Embora eu tenha escrito scripts python para todo o processo, incluindo encontrar semelhança usando scripts python (que podem ser encontrados na pasta `scripts`, podemos usar a biblioteca` turicreate` por enquanto para capturar medidas diferentes, como usar distância `cosine` e` pearson`, e avaliar o melhor modelo

### 6.1. Similaridade de `Cosine`
* A semelhança é o cosseno do ângulo entre os 2 vetores dos itens de vetores de A e B
* É definido pela seguinte fórmula
![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTnRHSAx1c084UXF2wIHYwaHJLmq2qKtNk_YIv3RjHUO00xwlkt)
* Quanto mais próximos os vetores, menor será o ângulo e maior o cosseno

#### Usando contagem de compras

In [38]:
# essas variáveis vão mudar de acordo
name = 'cosine'
target = 'purchase_count'
cos = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+---------------------+------+
| customerId | productId |        score        | rank |
+------------+-----------+---------------------+------+
|  1076254   |   920085  |  0.2307756096124649 |  1   |
|  1076254   |   920091  |  0.2058946192264557 |  2   |
|  1076254   |   920087  |  0.1881573349237442 |  3   |
|  1076254   |   920082  | 0.18326705694198608 |  4   |
|  1076254   |   920080  |  0.1832437813282013 |  5   |
|  1076254   |   920084  |  0.1694263219833374 |  6   |
|  1076254   |   920094  |  0.1678241640329361 |  7   |
|  1076254   |   920081  | 0.16380354762077332 |  8   |
|  1076254   |   920086  | 0.15407314896583557 |  9   |
|  1076254   |   920088  | 0.14044290781021118 |  10  |
|  1268548   |   123683  |  0.1666666567325592 |  1   |
|  1268548   |   123714  |  0.1666666567325592 |  2   |
|  1268548   |   124517  |  0.1533930003643036 |  3   |
|  1268548   |   124465  | 0.14573243260383606 |  4   |
|  1268548   |   124533  |  0.1400279998779297 |

#### Usando dummy de compras

In [39]:
# Essas variáveis vão mudar de acordo
name = 'cosine'
target = 'purchase_dummy'
cos_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+---------------------+------+
| customerId | productId |        score        | rank |
+------------+-----------+---------------------+------+
|  1076254   |   920085  | 0.15170197188854218 |  1   |
|  1076254   |   920090  | 0.14905278384685516 |  2   |
|  1076254   |   920091  | 0.13700975477695465 |  3   |
|  1076254   |   920087  | 0.13589544594287872 |  4   |
|  1076254   |   920082  | 0.12487626075744629 |  5   |
|  1076254   |   920080  | 0.12451697885990143 |  6   |
|  1076254   |   920084  | 0.12400156259536743 |  7   |
|  1076254   |   920081  | 0.11594972014427185 |  8   |
|  1076254   |   920086  | 0.11488708853721619 |  9   |
|  1076254   |   920092  | 0.09793955087661743 |  10  |
|  1268548   |   123579  | 0.19245007634162903 |  1   |
|  1268548   |   124725  |  0.1666666567325592 |  2   |
|  1268548   |   123714  |  0.1666666567325592 |  3   |
|  1268548   |   123447  | 0.13608276844024658 |  4   |
|  1268548   |   123915  |  0.1305789053440094 |

#### Using normalized purchase count

In [80]:
name = 'cosine'
target = 'scaled_purchase_freq'
cos_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+-------+------+
| customerId | productId | score | rank |
+------------+-----------+-------+------+
|  1076254   |   123584  |  0.0  |  1   |
|  1076254   |   920088  |  0.0  |  2   |
|  1076254   |   122392  |  0.0  |  3   |
|  1076254   |   122180  |  0.0  |  4   |
|  1076254   |   124603  |  0.0  |  5   |
|  1076254   |   124248  |  0.0  |  6   |
|  1076254   |   920080  |  0.0  |  7   |
|  1076254   |   920089  |  0.0  |  8   |
|  1076254   |   920091  |  0.0  |  9   |
|  1076254   |   123086  |  0.0  |  10  |
|  1268548   |   920088  |  0.0  |  1   |
|  1268548   |   122392  |  0.0  |  2   |
|  1268548   |   122180  |  0.0  |  3   |
|  1268548   |   124603  |  0.0  |  4   |
|  1268548   |   124248  |  0.0  |  5   |
|  1268548   |   920080  |  0.0  |  6   |
|  1268548   |   920089  |  0.0  |  7   |
|  1268548   |   920090  |  0.0  |  8   |
|  1268548   |   920091  |  0.0  |  9   |
|  1268548   |   123086  |  0.0  |  10  |
|  1709459   |   123584  |  0.0  |

### 6.2. `Pearson` similarity
* Similarity is the pearson coefficient between the two vectors.
* It is defined by the following formula
![](http://critical-numbers.group.shef.ac.uk/glossary/images/correlationKT1.png)

#### Using purchase count

In [63]:
# these variables will change accordingly
name = 'pearson'
target = 'purchase_count'
pear = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+--------------------+------+
| customerId | productId |       score        | rank |
+------------+-----------+--------------------+------+
|  1076254   |   124136  |        2.0         |  1   |
|  1076254   |   124838  |        2.0         |  2   |
|  1076254   |   124738  |        2.0         |  3   |
|  1076254   |   123864  |        2.0         |  4   |
|  1076254   |   123553  |        1.5         |  5   |
|  1076254   |   123123  |        1.5         |  6   |
|  1076254   |   124519  |        1.5         |  7   |
|  1076254   |   124074  |        1.5         |  8   |
|  1076254   |   120386  | 1.4998991191387177 |  9   |
|  1076254   |   124517  | 1.4976870715618134 |  10  |
|  1268548   |   124136  |        2.0         |  1   |
|  1268548   |   124838  |        2.0         |  2   |
|  1268548   |   124738  |        2.0         |  3   |
|  1268548   |   123864  |        2.0         |  4   |
|  1268548   |   123553  |        1.5         |  5   |
|  1268548

#### Using purchase dummy

In [64]:
# these variables will change accordingly
name = 'pearson'
target = 'purchase_dummy'
pear_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+-------+------+
| customerId | productId | score | rank |
+------------+-----------+-------+------+
|  1076254   |   920084  |  0.0  |  1   |
|  1076254   |   124489  |  0.0  |  2   |
|  1076254   |   123507  |  0.0  |  3   |
|  1076254   |   123597  |  0.0  |  4   |
|  1076254   |   920080  |  0.0  |  5   |
|  1076254   |   121413  |  0.0  |  6   |
|  1076254   |   920086  |  0.0  |  7   |
|  1076254   |   123919  |  0.0  |  8   |
|  1076254   |   122181  |  0.0  |  9   |
|  1076254   |   920091  |  0.0  |  10  |
|  1268548   |   124489  |  0.0  |  1   |
|  1268548   |   123507  |  0.0  |  2   |
|  1268548   |   123597  |  0.0  |  3   |
|  1268548   |   920080  |  0.0  |  4   |
|  1268548   |   121413  |  0.0  |  5   |
|  1268548   |   920086  |  0.0  |  6   |
|  1268548   |   920089  |  0.0  |  7   |
|  1268548   |   123919  |  0.0  |  8   |
|  1268548   |   122181  |  0.0  |  9   |
|  1268548   |   920091  |  0.0  |  10  |
|  1709459   |   124489  |  0.0  |

#### Using normalized purchase count

In [65]:
name = 'pearson'
target = 'scaled_purchase_freq'
pear_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+------------+-----------+---------------------+------+
| customerId | productId |        score        | rank |
+------------+-----------+---------------------+------+
|  1076254   |   123429  |         1.0         |  1   |
|  1076254   |   124533  |         1.0         |  2   |
|  1076254   |   123123  |         0.5         |  3   |
|  1076254   |   120386  |         0.5         |  4   |
|  1076254   |   124074  |         0.5         |  5   |
|  1076254   |   124697  |         0.5         |  6   |
|  1076254   |   124568  |         0.5         |  7   |
|  1076254   |   124517  |  0.4970615267753601 |  8   |
|  1076254   |   124669  |  0.4970615267753601 |  9   |
|  1076254   |   120976  | 0.42853447369166786 |  10  |
|  1268548   |   123429  |         1.0         |  1   |
|  1268548   |   124533  |         1.0         |  2   |
|  1268548   |   123123  |         0.5         |  3   |
|  1268548   |   120386  |         0.5         |  4   |
|  1268548   |   124074  |         0.5         |

#### Note
* In collaborative filtering above, we used two approaches: cosine and pearson distance. We also got to apply them to three training datasets with normal counts, dummy, or normalized counts of items purchase.
* We can see that the recommendations are different for each user. This suggests that personalization does exist. 
* But how good is this model compared to the baseline, and to each other? We need some means of evaluating a recommendation engine. Lets focus on that in the next section.

## 7. Model Evaluation
For evaluating recommendation engines, we can use the concept of precision-recall.

* RMSE (Root Mean Squared Errors)
    * Measures the error of predicted values
    * Lesser the RMSE value, better the recommendations
* Recall
    * What percentage of products that a user buys are actually recommended?
    * If a customer buys 5 products and the recommendation decided to show 3 of them, then the recall is 0.6
* Precision
    * Out of all the recommended items, how many the user actually liked?
    * If 5 products were recommended to the customer out of which he buys 4 of them, then precision is 0.8
    
* Why are both recall and precision important?
    * Consider a case where we recommend all products, so our customers will surely cover the items that they liked and bought. In this case, we have 100% recall! Does this mean our model is good?
    * We have to consider precision. If we recommend 300 items but user likes and buys only 3 of them, then precision is 0.1%! This very low precision indicates that the model is not great, despite their excellent recall.
    * So our aim has to be optimizing both recall and precision (to be close to 1 as possible).

Lets compare all the models we have built based on precision-recall characteristics:

In [66]:
# create initial callable variables

models_w_counts = [popularity_model, cos, pear]
models_w_dummy = [pop_dummy, cos_dummy, pear_dummy]
models_w_norm = [pop_norm, cos_norm, pear_norm]

names_w_counts = ['Popularity Model on Purchase Counts', 'Cosine Similarity on Purchase Counts', 'Pearson Similarity on Purchase Counts']
names_w_dummy = ['Popularity Model on Purchase Dummy', 'Cosine Similarity on Purchase Dummy', 'Pearson Similarity on Purchase Dummy']
names_w_norm = ['Popularity Model on Scaled Purchase Counts', 'Cosine Similarity on Scaled Purchase Counts', 'Pearson Similarity on Scaled Purchase Counts']

#### Models on purchase counts

In [89]:
eval_counts = tc.recommender.util.compare_models(test_data, models_w_counts, model_names=names_w_counts)

PROGRESS: Evaluate model Popularity Model on Purchase Counts



Precision and recall summary statistics by cutoff
+--------+-----------------------+------------------------+
| cutoff |     mean_precision    |      mean_recall       |
+--------+-----------------------+------------------------+
|   1    | 0.0007199424046076297 | 0.00029346223730672953 |
|   2    |  0.003167746580273574 | 0.0031647468202543752  |
|   3    | 0.0034317254619630373 |  0.005225953352303244  |
|   4    | 0.0029157667386609147 |  0.005793716226204202  |
|   5    |  0.006133909287257029 |  0.01590833513184247   |
|   6    |  0.00643148548116152  |  0.020268614880891146  |
|   7    | 0.0059035277177825855 |  0.021857490368254646  |
|   8    | 0.0055795536357091365 |  0.023666719655885578  |
|   9    |  0.005391568674506037 |  0.02583266066631922   |
|   10   |  0.005363570914326852 |  0.028737828252912132  |
+--------+-----------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 1.1111750034210488

Per User RMSE (best)
+------------+----------------


Precision and recall summary statistics by cutoff
+--------+----------------------+---------------------+
| cutoff |    mean_precision    |     mean_recall     |
+--------+----------------------+---------------------+
|   1    | 0.06335493160547198  | 0.03506211424106219 |
|   2    | 0.06263498920086356  | 0.07230791509969706 |
|   3    | 0.05097192224622066  | 0.08726852084863941 |
|   4    | 0.04321454283657309  | 0.09728549302056154 |
|   5    | 0.03832973362131041  | 0.10678978981967435 |
|   6    | 0.034641228701704024 |  0.1143935243780528 |
|   7    | 0.032150570811478006 | 0.12289104457643715 |
|   8    | 0.030192584593232753 |  0.1315870411077297 |
|   9    | 0.02850971922246227  | 0.13891659760035277 |
|   10   | 0.027048236141108645 |  0.1465656410215347 |
+--------+----------------------+---------------------+
[10 rows x 3 columns]


Overall RMSE: 1.9230643981653215

Per User RMSE (best)
+------------+---------------------+-------+
| customerId |         rmse        | coun


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.06357091432685413  | 0.035144393373017405 |
|   2    |  0.0624910007199426  | 0.07222392181915947  |
|   3    | 0.051091912646988306 | 0.08727520602811081  |
|   4    | 0.043178545716342755 |  0.0968562746107815  |
|   5    | 0.03832973362131065  | 0.10616781100655155  |
|   6    | 0.034569234461243395 | 0.11430058895574437  |
|   7    | 0.03175974493469068  | 0.12174051064512559  |
|   8    | 0.030039596832253546 | 0.13105989027280296  |
|   9    | 0.028413726901847833 | 0.13911332731652126  |
|   10   | 0.027041036717062584 | 0.14659112729432097  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 1.9231102838192284

Per User RMSE (best)
+------------+---------------------+-------+
| customerId |         rmse

#### Models on purchase dummy

In [91]:
eval_dummy = tc.recommender.util.compare_models(test_data_dummy, models_w_dummy, model_names=names_w_dummy)

PROGRESS: Evaluate model Popularity Model on Purchase Dummy



Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.05430644350262212  | 0.030314648895390185 |
|   2    | 0.054521945262552975 | 0.06031738893404705  |
|   3    | 0.04575820702535739  | 0.07481887179538214  |
|   4    | 0.03837727174771911  | 0.08234835646340455  |
|   5    | 0.03409237842109061  |  0.0905290880664835  |
|   6    | 0.03139142302995476  | 0.09898045781970626  |
|   7    | 0.029534003099120503 |  0.108245485128516   |
|   8    | 0.027835643991092555 | 0.11626777864484733  |
|   9    | 0.026482771831525472 | 0.12401884389627199  |
|   10   | 0.025623159255800585 |  0.1343114499883889  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.9697374361161925

Per User RMSE (best)
+------------+--------------------+-------+
| customerId |        rmse  


Precision and recall summary statistics by cutoff
+--------+----------------------+---------------------+
| cutoff |    mean_precision    |     mean_recall     |
+--------+----------------------+---------------------+
|   1    |  0.0549529487824151  | 0.03061267414672341 |
|   2    | 0.05448602830256436  | 0.06034552388603806 |
|   3    | 0.045758207025357586 | 0.07498768562309908 |
|   4    | 0.037784641907909054 |  0.0815998700808042 |
|   5    | 0.03356080741326061  | 0.09043569918636968 |
|   6    | 0.03131958910997786  | 0.09997398456210141 |
|   7    | 0.029585313041961357 | 0.10916704060613812 |
|   8    | 0.02803318727102923  | 0.11750801162579602 |
|   9    | 0.026913775351387562 | 0.12632150625478447 |
|   10   | 0.025759643703756923 | 0.13419136827664874 |
+--------+----------------------+---------------------+
[10 rows x 3 columns]


Overall RMSE: 0.9697509978436404

Per User RMSE (best)
+------------+--------------------+-------+
| customerId |        rmse        | count 


Precision and recall summary statistics by cutoff
+--------+----------------------+---------------------+
| cutoff |    mean_precision    |     mean_recall     |
+--------+----------------------+---------------------+
|   1    | 0.054881114862438046 | 0.03059300533530103 |
|   2    | 0.054737447022484356 | 0.06055703487263677 |
|   3    | 0.04575820702535712  | 0.07499666486309599 |
|   4    | 0.03778464190790865  | 0.08163578704079291 |
|   5    | 0.03364700811723305  | 0.09059373381031925 |
|   6    | 0.03131958910997744  | 0.09999963953352173 |
|   7    | 0.029605837019097744 | 0.10925854333753758 |
|   8    | 0.028140938150995002 | 0.11805506113304967 |
|   9    | 0.026953683084708142 |  0.1265609526547087 |
|   10   | 0.025716543351770624 | 0.13383989516818834 |
+--------+----------------------+---------------------+
[10 rows x 3 columns]


Overall RMSE: 0.9697745320187097

Per User RMSE (best)
+------------+--------------------+-------+
| customerId |        rmse        | count 

#### Models on normalized purchase frequency

In [67]:
eval_norm = tc.recommender.util.compare_models(test_data_norm, models_w_norm, model_names=names_w_norm)

PROGRESS: Evaluate model Popularity Model on Scaled Purchase Counts



Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00034855350296270483 | 0.00034855350296270483 |
|   2    | 0.0006971070059254097  | 0.0007668177065179508  |
|   3    | 0.00046473800395027264 | 0.0007668177065179507  |
|   4    | 0.0004356918787033807  | 0.0008103868943882889  |
|   5    |  0.000348553502962705  | 0.0008103868943882889  |
|   6    | 0.0002904612524689207  | 0.0008103868943882887  |
|   7    | 0.0002987601453966041  | 0.0009846636458696416  |
|   8    | 0.0003049843150923669  |  0.001071802021610318  |
|   9    | 0.0002710971689709925  |  0.001071802021610317  |
|   10   | 0.00024398745207389325 | 0.0010718020216103174  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.1829517031486069

Per User RMSE (best)
+------------+--


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.03415824329034508  | 0.019168921199245376 |
|   2    | 0.06831648658069009  | 0.08458079525524628  |
|   3    | 0.06610898106192642  | 0.12268101268624093  |
|   4    | 0.06099686301847333  | 0.15334542205403118  |
|   5    | 0.05472289996514461  | 0.17187104073649886  |
|   6    | 0.04966887417218542  |  0.186859671253188   |
|   7    | 0.04556092217298217  | 0.20144760355635213  |
|   8    | 0.042479958173579656 |  0.2141388238808943  |
|   9    | 0.04163277952054531  | 0.23612882799010368  |
|   10   | 0.041930986406413365 | 0.26619156762063734  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.18127024350106974

Per User RMSE (best)
+------------+------+-------+
| customerId | rmse | count |
+----------


Precision and recall summary statistics by cutoff
+--------+------------------------+-----------------------+
| cutoff |     mean_precision     |      mean_recall      |
+--------+------------------------+-----------------------+
|   1    |  0.001394214011850819  | 0.0007668177065179508 |
|   2    | 0.0006971070059254102  | 0.0007668177065179504 |
|   3    | 0.0004647380039502731  | 0.0007668177065179508 |
|   4    | 0.0005228302544440568  | 0.0008975252701289651 |
|   5    | 0.0004182642035552457  | 0.0008975252701289664 |
|   6    | 0.0003485535029627048  | 0.0008975252701289647 |
|   7    | 0.0003485535029627048  | 0.0010718020216103183 |
|   8    | 0.00030498431509236654 | 0.0010718020216103168 |
|   9    | 0.00027109716897099267 | 0.0010718020216103177 |
|   10   | 0.0002439874520738937  | 0.0010718020216103177 |
+--------+------------------------+-----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.18116752092705057

Per User RMSE (best)
+------------+------+-------+

## 8. Model Selection
### 8.1. Evaluation summary
* Based on RMSE


    1. Popularity on purchase counts: 1.1111750034210488
    2. Cosine similarity on purchase counts: 1.9230643981653215
    3. Pearson similarity on purchase counts: 1.9231102838192284
    
    4. Popularity on purchase dummy: 0.9697374361161925
    5. Cosine similarity on purchase dummy: 0.9697509978436404
    6. Pearson similarity on purchase dummy: 0.9697745320187097
    
    7. Popularity on scaled purchase counts: 0.16230660626840343
    8. Cosine similarity on scaled purchase counts: 0.16229800354111104
    9. Pearson similarity on scaled purchase counts: 0.1622982668334026
    
* Based on Precision and Recall
![](../images/model_comparisons.png)


#### Notes

* Popularity v. Collaborative Filtering: We can see that the collaborative filtering algorithms work better than popularity model for purchase counts. Indeed, popularity model doesn’t give any personalizations as it only gives the same list of recommended items to every user.
* Precision and recall: Looking at the summary above, we see that the precision and recall for Purchase Counts > Purchase Dummy > Normalized Purchase Counts. However, because the recommendation scores for the normalized purchase data is zero and constant, we choose the dummy. In fact, the RMSE isn’t much different between models on the dummy and those on the normalized data.
* RMSE: Since RMSE is higher using pearson distance thancosine, we would choose model the smaller mean squared errors, which in this case would be cosine.
Therefore, we select the Cosine similarity on Purchase Dummy approach as our final model.

## 8. Final Output
* In this step, we would like to manipulate format for recommendation output to one we can export to csv, and also a function that will return recommendation list given a customer ID.
* We need to first rerun the model using the whole dataset, as we came to a final model using train data and evaluated with test set.

In [68]:
users_to_recommend = list(customers[user_id])

final_model = tc.item_similarity_recommender.create(tc.SFrame(data_dummy), 
                                            user_id=user_id, 
                                            item_id=item_id, 
                                            target='purchase_dummy', 
                                            similarity_type='cosine')

recom = final_model.recommend(users=users_to_recommend, k=n_rec)
recom.print_rows(n_display)

+------------+-----------+---------------------+------+
| customerId | productId |        score        | rank |
+------------+-----------+---------------------+------+
|  1076254   |   920085  | 0.18169118960698447 |  1   |
|  1076254   |   920091  | 0.16958407560984293 |  2   |
|  1076254   |   920080  | 0.16082884867986044 |  3   |
|  1076254   |   920087  | 0.15267975131670633 |  4   |
|  1076254   |   920086  | 0.15144169330596924 |  5   |
|  1076254   |   920084  | 0.14886762698491415 |  6   |
|  1076254   |   920082  |  0.1461706260840098 |  7   |
|  1076254   |   920094  |  0.1380960444609324 |  8   |
|  1076254   |   920081  | 0.13615799943606058 |  9   |
|  1076254   |   920092  | 0.12598830461502075 |  10  |
|  1268548   |   123579  |  0.1666666567325592 |  1   |
|  1268548   |   123822  |  0.1586759388446808 |  2   |
|  1268548   |   123547  | 0.14907118678092957 |  3   |
|  1268548   |   124725  | 0.14433756470680237 |  4   |
|  1268548   |   123714  | 0.14433756470680237 |

### 8.1. CSV output file

In [69]:
df_rec = recom.to_dataframe()
print(df_rec.shape)
df_rec.head()

(79870, 4)


Unnamed: 0,customerId,productId,score,rank
0,1076254,920085,0.181691,1
1,1076254,920091,0.169584,2
2,1076254,920080,0.160829,3
3,1076254,920087,0.15268,4
4,1076254,920086,0.151442,5


In [71]:
df_rec['recommendedProducts'] = df_rec.groupby([user_id])[item_id].transform(lambda x: '|'.join(x.astype(str)))
df_output = df_rec[['customerId', 'recommendedProducts']].drop_duplicates().sort_values('customerId').set_index('customerId')

#### Define a function to create a desired output

In [72]:
def create_output(model, users_to_recommend, n_rec, print_csv=True):
    recomendation = model.recommend(users=users_to_recommend, k=n_rec)
    df_rec = recomendation.to_dataframe()
    df_rec['recommendedProducts'] = df_rec.groupby([user_id])[item_id] \
        .transform(lambda x: '|'.join(x.astype(str)))
    df_output = df_rec[['customerId', 'recommendedProducts']].drop_duplicates() \
        .sort_values('customerId').set_index('customerId')
    if print_csv:
        df_output.to_csv('../output/option1_recommendation.csv')
        print("An output file can be found in 'output' folder with name 'option1_recommendation.csv'")
    return df_output

In [126]:
df_output = create_output(pear_norm, users_to_recommend, n_rec, print_csv=True)
print(df_output.shape)
df_output.head()

An output file can be found in 'output' folder with name 'option1_recommendation.csv'
(1000, 1)


Unnamed: 0_level_0,recommendedProducts
customerId,Unnamed: 1_level_1
4,2|82|249|14|86|215|39|194|111|8
11,0|51|2|103|31|169|13|226|11|271
12,44|109|170|1|82|2|19|276|118|47
16,14|162|1|47|17|105|21|223|118|0
21,48|38|93|36|79|2|50|144|1|0


### 8.2. Customer recommendation function

In [73]:
def customer_recomendation(customer_id):
    if customer_id not in df_output.index:
        print('Customer not found.')
        return customer_id
    return df_output.loc[customer_id]

In [79]:
customer_recomendation(1782386)

recommendedProducts    124213|123784|123770|124358|920091|920089|1241...
Name: 1782386, dtype: object

In [129]:
customer_recomendation(21)

recommendedProducts    48|38|93|36|79|2|50|144|1|0
Name: 21, dtype: object

## Summary
In this exercise, we were able to traverse a step-by-step process for making recommendations to customers. We used Collaborative Filtering approaches with `cosine` and `pearson` measure and compare the models with our baseline popularity model. We also prepared three sets of data that include regular buying count, buying dummy, as well as normalized purchase frequency as our target variable. Using RMSE, precision and recall, we evaluated our models and observed the impact of personalization. Finally, we selected the Cosine approach in dummy purchase data. 