# Como construir um Sistema de Recomendação de cursos (passo a passo)
* Descrição: Uma documentação sobre a construção de modelos de filtragem colaborativa para recomendar cursos para os alunos
* Autor: Gerson Marques
* Este script é baseado no estudo de Moorissa Tjokro: https://medium.com/datadriveninvestor/how-to-build-a-recommendation-system-for-purchase-data-step-by-step-d6d7a78800b6

## Problema
Neste desafio de dados, nós vamos construir modelos de filtragem colaboratica para recomendar cursos. Os passos abaixo tem como objetivo recomendar aos alunos 10 cursos para realizar ao entrar na plataforma de cursos da Universidade (Unisinos Lab). O resultado final será um arquivo csv na pasta `output`, e uma função que busca por uma lista de recomendações baseado em um aluno específico:

* Entrada: usuário - Cliente ID
* Retorna: ranking de uma lista de itens (ID do produto), provável que o usuário vai querer colocar em sua sacola de compras (que até então estava vazia)

## 1. Modulos para importar
* `pandas` e `numpy` para a manupulação de dados
* `turicreate` para executar a seleção e avaliação do modelo
* `sklearn` para dividir os dados em conjunto de trem e teste

In [55]:
import pandas as pd
import numpy as np
import time
import turicreate as tc
from sklearn.model_selection import train_test_split

## 2. Carregando os dados
Dois conjuntos de dados são usados ​​neste exercício, que podem ser encontrados na pasta `data`: 
* `recommend_1.csv` consistindo em uma lista de 1000 IDs de clientes para recomendar, na pasta `output`
* `trx_data.csv` consistindo em transações do usuário

The format is as follows.

In [2]:
alunos = pd.read_csv('../data/alunos.csv')
matriculas = pd.read_csv('../data/matriculas.csv')

In [3]:
# print(alunos.shape)
alunos.head()

# print(matriculas.shape)
matriculas.head()

Unnamed: 0,alunoId,cursos
0,1076254,124321|920089|920083|920090|123465|123507
1,1268548,124321|122912
2,1709459,124321|124464|920089
3,1712393,124
4,1721053,124321|123661|124640


In [391]:
print(matriculas.shape)
matriculas.head()

(7987, 2)


Unnamed: 0,alunoId,cursos
0,1076254,124321|920089|920083|920090|123465|123507
1,1268548,124321|122912
2,1709459,124321|124464|920089
3,1712393,124
4,1721053,124321|123661|124640


## 3. Preparação dos dados
* Nosso objetivo aqui é dividir cada lista de itens na coluna `cursos` em linhas e contar o número de produtos comprados por um usuário

In [4]:
# etapa 1 da organizando dos cursos
matriculas['cursos'] = matriculas['cursos'].apply(lambda x: [int(i) for i in x.split('|')])
matriculas.head(2).set_index('alunoId')['cursos'].apply(pd.Series).reset_index()

# etapa 2: criando um dataframe com os campos alunoId, cursoId, e matricula_count
pd.melt(matriculas.head(2).set_index('alunoId')['cursos'].apply(pd.Series).reset_index(), 
             id_vars=['alunoId'],
             value_name='cursos') \
    .dropna().drop(['variable'], axis=1) \
    .groupby(['alunoId', 'cursos']) \
    .agg({'cursos': 'count'}) \
    .rename(columns={'cursos': 'matricula_count'}) \
    .reset_index() \
    .rename(columns={'cursos': 'cursoId'})

Unnamed: 0,alunoId,cursoId,matricula_count
0,1076254,123465.0,1
1,1076254,123507.0,1
2,1076254,124321.0,1
3,1076254,920083.0,1
4,1076254,920089.0,1
5,1076254,920090.0,1
6,1268548,122912.0,1
7,1268548,124321.0,1


### 3.1. Crie dados com o usuário, item e campo de destino
* Esta tabela será uma entrada para nossa modelagem posteriormente
    * Nesse caso, nosso usuário é `alunoId`,` productId` e `contagem_matricula`

In [6]:
s=time.time()

data = pd.melt(matriculas.set_index('alunoId')['cursos'].apply(pd.Series).reset_index(), 
             id_vars=['alunoId'],
             value_name='cursos') \
    .dropna().drop(['variable'], axis=1) \
    .groupby(['alunoId', 'cursos']) \
    .agg({'cursos': 'count'}) \
    .rename(columns={'cursos': 'matricula_count'}) \
    .reset_index() \
    .rename(columns={'cursos': 'cursoId'})
data['cursoId'] = data['cursoId'].astype(np.int64)

print("Execution time:", round((time.time()-s)/60,2), "minutes")

Execution time: 0.05 minutes


In [7]:
print(data.shape)
data.head()

(24463, 3)


Unnamed: 0,alunoId,cursoId,matricula_count
0,360153,123750,1
1,360153,920086,1
2,360478,1244,1
3,360714,1246,1
4,360847,1242,1


### 3.2. Criando o dummy
* Dummy para marcar se um cliente comprou ou não esse item.
* Se alguém compra um item, o `purchase_dummy` é marcado como 1
* Por que criar um dummyo em vez de normalizá-lo, você poderia perguntar?
    * Normalizar a contagem de compras, digamos por cada usuário, não funcionaria porque os clientes podem ter diferentes frequências de compra e não têm o mesmo gosto
    * No entanto, podemos normalizar itens pela frequência de compra em todos os usuários, o que é feito na seção 3.3. abaixo

In [10]:
def create_data_dummy(data):
    data_dummy = data.copy()
    data_dummy['matricula_dummy'] = 1
    return data_dummy

In [11]:
data_dummy = create_data_dummy(data)

### 3.3. Normalizar valores de itens entre usuários
* Para fazer isso, normalizamos a frequência de compra de cada item entre os usuários criando primeiro uma matriz de itens do usuário da seguinte maneira

In [12]:
df_matrix = pd.pivot_table(data, values='matricula_count', index='alunoId', columns='cursoId')
df_matrix.head()

cursoId,1,12,92,111,121,122,123,124,125,1001,...,920107,920113,920115,920121,920122,920128,920135,920137,920139,920140
alunoId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
360153,,,,,,,,,,,...,,,,,,,,,,
360478,,,,,,,,,,,...,,,,,,,,,,
360714,,,,,,,,,,,...,,,,,,,,,,
360847,,,,,,,,,,,...,,,,,,,,,,
361280,,,,,,,,,,,...,,,,,,,,,,


In [14]:
(df_matrix.shape)

(7987, 740)

In [16]:
df_matrix_norm = (df_matrix-df_matrix.min())/(df_matrix.max()-df_matrix.min())
print(df_matrix_norm.shape)
df_matrix_norm.head()

(7987, 740)


cursoId,1,12,92,111,121,122,123,124,125,1001,...,920107,920113,920115,920121,920122,920128,920135,920137,920139,920140
alunoId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
360153,,,,,,,,,,,...,,,,,,,,,,
360478,,,,,,,,,,,...,,,,,,,,,,
360714,,,,,,,,,,,...,,,,,,,,,,
360847,,,,,,,,,,,...,,,,,,,,,,
361280,,,,,,,,,,,...,,,,,,,,,,


In [17]:
# crie uma tabela para entrada na modelagem

d = df_matrix_norm.reset_index()
d.index.names = ['scaled_matricula_freq']
data_norm = pd.melt(d, id_vars=['alunoId'], value_name='scaled_matricula_freq').dropna()
print(data_norm.shape)
data_norm.head()

(17800, 3)


Unnamed: 0,alunoId,cursoId,scaled_matricula_freq
255611,397773,10004,0.0
255844,911508,10004,0.0
255888,934537,10004,0.0
256156,1075868,10004,0.0
256300,1124452,10004,0.0


#### Definir uma função para normalizar dados

In [18]:
def normalize_data(data):
    df_matrix = pd.pivot_table(data, values='matricula_count', index='alunoId', columns='cursoId')
    df_matrix_norm = (df_matrix-df_matrix.min())/(df_matrix.max()-df_matrix.min())
    d = df_matrix_norm.reset_index()
    d.index.names = ['scaled_matricula_freq']
    return pd.melt(d, id_vars=['alunoId'], value_name='scaled_matricula_freq').dropna()

* Podemos normalizar o histórico de compras deles, de 0 a 1 (sendo 1 o número de compras mais alto para um item e 0 sendo 0 a contagem de compras para esse item).

# 4. Treinamento por partes e conjunto de testes
* Dividir os dados em conjuntos de treinamento e teste é uma parte importante da avaliação da modelagem preditiva, neste caso, um modelo de filtragem colaborativa. Normalmente, usamos uma porção maior dos dados para treinamento e uma porção menor para teste. 
* Usamos a proporção 80:20 para o nosso conjunto de testes configurar o tamanho.
* Nossa parte de treinamento será usada para desenvolver um modelo preditivo, enquanto a outra para avaliar o desempenho do modelo
* Agora que temos três conjuntos de dados com contagens de compra, dummy de compra e contagens de compra em escala, gostaríamos de dividir cada um.

In [19]:
train, test = train_test_split(data, test_size = .2)
print(train.shape, test.shape)

(19570, 3) (4893, 3)


In [20]:
# Usando a biblioteca turicreate, convertemos o dataframe em SFrame - isso será útil na parte de modelagem

train_data = tc.SFrame(train)
test_data = tc.SFrame(test)

In [21]:
train_data

alunoId,cursoId,matricula_count
1769155,920083,1
1773572,10006,1
1811641,920083,1
1090712,920088,1
1771137,123370,1
1713242,92,1
1768886,123691,1
1740993,92,1
1788908,124,1
1752750,920080,1


In [22]:
test_data

alunoId,cursoId,matricula_count
1120050,121,1
1716717,92,1
1759753,920091,2
1721921,124328,1
1703048,920084,1
1136615,92,1
1177434,920083,1
1801999,920084,1
1746026,920092,1
1782174,920082,1


#### Defina uma função `split_data` para dividir dados no conjunto de treinamento e teste

In [23]:
# Podemos definir uma função para esta etapa da seguinte maneira

def split_data(data):
    '''
    Splits dataset into training and test set.
    
    Args:
        data (pandas.DataFrame)
        
    Returns
        train_data (tc.SFrame)
        test_data (tc.SFrame)
    '''
    train, test = train_test_split(data, test_size = .2)
    train_data = tc.SFrame(train)
    test_data = tc.SFrame(test)
    return train_data, test_data

In [24]:
# Vamos tentar com tabela dummy e com a tabela de compra escalada/normalizada

train_data_dummy, test_data_dummy = split_data(data_dummy)
train_data_norm, test_data_norm = split_data(data_norm)

## 5. Modelo Baseline
Antes de executar uma abordagem mais complicada, como a filtragem colaborativa, gostaríamos de usar um modelo de linha de base para comparar e avaliar modelos. Como a linha de base geralmente usa uma abordagem muito simples, as técnicas usadas além dessa abordagem devem ser escolhidas se mostrarem uma precisão e complexidade relativamente melhores.

### 5.1. Usando um modelo de popularidade como linha de base
* O modelo de popularidade leva os itens mais populares para recomendação. Esses itens são produtos com o maior número de vendas entre clientes.
* Usamos a biblioteca `turicreate` para executar e avaliar os modelos de filtragem de linha de base e de colaboração abaixo
* Os dados de treinamento são usados para a seleção do modelo

#### Usando contagens de compra

In [25]:
# Variaveis para definir os nomes dos campos
user_id = 'alunoId'
item_id = 'cursoId'
target = 'matricula_count'
users_to_recommend = list(matriculas[user_id])
n_rec = 10 # number of items to recommend
n_display = 10

In [26]:
popularity_model = tc.popularity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target)

In [384]:
# Obtenha recomendações para uma lista de usuários a recomendar (do arquivo de clientes)
# A seguir, estão impressas as principais / 30 principais linhas para os 3 primeiros clientes, com 10 recomendações cada

popularity_recomm = popularity_model.recommend(users=users_to_recommend, k=n_rec)
popularity_recomm.print_rows(n_display)

+---------+-------------------------------+-------+------+
| alunoId |            cursoId            | score | rank |
+---------+-------------------------------+-------+------+
| 1076254 |  920094|920089|920082|920081  |  1.0  |  1   |
| 1076254 |      920090|920091|920087     |  1.0  |  2   |
| 1076254 |              125              |  1.0  |  3   |
| 1076254 |               1               |  1.0  |  4   |
| 1076254 |              1247             |  1.0  |  5   |
| 1076254 |              124              |  1.0  |  6   |
| 1076254 |      920083|920090|920090     |  1.0  |  7   |
| 1076254 |      920089|920085|124603     |  1.0  |  8   |
| 1076254 | 920089|920085|920090|92008... |  1.0  |  9   |
| 1076254 |               92              |  1.0  |  10  |
| 1268548 |  920094|920089|920082|920081  |  1.0  |  1   |
| 1268548 |      920090|920091|920087     |  1.0  |  2   |
| 1268548 |              125              |  1.0  |  3   |
| 1268548 |               1               |  1.0  |  4  

#### Define a `model` function for model selection

In [31]:
def model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display):
    if name == 'popularity':
        model = tc.popularity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target)
    elif name == 'cosine':
        model = tc.item_similarity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target, 
                                                    similarity_type='cosine')
    elif name == 'pearson':
        model = tc.item_similarity_recommender.create(train_data, 
                                                    user_id=user_id, 
                                                    item_id=item_id, 
                                                    target=target, 
                                                    similarity_type='pearson')
        
    recom = model.recommend(users=users_to_recommend, k=n_rec)
    recom.print_rows(n_display)
    return model

In [32]:
# variables to define field names
# constant variables include:
user_id = 'alunoId'
item_id = 'cursoId'
users_to_recommend = list(alunos[user_id])
n_rec = 10 # number of items to recommend
n_display = 30 # to print the head / first few rows in a defined dataset

#### Usando as compras do dummy

In [34]:
# these variables will change accordingly
name = 'popularity'
target = 'matricula_dummy'
pop_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)


+---------+---------+-------+------+
| alunoId | cursoId | score | rank |
+---------+---------+-------+------+
| 1076254 |    92   |  1.0  |  1   |
| 1076254 |  120292 |  1.0  |  2   |
| 1076254 |  123827 |  1.0  |  3   |
| 1076254 |   9201  |  1.0  |  4   |
| 1076254 |  920087 |  1.0  |  5   |
| 1076254 |   125   |  1.0  |  6   |
| 1076254 |  124354 |  1.0  |  7   |
| 1076254 |  121439 |  1.0  |  8   |
| 1076254 |  920081 |  1.0  |  9   |
| 1076254 |  920094 |  1.0  |  10  |
| 1268548 |  920089 |  1.0  |  1   |
| 1268548 |  123827 |  1.0  |  2   |
| 1268548 |   9201  |  1.0  |  3   |
| 1268548 |  920087 |  1.0  |  4   |
| 1268548 |   125   |  1.0  |  5   |
| 1268548 |  920090 |  1.0  |  6   |
| 1268548 |  124354 |  1.0  |  7   |
| 1268548 |  121439 |  1.0  |  8   |
| 1268548 |  920081 |  1.0  |  9   |
| 1268548 |  920094 |  1.0  |  10  |
| 1709459 |  920089 |  1.0  |  1   |
| 1709459 |  123827 |  1.0  |  2   |
| 1709459 |   9201  |  1.0  |  3   |
| 1709459 |  920087 |  1.0  |  4   |
|

#### Usando a contagem normalizada de compras

In [35]:
# these variables will change accordingly
name = 'popularity'
target = 'matricula_dummy'
pop_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

name = 'popularity'
target = 'scaled_matricula_freq'
pop_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+-------+------+
| alunoId | cursoId | score | rank |
+---------+---------+-------+------+
| 1076254 |    92   |  1.0  |  1   |
| 1076254 |  120292 |  1.0  |  2   |
| 1076254 |  123827 |  1.0  |  3   |
| 1076254 |   9201  |  1.0  |  4   |
| 1076254 |  920087 |  1.0  |  5   |
| 1076254 |   125   |  1.0  |  6   |
| 1076254 |  124354 |  1.0  |  7   |
| 1076254 |  121439 |  1.0  |  8   |
| 1076254 |  920081 |  1.0  |  9   |
| 1076254 |  920094 |  1.0  |  10  |
| 1268548 |  920089 |  1.0  |  1   |
| 1268548 |  123827 |  1.0  |  2   |
| 1268548 |   9201  |  1.0  |  3   |
| 1268548 |  920087 |  1.0  |  4   |
| 1268548 |   125   |  1.0  |  5   |
| 1268548 |  920090 |  1.0  |  6   |
| 1268548 |  124354 |  1.0  |  7   |
| 1268548 |  121439 |  1.0  |  8   |
| 1268548 |  920081 |  1.0  |  9   |
| 1268548 |  920094 |  1.0  |  10  |
| 1709459 |  920089 |  1.0  |  1   |
| 1709459 |  123827 |  1.0  |  2   |
| 1709459 |   9201  |  1.0  |  3   |
| 1709459 |  920087 |  1.0  |  4   |
|

+---------+---------+--------------------+------+
| alunoId | cursoId |       score        | rank |
+---------+---------+--------------------+------+
| 1076254 |  120386 |        1.0         |  1   |
| 1076254 |  124074 | 0.6666666666666666 |  2   |
| 1076254 |  123429 |        0.5         |  3   |
| 1076254 |  124659 |        0.5         |  4   |
| 1076254 |  124689 |        0.5         |  5   |
| 1076254 |  123123 |        0.5         |  6   |
| 1076254 |  124517 |        0.5         |  7   |
| 1076254 |  124568 |        0.5         |  8   |
| 1076254 |  124669 |        0.5         |  9   |
| 1076254 |  124697 |        0.5         |  10  |
| 1268548 |  120386 |        1.0         |  1   |
| 1268548 |  124074 | 0.6666666666666666 |  2   |
| 1268548 |  123429 |        0.5         |  3   |
| 1268548 |  124659 |        0.5         |  4   |
| 1268548 |  124689 |        0.5         |  5   |
| 1268548 |  123123 |        0.5         |  6   |
| 1268548 |  124517 |        0.5         |  7   |


#### Notas
* Depois de criar o modelo, previmos os itens de recomendação usando pontuações por popularidade. Como você pode dizer para os resultados de cada modelo acima, as linhas mostram os 30 primeiros registros de 1000 usuários com 10 recomendações. Esses 30 registros incluem 3 usuários e seus itens recomendados, além de classificações e classificações decrescentes. 
* No resultado, embora modelos diferentes tenham uma lista de recomendações diferente, cada usuário é recomendado com a mesma lista de 10 itens. Isso ocorre porque a popularidade é calculada levando os itens mais populares para todos os usuários.
* Se um exemplo de agrupamento abaixo, os produtos 132, 248, 37 e 34 forem os mais populares (mais vendidos) entre os clientes. Usando as contagens de compras divididas pelo número de clientes, vemos que esses produtos são comprados pelo menos três vezes em média no conjunto de transações de treinamento (o mesmo que a primeira medida de popularidade na variável `contagem_matricula`)

In [36]:
train.groupby(by=item_id)['matricula_count'].mean().sort_values(ascending=False).head(20)

cursoId
123754    2.000000
124738    2.000000
124788    2.000000
124136    2.000000
124875    2.000000
124838    2.000000
123864    2.000000
123123    1.500000
123480    1.500000
124669    1.500000
124412    1.500000
120976    1.428571
123886    1.400000
123553    1.333333
123769    1.333333
124290    1.333333
124659    1.333333
124366    1.333333
124074    1.333333
123700    1.333333
Name: matricula_count, dtype: float64

## 6. Modelo de filtragem colaborativa

* Na filtragem colaborativa, recomendamos itens com base em como usuários semelhantes compram itens. Por exemplo, se o cliente 1 e o cliente 2 compraram itens semelhantes, por exemplo, 1 comprou X, Y, Z e 2 comprou X, Y, recomendamos um item Z ao cliente 2.

* Para definir semelhança entre os usuários, usamos as seguintes etapas:
    1. Crie uma matriz de itens do usuário, em que os valores do índice representam IDs de clientes exclusivos e os valores da coluna representam IDs de produtos exclusivos
    
    2. Crie uma matriz de similaridade item a item. A idéia é calcular a semelhança entre um produto e outro. Existem várias maneiras de calcular isso. Nas etapas 6.1 e 6.2, usamos a medida de similaridade de cosseno e pearson, respectivamente. 
    
        * Para calcular a semelhança entre os produtos X e Y, observe todos os clientes que classificaram esses dois itens. Por exemplo, X e Y foram classificados pelos clientes 1 e 2. 
        * Em seguida, criamos dois vetores de itens, v1 para o item X e v2 para o item Y, no espaço do usuário de (1, 2) e, em seguida, localizamos o ângulo / distância `coseno` ou` pearson` entre esses vetores. Um ângulo zero ou vetores sobrepostos com valor de cosseno de 1 significa similaridade total (ou por usuário, em todos os itens, há a mesma classificação) e um ângulo de 90 graus significaria cosseno de 0 ou nenhuma similaridade.
        
    3. Para cada cliente, prevemos sua probabilidade de comprar um produto (ou sua contagem de compra) para produtos que ele não comprou. 
    
        * No nosso exemplo, calcularemos a classificação para o usuário 2 no caso do item Z (item de destino). Para calcular isso, pesamos a medida de similaridade recém-calculada entre o item de destino e outros itens que o cliente já comprou. O fator de pesagem é a contagem de compras dada pelo usuário aos itens já comprados por ele. 
        * Em seguida, escalamos essa soma ponderada com a soma das medidas de similaridade para que a classificação calculada permaneça dentro de limites predefinidos. Assim, a classificação prevista para o item Z para o usuário 2 seria calculada usando medidas de similaridade.

* Embora eu tenha escrito scripts python para todo o processo, incluindo encontrar semelhança usando scripts python (que podem ser encontrados na pasta `scripts`, podemos usar a biblioteca` turicreate` por enquanto para capturar medidas diferentes, como usar distância `cosine` e` pearson`, e avaliar o melhor modelo

### 6.1. Similaridade de `Cosine`
* A semelhança é o cosseno do ângulo entre os 2 vetores dos itens de vetores de A e B
* É definido pela seguinte fórmula
![](https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcTnRHSAx1c084UXF2wIHYwaHJLmq2qKtNk_YIv3RjHUO00xwlkt)
* Quanto mais próximos os vetores, menor será o ângulo e maior o cosseno

#### Usando contagem de compras

In [37]:
# essas variáveis vão mudar de acordo
name = 'cosine'
target = 'matricula_count'
cos = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+---------------------+------+
| alunoId | cursoId |        score        | rank |
+---------+---------+---------------------+------+
| 1076254 |  920085 | 0.18582082986831666 |  1   |
| 1076254 |  920091 | 0.17988263368606566 |  2   |
| 1076254 |  920080 | 0.16707290410995485 |  3   |
| 1076254 |  920084 | 0.16399482488632203 |  4   |
| 1076254 |  920087 | 0.15693517923355102 |  5   |
| 1076254 |  920081 | 0.15062105655670166 |  6   |
| 1076254 |  920082 |  0.1498955726623535 |  7   |
| 1076254 |  920094 | 0.14053525924682617 |  8   |
| 1076254 |  920088 | 0.13650453090667725 |  9   |
| 1076254 |  920086 | 0.13146027326583862 |  10  |
| 1268548 |  123822 | 0.17010042071342468 |  1   |
| 1268548 |  124669 | 0.16064387559890747 |  2   |
| 1268548 |  123547 | 0.15569978952407837 |  3   |
| 1268548 |  123683 | 0.15075567364692688 |  4   |
| 1268548 |  124725 | 0.15075567364692688 |  5   |
| 1268548 |  123714 | 0.15075567364692688 |  6   |
| 1268548 |  124533 |  0.146647

#### Usando dummy de compras

In [38]:
# Essas variáveis vão mudar de acordo
name = 'cosine'
target = 'matricula_dummy'
cos_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+---------------------+------+
| alunoId | cursoId |        score        | rank |
+---------+---------+---------------------+------+
| 1076254 |  920085 | 0.19438000917434692 |  1   |
| 1076254 |  920091 | 0.18332616090774537 |  2   |
| 1076254 |  920080 |  0.1643500566482544 |  3   |
| 1076254 |  920082 | 0.16141895055770875 |  4   |
| 1076254 |  920087 | 0.15952242612838746 |  5   |
| 1076254 |  920084 | 0.15896177291870117 |  6   |
| 1076254 |  920081 |  0.1526973605155945 |  7   |
| 1076254 |  920094 | 0.14954893589019774 |  8   |
| 1076254 |  920086 | 0.13997145891189575 |  9   |
| 1076254 |  920088 |  0.1294936180114746 |  10  |
| 1268548 |  123579 | 0.38490015268325806 |  1   |
| 1268548 |  123683 |  0.3333333134651184 |  2   |
| 1268548 |  123714 |  0.3333333134651184 |  3   |
| 1268548 |  123447 |  0.3333333134651184 |  4   |
| 1268548 |  124725 |  0.3333333134651184 |  5   |
| 1268548 |  122933 |  0.3333333134651184 |  6   |
| 1268548 |  123547 |  0.333333

#### Usando a contagem normalizada de compras

In [39]:
name = 'cosine'
target = 'scaled_matricula_freq'
cos_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+-------+------+
| alunoId | cursoId | score | rank |
+---------+---------+-------+------+
| 1076254 |  920086 |  0.0  |  1   |
| 1076254 |  122180 |  0.0  |  2   |
| 1076254 |  124079 |  0.0  |  3   |
| 1076254 |  920087 |  0.0  |  4   |
| 1076254 |  124334 |  0.0  |  5   |
| 1076254 |  920094 |  0.0  |  6   |
| 1076254 |  920082 |  0.0  |  7   |
| 1076254 |  124567 |  0.0  |  8   |
| 1076254 |  920091 |  0.0  |  9   |
| 1076254 |  123750 |  0.0  |  10  |
| 1268548 |  920086 |  0.0  |  1   |
| 1268548 |  122180 |  0.0  |  2   |
| 1268548 |  124079 |  0.0  |  3   |
| 1268548 |  920087 |  0.0  |  4   |
| 1268548 |  124334 |  0.0  |  5   |
| 1268548 |  920094 |  0.0  |  6   |
| 1268548 |  920082 |  0.0  |  7   |
| 1268548 |  124567 |  0.0  |  8   |
| 1268548 |  920091 |  0.0  |  9   |
| 1268548 |  123750 |  0.0  |  10  |
| 1709459 |  920086 |  0.0  |  1   |
| 1709459 |  122180 |  0.0  |  2   |
| 1709459 |  124079 |  0.0  |  3   |
| 1709459 |  920087 |  0.0  |  4   |
|

### 6.2. Similaridade de `Pearson` 
* A semelhança é o coeficiente de pearson entre os dois vetores.
* É definido pela seguinte fórmula
![](http://critical-numbers.group.shef.ac.uk/glossary/images/correlationKT1.png)

#### Usando a contagem de compras

In [40]:
# Essas variáveis irão mudar de acordo
name = 'pearson'
target = 'matricula_count'
pear = model(train_data, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+--------------------+------+
| alunoId | cursoId |       score        | rank |
+---------+---------+--------------------+------+
| 1076254 |  123864 |        2.0         |  1   |
| 1076254 |  124738 |        2.0         |  2   |
| 1076254 |  124136 |        2.0         |  3   |
| 1076254 |  124838 |        2.0         |  4   |
| 1076254 |  123754 |        2.0         |  5   |
| 1076254 |  124788 |        2.0         |  6   |
| 1076254 |  124875 |        2.0         |  7   |
| 1076254 |  123123 |        1.5         |  8   |
| 1076254 |  123480 |        1.5         |  9   |
| 1076254 |  124412 | 1.4996973276138306 |  10  |
| 1268548 |  123864 |        2.0         |  1   |
| 1268548 |  124738 |        2.0         |  2   |
| 1268548 |  124136 |        2.0         |  3   |
| 1268548 |  124838 |        2.0         |  4   |
| 1268548 |  123754 |        2.0         |  5   |
| 1268548 |  124788 |        2.0         |  6   |
| 1268548 |  124875 |        2.0         |  7   |


#### Usando as compras dummy

In [41]:
# Essas variáveis vão mudar de acordo
name = 'pearson'
target = 'matricula_dummy'
pear_dummy = model(train_data_dummy, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+-------+------+
| alunoId | cursoId | score | rank |
+---------+---------+-------+------+
| 1076254 |    92   |  0.0  |  1   |
| 1076254 |  120292 |  0.0  |  2   |
| 1076254 |  123827 |  0.0  |  3   |
| 1076254 |   9201  |  0.0  |  4   |
| 1076254 |  920087 |  0.0  |  5   |
| 1076254 |   125   |  0.0  |  6   |
| 1076254 |  124354 |  0.0  |  7   |
| 1076254 |  121439 |  0.0  |  8   |
| 1076254 |  920081 |  0.0  |  9   |
| 1076254 |  920094 |  0.0  |  10  |
| 1268548 |  920089 |  0.0  |  1   |
| 1268548 |  123827 |  0.0  |  2   |
| 1268548 |   9201  |  0.0  |  3   |
| 1268548 |  920087 |  0.0  |  4   |
| 1268548 |   125   |  0.0  |  5   |
| 1268548 |  920090 |  0.0  |  6   |
| 1268548 |  124354 |  0.0  |  7   |
| 1268548 |  121439 |  0.0  |  8   |
| 1268548 |  920081 |  0.0  |  9   |
| 1268548 |  920094 |  0.0  |  10  |
| 1709459 |  920089 |  0.0  |  1   |
| 1709459 |  123827 |  0.0  |  2   |
| 1709459 |   9201  |  0.0  |  3   |
| 1709459 |  920087 |  0.0  |  4   |
|

#### Using normalized purchase count

In [42]:
name = 'pearson'
target = 'scaled_matricula_freq'
pear_norm = model(train_data_norm, name, user_id, item_id, target, users_to_recommend, n_rec, n_display)

+---------+---------+---------------------+------+
| alunoId | cursoId |        score        | rank |
+---------+---------+---------------------+------+
| 1076254 |  120386 |         1.0         |  1   |
| 1076254 |  124074 |  0.6666666666666667 |  2   |
| 1076254 |  123429 |         0.5         |  3   |
| 1076254 |  124659 |         0.5         |  4   |
| 1076254 |  123123 |         0.5         |  5   |
| 1076254 |  124697 |         0.5         |  6   |
| 1076254 |  120976 | 0.49997421105702716 |  7   |
| 1076254 |  124568 |  0.4999334116776784 |  8   |
| 1076254 |  124689 |  0.4997924168904622 |  9   |
| 1076254 |  124475 |  0.4996318419774373 |  10  |
| 1268548 |  120386 |         1.0         |  1   |
| 1268548 |  124074 |  0.6666666666666667 |  2   |
| 1268548 |  124475 |         0.5         |  3   |
| 1268548 |  123429 |         0.5         |  4   |
| 1268548 |  124659 |         0.5         |  5   |
| 1268548 |  124689 |         0.5         |  6   |
| 1268548 |  123123 |         0

#### Notas
* Na filtragem colaborativa acima, usamos duas abordagens: distância cosseno e pearson. Também conseguimos aplicá-los a três conjuntos de dados de treinamento com contagens normais, fictícias ou contagens normalizadas de compra de itens.
* Podemos ver que as recomendações são diferentes para cada usuário. Isso sugere que a personalização existe.
* Mas quão bom é esse modelo comparado à linha de base e entre si? Precisamos de alguns meios de avaliar um mecanismo de recomendação. Vamos focar nisso na próxima seção.

## 7. Modelos de Avaliação
Para avaliar os mecanismos de recomendação, podemos usar o conceito de recall de precisão.

* RMSE (Root Mean Squared Errors)
    * Mede o erro dos valores previstos
    * Quanto menor o valor RMSE, melhor as recomendações
* Recall
    * Qual a porcentagem de produtos que um usuário compra é realmente recomendada?
    * Se um cliente comprar 5 produtos e a recomendação decidir mostrar 3 deles, o recall será de 0,6
* Precision
    * De todos os itens recomendados, quantos o usuário realmente gostou?
    * Se 5 produtos foram recomendados ao cliente, dos quais ele compra 4 deles, a precisão é 0,8
    
* Por que a recall e a precisão são importantes?
    * Considere um caso em que recomendamos todos os produtos, para que nossos clientes certamente cubram os itens que eles gostaram e compraram. Nesse caso, temos 100% de recall! Isso significa que o nosso modelo é bom
    * Temos que considerar a precisão. Se recomendamos 300 itens, mas o usuário gosta e compra apenas 3 deles, a precisão é de 0,1%! Essa precisão muito baixa indica que o modelo não é ótimo, apesar do excelente recall.
    * Portanto, nosso objetivo deve otimizar a recuperação e a precisão (para ficar o mais próximo possível de 1).

Vamos comparar todos os modelos que construímos com base nas características de recall de precisão:

In [43]:
# create initial callable variables

models_w_counts = [popularity_model, cos, pear]
models_w_dummy = [pop_dummy, cos_dummy, pear_dummy]
models_w_norm = [pop_norm, cos_norm, pear_norm]

names_w_counts = ['Popularity Model on matricula Counts', 'Cosine Similarity on matricula Counts', 'Pearson Similarity on matricula Counts']
names_w_dummy = ['Popularity Model on matricula Dummy', 'Cosine Similarity on matricula Dummy', 'Pearson Similarity on matricula Dummy']
names_w_norm = ['Popularity Model on Scaled matricula Counts', 'Cosine Similarity on Scaled matricula Counts', 'Pearson Similarity on Scaled matricula Counts']

#### Models on purchase counts

In [45]:
eval_dummy = tc.recommender.util.compare_models(test_data_dummy, models_w_dummy, model_names=names_w_dummy)

PROGRESS: Evaluate model Popularity Model on matricula Dummy



Precision and recall summary statistics by cutoff
+--------+----------------------+---------------------+
| cutoff |    mean_precision    |     mean_recall     |
+--------+----------------------+---------------------+
|   1    | 0.052250550834120224 | 0.02637778871688717 |
|   2    |  0.0675165250236072  | 0.08517015048375318 |
|   3    | 0.04752911551778408  | 0.09000557868283134 |
|   4    | 0.03926660371419576  | 0.09572988183395233 |
|   5    | 0.038967579477494595 | 0.11920590743462361 |
|   6    | 0.042440457454621806 | 0.17041549419661844 |
|   7    | 0.03992985296101446  | 0.18548286832914831 |
|   8    | 0.037023921938936145 | 0.19705563089341233 |
|   9    | 0.03574301402441163  |  0.2127810082335206 |
|   10   | 0.03544224110796344  | 0.23464649978739738 |
+--------+----------------------+---------------------+
[10 rows x 3 columns]


Overall RMSE: 0.0

Per User RMSE (best)
+---------+------+-------+
| alunoId | rmse | count |
+---------+------+-------+
| 1276448 | 0.0  |  


Precision and recall summary statistics by cutoff
+--------+---------------------+---------------------+
| cutoff |    mean_precision   |     mean_recall     |
+--------+---------------------+---------------------+
|   1    |  0.1759521561221278 |  0.1141942372982082 |
|   2    | 0.14573497009757633 |  0.1839524448515055 |
|   3    |  0.1281082782499214 |  0.2375764587210342 |
|   4    | 0.11559647466163045 | 0.28219085380011794 |
|   5    | 0.10538243626062319 |  0.3194532996009067 |
|   6    | 0.10465848284545178 |  0.3975313046544592 |
|   7    | 0.09604748414946707 | 0.42492911930439886 |
|   8    | 0.08939250865596475 |  0.4521471946575072 |
|   9    | 0.08225789528905672 | 0.46676952979447917 |
|   10   | 0.07648725212464587 | 0.48261556603711603 |
+--------+---------------------+---------------------+
[10 rows x 3 columns]


Overall RMSE: 0.8929606978863668

Per User RMSE (best)
+---------+--------------------+-------+
| alunoId |        rmse        | count |
+---------+-------


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.052250550834120245 | 0.026377788716887188 |
|   2    | 0.06751652502360714  | 0.08517015048375312  |
|   3    | 0.04752911551778399  | 0.09000557868283131  |
|   4    | 0.03926660371419577  | 0.09572988183395227  |
|   5    | 0.03896757947749458  | 0.11920590743462366  |
|   6    | 0.04244045745462177  |  0.1704154941966183  |
|   7    | 0.03992985296101447  | 0.18548286832914834  |
|   8    | 0.03702392193893611  | 0.19705563089341238  |
|   9    | 0.03574301402441166  | 0.21278100823352072  |
|   10   | 0.03544224110796345  |  0.2346464997873974  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 1.0

Per User RMSE (best)
+---------+------+-------+
| alunoId | rmse | count |
+---------+------+-------+
| 1276

#### Models on purchase dummy

In [46]:
eval_norm = tc.recommender.util.compare_models(test_data_norm, models_w_norm, model_names=names_w_norm)

PROGRESS: Evaluate model Popularity Model on Scaled matricula Counts



Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00044682752457551384 | 0.00011170688114387846 |
|   2    | 0.0004468275245755136  | 0.0003351206434316353  |
|   3    | 0.0004468275245755136  | 0.0005585344057193923  |
|   4    | 0.00044682752457551395 |  0.000707476913911231  |
|   5    | 0.00044682752457551384 | 0.0009308906761989874  |
|   6    | 0.0004468275245755133  | 0.0010425975573428667  |
|   7    | 0.0003829950210647263  |  0.001042597557342866  |
|   8    | 0.0003351206434316353  | 0.0010425975573428658  |
|   9    |  0.000297885016383676  |  0.001042597557342866  |
|   10   | 0.00031277926720285956 | 0.0012660113196306226  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.19373515704536154

Per User RMSE (best)
+---------+----


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.04915102770330653  | 0.028913996340269806 |
|   2    | 0.07975871313672926  | 0.09787863313332489  |
|   3    | 0.06732201370271071  | 0.12341482616281549  |
|   4    | 0.06512511170688116  | 0.15925784075918115  |
|   5    | 0.059338695263628345 | 0.17897782884378047  |
|   6    | 0.055108728030980034 | 0.20065641091110245  |
|   7    | 0.052278820375335155 | 0.22135197242435825  |
|   8    | 0.04954200178731011  | 0.23746010468530557  |
|   9    | 0.04954820772515147  | 0.26526447933954656  |
|   10   | 0.05165326184092945  |  0.3099105281075789  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.19477202681126962

Per User RMSE (best)
+---------+------+-------+
| alunoId | rmse | count |
+---------+------


Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00044682752457551384 | 0.00011170688114387846 |
|   2    | 0.00044682752457551384 | 0.00033512064343163545 |
|   3    | 0.0002978850163836759  | 0.00033512064343163545 |
|   4    | 0.00044682752457551395 | 0.0007074769139112305  |
|   5    | 0.00044682752457551384 | 0.0009308906761989874  |
|   6    | 0.0005212987786714322  | 0.0012660113196306232  |
|   7    | 0.0005106600280863014  | 0.0014894250819183794  |
|   8    | 0.00044682752457551395 | 0.0014894250819183809  |
|   9    | 0.00039718002184490107 |  0.00148942508191838   |
|   10   | 0.0004021447721179621  | 0.0019362526064938945  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.19220867924990212

Per User RMSE (best)
+---------+----

#### Models on normalized purchase frequency

In [47]:
eval_norm = tc.recommender.util.compare_models(test_data_norm, models_w_norm, model_names=names_w_norm)

PROGRESS: Evaluate model Popularity Model on Scaled matricula Counts



Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00044682752457551384 | 0.00011170688114387846 |
|   2    | 0.0004468275245755136  | 0.0003351206434316354  |
|   3    | 0.00029788501638367584 | 0.0003351206434316354  |
|   4    | 0.00022341376228775692 | 0.00033512064343163545 |
|   5    |  0.000357462019660411  | 0.0007819481680071494  |
|   6    | 0.00037235627047959484 | 0.0010053619302949066  |
|   7    | 0.0003829950210647261  | 0.0011170688114387848  |
|   8    | 0.0003909740840035747  | 0.0013404825737265418  |
|   9    | 0.0003475325191142886  | 0.0013404825737265418  |
|   10   | 0.00035746201966041117 | 0.0014894250819183794  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.19373515704536154

Per User RMSE (best)
+---------+----


Precision and recall summary statistics by cutoff
+--------+----------------------+----------------------+
| cutoff |    mean_precision    |     mean_recall      |
+--------+----------------------+----------------------+
|   1    | 0.04915102770330652  | 0.028913996340269806 |
|   2    | 0.07975871313672929  | 0.09787863313332484  |
|   3    | 0.06732201370271075  | 0.12341482616281549  |
|   4    | 0.06512511170688122  | 0.15925784075918115  |
|   5    | 0.05933869526362825  | 0.17897782884378052  |
|   6    | 0.05503425677688411  | 0.20054470402995855  |
|   7    | 0.05227882037533523  |  0.2213519724243583  |
|   8    | 0.049542001787310094 | 0.23746010468530557  |
|   9    | 0.04954820772515145  |  0.2652644793395462  |
|   10   | 0.051653261840929415 |  0.3099105281075789  |
+--------+----------------------+----------------------+
[10 rows x 3 columns]


Overall RMSE: 0.19477202681126962

Per User RMSE (best)
+---------+------+-------+
| alunoId | rmse | count |
+---------+------


Precision and recall summary statistics by cutoff
+--------+------------------------+------------------------+
| cutoff |     mean_precision     |      mean_recall       |
+--------+------------------------+------------------------+
|   1    | 0.00044682752457551373 | 0.00011170688114387843 |
|   2    | 0.00044682752457551384 | 0.00033512064343163545 |
|   3    | 0.00029788501638367595 | 0.00033512064343163545 |
|   4    | 0.00044682752457551406 | 0.0007074769139112306  |
|   5    | 0.00044682752457551384 | 0.0008191837950551089  |
|   6    | 0.0003723562704795948  | 0.0008191837950551085  |
|   7    | 0.0003829950210647262  | 0.0010425975573428662  |
|   8    | 0.00033512064343163534 | 0.0010425975573428656  |
|   9    | 0.0003475325191142886  | 0.0012660113196306221  |
|   10   | 0.00035746201966041106 | 0.0017128388442061366  |
+--------+------------------------+------------------------+
[10 rows x 3 columns]


Overall RMSE: 0.19220867924990212

Per User RMSE (best)
+---------+----

## 8. Model Selection
### 8.1. Evaluation summary
* Based on RMSE


    1. Popularity on purchase counts: 1.1111750034210488
    2. Cosine similarity on purchase counts: 1.9230643981653215
    3. Pearson similarity on purchase counts: 1.9231102838192284
    
    4. Popularity on purchase dummy: 0.9697374361161925
    5. Cosine similarity on purchase dummy: 0.9697509978436404
    6. Pearson similarity on purchase dummy: 0.9697745320187097
    
    7. Popularity on scaled purchase counts: 0.16230660626840343
    8. Cosine similarity on scaled purchase counts: 0.16229800354111104
    9. Pearson similarity on scaled purchase counts: 0.1622982668334026
    
* Based on Precision and Recall
![](../images/model_comparisons.png)


#### Notes

* Popularidade v. Filtragem colaborativa: podemos ver que os algoritmos de filtragem colaborativa funcionam melhor que o modelo de popularidade para as contagens de compra. De fato, o modelo de popularidade não oferece personalizações, pois fornece apenas a mesma lista de itens recomendados para todos os usuários.
* Precisão e recall: observando o resumo acima, vemos a precisão e o recall de Contagens de compra> Boneco de compra> Contagens normalizadas de compra. No entanto, como as pontuações da recomendação para os dados normalizados de compra são zero e constantes, escolhemos o modelo. De fato, o RMSE não é muito diferente entre modelos no manequim e modelos nos dados normalizados.
* RMSE: Como o RMSE é maior usando a distância de Pearson do que o cosseno, escolheríamos modelar os erros quadráticos médios menores, que nesse caso seriam cosseno.
Portanto, selecionamos a abordagem Semelhança cosseno no manequim de compra como nosso modelo final.

## 8. Final Output
* Nesta etapa, gostaríamos de manipular o formato da saída de recomendação para um que possamos exportar para csv, e também uma função que retornará a lista de recomendações com um ID do cliente
* Primeiro, precisamos executar novamente o modelo usando todo o conjunto de dados, pois chegamos a um modelo final usando dados de treinamento e avaliados com o conjunto de testes.

In [48]:
users_to_recommend = list(alunos[user_id])

final_model = tc.item_similarity_recommender.create(tc.SFrame(data_dummy), 
                                            user_id=user_id, 
                                            item_id=item_id, 
                                            target='matricula_dummy', 
                                            similarity_type='cosine')

recom = final_model.recommend(users=users_to_recommend, k=n_rec)
recom.print_rows(n_display)

+---------+---------+---------------------+------+
| alunoId | cursoId |        score        | rank |
+---------+---------+---------------------+------+
| 1076254 |  920085 | 0.21001023054122925 |  1   |
| 1076254 |  920091 | 0.18871456384658813 |  2   |
| 1076254 |  920080 |  0.1764145791530609 |  3   |
| 1076254 |  920081 | 0.16956405838330588 |  4   |
| 1076254 |  920084 | 0.16414132714271545 |  5   |
| 1076254 |  920082 | 0.16112694144248962 |  6   |
| 1076254 |  920094 | 0.14960085352261862 |  7   |
| 1076254 |  920086 | 0.13128461440404257 |  8   |
| 1076254 |  920087 | 0.11897648374239604 |  9   |
| 1076254 |  920088 | 0.09694211681683858 |  10  |
| 1268548 |  123579 | 0.17407765984535217 |  1   |
| 1268548 |  123822 | 0.16636177897453308 |  2   |
| 1268548 |  123547 | 0.15569978952407837 |  3   |
| 1268548 |  124725 | 0.15075567364692688 |  4   |
| 1268548 |  123714 | 0.15075567364692688 |  5   |
| 1268548 |  123683 | 0.15075567364692688 |  6   |
| 1268548 |  123447 | 0.1230914

### 8.1. CSV output file

In [49]:
df_rec = recom.to_dataframe()
print(df_rec.shape)
df_rec.head()

(79870, 4)


Unnamed: 0,alunoId,cursoId,score,rank
0,1076254,920085,0.21001,1
1,1076254,920091,0.188715,2
2,1076254,920080,0.176415,3
3,1076254,920081,0.169564,4
4,1076254,920084,0.164141,5


In [50]:
df_rec['cursosRecomendados'] = df_rec.groupby([user_id])[item_id].transform(lambda x: '|'.join(x.astype(str)))
df_output = df_rec[['alunoId', 'cursosRecomendados']].drop_duplicates().sort_values('alunoId').set_index('alunoId')

#### Defina uma função para criar os resultados

In [51]:
def create_output(model, users_to_recommend, n_rec, print_csv=True):
    recomendation = model.recommend(users=users_to_recommend, k=n_rec)
    df_rec = recomendation.to_dataframe()
    df_rec['cursosRecomendados'] = df_rec.groupby([user_id])[item_id] \
        .transform(lambda x: '|'.join(x.astype(str)))
    df_output = df_rec[['alunoId', 'cursosRecomendados']].drop_duplicates() \
        .sort_values('alunoId').set_index('alunoId')
    if print_csv:
        df_output.to_csv('./output/cursosRecomedados.csv')
        print("Arquivo com recomendacoes criado na pasta output")
    return df_output

In [351]:
df_output = create_output(pear_norm, users_to_recommend, n_rec, print_csv=True)
print(df_output.shape)
df_output.head()

An output file can be found in 'output' folder with name 'option1_recommendation.csv'
(7987, 1)


Unnamed: 0_level_0,cursosRecomendados
alunoId,Unnamed: 1_level_1
360153,123123|124669|123754|124412|123417|124590|1221...
360478,123123|124669|123754|124412|123429|123417|1203...
360714,123123|124669|123754|124412|123429|123417|1203...
360847,123123|124669|123754|124412|123429|123417|1203...
361280,123123|124669|123754|124412|123429|123417|1203...


### 8.2. Função de recomendação do cliente

In [52]:
def recomenda_cursos(customer_id):
    if customer_id not in df_output.index:
        print('Aluno não encontrado.')
        return customer_id
    return df_output.loc[customer_id]

In [54]:
recomenda_cursos(1274206)

cursosRecomendados    920094|920091|920082|920086|920085|920089|9200...
Name: 1274206, dtype: object

In [354]:
aluno_recomendacoes(21)

Aluno não encontrado.


21

## Resumo
Neste exercício, fomos capazes de percorrer um processo passo a passo para fazer recomendações aos clientes. Usamos as abordagens de filtragem colaborativa com as medidas `cosseno ` e ` pearson` e comparamos os modelos com o modelo de popularidade da linha de base. Também preparamos três conjuntos de dados que incluem contagem regular de compras, dummy de compra e frequência de compra normalizada como nossa variável-alvo. Usando RMSE, precisão e recall, avaliamos nossos modelos e observamos o impacto da personalização. Por fim, selecionamos a abordagem Cosine em dados fictícios de compra.