<a href="https://colab.research.google.com/github/BiancadeFrancisco/SistemaRecomendacao_ItenKNN/blob/main/RECOMENDA%C3%87%C3%83O_ITEM_KNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Recomendação com ItemKNN

Neste notebook iremos explorar o ItemKNN, um algoritmo de filtragem colaborativa baseado na similaridade entre itens. Utilizaremos a implementação da biblioteca [surprise](https://surprise.readthedocs.io/en/stable/index.html) criada a partir do sklearn.

**Nota**: Para instalar a biblioteca `surprise` descomente a linha abaixo e execute a célula.

In [None]:
!pip install scikit-surprise

# BIBLIOTECA DO SCIKIT QUE JÁ TEM DIVERSOS ALGORITMOS DE RECOMENDAÇÃO

Collecting scikit-surprise
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/772.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.2/772.0 kB[0m [31m2.6 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m768.0/772.0 kB[0m [31m11.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=2811606 sha256=18c8fd6c31941b5823e827e6896d75a9c153c323b15d82e0119e48c90193ade3
  Stored in directory: /root/.cache/pip/wheels/a5/

In [None]:
import os
import numpy as np
import pandas as pd
from google.colab import files

# Carregando o dataset

Neste exemplo prático utilizaremos o `MovieLens`, dataset que contém avaliações de usuários para filmes que foi explorado no módulo **01 - Introdução aos Sistemas de Recomendação**. Em particular, carregaremos os seguintes arquivos:

- `ratings.parquet`: avaliações dos usuários para filmes
- `movies.parquet`: metadados dos filmes

## Arquivo de avaliações

Upload file `ratings.parquet`

In [None]:
%%time
_ = files.upload()

Saving ratings.parquet to ratings.parquet
CPU times: user 935 ms, sys: 189 ms, total: 1.12 s
Wall time: 1min 22s


In [None]:
df_ratings = pd.read_parquet('ratings.parquet')
df_ratings.tail()

Unnamed: 0,user_id,item_id,rating,timestamp
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648
1000208,6040,1097,4,956715569


## Arquivo de metadados dos itens

Upload file `movies.parquet`

In [None]:
%%time
_ = files.upload()

Saving movies.parquet to movies.parquet
CPU times: user 83.1 ms, sys: 12.2 ms, total: 95.4 ms
Wall time: 7.71 s


In [None]:
df_items = pd.read_parquet('movies.parquet')
df_items.set_index('item_id', inplace=True)
df_items.tail()

Unnamed: 0_level_0,title,genres
item_id,Unnamed: 1_level_1,Unnamed: 2_level_1
3948,Meet the Parents (2000),Comedy
3949,Requiem for a Dream (2000),Drama
3950,Tigerland (2000),Drama
3951,Two Family House (2000),Drama
3952,"Contender, The (2000)",Drama|Thriller


# Definindo os datasets de treino e validação

Como o ItemKNN é um modelo de parâmetros treináveis, podemos separar o dataset em treino e validação para observar se o treinamento está com uma boa generalização.

Dada a natureza sequencial do consumo de filmes, iremos utilizar o campo `timestamp` para fazer a quebra entre treino e validação: os primeiros `train_size` registros serão utilizados como treino e o restante como teste.

Além disso, a biblioteca `surprise` requer os seguintes nomes de colunas:

- `userID`: identificador do usuário
- `itemID`: identificador do item
- `rating`: _feedback_ do usuário

In [None]:
df_ratings.tail()

Unnamed: 0,user_id,item_id,rating,timestamp
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648
1000208,6040,1097,4,956715569


In [None]:
# CONSTRUIR UM DATASET DE TREINO E UM DATASET DE VALIDAÇÃO
# PARA ESSE CASO NÃO É UTILIZADO DADOS DE FORMA ALEATÓRIA, MAS SIM DE FORMA SEQUENCIAL

train_size = 0.8

# Ordenar por timestamp:
df_ratings = df_ratings.sort_values(by='timestamp', ascending=True)  # ORDENAR POR TEMPO

# Definindo train e valid sets:
df_train_set, df_valid_set = np.split(df_ratings, [ int(train_size*df_ratings.shape[0]) ])

# Redefinindo nomes para userID e itemID CFME A BIBLIOTECA SURPRISE EXIGE:
df_train_set = df_train_set.rename({'user_id': 'userID', 'item_id': 'itemID'}, axis=1)
df_valid_set = df_valid_set.rename({'user_id': 'userID', 'item_id': 'itemID'}, axis=1)

print ('Train size: ', df_train_set.shape)
print ('Valid size: ', df_valid_set.shape)

Train size:  (800167, 4)
Valid size:  (200042, 4)


In [None]:
df_train_set

# ESSE DATASET POSSUI 80% DOS NOSSOS PRIMEIROS REGISTROS DE AVALIAÇÕES

Unnamed: 0,userID,itemID,rating,timestamp
1000138,6040,858,4,956703932
1000153,6040,2384,4,956703954
999873,6040,593,5,956703954
1000007,6040,1961,4,956703977
1000192,6040,2019,5,956703977
...,...,...,...,...
314102,1875,802,4,975768718
314151,1875,892,4,975768719
314073,1875,440,4,975768738
314225,1875,509,4,975768738


Algumas bibliotecas de sistemas de recomendação possuem classes específicas para trabalhar com os datasets. Desta forma, é preciso modificar os dados originais (em `pandas Dataframes` para as classes da biblioteca `surprise`).

In [None]:
from surprise import Dataset, Reader #(READER E DATASET SÃO NECESSIDADES DA BIBLIOTECA SURPRISE)
def convert_train_valid_sets(df_train_set:pd.DataFrame, df_valid_set:pd.DataFrame):
  reader = Reader(rating_scale=(1, 5)) #PARA CONVETER DADOS DOS DATASETS DE TREINO E TESTE CFME EXIGENCIA DA BIBLIOTECA SURPRISE
  # The columns must correspond to user id, item id and ratings (in that order).
  train_set = (
      Dataset
      .load_from_df(df_train_set[['userID', 'itemID', 'rating']], reader)
      .build_full_trainset()
  )

  valid_set = (
      Dataset
      .load_from_df(df_valid_set[['userID', 'itemID', 'rating']], reader)
      .build_full_trainset()
      .build_testset()
  )

  return train_set, valid_set

train_set, valid_set = convert_train_valid_sets(df_train_set, df_valid_set)

In [None]:
train_set

<surprise.trainset.Trainset at 0x781514d63760>

# Treinando o modelo

Para este exemplo prático iremos utilizar o **KNNWithMeans**, cuja fórmula de predição é dada abaixo:

$$\hat{r}_{ui} = b_i + \frac{\sum_{j \in N_u^k(i)} sim(i,j) \cdot (r_{uj} - b_j)}{\sum_{j \in N_u^k(i)} sim(i,j)}$$

Os hiperparâmetros escolhidos serão os indicados pela documentação para o dataset do MovieLens. No entanto, para outros datasets é preciso que haja uma busca de hiperparâmetros que seja ideal para os dados em questão. Para ler a definição dos hiperparâmetros, consulte a [documentação](https://surprise.readthedocs.io/en/stable/knn_inspired.html#surprise.prediction_algorithms.knns.KNNWithMeans).

**Nota**: para ler mais sobre testagem de hiperparâmetros, consulte a biblioteca [HyperOpt](http://hyperopt.github.io/hyperopt/).

In [None]:
from surprise import KNNWithMeans  # KNNWithMeans = algoritmo de recomendação da biblioteca surprise

sim_options = {
    "name": "pearson_baseline",
    "user_based": False,  # compute similarities between items
}
model = KNNWithMeans(k=40, sim_options=sim_options, verbose=True)
model

# BIBLIOTECA HYPEROPT = para verificar parâmetros de otimização

<surprise.prediction_algorithms.knns.KNNWithMeans at 0x78150fdc59f0>

Treinando o ItemKNN

In [None]:
%%time
model.fit(train_set)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.
CPU times: user 16 s, sys: 437 ms, total: 16.4 s
Wall time: 16.4 s


<surprise.prediction_algorithms.knns.KNNWithMeans at 0x78150fdc59f0>

# Avaliando o treinamento


In [None]:
user_id = df_valid_set['userID'].sample().tolist()[0]
item_id = df_valid_set['itemID'].sample().tolist()[0]

model.predict(uid=user_id, iid=item_id)

Prediction(uid=5878, iid=924, r_ui=None, est=4.341925616241596, details={'actual_k': 40, 'was_impossible': False})

## Predição do conjunto de validação

In [None]:
%%time
df_valid_set['prediction'] = df_valid_set.apply(
    lambda x: model.predict(uid=x['userID'], iid=x['itemID']).est,
    axis=1
)

CPU times: user 22.7 s, sys: 47.5 ms, total: 22.8 s
Wall time: 23 s


In [None]:
df_valid_set.tail()

Unnamed: 0,userID,itemID,rating,timestamp,prediction
825793,4958,2399,1,1046454338,2.561691
825438,4958,1407,5,1046454443,3.552168
825724,4958,3264,4,1046454548,3.270295
825731,4958,2634,3,1046454548,2.754026
825603,4958,1924,4,1046454590,2.584696


# Gerando Recomendações

In [None]:
def recommend_n_items(model, user_id, item_ids:np.array, n=20):
  df_predictions = pd.DataFrame(columns=['item_id', 'score'])
  for item_id in item_ids:
    prediction = model.predict(uid=user_id, iid=item_id).est
    df_predictions.loc[df_predictions.shape[0]] = [item_id, prediction]

  user_predictions = (
      df_predictions
      .sort_values(by='score', ascending=False)
      .head(n)
      .set_index('item_id')
  )
  return user_predictions

user_id = 1875
recommendable_items = df_items.index.values
recommend_n_items(model, user_id, recommendable_items, n=5)

Unnamed: 0_level_0,score
item_id,Unnamed: 1_level_1
1830.0,5.0
989.0,5.0
3522.0,5.0
3881.0,5.0
1471.0,5.0


# K vizinhos próximos

Como o ItemKNN é um algoritmo baseado em vizinhança, podemos analisar quem são os K vizinhos mais próximos de um item-alvo.

In [None]:
item_id = 1     # Toy Story
item_id = 1356  # Star Trek: First Contact
item_id = 260   # Star Wars: Episode IV - A New Hope
# item_id = 3578  # Gladiator

def get_item_k_neighbors(model, item_id, k=10):  # get_item_k_neighbors = FUNÇÃO DA BIBLIOTECA SURPRISE PARA MOSTRAR OS K PRÓXIMOS
  iid = model.trainset.to_inner_iid(item_id)
  neighbor_iids = model.get_neighbors(iid, k)
  item_ids = [model.trainset.to_raw_iid(iid) for iid in neighbor_iids]
  return item_ids

k = 10
title = df_items.loc[item_id]['title']
print (f'{k} vizinhos mais próximos de "{title}" (ID = {item_id})')
item_ids = get_item_k_neighbors(model, item_id, k)
df_items[df_items.index.isin(item_ids)]

10 vizinhos mais próximos de "Star Wars: Episode IV - A New Hope (1977)" (ID = 260)


Unnamed: 0_level_0,title,genres
item_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1196,Star Wars: Episode V - The Empire Strikes Back...,Action|Adventure|Drama|Sci-Fi|War
1198,Raiders of the Lost Ark (1981),Action|Adventure
1210,Star Wars: Episode VI - Return of the Jedi (1983),Action|Adventure|Romance|Sci-Fi|War
1291,Indiana Jones and the Last Crusade (1989),Action|Adventure
2571,"Matrix, The (1999)",Action|Sci-Fi|Thriller
2628,Star Wars: Episode I - The Phantom Menace (1999),Action|Adventure|Fantasy|Sci-Fi
2640,Superman (1978),Action|Adventure|Sci-Fi
2716,Ghostbusters (1984),Comedy|Horror
3507,"Odd Couple, The (1968)",Comedy
3508,"Outlaw Josey Wales, The (1976)",Western


**Extra:** geração de resultados para avaliação das métricas no módulo 05

In [None]:
from tqdm import tqdm
model_name = 'itemknn'
n = 20
df_recommendations = pd.DataFrame()
catalog = df_items.index.values
for user_id in tqdm(df_valid_set['userID'].unique()):
  user_known_items = df_train_set.query('userID == @user_id')['itemID'].unique()
  recommendable_items = np.array(list(set(catalog)-set(user_known_items)))

  user_recommendations = recommend_n_items(model, user_id, recommendable_items, n).reset_index(drop=False)
  user_recommendations['user_id'] = user_id
  df_recommendations = pd.concat([df_recommendations, user_recommendations])

df_recommendations['model'] = model_name
df_recommendations = df_recommendations.merge(
    df_valid_set,
    left_on=['user_id', 'item_id'],
    right_on=['userID', 'itemID'],
    how='left'
)
df_recommendations = df_recommendations[['model', 'user_id', 'item_id', 'rating', 'score']]
df_recommendations['rating'] = df_recommendations['rating'].fillna(0)
df_rec_bkp = df_recommendations.copy()
df_recommendations.tail()

  0%|          | 0/1783 [00:00<?, ?it/s]


ValueError: ignored

In [None]:
df_recommendations['y_score'] = df_recommendations.apply(lambda x: {'item_id': x['item_id'], 'score': x['score']}, axis=1)
df_recommendations = df_recommendations.groupby(['model', 'user_id']).agg({'y_score': list}).reset_index(drop=False)
df_recommendations.tail()

ValueError: ignored

In [None]:
df_predictions = df_valid_set.rename({'userID': 'user_id', 'itemID': 'item_id'}, axis=1)
df_predictions['y_true'] = df_predictions.apply(lambda x: {'item_id': x['item_id'], 'rating': x['rating']}, axis=1)
df_predictions = df_predictions.groupby('user_id').agg({'y_true': list}).reset_index(drop=False)
df_predictions = df_predictions.merge(df_recommendations, on='user_id', how='inner')
df_predictions.tail()

In [None]:
df_predictions.to_parquet(f'valid_{model_name}.parquet', index=None)