# Aula 11 - Explicações em Sistemas de Recomendação - Exercícios

## Importação dos dados (MovieLens 100k)

In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import random

In [2]:
# import wget
# !python3 -m wget https://files.grouplens.org/datasets/movielens/ml-100k.zip
# !tar -xvzf ml-100k.zip


In [3]:
#Types of genres
genre = pd.read_csv('./ml-100k/u.genre', sep="|", encoding='latin-1', header=None)
genre.drop(genre.columns[1], axis=1, inplace=True)
genre.columns = ['Genres']
genre_list = list(genre['Genres'])
genre_list

['unknown',
 'Action',
 'Adventure',
 'Animation',
 "Children's",
 'Comedy',
 'Crime',
 'Documentary',
 'Drama',
 'Fantasy',
 'Film-Noir',
 'Horror',
 'Musical',
 'Mystery',
 'Romance',
 'Sci-Fi',
 'Thriller',
 'War',
 'Western']

In [4]:
#Types of occupations
occupation = pd.read_csv('./ml-100k/u.occupation', sep="|", encoding='latin-1', header=None)
occupation.columns = ['Occupations']
occupation_list = list(occupation['Occupations'])
occupation_list

['administrator',
 'artist',
 'doctor',
 'educator',
 'engineer',
 'entertainment',
 'executive',
 'healthcare',
 'homemaker',
 'lawyer',
 'librarian',
 'marketing',
 'none',
 'other',
 'programmer',
 'retired',
 'salesman',
 'scientist',
 'student',
 'technician',
 'writer']

In [5]:
#Load the Ratings data
data = pd.read_csv('./ml-100k/u.data', sep="\t", header=None)
data.columns = ['userId', 'movieId', 'rating', 'timestamp']
data.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


In [6]:
#Load the Movies data
item = pd.read_csv('./ml-100k/u.item', sep="|", encoding='latin-1', header=None)
item.columns = ['movieId', 'title' ,'release','video release date', 'IMDb URL', 'unknown', 'Action', 
                'Adventure', 'Animation', 'Children\'s', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 
                'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western']
item['release'] = pd.to_datetime(item['release'])
item = item[pd.notnull(item['release'])]
item['year'] = item['release'].dt.year.astype(int)
item.drop(columns=['release', 'video release date', 'IMDb URL'], inplace=True)
item.head()

Unnamed: 0,movieId,title,unknown,Action,Adventure,Animation,Children's,Comedy,Crime,Documentary,...,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western,year
0,1,Toy Story (1995),0,0,0,1,1,1,0,0,...,0,0,0,0,0,0,0,0,0,1995
1,2,GoldenEye (1995),0,1,1,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,1995
2,3,Four Rooms (1995),0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,1995
3,4,Get Shorty (1995),0,1,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,1995
4,5,Copycat (1995),0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,1995


In [7]:
df_meta = item.melt(id_vars=['movieId', 'title'], var_name='genre')
df_meta = df_meta[df_meta.value == 1]
df_meta.drop(columns=['value'], inplace=True)
df_meta.head()

Unnamed: 0,movieId,title,genre
1371,1373,Good Morning (1971),unknown
1682,2,GoldenEye (1995),Action
1684,4,Get Shorty (1995),Action
1697,17,From Dusk Till Dawn (1996),Action
1701,21,Muppet Treasure Island (1996),Action


In [8]:
#Load the User data
user = pd.read_csv('./ml-100k/u.user', sep="|", encoding='latin-1', header=None)
user.columns = ['userId', 'age', 'gender', 'occupation', 'zip code']
user.head()

Unnamed: 0,userId,age,gender,occupation,zip code
0,1,24,M,technician,85711
1,2,53,F,other,94043
2,3,23,M,writer,32067
3,4,24,M,technician,43537
4,5,33,F,other,15213


## Abordagens intrínsecas ao modelo

***Exercício 01:*** Utilize o algoritmo UserKNN ou ItemKNN (pode ser do CaseRecommender) para gerar recomendações para um usuário aleatório da base. Forneça uma explicação para uma das recomendações geradas. Dica: sua explicação pode ser na forma de um gráfico, veja o slide 13 "explicações baseadas em usuários ou itens relaventes".

In [19]:
from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(data, test_size=0.2, random_state=42)

train_df.to_csv('train.dat', sep='\t', header=False, index=False)
test_df.to_csv('test.dat', sep='\t', header=False, index=False)

In [None]:
from recbole.quick_start import run_recbole

run_recbole(model='ItemKNN', dataset='ml-100k')

[Case Recommender: Item Recommendation > ItemKNN Algorithm]

train data:: 943 users and 1653 items (80000 interactions) | sparsity:: 94.87%
test data:: 940 users and 1411 items (20000 interactions) | sparsity:: 98.49%

training_time:: 1.966199 sec
prediction_time:: 21.122902 sec


Eval:: PREC@1: 0.469149 PREC@3: 0.414539 PREC@5: 0.37617 PREC@10: 0.320745 RECALL@1: 0.031187 RECALL@3: 0.081984 RECALL@5: 0.123414 RECALL@10: 0.198377 MAP@1: 0.469149 MAP@3: 0.564539 MAP@5: 0.564359 MAP@10: 0.522025 NDCG@1: 0.469149 NDCG@3: 0.653004 NDCG@5: 0.654399 NDCG@10: 0.636431 


In [26]:
def get_title(itemId):
    title = df_meta.loc[df_meta['movieId'] == itemId, 'title'].drop_duplicates().iloc[0]
    return title

def recommend(user_id):
    recommendations = recommender_ranking.recommend_items(user_id, n_recommendations=10)

    top_recommendation = recommendations[0]
    rec_item_id = top_recommendation[0]
    rec_item_title = get_title(rec_item_id)
    print(f"A principal recomendação é: '{rec_item_title}'")

# # c) Construir a explicação
# user_history = train_df[(train_df['userId'] == user_id) & (train_df['rating'] >= 4)]
# explanation_data = []

# for liked_item_id in user_history['itemId'].tolist():
#     try:
#         # Usar a matriz de similaridade do MESMO modelo
#         score = recommender.similarity_matrix[rec_item_id, liked_item_id]
#         if score > 0.1:
#             explanation_data.append((get_title(liked_item_id), score))
#     except (IndexError, KeyError):
#         # Lidar com o caso de um ID não estar na matriz
#         continue
        
# explanation_data.sort(key=lambda x: x[1], reverse=True)
# top_contributors = explanation_data[:3]

# # d) Apresentar a explicação
# if not top_contributors:
#     print("Não foi possível gerar uma explicação.")
# else:
#     titles = [item[0].split(' (')[0] for item in top_contributors]
#     scores = [item[1] for item in top_contributors]
    
#     fig, ax = plt.subplots(figsize=(10, 4))
#     bars = ax.barh(titles, scores, color='royalblue')
#     ax.set_title(f"Recomendamos '{rec_item_title}' porque você gostou de:", loc='left', fontsize=14)
#     ax.set_xlabel('Similaridade (Baseada em outros usuários)')
#     ax.invert_yaxis()
#     for bar in bars:
#         width = bar.get_width()
#         ax.text(width + 0.01, bar.get_y() + bar.get_height()/2, f'{width:.2f}', va='center')
#     plt.tight_layout()
#     plt.show()

recommend(15)

AttributeError: 'ItemKNN' object has no attribute 'recommend_items'

***Exercício 02:*** Forneça uma explicação de uma recomendação para um usuário com base no algoritmo ItemAttributeKNN. Utilize o template: "Estou te recomendando X pois este filme possui os mesmos gêneros A, B e C que o filme Y que você já assistiu e gostou".
- X, Y : título de um filme
- A, B, C : gênero

In [None]:
# TODO

## Abordagem agnóstica ao modelo

***Exercício 03:*** Pense e implemente uma estratégia de explicação agnóstica ao modelo: utilize o BPRMF para calcular recomencações, e depois implemente outra estratégia para explicar uma das recomendações para um usuário.

In [None]:
# TODO