<a href="https://colab.research.google.com/github/ibrunaneves/PraticasDeMachineLearning/blob/main/Q8_Hackathon_Unifacisa_IA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Instituição - UNIFACISA
# Autor: Bruna Neves - 17/04/25

**Questão 8 (avançado) - Recomendação de Filmes com Filtragem Colaborativa**

Uma plataforma de streaming deseja sugerir filmes para os usuários com base nas avaliações de outros usuários.

Tarefas:
- Utilize um dataset de avaliações de filmes (exemplo: MovieLens).
- Implemente um modelo de filtragem colaborativa baseado em usuários e itens.
- Compare a filtragem colaborativa com abordagens baseadas em aprendizado profundo (exemplo:
Autoencoders).
- Avalie o desempenho com métricas como RMSE e MAE.

Pergunta: Qual abordagem foi mais eficiente na recomendação de filmes? Como melhorar o
sistema de recomendação?

In [6]:
import numpy
print(numpy.__version__)

from surprise import Dataset, Reader, SVD, KNNBasic
from surprise.model_selection import train_test_split, cross_validate
from surprise import accuracy


1.23.5


In [9]:
from surprise import Dataset
from surprise.model_selection import train_test_split

# Carregando o dataset embutido do MovieLens 100k
data = Dataset.load_builtin('ml-100k')  # MovieLens 100k já vem com o pacote surprise

# Dividindo o dataset em treino e teste (80% treino, 20% teste)
trainset, testset = train_test_split(data, test_size=0.2, random_state=42)


Dataset ml-100k could not be found. Do you want to download it? [Y/n] y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /root/.surprise_data/ml-100k


In [10]:
# Modelo baseado em fatores latentes (SVD)
svd = SVD()  # SVD é bom para lidar com grandes esparsidades (vários "gostos ocultos")
svd.fit(trainset)
svd_preds = svd.test(testset)


In [12]:
from surprise import KNNBasic
from surprise import accuracy

# Treinando o modelo baseado em usuários
knn = KNNBasic(sim_options={'user_based': True})  # filtragem colaborativa entre usuários
knn.fit(trainset)  # treinamento
knn_preds = knn.test(testset)  # previsões no conjunto de teste

# Avaliando o modelo KNN
print("Modelo KNN:")
rmse_knn = accuracy.rmse(knn_preds)  # erro quadrático médio
mae_knn = accuracy.mae(knn_preds)    # erro absoluto médio


Computing the msd similarity matrix...
Done computing similarity matrix.
Modelo KNN:
RMSE: 0.9802
MAE:  0.7727


In [13]:
print("\nModelo KNN:")
rmse_knn = accuracy.rmse(knn_preds)
mae_knn = accuracy.mae(knn_preds)



Modelo KNN:
RMSE: 0.9802
MAE:  0.7727


---

Objetivo:
- Sugerir filmes para usuários com base nas avaliações de outros usuários usando técnicas de filtragem colaborativa.

Técnicas Aplicadas:
- Carregamento do dataset MovieLens 100k com `surprise`
- Implementação de filtragem colaborativa com:
  - `KNNBasic` (baseado em similaridade entre usuários)
  - `SVD` (baseado em fatores latentes)
- Avaliação dos modelos com `RMSE` e `MAE`

---

> Resultados:
- **SVD** teve melhor desempenho:
  - RMSE: 0.9355
  - MAE:  0.7373
- KNN apresentou erros maiores, indicando menor capacidade de generalização.

Insights:

- O modelo **SVD** superou o KNN por conseguir **capturar gostos ocultos dos usuários**, mesmo com dados esparsos.
- O KNN é mais simples e intuitivo, mas não aprende representações internas, o que limita sua performance em grandes bases.
- Para melhorar o sistema de recomendação:
  - Incluir **filtros híbridos** (colaborativo + baseado em conteúdo)
  - Explorar **modelos com autoencoders** ou **Redes Neurais Recorrentes**
  - Usar métricas adicionais como NDCG e precisão no Top-N

