# Projeto Aplicado III - Construindo um sistema de recomendação

O projeto tem como objetivo **desenvolver um sistema de recomendação de filmes** utilizando o *5000 Movie Dataset*, disponível no Kaggle, que reúne informações detalhadas sobre cerca de 5.000 produções do The Movie Database (TMDb). Esse conjunto de dados inclui variáveis como **orçamento, gêneros, popularidade, empresas produtoras, países de produção, elenco e equipe técnica**, permitindo a aplicação de técnicas de aprendizado de máquina para sugerir conteúdos mais relevantes aos usuários.

A iniciativa busca não apenas aprimorar competências práticas em **ciência de dados e mineração de dados**, mas também contribuir para os **Objetivos de Desenvolvimento Sustentável (ODS)** da ONU, como o **ODS 9 (Inovação e Infraestrutura)**, o **ODS 4 (Educação de Qualidade)** e o **ODS 10 (Redução das Desigualdades)**. Assim, o sistema pretende oferecer recomendações personalizadas que promovam maior **diversidade cultural e inclusão digital**


Para a análise e desenvolvimento deste projeto, será necessário utilizar um conjunto de bibliotecas do ecossistema Python, cada uma com um papel específico no fluxo de trabalho de **análise exploratória** e **construção do sistema de recomendação**.

- **pandas**: essencial para manipulação e análise de dados tabulares, permitindo leitura, limpeza e transformação dos datasets `tmdb_5000_movies` e `tmdb_5000_credits`.  
- **numpy**: fornece suporte para operações matemáticas e vetorização, aumentando a eficiência no processamento de dados.  
- **matplotlib**: utilizada para criar visualizações básicas, como gráficos de barras, dispersão e histogramas.  
- **seaborn**: complementa o matplotlib oferecendo visualizações estatísticas mais sofisticadas e com estética aprimorada.  
- **scikit-learn**: importante para o pré-processamento dos dados, cálculo de métricas de avaliação e implementação de algoritmos de recomendação baseados em aprendizado de máquina.  
- **scipy**: será usada para cálculos matemáticos 
- **surprise (scikit-surprise)**: biblioteca especializada em sistemas de recomendação, especialmente nos modelos colaborativos como **SVD** e **KNNBasic**, permitindo comparar técnicas.  
- **lightfm**: possibilita a construção de sistemas de recomendação híbridos, combinando informações de conteúdo e interações de usuários.  
- **tensorflow / pytorch**: úteis caso seja necessário evoluir para modelos de recomendação mais avançados baseados em **deep learning**.


Abaixo, será realizada a importação das bibliotecas necessárias para a **análise exploratória** e a **construção do sistema de recomendação**.

Antes de iniciar a análise, é necessário garantir que todas as bibliotecas utilizadas neste projeto estejam instaladas no ambiente.  
Para isso, basta executar o comando abaixo no terminal ou em uma célula do Jupyter Notebook (prefixado com `!`):

```bash
pip install -r requirements.txt


In [None]:
%pip install -r requirements.txt

In [None]:
# Bibliotecas para análise de dados
import pandas as pd
import numpy as np

# Bibliotecas para visualização
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para sistemas de recomendação
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

import scipy
from surprise import Dataset, Reader, SVD, KNNBasic
from lightfm import LightFM

# Deep Learning (opcional, dependendo da abordagem)
import tensorflow as tf
import torch


In [None]:
# Leitura dos datasets
movies_df = pd.read_csv("datasets/tmdb_5000_movies.csv")
credits_df = pd.read_csv("datasets/tmdb_5000_credits.csv")

# Mostrando as primeiras linhas dos datasets
print("📌 Movies Dataset:")
display(movies_df.head())

print("\n📌 Credits Dataset:")
display(credits_df.head())

# Informações básicas dos datasets
print("\n🔎 Informações do Movies Dataset:")
print(movies_df.info())

print("\n🔎 Informações do Credits Dataset:")
print(credits_df.info())
