# Projeto Aplicado III - Construindo um sistema de recomenda√ß√£o

O projeto tem como objetivo **desenvolver um sistema de recomenda√ß√£o de filmes** utilizando o *5000 Movie Dataset*, dispon√≠vel no Kaggle, que re√∫ne informa√ß√µes detalhadas sobre cerca de 5.000 produ√ß√µes do The Movie Database (TMDb). Esse conjunto de dados inclui vari√°veis como **or√ßamento, g√™neros, popularidade, empresas produtoras, pa√≠ses de produ√ß√£o, elenco e equipe t√©cnica**, permitindo a aplica√ß√£o de t√©cnicas de aprendizado de m√°quina para sugerir conte√∫dos mais relevantes aos usu√°rios.

A iniciativa busca n√£o apenas aprimorar compet√™ncias pr√°ticas em **ci√™ncia de dados e minera√ß√£o de dados**, mas tamb√©m contribuir para os **Objetivos de Desenvolvimento Sustent√°vel (ODS)** da ONU, como o **ODS 9 (Inova√ß√£o e Infraestrutura)**, o **ODS 4 (Educa√ß√£o de Qualidade)** e o **ODS 10 (Redu√ß√£o das Desigualdades)**. Assim, o sistema pretende oferecer recomenda√ß√µes personalizadas que promovam maior **diversidade cultural e inclus√£o digital**


Para a an√°lise e desenvolvimento deste projeto, ser√° necess√°rio utilizar um conjunto de bibliotecas do ecossistema Python, cada uma com um papel espec√≠fico no fluxo de trabalho de **an√°lise explorat√≥ria** e **constru√ß√£o do sistema de recomenda√ß√£o**.

- **pandas**: essencial para manipula√ß√£o e an√°lise de dados tabulares, permitindo leitura, limpeza e transforma√ß√£o dos datasets `tmdb_5000_movies` e `tmdb_5000_credits`.  
- **numpy**: fornece suporte para opera√ß√µes matem√°ticas e vetoriza√ß√£o, aumentando a efici√™ncia no processamento de dados.  
- **matplotlib**: utilizada para criar visualiza√ß√µes b√°sicas, como gr√°ficos de barras, dispers√£o e histogramas.  
- **seaborn**: complementa o matplotlib oferecendo visualiza√ß√µes estat√≠sticas mais sofisticadas e com est√©tica aprimorada.  
- **scikit-learn**: importante para o pr√©-processamento dos dados, c√°lculo de m√©tricas de avalia√ß√£o e implementa√ß√£o de algoritmos de recomenda√ß√£o baseados em aprendizado de m√°quina.  
- **scipy**: ser√° usada para c√°lculos matem√°ticos 
- **surprise (scikit-surprise)**: biblioteca especializada em sistemas de recomenda√ß√£o, especialmente nos modelos colaborativos como **SVD** e **KNNBasic**, permitindo comparar t√©cnicas.  
- **lightfm**: possibilita a constru√ß√£o de sistemas de recomenda√ß√£o h√≠bridos, combinando informa√ß√µes de conte√∫do e intera√ß√µes de usu√°rios.  
- **tensorflow / pytorch**: √∫teis caso seja necess√°rio evoluir para modelos de recomenda√ß√£o mais avan√ßados baseados em **deep learning**.


Abaixo, ser√° realizada a importa√ß√£o das bibliotecas necess√°rias para a **an√°lise explorat√≥ria** e a **constru√ß√£o do sistema de recomenda√ß√£o**.

Antes de iniciar a an√°lise, √© necess√°rio garantir que todas as bibliotecas utilizadas neste projeto estejam instaladas no ambiente.  
Para isso, basta executar o comando abaixo no terminal ou em uma c√©lula do Jupyter Notebook (prefixado com `!`):

```bash
pip install -r requirements.txt


In [None]:
%pip install -r requirements.txt

In [None]:
# Bibliotecas para an√°lise de dados
import pandas as pd
import numpy as np

# Bibliotecas para visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para sistemas de recomenda√ß√£o
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

import scipy
from surprise import Dataset, Reader, SVD, KNNBasic
from lightfm import LightFM

# Deep Learning (opcional, dependendo da abordagem)
import tensorflow as tf
import torch


In [None]:
# Leitura dos datasets
movies_df = pd.read_csv("datasets/tmdb_5000_movies.csv")
credits_df = pd.read_csv("datasets/tmdb_5000_credits.csv")

# Mostrando as primeiras linhas dos datasets
print("üìå Movies Dataset:")
display(movies_df.head())

print("\nüìå Credits Dataset:")
display(credits_df.head())

# Informa√ß√µes b√°sicas dos datasets
print("\nüîé Informa√ß√µes do Movies Dataset:")
print(movies_df.info())

print("\nüîé Informa√ß√µes do Credits Dataset:")
print(credits_df.info())
