# Projeto Aplicado III - Construindo um sistema de recomenda√ß√£o

O projeto tem como objetivo **desenvolver um sistema de recomenda√ß√£o de filmes** utilizando o *5000 Movie Dataset*, dispon√≠vel no Kaggle, que re√∫ne informa√ß√µes detalhadas sobre cerca de 5.000 produ√ß√µes do The Movie Database (TMDb). Esse conjunto de dados inclui vari√°veis como **or√ßamento, g√™neros, popularidade, empresas produtoras, pa√≠ses de produ√ß√£o, elenco e equipe t√©cnica**, permitindo a aplica√ß√£o de t√©cnicas de aprendizado de m√°quina para sugerir conte√∫dos mais relevantes aos usu√°rios.

A iniciativa busca n√£o apenas aprimorar compet√™ncias pr√°ticas em **ci√™ncia de dados e minera√ß√£o de dados**, mas tamb√©m contribuir para os **Objetivos de Desenvolvimento Sustent√°vel (ODS)** da ONU, como o **ODS 9 (Inova√ß√£o e Infraestrutura)**, o **ODS 4 (Educa√ß√£o de Qualidade)** e o **ODS 10 (Redu√ß√£o das Desigualdades)**. Assim, o sistema pretende oferecer recomenda√ß√µes personalizadas que promovam maior **diversidade cultural e inclus√£o digital**


Para a an√°lise e desenvolvimento deste projeto, ser√° necess√°rio utilizar um conjunto de bibliotecas do ecossistema Python, cada uma com um papel espec√≠fico no fluxo de trabalho de **an√°lise explorat√≥ria** e **constru√ß√£o do sistema de recomenda√ß√£o**.

- **pandas**: essencial para manipula√ß√£o e an√°lise de dados tabulares, permitindo leitura, limpeza e transforma√ß√£o dos datasets `tmdb_5000_movies` e `tmdb_5000_credits`.  
- **numpy**: fornece suporte para opera√ß√µes matem√°ticas e vetoriza√ß√£o, aumentando a efici√™ncia no processamento de dados.  
- **matplotlib**: utilizada para criar visualiza√ß√µes b√°sicas, como gr√°ficos de barras, dispers√£o e histogramas.  
- **seaborn**: complementa o matplotlib oferecendo visualiza√ß√µes estat√≠sticas mais sofisticadas e com est√©tica aprimorada.  
- **scikit-learn**: importante para o pr√©-processamento dos dados, c√°lculo de m√©tricas de avalia√ß√£o e implementa√ß√£o de algoritmos de recomenda√ß√£o baseados em aprendizado de m√°quina.  
- **scipy**: ser√° usada para c√°lculos matem√°ticos 
- **surprise (scikit-surprise)**: biblioteca especializada em sistemas de recomenda√ß√£o, especialmente nos modelos colaborativos como **SVD** e **KNNBasic**, permitindo comparar t√©cnicas.  
- **lightfm**: possibilita a constru√ß√£o de sistemas de recomenda√ß√£o h√≠bridos, combinando informa√ß√µes de conte√∫do e intera√ß√µes de usu√°rios.  
- **tensorflow / pytorch**: √∫teis caso seja necess√°rio evoluir para modelos de recomenda√ß√£o mais avan√ßados baseados em **deep learning**.


Abaixo, ser√° realizada a importa√ß√£o das bibliotecas necess√°rias para a **an√°lise explorat√≥ria** e a **constru√ß√£o do sistema de recomenda√ß√£o**.

Antes de iniciar a an√°lise, √© necess√°rio garantir que todas as bibliotecas utilizadas neste projeto estejam instaladas no ambiente.  
Para isso, basta executar o comando abaixo no terminal ou em uma c√©lula do Jupyter Notebook (prefixado com `!`):

```bash
pip install -r requirements.txt


In [None]:
# Bibliotecas para an√°lise de dados
import pandas as pd
import numpy as np
import json
import ast

# Bibliotecas para visualiza√ß√£o
import matplotlib.pyplot as plt
import seaborn as sns

# Bibliotecas para sistemas de recomenda√ß√£o
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

import scipy
from surprise import Dataset, Reader, SVD, KNNBasic
from lightfm import LightFM

# Deep Learning (opcional, dependendo da abordagem)
import tensorflow as tf
import torch


In [None]:
# Leitura dos datasets
movies_df = pd.read_csv("datasets/tmdb_5000_movies.csv")
credits_df = pd.read_csv("datasets/tmdb_5000_credits.csv")

# Mostrando as primeiras linhas dos datasets
print("üìå Movies Dataset:")
display(movies_df.head())

print("\nüìå Credits Dataset:")
display(credits_df.head())

# Informa√ß√µes b√°sicas dos datasets
print("\nüîé Informa√ß√µes do Movies Dataset:")
print(movies_df.info())

print("\nüîé Informa√ß√µes do Credits Dataset:")
print(credits_df.info())


Nesta etapa, ser√° realizada a **sele√ß√£o das colunas relevantes** para a constru√ß√£o do sistema de recomenda√ß√£o.  

O objetivo √© reduzir o dataframe apenas √†s vari√°veis que realmente ser√£o utilizadas no modelo, garantindo maior **efici√™ncia no processamento**, evitando redund√¢ncias e mantendo o foco nos atributos mais informativos para a gera√ß√£o das recomenda√ß√µes.

Al√©m disso, tamb√©m ser√£o tratados os valores nulos para diminuir o ru√≠do presente no dataset.

Tamb√©m ser√° feito um **merge com o dataframe de cr√©ditos**, permitindo integrar informa√ß√µes sobre elenco e equipe t√©cnica ao conjunto de dados principal, enriquecendo assim a base para a constru√ß√£o do sistema de recomenda√ß√£o.


In [None]:
# Movies Dataset

# Filtrando somente linhas em que o filme est√° com status 'Released'
# Utilizamos o reset_index(drop=True) para resetar os √≠ndices do DataFrame ap√≥s o filtro
movies_df = movies_df[movies_df['status'] == 'Released'].reset_index(drop=True)
# Agora, filtraremos apenas as colunas que nos interessam para a an√°lise
movies_df = movies_df[['id', 'title', 'genres', 'vote_average', 'vote_count', 'popularity', 'release_date', 'overview', 'runtime', 'keywords', 'production_companies', 'production_countries', 'spoken_languages']]
# Tratando linhas com valores nulos
movies_df = movies_df.dropna().reset_index(drop=True)
# Convertendo a coluna 'release_date' para o tipo datetime
movies_df['release_date'] = pd.to_datetime(movies_df['release_date'], errors='coerce')

# Credits Dataset
# Selecionando apenas as colunas que nos interessam
credits_df = credits_df[['movie_id', 'cast', 'crew']]
# Tratando linhas com valores nulos
credits_df = credits_df.dropna().reset_index(drop=True)
# Renomeando a coluna 'movie_id' para 'id' para facilitar o merge
credits_df = credits_df.rename(columns={'movie_id': 'id'})

# Merge dos datasets
# Realizando o merge dos datasets 'movies_df' e 'credits_df' com base na coluna 'id'
movies_df = movies_df.merge(credits_df, on='id')
# Mostrando as primeiras linhas do dataset final
print("\nüìå Dataset Final ap√≥s Merge:")
display(movies_df)


Neste trecho de c√≥digo √© realizado o **tratamento das colunas no formato JSON** presentes nos datasets.  
Foram criadas fun√ß√µes auxiliares para converter as colunas que armazenam listas de dicion√°rios em **listas de valores extra√≠dos**, de forma a facilitar a manipula√ß√£o e an√°lise.  

- A fun√ß√£o `parse_json_column` √© respons√°vel por percorrer colunas no formato JSON e **extrair os valores de um campo espec√≠fico** (como `name`, `iso_3166_1` ou `iso_639_1`).  
- A fun√ß√£o `extract_director` percorre a coluna `crew` e **identifica o diretor principal** de cada filme, criando uma nova coluna `director`.  

Ap√≥s o processamento, as colunas originais em JSON s√£o transformadas em listas de valores mais simples, e a coluna `crew` foi descartada, visto que sua informa√ß√£o relevante (o diretor) j√° foi extra√≠da.  
Esse tratamento torna o dataframe mais **limpo e estruturado**, possibilitando seu uso na an√°lise explorat√≥ria e na constru√ß√£o do sistema de recomenda√ß√£o.

In [None]:
# Fun√ß√µes para processar as colunas JSON
def parse_json_column(df, column_name, key='name'):
    def extract_names(json_str):
        if isinstance(json_str, str):
            try:
                list_of_dicts = ast.literal_eval(json_str)
                if isinstance(list_of_dicts, list):
                    return [d[key] for d in list_of_dicts if key in d]
            except (ValueError, SyntaxError):
                pass
        return []
    df[column_name] = df[column_name].apply(extract_names)
    return df

# M√©todo para extrair o diretor do elenco
def extract_director(crew_json):
    if isinstance(crew_json, str):
        try:
            crew_list = ast.literal_eval(crew_json)
            for member in crew_list:
                if member.get('job') == 'Director':
                    return member.get('name')
        except (ValueError, SyntaxError):
            pass
    return np.nan

# Aplicando as fun√ß√µes para explodir as colunas JSON
movies_df = parse_json_column(movies_df, 'genres')
movies_df = parse_json_column(movies_df, 'keywords')
movies_df = parse_json_column(movies_df, 'production_companies')
movies_df = parse_json_column(movies_df, 'production_countries', key='iso_3166_1') 
movies_df = parse_json_column(movies_df, 'spoken_languages', key='iso_639_1')
movies_df = parse_json_column(movies_df, 'cast', key='name')
movies_df['director'] = movies_df['crew'].apply(extract_director)

# Removendo a coluna 'crew' original, pois j√° extra√≠mos o diretor
movies_df = movies_df.drop(columns=['crew'])

# Mostrando as primeiras linhas do dataset ap√≥s o tratamento das colunas JSON
print("\nüìå Dataset Final ap√≥s tratamento de JSON:")
display(movies_df.head())