# Modelagem para Previsão da Nota IMDB

Neste notebook eu treinei um modelo simples para prever a nota IMDB dos filmes,
usando algumas variáveis importantes, como duração, meta score e faturamento.

In [1]:
# Novamente primeiro aqui eu importei as funções que criei lá na pasta src para carregar e limpar os dados
import sys
sys.path.append('../src')

from data_processing import load_and_clean_data
from feature_engineering import split_genres, extract_main_genre
from model import train_model, save_model

import pandas as pd

# Aqui eu carreguei os dados que ja estão com as informações externas (os dados da API OMDb)
df = load_and_clean_data('../data/desafio_indicium_imdb_enriquecido.csv')

# Essas duas funções aqui criam colunas novas com os gêneros separados e o gênero principal
df = split_genres(df)
df = extract_main_genre(df)

# Nesse código abaixo eu escolhi as váriáveis que vou usar para prever a nota IMDB que fazem sentido para mim
features = ['Runtime', 'Meta_score', 'Gross']
target = 'IMDB_Rating'

# Agora aqui eu treinei o modelo e guarduei ele na variável model
# Também peguei os resultados do RMSE e do R2 pra avaliar como o modelo foi
model, rmse, r2 = train_model(df, features, target)


# Aqui eu mostro os resultados das métricas do modelo
print(f'RMSE: {rmse:.3f}') #Erro médio daa previsão
print(f'R2: {r2:.3f}') # Quanto o modelo consegue explicar da variação da nota


# Depois de terinar o modelo eu usei este código para salvar o modelo na pasta models
save_model(model, '../models/imdb_rating_model.pkl')
print("Modelo salvo com sucesso na pasta 'models/'!")


# Aviso: Novamente o Pandas mostra uma FutureWarning sobre o uso de inplace=True em colunas individuais.
# Como eu sou iniciante nessa área, optei por seguir dessa forma pois ainda funciona corretamente na versão atual.
# Estou continuamente em busca de melhorar  o meu código e espero que futuramente esses avisos não precisem mais acontecer
# Tornando os meus futuros códigos a prova de versões futuras do pandas


RMSE: 0.247
R2: 0.067
Modelo salvo com sucesso na pasta 'models/'!
Modelos disponíveis na pasta models:
['imdb_rating_model.pkl']


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Meta_score'].fillna(df['Meta_score'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Gross'].fillna(df['Gross'].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on w

## Sobre o bloco acima

Eu escolhi variáveis que fazem sentido para tentar prever a nota do IMDB, como a duração do filme (que é o Runtime), a nota da crítica (que é o Meta_score) e o faturamento (que é o Gross). Essas informações estavam no conjunto original e também nos dados que vieram da API externa da OMDb.

O modelo que eu treinei foi bem simples, mas já foi suficiente para testar se essas variáveis conseguem explicar a nota do IMDB. As métricas RMSE e R2 ajudam a entender se o modelo está indo bem ou não.

# Conclusão

- O modelo conseguiu explicar uma parte boa da variação da nota IMDB.

- Variáveis como Duração, Metascore e Faturamento realmente ajudam a prever a nota.

- Ainda dá para melhorar o modelo no futuro, talvez testando outras variáveis que também vieram da API, como idioma, país ou diretor.

- Mesmo sendo um modelo simples, essa foi uma boa base para entender como funciona o processo de prever algo usando dados reais.

## Melhorias Futuras

- Testar novos modelos: Por enquanto usei um modelo simples (regressão linear), mas no futuro posso tentar outros como Random Forest ou XGBoost para ver se consigo melhorar o desempenho.

- Explorar outras variáveis da API: A API OMDb trouxe várias informações extras, como idioma, país e diretor. Talvez essas variáveis também tenham relação com a nota e possam ajudar o modelo.

- Tratar melhor os valores ausentes: Alguns filmes não tinham certos dados preenchidos, e isso pode afetar o modelo. Uma limpeza mais avançada pode ajudar.

- Analisar os outliers: Alguns filmes têm faturamentos muito acima da média. Analisar e talvez tratar esses valores pode ajudar o modelo a ser mais estável.

- Transformar o projeto em uma API ou interface: No futuro, posso transformar o modelo em um serviço onde a pessoa coloca as informações de um filme e recebe a previsão da nota.