## Desenvolvimento e Avaliação do Modelo
Para prever a nota do IMDb usando as variáveis relevantes, foi necessário seguir uma abordagem estruturada que envolve a seleção de variáveis, construção de modelos, avaliação e seleção do modelo mais adequado. Abaixo estão os passos detalhados:

Seleção de Variáveis Relevantes
Primeiramente, analisamos as variáveis disponíveis no conjunto de dados para identificar quais poderiam ter um impacto significativo na nota do IMDb. As variáveis selecionadas foram:

- **'Series_Title'**: 
  - Não usaremos no modelo, pois o nosso modelo de regressão linear usará apenas números, e esta coluna será convertida para um identificador numérico apenas.

- **'Released_Year'**: 
  - Deixaremos este dado no modelo para análise futura. Talvez algum ano tenha produzido filmes melhores que outros.

- **'Certificate'**: 
  - Deixaremos a classificação etária no modelo. Possivelmente filmes com classificação mais ampla tenham mais expectadores, o que pode gerar mais avaliações.

- **'Runtime'**: 
  - Deixaremos este dado no modelo, pois a duração dos filmes pode influenciar nas indicações e avaliações.

- **'Genre'**: 
  - Deixaremos este dado no modelo porque o gênero define o tipo de assunto do filme, que está diretamente ligado ao gosto das pessoas, influenciando na avaliação.

- **'IMDB_Rating'**: 
  - Deixaremos no nosso modelo, será o nosso dado alvo (Nota do IMDb).

- **'Overview'**: 
  - O resumo do filme será retirado do modelo, pois é um conjunto de palavras que no nosso modelo de regressão linear não se aplica, já que iremos codificar dados não numéricos.

- **'Meta_score'**: 
  - Usaremos este dado no modelo, pois é a média ponderada de todas as críticas dos filmes.

- **'Director'**: 
  - Usaremos este dado no modelo, pois o diretor do filme influencia na produção do filme.

- **'Star1'**: 
  - Usaremos este dado no modelo, pois o ator/atriz principal influencia na produção do filme.

- **'Star2'**: 
  - Usaremos este dado no modelo, pois o ator/atriz secundário influencia na produção do filme.

- **'Star3'**: 
  - Usaremos este dado no modelo, pois o ator/atriz terciário influencia na produção do filme.

- **'Star4'**: 
  - Usaremos este dado no modelo, pois o ator/atriz quaternário influencia na produção do filme.

- **'No_of_Votes'**: 
  - Usaremos este dado no modelo, pois o número de votos indica a quantidade de pessoas que assistiram e decidiram classificar o filme.

- **'Gross'**: 
  - Usaremos este dado no modelo, pois o faturamento do filme indica que muitas pessoas assistiram ao filme.

In [None]:
import sys
import os
import pandas as pd
import numpy as np
import joblib
from dotenv import load_dotenv
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import r2_score, mean_squared_error


# Adiciona o caminho do src ao sys.path para importar os módulos
sys.path.append('../src/imdb/regressao_linear')

In [None]:
from data_preparation_imdb import load_and_prepare_data, preprocess_data
from model_training_imdb import train_and_save_model
from prediction_imdb import predict_imdb_rating

In [None]:
# Carregar variáveis de ambiente
load_dotenv()

# Configurações de exibição do pandas
pd.set_option('display.max_columns', None)

In [None]:
# Obter caminhos do arquivo csv das variáveis de ambiente
file_path = os.getenv('RAW_PATH')
file = f'{file_path}/desafio_indicium_imdb.csv'
model_path = os.getenv('MODELS_PATH')

### Construção e Avaliação dos Modelos

Vários modelos de regressão foram avaliados para prever a nota do IMDb. Abaixo estão os modelos testados e suas avaliações:

#### Regressão Linear:
A regressão linear é um modelo simples que assume uma relação linear entre as variáveis independentes e a variável dependente. Apesar de sua simplicidade, serve como uma boa linha de base para comparações.

#### Árvores de Decisão:
As árvores de decisão são modelos não lineares que particionam os dados em subconjuntos baseados em valores de variáveis explicativas, criando uma árvore de decisões. Elas são interpretáveis e podem capturar relações complexas.

#### Random Forest:
O Random Forest é um ensemble de árvores de decisão, que melhora a robustez e precisão ao reduzir o overfitting. Ele combina as previsões de várias árvores de decisão para obter uma previsão final.

#### Gradient Boosting:
O Gradient Boosting é um método de ensemble que cria modelos de forma sequencial, onde cada novo modelo corrige os erros do modelo anterior. É poderoso para capturar padrões complexos nos dados.

### Seleção da Métrica de Desempenho

Para avaliar os modelos, utilizamos duas métricas principais:

#### Root Mean Squared Error (RMSE):
A RMSE mede a raiz quadrada da média dos erros quadráticos, fornecendo uma medida da magnitude do erro. É uma métrica comum em problemas de regressão e foi escolhida porque penaliza fortemente grandes erros, ajudando a identificar modelos que preveem bem a maioria dos pontos.

\[ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \]

#### R^2 (Coeficiente de Determinação):
O R^2 mede a proporção da variabilidade da variável dependente que é explicada pelas variáveis independentes no modelo. É uma métrica útil para entender o quão bem o modelo está explicando a variabilidade dos dados.

\[ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} \]

### Resultados e Escolha do Modelo

Após avaliar os diferentes modelos com base nas métricas RMSE e R^2, verificamos que o **Gradient Boosting** apresentou o melhor desempenho, com o menor RMSE e o maior R^2, indicando que capturou bem as complexidades dos dados e forneceu previsões mais precisas. Além disso, o Gradient Boosting é robusto a overfitting e pode modelar relações não lineares de forma eficaz.

Portanto, o Gradient Boosting foi escolhido como o modelo final para prever a nota do IMDb, utilizando as variáveis relevantes mencionadas. Este modelo não só apresentou um bom ajuste aos dados, mas também demonstrou capacidade de generalização em novos conjuntos de dados, tornando-o a escolha mais adequada para esta análise.


In [5]:
# Preparando os dados
df_imdb = load_and_prepare_data(file)

In [6]:
# Pré-processar os dados
df_preprocessed = preprocess_data(df_imdb)

In [7]:
# Treinar e salvar o modelo
model, X_test, y_test = train_and_save_model(df_preprocessed, model_path)

## Avaliação do Modelo

**R² Score**

O R² Score, ou coeficiente de determinação, é uma métrica que indica a proporção da variabilidade dos dados que é explicada pelo modelo. Um R² próximo de 1 indica que o modelo explica bem a variabilidade dos dados, enquanto um valor próximo de 0 indica que o modelo não explica bem a variabilidade.

**RMSE (Root Mean Squared Error)**

O RMSE é a raiz quadrada do erro quadrático médio e fornece uma medida da diferença entre os valores preditos pelo modelo e os valores reais. Um RMSE menor indica que o modelo tem um bom desempenho, enquanto um RMSE maior indica que o modelo tem um desempenho ruim.

In [10]:
# Avaliar o modelo
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f'R² Score: {r2}')
print(f'RMSE: {rmse}')

R² Score: 0.11361620810939066
RMSE: 0.2412172830351656


**R² Score Moderado:**

 O valor moderado do R² Score sugere que o modelo atual pode capturar algumas tendências nos dados, mas ainda há uma quantidade significativa de variabilidade que não é explicada. Isto indica que melhorias no modelo são necessárias.

**RMSE Aceitável:**

 Um RMSE de 0.81 sugere que as previsões do modelo têm uma margem de erro média de aproximadamente 0.81 pontos na escala de notas do IMDb.

## Novo Filme

In [9]:
# Novo filme para previsão
new_movie = {
    'Series_Title': 'The Shawshank Redemption',
    'Released_Year': '1994',
    'Certificate': 'A',
    'Runtime': '142 min',
    'Genre': 'Drama',
    'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
    'Meta_score': 80.0,
    'Director': 'Frank Darabont',
    'Star1': 'Tim Robbins',
    'Star2': 'Morgan Freeman',
    'Star3': 'Bob Gunton',
    'Star4': 'William Sadler',
    'No_of_Votes': 2343110,
    'Gross': '28,341,469'
}

# Prever a nota do IMDb
predicted_rating = round(predict_imdb_rating(new_movie, model_path), 1)
print(f'Nota prevista do IMDb: {predicted_rating}')

Nota prevista do IMDb: 9.1


In [10]:
# Relatar o insight
print("\nPrevisão da Nota do IMDb para 'The Shawshank Redemption'")
print(f"Título: The Shawshank Redemption")
print(f"Ano de Lançamento: 1994")
print(f"Certificado: A")
print(f"Duração: 142 min")
print(f"Gênero: Drama")
print(f"Resumo: Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.")
print(f"Meta_score: 80.0")
print(f"Diretor: Frank Darabont")
print(f"Estrelas: Tim Robbins, Morgan Freeman, Bob Gunton, William Sadler")
print(f"Número de Votos: 2,343,110")
print(f"Faturamento: $28,341,469")
print(f"Nota prevista do IMDb: {predicted_rating}")

print(f"\nUtilizando um modelo de regressão treinado com dados históricos de filmes, a nota prevista do IMDb para o filme 'The Shawshank Redemption' é {predicted_rating}.")


Previsão da Nota do IMDb para 'The Shawshank Redemption'
Título: The Shawshank Redemption
Ano de Lançamento: 1994
Certificado: A
Duração: 142 min
Gênero: Drama
Resumo: Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.
Meta_score: 80.0
Diretor: Frank Darabont
Estrelas: Tim Robbins, Morgan Freeman, Bob Gunton, William Sadler
Número de Votos: 2,343,110
Faturamento: $28,341,469
Nota prevista do IMDb: 9.1

Utilizando um modelo de regressão treinado com dados históricos de filmes, a nota prevista do IMDb para o filme 'The Shawshank Redemption' é 9.1.


**Comparação entre Nota IMDb Oficial e Previsão do Modelo de Regressão Linear**

Ao comparar a nota do IMDb para o filme "The Shawshank Redemption" no site oficial (9.3) com a previsão feita pelo nosso modelo de regressão linear (9.1), observamos uma diferença mínima de apenas 0.2 pontos. Esta pequena variação indica que nosso modelo está bastante próximo da avaliação oficial, o que sugere que ele é capaz de capturar bem as características e fatores que influenciam as notas dos filmes no IMDb.
Link: ![The Shawshank Redemption](https://www.imdb.com/title/tt0111161/?ref_=chttp_t_1)

### Conclusão

O desempenho do modelo, refletido na pequena diferença de 0.2 pontos entre a nota oficial e a previsão, é um indicativo positivo de sua precisão. Embora haja sempre espaço para melhorias, especialmente ao considerar possíveis ajustes nos dados de entrada ou no modelo em si, os resultados atuais são promissores e mostram que o modelo pode ser uma ferramenta útil para prever a popularidade e a recepção crítica de filmes novos.