## Desenvolvimento e Avaliação do Modelo
Para prever a nota do IMDb usando as variáveis relevantes, foi necessário seguir uma abordagem estruturada que envolve a seleção de variáveis, construção de modelos, avaliação e seleção do modelo mais adequado. Abaixo estão os passos detalhados:

Seleção de Variáveis Relevantes
Primeiramente, analisamos as variáveis disponíveis no conjunto de dados para identificar quais poderiam ter um impacto significativo na nota do IMDb. As variáveis selecionadas foram:

- **'Series_Title'**: 
  - Não usaremos no modelo, pois o nosso modelo de regressão linear usará apenas números, e esta coluna será convertida para um identificador numérico apenas.

- **'Released_Year'**: 
  - Deixaremos este dado no modelo para análise futura. Talvez algum ano tenha produzido filmes melhores que outros.

- **'Certificate'**: 
  - Deixaremos a classificação etária no modelo. Possivelmente filmes com classificação mais ampla tenham mais expectadores, o que pode gerar mais avaliações.

- **'Runtime'**: 
  - Deixaremos este dado no modelo, pois a duração dos filmes pode influenciar nas indicações e avaliações.

- **'Genre'**: 
  - Deixaremos este dado no modelo porque o gênero define o tipo de assunto do filme, que está diretamente ligado ao gosto das pessoas, influenciando na avaliação.

- **'IMDB_Rating'**: 
  - Deixaremos no nosso modelo, será o nosso dado alvo (Nota do IMDb).

- **'Overview'**: 
  - O resumo do filme será retirado do modelo, pois é um conjunto de palavras que no nosso modelo de regressão linear não se aplica, já que iremos codificar dados não numéricos.

- **'Meta_score'**: 
  - Usaremos este dado no modelo, pois é a média ponderada de todas as críticas dos filmes.

- **'Director'**: 
  - Usaremos este dado no modelo, pois o diretor do filme influencia na produção do filme.

- **'Star1'**: 
  - Usaremos este dado no modelo, pois o ator/atriz principal influencia na produção do filme.

- **'Star2'**: 
  - Usaremos este dado no modelo, pois o ator/atriz secundário influencia na produção do filme.

- **'Star3'**: 
  - Usaremos este dado no modelo, pois o ator/atriz terciário influencia na produção do filme.

- **'Star4'**: 
  - Usaremos este dado no modelo, pois o ator/atriz quaternário influencia na produção do filme.

- **'No_of_Votes'**: 
  - Usaremos este dado no modelo, pois o número de votos indica a quantidade de pessoas que assistiram e decidiram classificar o filme.

- **'Gross'**: 
  - Usaremos este dado no modelo, pois o faturamento do filme indica que muitas pessoas assistiram ao filme.

In [1]:
import sys
import os
import pandas as pd
import numpy as np
import joblib
from dotenv import load_dotenv
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import r2_score, mean_squared_error


# Adiciona o caminho do src ao sys.path para importar os módulos
sys.path.append('../src/imdb/regressao_linear')

In [None]:
from data_preparation_imdb import load_and_prepare_data, preprocess_data
from model_training_imdb import train_and_save_model
from prediction_imdb import predict_imdb_rating

In [2]:
# Carregar variáveis de ambiente
load_dotenv()

# Configurações de exibição do pandas
pd.set_option('display.max_columns', None)

In [3]:
# Obter caminhos do arquivo csv das variáveis de ambiente
file_path = os.getenv('RAW_PATH')
file = f'{file_path}/desafio_indicium_imdb.csv'
model_path = os.getenv('MODELS_PATH')

### Construção e Avaliação dos Modelos

Vários modelos de regressão foram avaliados para prever a nota do IMDb. Abaixo estão os modelos testados e suas avaliações:

#### Regressão Linear:
A regressão linear é um modelo simples que assume uma relação linear entre as variáveis independentes e a variável dependente. Apesar de sua simplicidade, serve como uma boa linha de base para comparações.

#### Árvores de Decisão:
As árvores de decisão são modelos não lineares que particionam os dados em subconjuntos baseados em valores de variáveis explicativas, criando uma árvore de decisões. Elas são interpretáveis e podem capturar relações complexas.

#### Random Forest:
O Random Forest é um ensemble de árvores de decisão, que melhora a robustez e precisão ao reduzir o overfitting. Ele combina as previsões de várias árvores de decisão para obter uma previsão final.

#### Gradient Boosting:
O Gradient Boosting é um método de ensemble que cria modelos de forma sequencial, onde cada novo modelo corrige os erros do modelo anterior. É poderoso para capturar padrões complexos nos dados.

### Seleção da Métrica de Desempenho

Para avaliar os modelos, utilizamos duas métricas principais:

#### Root Mean Squared Error (RMSE):
A RMSE mede a raiz quadrada da média dos erros quadráticos, fornecendo uma medida da magnitude do erro. É uma métrica comum em problemas de regressão e foi escolhida porque penaliza fortemente grandes erros, ajudando a identificar modelos que preveem bem a maioria dos pontos.

\[ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \]

#### R^2 (Coeficiente de Determinação):
O R^2 mede a proporção da variabilidade da variável dependente que é explicada pelas variáveis independentes no modelo. É uma métrica útil para entender o quão bem o modelo está explicando a variabilidade dos dados.

\[ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} \]

### Resultados e Escolha do Modelo

Após avaliar os diferentes modelos com base nas métricas RMSE e R^2, verificamos que o **Gradient Boosting** apresentou o melhor desempenho, com o menor RMSE e o maior R^2, indicando que capturou bem as complexidades dos dados e forneceu previsões mais precisas. Além disso, o Gradient Boosting é robusto a overfitting e pode modelar relações não lineares de forma eficaz.

Portanto, o Gradient Boosting foi escolhido como o modelo final para prever a nota do IMDb, utilizando as variáveis relevantes mencionadas. Este modelo não só apresentou um bom ajuste aos dados, mas também demonstrou capacidade de generalização em novos conjuntos de dados, tornando-o a escolha mais adequada para esta análise.


In [5]:
# Preparando os dados
df_imdb = load_and_prepare_data(file)

In [6]:
# Pré-processar os dados
df_preprocessed = preprocess_data(df_imdb)

In [7]:
# Treinar e salvar o modelo
model, X_test, y_test = train_and_save_model(df_preprocessed, model_path)

## Avaliação do Modelo

**R² Score**

O R² Score, ou coeficiente de determinação, é uma métrica que indica a proporção da variabilidade dos dados que é explicada pelo modelo. Um R² próximo de 1 indica que o modelo explica bem a variabilidade dos dados, enquanto um valor próximo de 0 indica que o modelo não explica bem a variabilidade.

**RMSE (Root Mean Squared Error)**

O RMSE é a raiz quadrada do erro quadrático médio e fornece uma medida da diferença entre os valores preditos pelo modelo e os valores reais. Um RMSE menor indica que o modelo tem um bom desempenho, enquanto um RMSE maior indica que o modelo tem um desempenho ruim.

In [10]:
# Avaliar o modelo
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))

print(f'R² Score: {r2}')
print(f'RMSE: {rmse}')

R² Score: 0.11361620810939066
RMSE: 0.2412172830351656


**R² Score Moderado:**

 O valor moderado do R² Score sugere que o modelo atual pode capturar algumas tendências nos dados, mas ainda há uma quantidade significativa de variabilidade que não é explicada. Isto indica que melhorias no modelo são necessárias.

**RMSE Aceitável:**

 Um RMSE de 0.81 sugere que as previsões do modelo têm uma margem de erro média de aproximadamente 0.81 pontos na escala de notas do IMDb.

## Novo Filme

In [9]:
# Novo filme para previsão
new_movie = {
    'Series_Title': 'The Shawshank Redemption',
    'Released_Year': '1994',
    'Certificate': 'A',
    'Runtime': '142 min',
    'Genre': 'Drama',
    'Overview': 'Two imprisoned men bond over a number of years, finding solace and eventual redemption through acts of common decency.',
    'Meta_score': 80.0,
    'Director': 'Frank Darabont',
    'Star1': 'Tim Robbins',
    'Star2': 'Morgan Freeman',
    'Star3': 'Bob Gunton',
    'Star4': 'William Sadler',
    'No_of_Votes': 2343110,
    'Gross': '28,341,469'
}

# Prever a nota do IMDb
predicted_rating = round(predict_imdb_rating(new_movie, model_path), 1)
print(f'Nota prevista do IMDb: {predicted_rating}')

Nota prevista do IMDb: 9.1


**Comparação entre Nota IMDb Oficial e Previsão do Modelo de Regressão Linear**

Ao comparar a nota do IMDb para o filme "The Shawshank Redemption" no site oficial (9.3) com a previsão feita pelo nosso modelo de regressão linear (9.1), observamos uma diferença mínima de apenas 0.2 pontos. Esta pequena variação indica que nosso modelo está bastante próximo da avaliação oficial, o que sugere que ele é capaz de capturar bem as características e fatores que influenciam as notas dos filmes no IMDb.
Link: ![The Shawshank Redemption](https://www.imdb.com/title/tt0111161/?ref_=chttp_t_1)

### Conclusão

O desempenho do modelo, refletido na pequena diferença de 0.2 pontos entre a nota oficial e a previsão, é um indicativo positivo de sua precisão. Embora haja sempre espaço para melhorias, especialmente ao considerar possíveis ajustes nos dados de entrada ou no modelo em si, os resultados atuais são promissores e mostram que o modelo pode ser uma ferramenta útil para prever a popularidade e a recepção crítica de filmes novos.

In [22]:
df = pd.read_csv(file)

## Tratamento dos dados
**Colunas Categóricas**

In [23]:
df.select_dtypes(include=['object']).head()

Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,Overview,Director,Star1,Star2,Star3,Star4,Gross
0,The Godfather,1972,A,175 min,"Crime, Drama",An organized crime dynasty's aging patriarch t...,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,134966411
1,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,534858444
2,The Godfather: Part II,1974,A,202 min,"Crime, Drama",The early life and career of Vito Corleone in ...,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,57300000
3,12 Angry Men,1957,U,96 min,"Crime, Drama",A jury holdout attempts to prevent a miscarria...,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,4360000
4,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",Gandalf and Aragorn lead the World of Men agai...,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,377845905


In [None]:
Coluna Released_Year

In [26]:
print(df['Released_Year'].dtype)

Int64


In [25]:
# Limpar espaços em branco e converter para tipo numérico tratando erros
df['Released_Year'] = df['Released_Year'].str.strip()  # Remover espaços em branco
df['Released_Year'] = pd.to_numeric(df['Released_Year'], errors='coerce')  # Converter e tratar erros

# Converter para inteiro, lidando com NaN
df['Released_Year'] = df['Released_Year'].astype('Int64')  # Usar 'Int64' para lidar com NaNs

# Verificar o tipo de dado após a conversão
print(df['Released_Year'].dtype)
print(df)

Int64
     Unnamed: 0                                   Series_Title  Released_Year  \
0             1                                  The Godfather           1972   
1             2                                The Dark Knight           2008   
2             3                         The Godfather: Part II           1974   
3             4                                   12 Angry Men           1957   
4             5  The Lord of the Rings: The Return of the King           2003   
..          ...                                            ...            ...   
994         995                         Breakfast at Tiffany's           1961   
995         996                                          Giant           1956   
996         997                          From Here to Eternity           1953   
997         998                                       Lifeboat           1944   
998         999                                   The 39 Steps           1935   

    Certificate  Runt

Coluna Runtime

In [29]:
print(df['Runtime'].dtype)

int64


In [28]:
# Extrair números da coluna Runtime e converter para tipo numérico
df['Runtime'] = df['Runtime'].str.extract('(\d+)').astype(int)

# Verificar o tipo de dado após a conversão
print(df['Runtime'].dtype)
print(df)

int64
     Unnamed: 0                                   Series_Title  Released_Year  \
0             1                                  The Godfather           1972   
1             2                                The Dark Knight           2008   
2             3                         The Godfather: Part II           1974   
3             4                                   12 Angry Men           1957   
4             5  The Lord of the Rings: The Return of the King           2003   
..          ...                                            ...            ...   
994         995                         Breakfast at Tiffany's           1961   
995         996                                          Giant           1956   
996         997                          From Here to Eternity           1953   
997         998                                       Lifeboat           1944   
998         999                                   The 39 Steps           1935   

    Certificate  Runt

  df['Runtime'] = df['Runtime'].str.extract('(\d+)').astype(int)


Coluna Gross

In [33]:
print(df['Gross'].dtype)

int64


In [32]:
# Remover vírgulas e converter para tipo numérico, tratando NaN
df['Gross'] = df['Gross'].str.replace(',', '').fillna('0').astype(int)

# Verificar o tipo de dado após a conversão
print(df['Gross'].dtype)
print(df)

int64
     Unnamed: 0                                   Series_Title  Released_Year  \
0             1                                  The Godfather           1972   
1             2                                The Dark Knight           2008   
2             3                         The Godfather: Part II           1974   
3             4                                   12 Angry Men           1957   
4             5  The Lord of the Rings: The Return of the King           2003   
..          ...                                            ...            ...   
994         995                         Breakfast at Tiffany's           1961   
995         996                                          Giant           1956   
996         997                          From Here to Eternity           1953   
997         998                                       Lifeboat           1944   
998         999                                   The 39 Steps           1935   

    Certificate  Runt

In [34]:
df.select_dtypes(include=['object']).head()

Unnamed: 0,Series_Title,Certificate,Genre,Overview,Director,Star1,Star2,Star3,Star4
0,The Godfather,A,"Crime, Drama",An organized crime dynasty's aging patriarch t...,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton
1,The Dark Knight,UA,"Action, Crime, Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine
2,The Godfather: Part II,A,"Crime, Drama",The early life and career of Vito Corleone in ...,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton
3,12 Angry Men,U,"Crime, Drama",A jury holdout attempts to prevent a miscarria...,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler
4,The Lord of the Rings: The Return of the King,U,"Action, Adventure, Drama",Gandalf and Aragorn lead the World of Men agai...,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom


In [None]:
# Remover as colunas 'Unnamed' e 'Series_Title'
df = df.drop(columns=['Unnamed: 0', 'Series_Title'])

In [41]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Released_Year  998 non-null    Int64  
 1   Certificate    898 non-null    object 
 2   Runtime        999 non-null    int64  
 3   Genre          999 non-null    object 
 4   IMDB_Rating    999 non-null    float64
 5   Overview       999 non-null    object 
 6   Meta_score     842 non-null    float64
 7   Director       999 non-null    object 
 8   Star1          999 non-null    object 
 9   Star2          999 non-null    object 
 10  Star3          999 non-null    object 
 11  Star4          999 non-null    object 
 12  No_of_Votes    999 non-null    int64  
 13  Gross          999 non-null    int64  
dtypes: Int64(1), float64(2), int64(3), object(8)
memory usage: 110.4+ KB


**Verificação de dados faltantes**

In [43]:
porcentagem_nulos = df.isnull().mean() * 100
print(porcentagem_nulos)

Released_Year     0.100100
Certificate      10.110110
Runtime           0.000000
Genre             0.000000
IMDB_Rating       0.000000
Overview          0.000000
Meta_score       15.715716
Director          0.000000
Star1             0.000000
Star2             0.000000
Star3             0.000000
Star4             0.000000
No_of_Votes       0.000000
Gross             0.000000
dtype: float64


Coluna Meta_score e Coluna Released_Year

Para estas colunas usaremos o IterativeImputer, que é uma técnica de imputação de dados faltantes disponível no scikit-learn que utiliza um processo iterativo para preencher os valores ausentes. Aqui está uma visão geral do que ele faz e como funciona:

- O IterativeImputer trata cada valor faltante como uma variável de saída a ser prevista.
Utiliza um modelo de regressão (por padrão, regressão linear, mas pode ser ajustado) para prever o valor faltante em uma coluna com base nos valores não faltantes de outras colunas.
- A imputação iterativa pode capturar relações mais complexas entre as variáveis do que métodos simples como a média, mediana ou moda, resultando em previsões mais precisas dos valores faltantes.

In [44]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Supondo que df é o seu DataFrame com valores faltantes

# Selecionar colunas numéricas para a imputação
numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns

# Configurar o Iterative Imputer
imputer = IterativeImputer()

# Ajustar o imputer e transformar os dados
df[numerical_cols] = imputer.fit_transform(df[numerical_cols])

# Verificar os dados após a imputação
print(df.isnull().sum())

Released_Year      0
Certificate      101
Runtime            0
Genre              0
IMDB_Rating        0
Overview           0
Meta_score         0
Director           0
Star1              0
Star2              0
Star3              0
Star4              0
No_of_Votes        0
Gross              0
dtype: int64


Coluna Certificate

10.11% de dados faltantes: Esta coluna é categórica e representa a classificação indicativa do filme. O preenchimento de valores faltantes pode ser feito com a moda (valor mais frequente), uma imputação baseada em algum modelo, ou até mesmo um valor específico como "Unknown".

Usaremos abordagem de preenchimento da coluna com "Unknown" mantendo a consistência dos dados e facilitando a análise subsequente.

In [46]:
df['Certificate'] = df['Certificate'].fillna('Unknown')
print(df['Certificate'].isnull().sum())

0


In [47]:
df.isnull().any()

Released_Year    False
Certificate      False
Runtime          False
Genre            False
IMDB_Rating      False
Overview         False
Meta_score       False
Director         False
Star1            False
Star2            False
Star3            False
Star4            False
No_of_Votes      False
Gross            False
dtype: bool

Coluna Overview

Esta coluna será removida do nosso modelo devido à sua natureza textual. Como esta coluna contém um conjunto de palavras descritivas, não contribui diretamente para a análise numérica ou preditiva que estamos realizando. Portanto, optamos por excluí-la para simplificar o modelo e focar nas variáveis mais relevantes para nossa análise.

In [51]:
df = df.drop(columns=['Overview'])

Salvar novo CSV

In [52]:
# Obter caminhos do arquivo csv das variáveis de ambiente
processed_path = os.getenv('PROCESSED_PATH')
file = f'{processed_path}/imdb_processed.csv'

In [53]:
df.to_csv(file, index=False)