## Desenvolvimento e Avaliação do Modelo
Para prever a nota do IMDb usando as variáveis relevantes, foi necessário seguir uma abordagem estruturada que envolve a seleção de variáveis, construção de modelos, avaliação e seleção do modelo mais adequado. Abaixo estão os passos detalhados:

Seleção de Variáveis Relevantes
Primeiramente, analisamos as variáveis disponíveis no conjunto de dados para identificar quais poderiam ter um impacto significativo na nota do IMDb. As variáveis selecionadas foram:

- **'Series_Title'**: 
  - Não usaremos no modelo, pois o nosso modelo de regressão linear usará apenas números, e esta coluna será convertida para um identificador numérico apenas.

- **'Released_Year'**: 
  - Deixaremos este dado no modelo para análise futura. Talvez algum ano tenha produzido filmes melhores que outros.

- **'Certificate'**: 
  - Deixaremos a classificação etária no modelo. Possivelmente filmes com classificação mais ampla tenham mais expectadores, o que pode gerar mais avaliações.

- **'Runtime'**: 
  - Deixaremos este dado no modelo, pois a duração dos filmes pode influenciar nas indicações e avaliações.

- **'Genre'**: 
  - Deixaremos este dado no modelo porque o gênero define o tipo de assunto do filme, que está diretamente ligado ao gosto das pessoas, influenciando na avaliação.

- **'IMDB_Rating'**: 
  - Deixaremos no nosso modelo, será o nosso dado alvo (Nota do IMDb).

- **'Overview'**: 
  - O resumo do filme será retirado do modelo, pois é um conjunto de palavras que no nosso modelo de regressão linear não se aplica, já que iremos codificar dados não numéricos.

- **'Meta_score'**: 
  - Usaremos este dado no modelo, pois é a média ponderada de todas as críticas dos filmes.

- **'Director'**: 
  - Usaremos este dado no modelo, pois o diretor do filme influencia na produção do filme.

- **'Star1'**: 
  - Usaremos este dado no modelo, pois o ator/atriz principal influencia na produção do filme.

- **'Star2'**: 
  - Usaremos este dado no modelo, pois o ator/atriz secundário influencia na produção do filme.

- **'Star3'**: 
  - Usaremos este dado no modelo, pois o ator/atriz terciário influencia na produção do filme.

- **'Star4'**: 
  - Usaremos este dado no modelo, pois o ator/atriz quaternário influencia na produção do filme.

- **'No_of_Votes'**: 
  - Usaremos este dado no modelo, pois o número de votos indica a quantidade de pessoas que assistiram e decidiram classificar o filme.

- **'Gross'**: 
  - Usaremos este dado no modelo, pois o faturamento do filme indica que muitas pessoas assistiram ao filme.

### Construção e Avaliação dos Modelos

Vários modelos de regressão foram avaliados para prever a nota do IMDb. Abaixo estão alguns modelos que poderemos testar e suas avaliações:

#### Regressão Linear:
A regressão linear é um modelo simples que assume uma relação linear entre as variáveis independentes e a variável dependente. Apesar de sua simplicidade, serve como uma boa linha de base para comparações.

#### Árvores de Decisão:
As árvores de decisão são modelos não lineares que particionam os dados em subconjuntos baseados em valores de variáveis explicativas, criando uma árvore de decisões. Elas são interpretáveis e podem capturar relações complexas.

#### Random Forest:
O Random Forest é um ensemble de árvores de decisão, que melhora a robustez e precisão ao reduzir o overfitting. Ele combina as previsões de várias árvores de decisão para obter uma previsão final.

#### Gradient Boosting:
O Gradient Boosting é um método de ensemble que cria modelos de forma sequencial, onde cada novo modelo corrige os erros do modelo anterior. É poderoso para capturar padrões complexos nos dados.

### Seleção da Métrica de Desempenho

Para avaliar os modelos, utilizamos duas métricas principais:

#### Root Mean Squared Error (RMSE):
A RMSE mede a raiz quadrada da média dos erros quadráticos, fornecendo uma medida da magnitude do erro. É uma métrica comum em problemas de regressão e foi escolhida porque penaliza fortemente grandes erros, ajudando a identificar modelos que preveem bem a maioria dos pontos.

\[ RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \]

#### R^2 (Coeficiente de Determinação):
O R^2 mede a proporção da variabilidade da variável dependente que é explicada pelas variáveis independentes no modelo. É uma métrica útil para entender o quão bem o modelo está explicando a variabilidade dos dados.

\[ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} \]

### Resultados e Escolha do Modelo

Após avaliar os diferentes modelos com base nas métricas RMSE e R^2, verificaremos qual apresentou o melhor desempenho, com o menor RMSE e o maior R^2, indicando que capturou bem as complexidades dos dados e forneceu previsões mais precisas.


## Tratamento dos dados

In [1]:
import os
import pandas as pd
import numpy as np
from dotenv import load_dotenv

In [2]:
# Carregar variáveis de ambiente
load_dotenv()

# Configurações de exibição do pandas
pd.set_option('display.max_columns', None)

In [3]:
# Obter caminhos do arquivo csv das variáveis de ambiente
file_path = os.getenv('RAW_PATH')
file = f'{file_path}/desafio_indicium_imdb.csv'

In [4]:
df = pd.read_csv(file)

**Colunas Categóricas**

In [5]:
df.select_dtypes(include=['object']).head()

Unnamed: 0,Series_Title,Released_Year,Certificate,Runtime,Genre,Overview,Director,Star1,Star2,Star3,Star4,Gross
0,The Godfather,1972,A,175 min,"Crime, Drama",An organized crime dynasty's aging patriarch t...,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton,134966411
1,The Dark Knight,2008,UA,152 min,"Action, Crime, Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine,534858444
2,The Godfather: Part II,1974,A,202 min,"Crime, Drama",The early life and career of Vito Corleone in ...,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton,57300000
3,12 Angry Men,1957,U,96 min,"Crime, Drama",A jury holdout attempts to prevent a miscarria...,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler,4360000
4,The Lord of the Rings: The Return of the King,2003,U,201 min,"Action, Adventure, Drama",Gandalf and Aragorn lead the World of Men agai...,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom,377845905


Coluna Released_Year

In [6]:
print(df['Released_Year'].dtype)

object


In [7]:
# Limpar espaços em branco e converter para tipo numérico tratando erros
df['Released_Year'] = df['Released_Year'].str.strip()  # Remover espaços em branco
df['Released_Year'] = pd.to_numeric(df['Released_Year'], errors='coerce')  # Converter e tratar erros

# Converter para inteiro, lidando com NaN
df['Released_Year'] = df['Released_Year'].astype('Int64')  # Usar 'Int64' para lidar com NaNs

# Verificar o tipo de dado após a conversão
print(df['Released_Year'].dtype)

Int64


Coluna Runtime

In [8]:
print(df['Runtime'].dtype)

object


In [9]:
# Converter a coluna 'Runtime' para inteiro, extraindo apenas os dígitos
df['Runtime'] = df['Runtime'].str.extract(r'(\d+)').astype(int)

# Verificar o tipo de dado após a conversão
print(df['Runtime'].dtype)

int64


Coluna Gross

In [10]:
print(df['Gross'].dtype)

object


In [11]:
# Remover vírgulas e converter para tipo numérico, tratando NaN
df['Gross'] = df['Gross'].str.replace(',', '').fillna('0').astype(int)

# Verificar o tipo de dado após a conversão
print(df['Gross'].dtype)

int64


In [12]:
df.select_dtypes(include=['object']).head()

Unnamed: 0,Series_Title,Certificate,Genre,Overview,Director,Star1,Star2,Star3,Star4
0,The Godfather,A,"Crime, Drama",An organized crime dynasty's aging patriarch t...,Francis Ford Coppola,Marlon Brando,Al Pacino,James Caan,Diane Keaton
1,The Dark Knight,UA,"Action, Crime, Drama",When the menace known as the Joker wreaks havo...,Christopher Nolan,Christian Bale,Heath Ledger,Aaron Eckhart,Michael Caine
2,The Godfather: Part II,A,"Crime, Drama",The early life and career of Vito Corleone in ...,Francis Ford Coppola,Al Pacino,Robert De Niro,Robert Duvall,Diane Keaton
3,12 Angry Men,U,"Crime, Drama",A jury holdout attempts to prevent a miscarria...,Sidney Lumet,Henry Fonda,Lee J. Cobb,Martin Balsam,John Fiedler
4,The Lord of the Rings: The Return of the King,U,"Action, Adventure, Drama",Gandalf and Aragorn lead the World of Men agai...,Peter Jackson,Elijah Wood,Viggo Mortensen,Ian McKellen,Orlando Bloom


In [13]:
# Remover as colunas 'Unnamed', 'Series_Title', 'Overview'
df = df.drop(columns=['Unnamed: 0', 'Series_Title', 'Overview'])

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 999 entries, 0 to 998
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Released_Year  998 non-null    Int64  
 1   Certificate    898 non-null    object 
 2   Runtime        999 non-null    int64  
 3   Genre          999 non-null    object 
 4   IMDB_Rating    999 non-null    float64
 5   Meta_score     842 non-null    float64
 6   Director       999 non-null    object 
 7   Star1          999 non-null    object 
 8   Star2          999 non-null    object 
 9   Star3          999 non-null    object 
 10  Star4          999 non-null    object 
 11  No_of_Votes    999 non-null    int64  
 12  Gross          999 non-null    int64  
dtypes: Int64(1), float64(2), int64(3), object(7)
memory usage: 102.6+ KB


**Verificação de dados faltantes**

In [15]:
porcentagem_nulos = df.isnull().mean() * 100
print(porcentagem_nulos)

Released_Year     0.100100
Certificate      10.110110
Runtime           0.000000
Genre             0.000000
IMDB_Rating       0.000000
Meta_score       15.715716
Director          0.000000
Star1             0.000000
Star2             0.000000
Star3             0.000000
Star4             0.000000
No_of_Votes       0.000000
Gross             0.000000
dtype: float64


Colunas Meta_score e Coluna Released_Year

Para estas colunas usaremos o IterativeImputer, que é uma técnica de imputação de dados faltantes disponível no scikit-learn que utiliza um processo iterativo para preencher os valores ausentes. Aqui está uma visão geral do que ele faz e como funciona:

- O IterativeImputer trata cada valor faltante como uma variável de saída a ser prevista.
Utiliza um modelo de regressão (por padrão, regressão linear, mas pode ser ajustado) para prever o valor faltante em uma coluna com base nos valores não faltantes de outras colunas.
- A imputação iterativa pode capturar relações mais complexas entre as variáveis do que métodos simples como a média, mediana ou moda, resultando em previsões mais precisas dos valores faltantes.

In [16]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

# Selecionar colunas numéricas para a imputação
numerical_cols = df.select_dtypes(include=['float64', 'int64']).columns

# Configurar o Iterative Imputer
imputer = IterativeImputer()

# Ajustar o imputer e transformar os dados
df[numerical_cols] = imputer.fit_transform(df[numerical_cols])

# Verificar os dados após a imputação
print(df.isnull().sum())

Released_Year      0
Certificate      101
Runtime            0
Genre              0
IMDB_Rating        0
Meta_score         0
Director           0
Star1              0
Star2              0
Star3              0
Star4              0
No_of_Votes        0
Gross              0
dtype: int64


Coluna Certificate

10.11% de dados faltantes: Esta coluna é categórica e representa a classificação indicativa do filme. O preenchimento de valores faltantes pode ser feito com a moda (valor mais frequente), uma imputação baseada em algum modelo, ou até mesmo um valor específico como "Unknown".

Usaremos abordagem de preenchimento da coluna com "Unknown" mantendo a consistência dos dados e facilitando a análise subsequente.

In [17]:
df['Certificate'] = df['Certificate'].fillna('Unknown')
print(df['Certificate'].isnull().sum())

0


In [18]:
df.isnull().any()

Released_Year    False
Certificate      False
Runtime          False
Genre            False
IMDB_Rating      False
Meta_score       False
Director         False
Star1            False
Star2            False
Star3            False
Star4            False
No_of_Votes      False
Gross            False
dtype: bool

Salvar novo CSV

In [19]:
# Obter caminhos do arquivo csv das variáveis de ambiente
processed_path = os.getenv('PROCESSED_PATH')
file = f'{processed_path}/imdb_processed.csv'

In [20]:
df.to_csv(file, index=False)