# Desafio de Ciência de Dados - Indicium

Este notebook contém a análise exploratória de dados (EDA), modelagem preditiva e resposta às perguntas do desafio.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import pickle

## Leitura e Compreensão dos Dados

In [None]:
file_path = '/mnt/data/desafio_indicium_imdb.csv'
df = pd.read_csv(file_path)
df.head()

## Tratamento de Valores Ausentes e Conversão de Tipos de Dados

In [None]:
# Remover a coluna 'Unnamed: 0' que parece ser um índice desnecessário
df = df.drop(columns=['Unnamed: 0'])

# Converter 'Released_Year' para int
df['Released_Year'] = pd.to_numeric(df['Released_Year'], errors='coerce')

# Extrair os minutos de 'Runtime' e converter para int
df['Runtime'] = df['Runtime'].str.extract(r'(\d+)').astype(int)

# Remover caracteres não numéricos de 'Gross' e converter para float
df['Gross'] = df['Gross'].str.replace(',', '').astype(float)

# Verificar as conversões e valores ausentes novamente
df.isnull().sum()

## Preenchimento de Valores Ausentes

In [None]:
# Remover a linha com valor ausente em 'Released_Year'
df = df.dropna(subset=['Released_Year'])

# Preenchendo valores ausentes em 'Meta_score' e 'Gross' com a mediana
df['Meta_score'].fillna(df['Meta_score'].median(), inplace=True)
df['Gross'].fillna(df['Gross'].median(), inplace=True)

# Verificar novamente os valores ausentes após os tratamentos
df.isnull().sum()

## Estatísticas Descritivas e Distribuições

In [None]:
df.describe()

## Visualizações das Distribuições

In [None]:
fig, axes = plt.subplots(3, 2, figsize=(15, 15))

# Distribuição do IMDB_Rating
axes[0, 0].hist(df['IMDB_Rating'], bins=20, color='skyblue')
axes[0, 0].set_title('Distribuição do IMDB_Rating')
axes[0, 0].set_xlabel('IMDB_Rating')
axes[0, 0].set_ylabel('Frequência')

# Distribuição do Gross
axes[0, 1].hist(df['Gross'], bins=20, color='skyblue')
axes[0, 1].set_title('Distribuição do Gross')
axes[0, 1].set_xlabel('Gross')
axes[0, 1].set_ylabel('Frequência')

# Distribuição do Released_Year
axes[1, 0].hist(df['Released_Year'], bins=20, color='skyblue')
axes[1, 0].set_title('Distribuição do Released_Year')
axes[1, 0].set_xlabel('Released_Year')
axes[1, 0].set_ylabel('Frequência')

# Distribuição do Runtime
axes[1, 1].hist(df['Runtime'], bins=20, color='skyblue')
axes[1, 1].set_title('Distribuição do Runtime')
axes[1, 1].set_xlabel('Runtime')
axes[1, 1].set_ylabel('Frequência')

# Distribuição do Meta_score
axes[2, 0].hist(df['Meta_score'], bins=20, color='skyblue')
axes[2, 0].set_title('Distribuição do Meta_score')
axes[2, 0].set_xlabel('Meta_score')
axes[2, 0].set_ylabel('Frequência')

# Distribuição do No_of_Votes
axes[2, 1].hist(df['No_of_Votes'], bins=20, color='skyblue')
axes[2, 1].set_title('Distribuição do No_of_Votes')
axes[2, 1].set_xlabel('No_of_Votes')
axes[2, 1].set_ylabel('Frequência')

plt.tight_layout()
plt.show()

## Matriz de Correlação

In [None]:
# Calcular a matriz de correlação
correlation_matrix = df.corr()

# Plotando a matriz de correlação
plt.figure(figsize=(12, 8))
plt.matshow(correlation_matrix, fignum=1, cmap='coolwarm')
plt.xticks(range(len(correlation_matrix.columns)), correlation_matrix.columns, rotation=90)
plt.yticks(range(len(correlation_matrix.columns)), correlation_matrix.columns)
plt.colorbar()
plt.title('Matriz de Correlação', pad=20)
plt.show()

correlation_matrix

## Modelagem Preditiva

In [None]:
# Seleção de variáveis
features = ['Meta_score', 'No_of_Votes', 'Gross', 'Runtime', 'Released_Year']
target = 'IMDB_Rating'

# Divisão dos dados em treino e teste
X = df[features]
y = df[target]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinamento do modelo de Regressão Linear
model = LinearRegression()
model.fit(X_train, y_train)

# Previsões
y_pred = model.predict(X_test)

# Cálculo do RMSE
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Salvando o modelo
model_filename = '/mnt/data/imdb_rating_predictor.pkl'
with open(model_filename, 'wb') as file:
    pickle.dump(model, file)

rmse, model_filename