# **Análise comparativa de modelos**

In [29]:
from IPython.display import display, Markdown
import joblib
import numpy as np
import pandas as pd

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import LinearRegression

from sklearn.impute import SimpleImputer

## **1. Obtenção de dados**

Esta etapa visa obtermos o conjunto de dados e o dicionário, garantindo que tenhamos todas as informações necessárias antes de iniciar o pré-processamento.

In [30]:
df = pd.read_csv("../data/raw/data.csv")
df_dict = pd.read_csv("../data/external/dictionary.csv")
df_dict

Unnamed: 0,variavel,descricao,tipo,subtipo
0,survived,Indica se o passageiro sobreviveu ou não,qualitativa,nominal
1,pclass,"Classe em que o passageiro viajou (1, 2 ou 3)",qualitativa,ordinal
2,sex,Gênero do passageiro,qualitativa,nominal
3,age,Idade do passageiro,quantitativa,contínua
4,sibsp,Número de irmãos ou cônjuge a bordo,quantitativa,discreta
5,parch,Número de pais ou filhos a bordo,quantitativa,discreta
6,fare,Valor da tarifa paga pelo passageiro,quantitativa,contínua
7,embarked,Porto em que o passageiro embarcou,qualitativa,nominal
8,class,Classe do passageiro (em ordinal),qualitativa,ordinal
9,who,Categoria do passageiro,qualitativa,nominal


## **2. Preparação de dados**

Neste tópico, são realizados a normalização, codificação e tratamento de dados faltantes e/ou discrepantes presentes no conjunto de dados.

### 2.1. Dados faltantes

In [32]:
target_column = 'survived' #coluna que desejamos prever

#lista de variáveis continuas
continuous_columns = (
    df_dict
    .query("subtipo == 'contínua'")
    .variavel
    .to_list()
)

#lista de variáveis nominais
nominal_columns = (
    df_dict
    .query("subtipo == 'nominal' and variavel != @target_column and variavel != 'deck'")
    .variavel
    .to_list()
)

x = df.drop(columns=[target_column], axis=1)
y = df[target_column]

In [33]:
# tratamento de dados faltantes

imputer = IterativeImputer(estimator=LinearRegression())
imputer.fit(df[continuous_columns])
df[continuous_columns] = imputer.transform(df[continuous_columns])

imputer = SimpleImputer(strategy='most_frequent')
imputer.fit(df[nominal_columns])
df[nominal_columns] = imputer.transform(df[nominal_columns])

df = df.drop(columns=['deck']) #excluindo coluna da variável 'deck' por ter 77% com valores faltantes