# Análise comparativa de modelos

In [1]:
import pandas as pd
from sklearn.impute import KNNImputer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, MinMaxScaler, OneHotEncoder

## 1. Obtenção de dados

In [2]:
df = pd.read_csv("../data/raw/data.csv")
dicionario = pd.read_csv("../data/external/dictionary.csv")
display(df.describe())
dicionario

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


Unnamed: 0,Variavel,Descricao,Tipo,Subtipo:
0,carat,Peso do diamante,Quantitativo,Continua
1,cut,Qualidade do corte,Qualitativo,Ordinal
2,color,Cor do diamante,Qualitativo,Ordinal
3,clarity,Medida do quão limpo esta o diamante,Qualitativo,Ordinal
4,depth,Porcentagem total de profundidade,Quantitativo,Continua
5,table,Largura do topo do diamante em relação ao pont...,Quantitativo,Continua
6,price,Preco do diamante em dolares,Quantitativo,Continua
7,x,Comprimento em mm,Quantitativo,Continua
8,y,largura em mm,Quantitativo,Continua
9,z,profundidade em mm,Quantitativo,Continua


## 2. Tratamento de dados faltantes

### 2.1 Utilizando KNNimputer

In [3]:
#criando uma lista com as variaveis qualitativas 
qualitative_variables = (
    dicionario.query
    ("Tipo == 'Qualitativo'")
    .Variavel.
    tolist()
)
#criando uma lista com as variaveis quantitativas
quantitative_variables = (
    dicionario.query
    ("Tipo == 'Quantitativo'")
    .Variavel
    .tolist()
)

In [4]:
#nesse caso o KNNImputer ira calcular a media entre os n_neighbors e imputar nos dados faltantes "NAN"
df = pd.read_csv("../data/raw/data.csv")
imputer = KNNImputer(n_neighbors = 5)
#treinando o imputador com os dados quantitativos com os 5 vizinhos.
imputer.fit(df[quantitative_variables])
#imputadondo os valores ausentes com os dados treinados com o imputer
df[quantitative_variables] = imputer.transform(df[quantitative_variables])
display(df.head())
display(df.describe())

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326.0,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326.0,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327.0,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334.0,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335.0,4.34,4.35,2.75


Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


### 2.2 Utilizando SimpleImputer

In [5]:
# nesse caso o SimpleImputer irá utlizar 2 tipos de estrategia uma de mediana então ele ira imputar nos dados faltantes a mediana entre os dados existentes e
# outra estrategia de moda que irá imputar nos dados faltantes a moda entre os dados existentes.
df = pd.read_csv("../data/raw/data.csv")
# dados quantitativos a estrategia seria a mediana e nos dados qualitativos seria a moda
imputer = SimpleImputer(strategy = 'median')
newImputer = SimpleImputer(strategy = 'most_frequent')
# treinando o imputador com os dados quantitativos com os 5 vizinhos.
imputer.fit(df[quantitative_variables])
newImputer.fit(df[qualitative_variables])
# imputadondo os valores ausentes com os dados treinados com o imputer
df[quantitative_variables] = imputer.transform(df[quantitative_variables])
df[qualitative_variables] = newImputer.transform(df[qualitative_variables])
display(df.head())
display(df.describe())

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326.0,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326.0,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327.0,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334.0,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335.0,4.34,4.35,2.75


Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


## 3. Transformação dos Dados

In [6]:
# Definindo a variavel alvo:
variable_target = 'price'
#criando uma lista com as variaveis qualitativas 
qualitative_variables = (
    dicionario.query
    ("Tipo == 'Qualitativo' and Variavel != @variable_target")
    .Variavel.
    tolist()
)

#criando uma lista com as variaveis quantitativas
quantitative_variables =(
    dicionario.query
    ("Tipo == 'Quantitativo' and Variavel != @variable_target")
    .Variavel.
    tolist()
)

In [7]:
X = df.drop(columns = [variable_target])
Y = df[[variable_target]]

### 3.1 Pré processamento com Pipeline

In [8]:
# dados discrepantes
quantitative_preprocess = Pipeline([
    ('missing',SimpleImputer(strategy='median')),  #tratamento de dados ausentes
    ('normalization',StandardScaler()),  #normalizacão
])
qualitative_preprocess = Pipeline([
    ('missing', SimpleImputer(strategy='most_frequent')),  # Tratamento de dados ausentes
    ('encoding', OneHotEncoder())  # Transformação de dados categóricos para numéricos (one-hot encoding)
])
preprocessor = ColumnTransformer([
    ('Quantitativo',quantitative_preprocess, quantitative_variables),
    ('Qualitativo', qualitative_preprocess, qualitative_variables),
])

In [None]:
preprocessor.fit(X)

In [10]:
preprocessor.transform(X)
X_trasnformed = preprocessor.transform(X)
X_trasnformed.shape

(53940, 26)