## Imports

In [152]:
import pandas as pd
import numpy as np
from sklearn import preprocessing as pp

In [129]:
df_raw = pd.read_csv('../data/treino.csv')

## Data Descriptions

In [130]:
df1 = df_raw.copy()

In [131]:
df_raw.columns

Index(['ID', 'num_fotos', 'marca', 'modelo', 'versao', 'ano_de_fabricacao',
       'ano_modelo', 'odometro', 'cambio', 'num_portas', 'tipo', 'blindado',
       'cor', 'tipo_vendedor', 'cidade_vendedor', 'estado_vendedor',
       'tipo_anuncio', 'entrega_delivery', 'troca', 'elegivel_revisao',
       'attr_veiculo_aceita_troca', 'attr_veiculo_único_dono',
       'attr_veiculo_todas_as_revisões_feitas_pela_concessionária',
       'attr_veiculo_ipva_pago', 'attr_veiculo_licenciado',
       'attr_veiculo_garantia_de_fábrica',
       'attr_veiculo_todas_as_revisões_feitas_pela_agenda_do_carro',
       'attr_veiculo_alienado', 'preco'],
      dtype='object')

In [132]:
# rename columns
df1.columns = ['id', 'num_fotos', 'marca', 'modelo', 'versao', 'ano_de_fabricacao',
       'ano_modelo', 'odometro', 'cambio', 'num_portas', 'tipo', 'blindado',
       'cor', 'tipo_vendedor', 'cidade_vendedor', 'estado_vendedor',
       'tipo_anuncio', 'entrega_delivery', 'troca', 'elegivel_revisao',
       'aceita_troca', 'dono_unico',
       'todas_revisoes_concessionaria',
       'ipva_pago', 'licenciado',
       'garantia_de_fabrica',
       'todas_revisoes_agenda',
       'alienado', 'preco']

### Data dimension / types / nas

In [133]:
df_raw.shape

(39446, 29)

In [134]:
df1.dtypes

id                                object
num_fotos                        float64
marca                             object
modelo                            object
versao                            object
ano_de_fabricacao                  int64
ano_modelo                       float64
odometro                         float64
cambio                            object
num_portas                         int64
tipo                              object
blindado                          object
cor                               object
tipo_vendedor                     object
cidade_vendedor                   object
estado_vendedor                   object
tipo_anuncio                      object
entrega_delivery                    bool
troca                               bool
elegivel_revisao                    bool
aceita_troca                      object
dono_unico                        object
todas_revisoes_concessionaria     object
ipva_pago                         object
licenciado      

In [135]:
df1.isna().sum() / len(df1)

id                               0.000000
num_fotos                        0.006008
marca                            0.000000
modelo                           0.000000
versao                           0.000000
ano_de_fabricacao                0.000000
ano_modelo                       0.000000
odometro                         0.000000
cambio                           0.000000
num_portas                       0.000000
tipo                             0.000000
blindado                         0.000000
cor                              0.000000
tipo_vendedor                    0.000000
cidade_vendedor                  0.000000
estado_vendedor                  0.000000
tipo_anuncio                     0.000000
entrega_delivery                 0.000000
troca                            0.000000
elegivel_revisao                 0.000000
aceita_troca                     0.258987
dono_unico                       0.647670
todas_revisoes_concessionaria    0.689728
ipva_pago                        0

### Stats

In [136]:
df1.select_dtypes('object').describe().T

Unnamed: 0,count,unique,top,freq
id,39446,39446,105869496634249611881157692933406072990,1
marca,39446,41,VOLKSWAGEN,6140
modelo,39446,473,COMPASS,1967
versao,39446,2058,1.6 16V FLEX ALLURE PACK 4P AUTOMÁTICO,1825
cambio,39446,7,Automática,30073
tipo,39446,8,Sedã,21910
blindado,39446,2,N,39128
cor,39446,8,Branco,27919
tipo_vendedor,39446,2,PF,23857
cidade_vendedor,39446,648,São Paulo,8198


In [137]:
df1.select_dtypes(exclude='object').describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
num_fotos,39209.0,10.323829,3.481065,8.0,8.0,8.0,14.0,21.0
ano_de_fabricacao,39446.0,2016.748137,4.084762,1985.0,2015.0,2018.0,2019.0,2022.0
ano_modelo,39446.0,2017.807154,2.675334,1997.0,2016.0,2018.0,2020.0,2023.0
odometro,39446.0,58382.243371,32542.793054,100.0,31235.25,57244.5,81925.75,390065.0
num_portas,39446.0,3.941135,0.33721,2.0,4.0,4.0,4.0,4.0
alienado,0.0,,,,,,,
preco,39446.0,133385.874348,82384.971901,7258.159943,76774.321715,114307.970618,163987.004263,1359813.0


### Change types / fillna

In [138]:
# NAS
# num_fotos                        0.006008
# aceita_troca                     0.258987
# dono_unico                       0.647670
# todas_revisoes_concessionaria    0.689728
# ipva_pago                        0.335218
# licenciado                       0.461289
# garantia_de_fabrica              0.853268
# todas_revisoes_agenda            0.799650
# alienado                         1.000000


df1['num_fotos'] = df1['num_fotos'].fillna(0)



df1 = df1.drop('alienado', axis=1)


na_cols = df1.columns[-8:-1]

for col in na_cols:
    df1[col] = np.where(df1[col].isna(), 0, 1)

In [139]:
df1[df1.T.tail(8).index] = df1[df1.T.tail(8).index].astype('int64')

df1['ano_modelo'] = df1['ano_modelo'].astype('int64')
df1['num_fotos'] = df1['num_fotos'].astype('int64')

## Data Filtering

In [148]:
# df1[(df1['marca']=='CHEVROLET') & (df1['modelo']=='ONIX')].sort_values('ano_modelo')


## Feature Engineering

## EDA

## Data Preparation

In [149]:
df2 = df1.copy()

In [154]:
num_columns = df2.select_dtypes(exclude = 'object').columns
cat_columns = df2.select_dtypes('object').columns
mms = pp.MinMaxScaler()

for col in num_columns:
    df2[col] = mms.fit_transform(df2[[col]] )
    
    

In [None]:
df2[['preco']]

## ML Models

## Cross Validation