## Imports

In [41]:
import pandas as pd
import numpy as np
from sklearn import preprocessing as pp

from sklearn.linear_model import LinearRegression, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import  mean_absolute_error, mean_squared_error
from sklearn.model_selection import train_test_split

df_raw = pd.read_csv('../data/treino.csv')
df_test = pd.read_csv('../data/teste.csv')

## Data Descriptions

In [4]:
df1 = df_raw.copy()

In [5]:
df_raw.columns

Index(['ID', 'num_fotos', 'marca', 'modelo', 'versao', 'ano_de_fabricacao',
       'ano_modelo', 'odometro', 'cambio', 'num_portas', 'tipo', 'blindado',
       'cor', 'tipo_vendedor', 'cidade_vendedor', 'estado_vendedor',
       'tipo_anuncio', 'entrega_delivery', 'troca', 'elegivel_revisao',
       'attr_veiculo_aceita_troca', 'attr_veiculo_único_dono',
       'attr_veiculo_todas_as_revisões_feitas_pela_concessionária',
       'attr_veiculo_ipva_pago', 'attr_veiculo_licenciado',
       'attr_veiculo_garantia_de_fábrica',
       'attr_veiculo_todas_as_revisões_feitas_pela_agenda_do_carro',
       'attr_veiculo_alienado', 'preco'],
      dtype='object')

In [6]:
# rename columns
df1.columns = ['id', 'num_fotos', 'marca', 'modelo', 'versao', 'ano_de_fabricacao',
       'ano_modelo', 'odometro', 'cambio', 'num_portas', 'tipo', 'blindado',
       'cor', 'tipo_vendedor', 'cidade_vendedor', 'estado_vendedor',
       'tipo_anuncio', 'entrega_delivery', 'troca', 'elegivel_revisao',
       'aceita_troca', 'dono_unico',
       'todas_revisoes_concessionaria',
       'ipva_pago', 'licenciado',
       'garantia_de_fabrica',
       'todas_revisoes_agenda',
       'alienado', 'preco']

### Data dimension / types / nas

In [7]:
df_raw.shape

(39446, 29)

In [8]:
df_raw.dtypes

ID                                                             object
num_fotos                                                     float64
marca                                                          object
modelo                                                         object
versao                                                         object
ano_de_fabricacao                                               int64
ano_modelo                                                    float64
odometro                                                      float64
cambio                                                         object
num_portas                                                      int64
tipo                                                           object
blindado                                                       object
cor                                                            object
tipo_vendedor                                                  object
cidade_vendedor     

In [9]:
df1.isna().sum() / len(df1)

id                               0.000000
num_fotos                        0.006008
marca                            0.000000
modelo                           0.000000
versao                           0.000000
ano_de_fabricacao                0.000000
ano_modelo                       0.000000
odometro                         0.000000
cambio                           0.000000
num_portas                       0.000000
tipo                             0.000000
blindado                         0.000000
cor                              0.000000
tipo_vendedor                    0.000000
cidade_vendedor                  0.000000
estado_vendedor                  0.000000
tipo_anuncio                     0.000000
entrega_delivery                 0.000000
troca                            0.000000
elegivel_revisao                 0.000000
aceita_troca                     0.258987
dono_unico                       0.647670
todas_revisoes_concessionaria    0.689728
ipva_pago                        0

### Stats

In [10]:
df_raw.select_dtypes('object').describe().T

Unnamed: 0,count,unique,top,freq
ID,39446,39446,105869496634249611881157692933406072990,1
marca,39446,41,VOLKSWAGEN,6140
modelo,39446,473,COMPASS,1967
versao,39446,2058,1.6 16V FLEX ALLURE PACK 4P AUTOMÁTICO,1825
cambio,39446,7,Automática,30073
tipo,39446,8,Sedã,21910
blindado,39446,2,N,39128
cor,39446,8,Branco,27919
tipo_vendedor,39446,2,PF,23857
cidade_vendedor,39446,648,São Paulo,8198


In [11]:
df_raw.select_dtypes(exclude='object').describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
num_fotos,39209.0,10.323829,3.481065,8.0,8.0,8.0,14.0,21.0
ano_de_fabricacao,39446.0,2016.748137,4.084762,1985.0,2015.0,2018.0,2019.0,2022.0
ano_modelo,39446.0,2017.807154,2.675334,1997.0,2016.0,2018.0,2020.0,2023.0
odometro,39446.0,58382.243371,32542.793054,100.0,31235.25,57244.5,81925.75,390065.0
num_portas,39446.0,3.941135,0.33721,2.0,4.0,4.0,4.0,4.0
attr_veiculo_alienado,0.0,,,,,,,
preco,39446.0,133385.874348,82384.971901,7258.159943,76774.321715,114307.970618,163987.004263,1359813.0


### Change types / fillna

In [13]:
# NAS
# num_fotos                        0.006008
# aceita_troca                     0.258987
# dono_unico                       0.647670
# todas_revisoes_concessionaria    0.689728
# ipva_pago                        0.335218
# licenciado                       0.461289
# garantia_de_fabrica              0.853268
# todas_revisoes_agenda            0.799650
# alienado                         1.000000


df1['num_fotos'] = df1['num_fotos'].fillna(0)

df1 = df1.drop('alienado', axis=1)

na_cols = df1.columns[-8:-1]


for col in na_cols:
    df1[col] = np.where(df1[col].isna(), 0, 1)

In [14]:
df1[df1.T.tail(8).index] = df1[df1.T.tail(8).index].astype('int64')

df1['ano_modelo'] = df1['ano_modelo'].astype('int64')
df1['num_fotos'] = df1['num_fotos'].astype('int64')

## Data Filtering

In [15]:
# df1[(df1['marca']=='CHEVROLET') & (df1['modelo']=='ONIX')].sort_values('ano_modelo')


## Feature Engineering

## EDA

## Data Preparation

In [19]:
X = df1.copy().drop('id', axis=1)

#one hot
#frequency
#target
#label 




#drop cidades
X = X.drop('cidade_vendedor', axis=1)

#get uf
X['estado_vendedor'] = X['estado_vendedor'].apply(lambda x: x[-3:-1])

#numeric transformation
num_columns = X.select_dtypes(exclude = 'object').columns
cat_columns = X.select_dtypes('object').columns
mms = pp.MinMaxScaler()

for col in num_columns:
    X[col] = mms.fit_transform(X[[col]] )
    

target_marca = X.groupby('marca')['preco'].mean()
target_modelo = X.groupby('modelo')['preco'].mean()
target_versao = X.groupby('versao')['preco'].mean()
target_tipo = X.groupby('tipo')['preco'].mean()
frequency_cor = X.groupby('cor')['preco'].count() / len(X)
frequency_tipo_anuncio = X.groupby('tipo_anuncio')['preco'].count() / len(X)
map_cor = {'Preto':'preto', 'Branco':'branco', 'Prata':'prata', 'Cinza':'cinza', 'Dourado':'outros', 'Vermelho':'outros', 'Azul':'outros',
       'Verde':'outros'}

map_regiao={'SP':'sudeste','RS':'sul','MG':'sudeste','PR':'sul','RJ':'sudeste','MA':'nordeste','SC':'sul','AL':'nordeste','BA':'nordeste','GO':'centro_oeste','RN':'nordeste','PE':'nordeste','MT':'centro_oeste','PA':'norte','CE':'nordeste','AM':'nordeste','ES':'sudeste','RO':'norte','PB':'nordeste','TO':'norte','AC':'norte','SE':'nordeste','MS':'centro_oeste','RR':'norte','PI':'nordeste'}


map_cambio = {'Automática': 'auto', 'Manual' :'manual', 'CVT' :'auto', 'Automatizada': 'auto', 'Semi-automática': 'semi',
       'Automatizada DCT' : 'auto', 'Automática Sequencial' : 'auto'}


#map categorical features
X['cor'] = X['cor'].map(map_cor)
X['cor'] = X['cor'].map(frequency_cor)
X['tipo_anuncio'] = X['tipo_anuncio'].map(frequency_tipo_anuncio)
X['estado_vendedor'] = X['estado_vendedor'].map(map_regiao)
X['marca'] = X['marca'].map(target_marca)
X['modelo'] = X['modelo'].map(target_modelo)
X['versao'] = X['versao'].map(target_versao)
X['tipo'] = X['tipo'].map(target_tipo)
X['cambio'] = X['cambio'].map(map_cambio)


X = pd.get_dummies(X, columns=['cor', 'blindado', 'estado_vendedor', 'cambio', 'tipo_vendedor'])


# pd.get_dummies(X, columns=['blindado'])
# pd.get_dummies(X, columns=['estado_vendedor'])
# target_marca.to_pickle('../parameters/marca_encode.pkl')
# target_modelo.to_pickle('../parameters/marca_encode.pkl')
# target_versao.to_pickle('../parameters/marca_encode.pkl')
# target_cor.to_pickle('../parameters/marca_encode.pkl')

In [21]:
y = X['preco'].copy()
X = X.drop('preco', axis=1)

In [25]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8)

In [44]:
# model definition
lr = LinearRegression()

# model train
lr.fit(X_train, y_train)

# predict
y_hat = lr.predict(X_test)

# performance
print(mean_absolute_error(y_test, y_hat))
print(np.sqrt(mean_squared_error(y_test, y_hat)))

0.019973629064245477
0.030239200297415218


In [35]:
comparacao = pd.DataFrame()
comparacao['real'] = y_test
comparacao['predicao'] = y_hat

In [37]:
comparacao['diff'] = comparacao['real'] -  comparacao['predicao']

In [39]:
(comparacao['diff']**2).sum()

7.2146888612085815

## ML Models

In [45]:
df_test

Unnamed: 0,ID,num_fotos,marca,modelo,versao,ano_de_fabricacao,ano_modelo,odometro,cambio,num_portas,...,troca,elegivel_revisao,attr_veiculo_aceita_troca,attr_veiculo_único_dono,attr_veiculo_todas_as_revisões_feitas_pela_concessionária,attr_veiculo_ipva_pago,attr_veiculo_licenciado,attr_veiculo_garantia_de_fábrica,attr_veiculo_todas_as_revisões_feitas_pela_agenda_do_carro,attr_veiculo_alienado
0,24813264385557040124808779273028388499,14.0,CHEVROLET,SPIN,1.8 LTZ 8V FLEX 4P AUTOMÁTICO,2017,2017.0,62969.0,Automática,4,...,False,False,Aceita troca,,,,,,,
1,295636316453795508942188530111300065666,8.0,FIAT,TORO,1.8 16V EVO FLEX FREEDOM AT6,2021,2021.0,26324.0,Automática,4,...,False,False,Aceita troca,,,IPVA pago,Licenciado,,,
2,101258309166227950735244624080888109884,8.0,VOLKSWAGEN,POLO,1.0 200 TSI HIGHLINE AUTOMÁTICO,2019,2020.0,37002.0,Automática,4,...,False,False,,Único dono,Todas as revisões feitas pela concessionária,IPVA pago,Licenciado,Garantia de fábrica,Todas as revisões feitas pela agenda do carro,
3,28348734455782469411126661985772047409,15.0,CHEVROLET,TRACKER,1.8 MPFI LTZ 4X2 16V FLEX 4P AUTOMÁTICO,2012,2015.0,86762.0,Automática,4,...,False,False,Aceita troca,,,,,,,
4,193163160502972147671913739170248305797,8.0,BMW,120i,2.0 16V SPORT ACTIVEFLEX 4P AUTOMÁTICO,2015,2017.0,93040.0,Automática,4,...,False,False,,,,IPVA pago,Licenciado,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39441,238233399351588823822117090805568390727,8.0,VOLKSWAGEN,FOX,1.0 MI 8V FLEX 4P MANUAL,2014,2014.0,99351.0,Manual,4,...,False,False,Aceita troca,,,,,,,
39442,64621912306231118962468441892654163025,8.0,VOLKSWAGEN,AMAROK,2.0 HIGHLINE 4X4 CD 16V TURBO INTERCOOLER DIES...,2016,2017.0,87834.0,Automática,4,...,False,False,Aceita troca,,,,,,,
39443,100311033226508317456901122129284293382,8.0,TOYOTA,COROLLA,2.0 VVT-IE FLEX XEI DIRECT SHIFT,2021,2021.0,14943.0,CVT,4,...,False,False,Aceita troca,Único dono,,IPVA pago,,Garantia de fábrica,,
39444,217317181330151694133399005110777689124,8.0,JAGUAR,XF,3.0 PORTFOLIO V6 SUPERCHARGED GASOLINA 4P AUTO...,2013,2014.0,43726.0,Automática,4,...,False,False,,,Todas as revisões feitas pela concessionária,IPVA pago,Licenciado,,Todas as revisões feitas pela agenda do carro,


## Cross Validation