# Pré-processamento de Dados
#### Organizando um dataset de carros usados.

### Importação das Bibliotecas

In [48]:
# importando a biblioteca pandas do python
import pandas as pd
# importando da biblioteca sklearn do python
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

### Importando o Dataset

In [3]:
# adicionando os dados do arquivo no objeto 'dataframe'
dataframe = pd.read_csv('autos.csv', encoding = 'ISO-8859-1', sep = ',')

In [4]:
# visualizando o dataframe
dataframe

Unnamed: 0,dateCrawled,name,seller,offerType,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage,dateCreated,nrOfPictures,postalCode,lastSeen
0,2016-03-24 11:52:17,Golf_3_1.6,privat,Angebot,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,,2016-03-24 00:00:00,0,70435,2016-04-07 03:16:57
1,2016-03-24 10:58:45,A5_Sportback_2.7_Tdi,privat,Angebot,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja,2016-03-24 00:00:00,0,66954,2016-04-07 01:46:50
2,2016-03-14 12:52:21,"Jeep_Grand_Cherokee_""Overland""",privat,Angebot,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,,2016-03-14 00:00:00,0,90480,2016-04-05 12:47:46
3,2016-03-17 16:54:04,GOLF_4_1_4__3TÜRER,privat,Angebot,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein,2016-03-17 00:00:00,0,91074,2016-03-17 17:40:17
4,2016-03-31 17:25:20,Skoda_Fabia_1.4_TDI_PD_Classic,privat,Angebot,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein,2016-03-31 00:00:00,0,60437,2016-04-06 10:17:21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
371523,2016-03-14 17:48:27,Suche_t4___vito_ab_6_sitze,privat,Angebot,2200,test,,2005,,0,,20000,1,,sonstige_autos,,2016-03-14 00:00:00,0,39576,2016-04-06 00:46:52
371524,2016-03-05 19:56:21,Smart_smart_leistungssteigerung_100ps,privat,Angebot,1199,test,cabrio,2000,automatik,101,fortwo,125000,3,benzin,smart,nein,2016-03-05 00:00:00,0,26135,2016-03-11 18:17:12
371525,2016-03-19 18:57:12,Volkswagen_Multivan_T4_TDI_7DC_UY2,privat,Angebot,9200,test,bus,1996,manuell,102,transporter,150000,3,diesel,volkswagen,nein,2016-03-19 00:00:00,0,87439,2016-04-07 07:15:26
371526,2016-03-20 19:41:08,VW_Golf_Kombi_1_9l_TDI,privat,Angebot,3400,test,kombi,2002,manuell,100,golf,150000,6,diesel,volkswagen,,2016-03-20 00:00:00,0,40764,2016-03-24 12:45:21


### Removendo Colunas Irrelevantes

In [5]:
# removendo colunas da tabela que não possuem padronização nem relevância no preço dos veículos
dataframe = dataframe.drop('dateCrawled', axis = 1)
dataframe = dataframe.drop('dateCreated', axis = 1)
dataframe = dataframe.drop('nrOfPictures', axis = 1)
dataframe = dataframe.drop('postalCode', axis = 1)
dataframe = dataframe.drop('lastSeen', axis = 1)

In [6]:
# observando como a coluna 'name' está distribuida entre seus dados
dataframe['name'].value_counts()

Ford_Fiesta                                                        657
BMW_318i                                                           627
Opel_Corsa                                                         622
Volkswagen_Golf_1.4                                                603
BMW_316i                                                           523
                                                                  ... 
Renault_Clio_III_X85                                                 1
Golf_4_1.6_101ps_TÜV_02/2017                                         1
Omega_B_Caravan_sport                                                1
VW_Lupo_Sondermodell_mit_el._Schiebedach_/_Faltdach_TOP_Zustand      1
Mercedes_Benz_C_180_Elegance_Euro4_Tiefer_Alu_18_Zoll_AHK            1
Name: name, Length: 233531, dtype: int64

Observe que os nomes não possuem um padrão regular, além de existir uma grande variação entre esses dados, um mesmo automóvel está atribuido com diferentes tipos de nome. Por esse motivo, essa coluna não ajudará em nossa rede neural.

In [7]:
# removendo colunas da tabela que não possuem padronização nem relevância no preço dos veículos
dataframe = dataframe.drop('name', axis = 1)

In [8]:
# observando como a coluna 'seller' está distribuida entre seus dados
dataframe['seller'].value_counts()

privat        371525
gewerblich         3
Name: seller, dtype: int64

Os dados não possuem uma distribuição nas categorias 'privat' e 'gewerblich', eles estão aglomerados em 'privat', por esse motivo essa coluna não irá ajudar no desempenho da rede neural.

In [9]:
# removendo colunas da tabela que não possuem padronização nem relevância no preço dos veículos
dataframe = dataframe.drop('seller', axis = 1)

In [10]:
# observando como a coluna 'offerType' está distribuida entre seus dados
dataframe['offerType'].value_counts()

Angebot    371516
Gesuch         12
Name: offerType, dtype: int64

Mesma situação da coluna 'seller', os dados estão distrubuidos de forma errônea.

In [11]:
# removendo colunas da tabela que não possuem padronização nem relevância no preço dos veículos
dataframe = dataframe.drop('offerType', axis = 1)

In [12]:
# visualizando o dataframe
dataframe

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,
1,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja
2,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,
3,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein
4,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein
...,...,...,...,...,...,...,...,...,...,...,...,...
371523,2200,test,,2005,,0,,20000,1,,sonstige_autos,
371524,1199,test,cabrio,2000,automatik,101,fortwo,125000,3,benzin,smart,nein
371525,9200,test,bus,1996,manuell,102,transporter,150000,3,diesel,volkswagen,nein
371526,3400,test,kombi,2002,manuell,100,golf,150000,6,diesel,volkswagen,


### Remoção de Valores Inconsistentes

In [16]:
# observando os dados com preço abaixo de 10 euros
dataframe.loc[dataframe.price <= 10]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
7,0,test,limousine,1980,manuell,50,andere,40000,7,benzin,volkswagen,nein
40,0,test,,1990,,0,corsa,150000,1,benzin,opel,
60,1,control,suv,1994,manuell,286,,150000,11,,sonstige_autos,
91,1,control,limousine,1995,manuell,113,e_klasse,150000,4,diesel,mercedes_benz,nein
115,0,test,,2017,manuell,0,golf,5000,12,benzin,volkswagen,
...,...,...,...,...,...,...,...,...,...,...,...,...
371356,0,control,,2000,manuell,65,corsa,150000,0,,opel,ja
371392,0,test,kleinwagen,2002,manuell,60,fiesta,150000,3,benzin,ford,
371402,0,control,kleinwagen,1999,manuell,53,swift,150000,3,benzin,suzuki,
371431,0,control,kleinwagen,1999,manuell,37,arosa,150000,7,benzin,seat,ja


In [17]:
# observando a média dos preços dos veículos
dataframe.price.mean()

17295.14186548524

Observe que a média de preços não condiz com os carros que custam menos que 10 euros. Devemos removê-los dos dados (outra alternativa é substituir pelo valor médio dos registros com valor correto, mas nesse caso estariamos alterando muitos dados com um valor que talvez não seja o preço real).

In [18]:
# removendo os registros que o preço dos veículos são abaixo de 10 euros
dataframe = dataframe[dataframe.price > 10]

In [19]:
# observando os dados com preço acima de 350000 euros
dataframe.loc[dataframe.price > 350000]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
1846,579000,control,coupe,1980,manuell,277,andere,20000,12,benzin,bmw,nein
10649,420000,control,coupe,2004,manuell,483,911,50000,4,benzin,porsche,nein
14663,11111111,control,coupe,2003,manuell,64,polo,150000,2,benzin,volkswagen,
16889,1000000,control,kombi,1998,,0,mondeo,150000,0,benzin,ford,ja
20143,1250000,test,coupe,2016,manuell,500,911,5000,3,benzin,porsche,nein
...,...,...,...,...,...,...,...,...,...,...,...,...
364171,3890000,test,coupe,2006,,799,,5000,7,,sonstige_autos,nein
365461,599000,control,coupe,1980,manuell,377,andere,5000,3,benzin,bmw,nein
366653,99999999,control,cabrio,1996,manuell,192,3er,150000,0,,bmw,
366861,3895000,test,coupe,2006,,799,,5000,4,benzin,sonstige_autos,nein


Para os carros que custam mais que 350000 euros os valores também parecem inconsistentes.

In [20]:
# removendo os registros que o preço dos veículos são acima de 350000 euros
dataframe = dataframe.loc[dataframe.price < 350000]

### Remoção de Valores Faltantes

In [21]:
# observando os registros com valores faltantes na coluna 'vehicleType'
dataframe.loc[pd.isnull(dataframe['vehicleType'])]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,
16,300,test,,2016,,60,polo,150000,0,benzin,volkswagen,
22,2900,test,,2018,manuell,90,meriva,150000,5,benzin,opel,nein
26,5555,control,,2017,manuell,125,c4,125000,4,,citroen,nein
31,899,control,,2016,manuell,60,clio,150000,6,benzin,renault,
...,...,...,...,...,...,...,...,...,...,...,...,...
371495,180,control,,1995,,0,,125000,3,benzin,opel,
371504,2600,control,,2005,automatik,0,c_klasse,150000,9,,mercedes_benz,
371509,1900,test,,2000,manuell,110,,150000,7,,volkswagen,nein
371519,5250,control,,2016,automatik,150,159,150000,12,,alfa_romeo,nein


In [22]:
# visualizando o tipo de veículo com uma maior moda
dataframe['vehicleType'].value_counts() # limousine

limousine     93614
kleinwagen    78014
kombi         65921
bus           29699
cabrio        22509
coupe         18386
suv           14477
andere         3125
Name: vehicleType, dtype: int64

In [23]:
# observando os registros com valores faltantes na coluna 'gearbox'
dataframe.loc[pd.isnull(dataframe['gearbox'])]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
15,450,test,kleinwagen,1910,,0,ka,5000,0,benzin,ford,
16,300,test,,2016,,60,polo,150000,0,benzin,volkswagen,
32,245,test,limousine,1994,,0,golf,150000,2,benzin,volkswagen,nein
37,1500,test,,2016,,0,kangoo,150000,1,diesel,renault,nein
70,1200,test,coupe,2001,,0,astra,150000,0,,opel,
...,...,...,...,...,...,...,...,...,...,...,...,...
371443,3300,control,kombi,2006,,0,touran,150000,7,diesel,volkswagen,
371460,3500,control,,1995,,0,polo,150000,0,,volkswagen,
371486,350,control,kleinwagen,1996,,65,punto,150000,0,,fiat,
371495,180,control,,1995,,0,,125000,3,benzin,opel,


In [24]:
# visualizando o tipo de câmbio com uma maior moda
dataframe['gearbox'].value_counts() # manuell

manuell      266547
automatik     75508
Name: gearbox, dtype: int64

In [25]:
# observando os registros com valores faltantes na coluna 'model'
dataframe.loc[pd.isnull(dataframe['model'])]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
1,18300,test,coupe,2011,manuell,190,,125000,5,diesel,audi,ja
83,350,control,kleinwagen,1997,manuell,54,,150000,3,,fiat,ja
139,1450,control,limousine,1992,manuell,136,,150000,0,,audi,nein
156,6799,control,kleinwagen,2009,,60,,20000,5,benzin,volkswagen,nein
165,500,control,kleinwagen,1999,manuell,0,,150000,0,benzin,renault,nein
...,...,...,...,...,...,...,...,...,...,...,...,...
371399,560,control,kleinwagen,2001,automatik,170,,90000,0,benzin,fiat,ja
371476,9400,control,kombi,2007,manuell,200,,150000,4,diesel,sonstige_autos,ja
371495,180,control,,1995,,0,,125000,3,benzin,opel,
371509,1900,test,,2000,manuell,110,,150000,7,,volkswagen,nein


In [26]:
# visualizando o tipo de modelo com uma maior moda
dataframe['model'].value_counts() # golf

golf               28989
andere             25560
3er                19905
polo               12604
corsa              12149
                   ...  
serie_2                8
rangerover             6
serie_3                3
discovery_sport        1
serie_1                1
Name: model, Length: 251, dtype: int64

In [27]:
# observando os registros com valores faltantes na coluna 'fuelType'
dataframe.loc[pd.isnull(dataframe['fuelType'])]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
9,999,test,kleinwagen,1998,manuell,101,golf,150000,0,,volkswagen,
13,2500,control,kombi,2004,manuell,131,passat,150000,2,,volkswagen,nein
26,5555,control,,2017,manuell,125,c4,125000,4,,citroen,nein
36,1600,control,andere,1991,manuell,75,kadett,70000,0,,opel,
41,7500,control,limousine,2002,automatik,306,e_klasse,150000,4,,mercedes_benz,
...,...,...,...,...,...,...,...,...,...,...,...,...
371496,3850,test,cabrio,2006,manuell,108,2_reihe,125000,2,,peugeot,nein
371504,2600,control,,2005,automatik,0,c_klasse,150000,9,,mercedes_benz,
371509,1900,test,,2000,manuell,110,,150000,7,,volkswagen,nein
371519,5250,control,,2016,automatik,150,159,150000,12,,alfa_romeo,nein


In [28]:
# visualizando o tipo de combustível com uma maior moda
dataframe['fuelType'].value_counts() # benzin

benzin     217582
diesel     106002
lpg          5222
cng           557
hybrid        271
andere        165
elektro       101
Name: fuelType, dtype: int64

In [29]:
# observando os registros com valores faltantes na coluna 'notRepairedDamage'
dataframe.loc[pd.isnull(dataframe['notRepairedDamage'])]

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
0,480,test,,1993,manuell,0,golf,150000,0,benzin,volkswagen,
2,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,
8,14500,control,bus,2014,manuell,125,c_max,30000,8,benzin,ford,
9,999,test,kleinwagen,1998,manuell,101,golf,150000,0,,volkswagen,
12,999,control,kombi,1995,manuell,115,passat,150000,11,benzin,volkswagen,
...,...,...,...,...,...,...,...,...,...,...,...,...
371507,5999,test,kombi,2005,manuell,140,a4,150000,4,diesel,audi,
371514,999,control,cabrio,2000,manuell,95,megane,150000,4,benzin,renault,
371515,1690,test,kombi,2004,manuell,55,fabia,150000,4,benzin,skoda,
371523,2200,test,,2005,,0,,20000,1,,sonstige_autos,


In [31]:
# visualizando o valor da moda para se o carro já sofreu algum reparo mecânico
dataframe['notRepairedDamage'].value_counts() # nein

nein    259301
ja       34004
Name: notRepairedDamage, dtype: int64

In [32]:
# criando um dicionário com o valor da moda de cada uma das colunas de dados 
valores = {'vehicleType': 'limousine',
           'gearbox': 'manuell',
           'model': 'golf',
           'fuelType': 'benzin',
           'notRepairedDamage': 'nein'}

In [33]:
# substituindo os valores faltantes pela moda entre os dados
dataframe = dataframe.fillna(value = valores)

### Separando os Atributos Previsores e Meta

In [34]:
# separando os atributos previsores dos atributos meta
previsores = dataframe.iloc[:, 1:13].values
meta = dataframe.iloc[:, 0].values

In [37]:
# visualizando o dataframe
dataframe

Unnamed: 0,price,abtest,vehicleType,yearOfRegistration,gearbox,powerPS,model,kilometer,monthOfRegistration,fuelType,brand,notRepairedDamage
0,480,test,limousine,1993,manuell,0,golf,150000,0,benzin,volkswagen,nein
1,18300,test,coupe,2011,manuell,190,golf,125000,5,diesel,audi,ja
2,9800,test,suv,2004,automatik,163,grand,125000,8,diesel,jeep,nein
3,1500,test,kleinwagen,2001,manuell,75,golf,150000,6,benzin,volkswagen,nein
4,3600,test,kleinwagen,2008,manuell,69,fabia,90000,7,diesel,skoda,nein
...,...,...,...,...,...,...,...,...,...,...,...,...
371523,2200,test,limousine,2005,manuell,0,golf,20000,1,benzin,sonstige_autos,nein
371524,1199,test,cabrio,2000,automatik,101,fortwo,125000,3,benzin,smart,nein
371525,9200,test,bus,1996,manuell,102,transporter,150000,3,diesel,volkswagen,nein
371526,3400,test,kombi,2002,manuell,100,golf,150000,6,diesel,volkswagen,nein


### Transformando os Atributos Categóricos em Numéricos

In [35]:
# criando o objeto 'labelencoder_previsores'
labelencoder_previsores = LabelEncoder()

In [39]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 0] = labelencoder_previsores.fit_transform(previsores[:, 0])

In [40]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 1] = labelencoder_previsores.fit_transform(previsores[:, 1])

In [41]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 3] = labelencoder_previsores.fit_transform(previsores[:, 3])

In [42]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 5] = labelencoder_previsores.fit_transform(previsores[:, 5])

In [43]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 8] = labelencoder_previsores.fit_transform(previsores[:, 8])

In [44]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 9] = labelencoder_previsores.fit_transform(previsores[:, 9])

In [45]:
# realizando a transformação dos atributos categóricos em numéricos
previsores[:, 10] = labelencoder_previsores.fit_transform(previsores[:, 10])

In [46]:
# visualizando os atributos previsores
print(previsores)

[[1 6 1993 ... 1 38 1]
 [1 3 2011 ... 3 1 0]
 [1 7 2004 ... 3 14 1]
 ...
 [1 1 1996 ... 3 38 1]
 [1 5 2002 ... 3 38 1]
 [0 6 2013 ... 1 2 1]]


### Transformando Valores Numéricos em Variáveis do Tipo Dummy

In [49]:
# criando o objeto 'onehotencoder'
onehotencoder = ColumnTransformer(transformers=[("OneHot", OneHotEncoder(), 
                                                  [0,1,3,5,8,9,10])], remainder='passthrough')

In [None]:
# transformando os atributos previsores em variávies do tipo dummy
previsores = onehotencoder.fit_transform(previsores).toarray()

In [51]:
# visualizando a dimensão dos atributos previsores
previsores.shape

(359291, 316)

In [53]:
# visualizando os atributos previsores
print(previsores)

[[0.00e+00 1.00e+00 0.00e+00 ... 0.00e+00 1.50e+05 0.00e+00]
 [0.00e+00 1.00e+00 0.00e+00 ... 1.90e+02 1.25e+05 5.00e+00]
 [0.00e+00 1.00e+00 0.00e+00 ... 1.63e+02 1.25e+05 8.00e+00]
 ...
 [0.00e+00 1.00e+00 0.00e+00 ... 1.02e+02 1.50e+05 3.00e+00]
 [0.00e+00 1.00e+00 0.00e+00 ... 1.00e+02 1.50e+05 6.00e+00]
 [1.00e+00 0.00e+00 0.00e+00 ... 3.20e+02 5.00e+04 8.00e+00]]


In [54]:
# visualizando os atributos meta
print(meta)

[  480 18300  9800 ...  9200  3400 28990]


### Alguma Dúvida? Entre em Contato Comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);