In [1]:
import pandas as pd
import numpy as np

In [2]:
# abre os arquivos

df_test = pd.read_csv('cars_test.csv', sep = '\t', encoding='utf-16')
df_train = pd.read_csv('cars_train.csv', sep = '\t', encoding='utf-16')

In [3]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29584 entries, 0 to 29583
Data columns (total 29 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       29584 non-null  object 
 1   num_fotos                29407 non-null  float64
 2   marca                    29584 non-null  object 
 3   modelo                   29584 non-null  object 
 4   versao                   29584 non-null  object 
 5   ano_de_fabricacao        29584 non-null  int64  
 6   ano_modelo               29584 non-null  float64
 7   hodometro                29584 non-null  float64
 8   cambio                   29584 non-null  object 
 9   num_portas               29584 non-null  int64  
 10  tipo                     29584 non-null  object 
 11  blindado                 29584 non-null  object 
 12  cor                      29584 non-null  object 
 13  tipo_vendedor            29584 non-null  object 
 14  cidade_vendedor       

In [4]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9862 entries, 0 to 9861
Data columns (total 28 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       9862 non-null   object 
 1   num_fotos                9802 non-null   float64
 2   marca                    9862 non-null   object 
 3   modelo                   9862 non-null   object 
 4   versao                   9862 non-null   object 
 5   ano_de_fabricacao        9862 non-null   int64  
 6   ano_modelo               9862 non-null   float64
 7   hodometro                9862 non-null   float64
 8   cambio                   9862 non-null   object 
 9   num_portas               9862 non-null   int64  
 10  tipo                     9862 non-null   object 
 11  blindado                 9862 non-null   object 
 12  cor                      9862 non-null   object 
 13  tipo_vendedor            9862 non-null   object 
 14  cidade_vendedor         

**OBS**: Os tipos de dados **object** são dados que, ás vezes, o python não identificou e que foram alocados utilizando muito espaço da memória, isto não é um problema quando o dataset e pequeno, mas quando se trata de big data, isso trará muito lentidão no processamento e exigirá muita memória ram. 

O tratamento é fazer a otimização de dados. Uma estratégia é converter o tipo de dado para um formato mais otimizado e mais adequado para o dado, como por exemplo de objeto para categórico.

In [5]:
# analise de uso de memoria com parametro dee=True
memory = df_train.memory_usage(deep=True)

In [6]:
memory

Index                          132
id                         2830491
num_fotos                   236672
marca                      1892496
modelo                     1852478
versao                     3237947
ano_de_fabricacao           236672
ano_modelo                  236672
hodometro                   236672
cambio                     2493368
num_portas                  236672
tipo                       2366871
blindado                   1715872
cor                        1855164
tipo_vendedor              1745456
cidade_vendedor            2319907
estado_vendedor            2609934
anunciante                 2456667
entrega_delivery             29584
troca                        29584
elegivel_revisao             29584
dono_aceita_troca          1757802
veiculo_único_dono         1561645
revisoes_concessionaria    1799684
ipva_pago                  1615094
veiculo_licenciado         1503398
garantia_de_fábrica        1243508
revisoes_dentro_agenda     1502228
veiculo_alienado    

In [7]:
# convertendo o resultado da memoria de bytes para gigabytes
memory.sum()/(1024 ** 3)

40.229153633117676

In [8]:
# o uso de memória utilizado individualmente por cada dado
memory / memory.sum() * 100

Index                      0.000313
id                         6.709976
num_fotos                  0.561056
marca                      4.486360
modelo                     4.391494
versao                     7.675893
ano_de_fabricacao          0.561056
ano_modelo                 0.561056
hodometro                  0.561056
cambio                     5.910791
num_portas                 0.561056
tipo                       5.610916
blindado                   4.067655
cor                        4.397861
tipo_vendedor              4.137787
cidade_vendedor            5.499583
estado_vendedor            6.187123
anunciante                 5.823787
entrega_delivery           0.070132
troca                      0.070132
elegivel_revisao           0.070132
dono_aceita_troca          4.167054
veiculo_único_dono         3.702043
revisoes_concessionaria    4.266340
ipva_pago                  3.828750
veiculo_licenciado         3.563963
garantia_de_fábrica        2.947866
revisoes_dentro_agenda     3

# Analisando e Tratando  os Datasets

In [9]:
# 0 coluna "id"
df_train["id"].value_counts()

id
300716223898539419613863097469899222392    1
285890682893499494121046105359660467160    1
164151341442204939739633671446766506660    1
104605966898056711399437656393867106581    1
225802387330645423199512943057734533233    1
                                          ..
51948056493465724900513443742353763328     1
56763651987108516122847468318822603887     1
301609676912075371890494688957843480392    1
31630061149326072384596052351170200337     1
171781413417552881896009715888472310172    1
Name: count, Length: 29584, dtype: int64

In [10]:
df_test["id"].value_counts()

id
13518783164498355150900635905895481162     1
167032009694768984860707008434485229428    1
22290468746890813476731188436459828481     1
231543260678523277363904215611319815243    1
298950350711827897603045335448120148533    1
                                          ..
64321307505228127950467259320338842918     1
114165953941876671782760160069686604051    1
83333678053462956219456877223176716803     1
280267317637942529700051415143388024033    1
332784980027104367393384305973418103109    1
Name: count, Length: 9862, dtype: int64

In [11]:
# 1 coluna "num_fotos"
df_train["num_fotos"].unique()

array([ 8., 16., 14., 13., 15., 20., 11.,  9., 18., 17., 12., nan, 19.,
       21., 10.])

In [12]:
df_test["num_fotos"].unique()

array([ 8., 18., 16., 17., 15., 14., 13., 12.,  9., 20., nan, 11., 19.,
       21.])

In [13]:
# verifica se há valores nulos ou em branco
df_train["num_fotos"].isnull().any()

True

In [14]:
df_test["num_fotos"].isnull().any()

True

In [15]:
# substituir os valores NaN e infinitos por um valor padrão (zero, 0)
df_train["num_fotos"].fillna(0, inplace=True)
df_train.replace([np.inf, -np.inf], 0, inplace=True)

df_test["num_fotos"].fillna(0, inplace=True)
df_test.replace([np.inf, -np.inf], 0, inplace=True)

In [16]:
# converter os dados de float para int 
df_train["num_fotos"] = df_train["num_fotos"].astype(int)
df_test["num_fotos"] = df_test["num_fotos"].astype(int)

# Verificar os tipos de dados atualizados da coluna
print(df_train["num_fotos"].dtype)
print(df_test["num_fotos"].dtype)

int32
int32


In [17]:
# 2 coluna "marca"
df_train["marca"].value_counts()

marca
VOLKSWAGEN       4594
CHEVROLET        3020
TOYOTA           2180
HYUNDAI          2043
JEEP             2000
FIAT             1918
BMW              1784
AUDI             1698
PEUGEOT          1675
HONDA            1586
MERCEDES-BENZ    1125
FORD             1060
MITSUBISHI        862
LAND ROVER        760
RENAULT           538
NISSAN            438
KIA               408
PORSCHE           349
VOLVO             287
CITROËN           194
TROLLER           177
RAM               168
CHERY             153
JAGUAR            148
MINI              137
LEXUS              75
SUZUKI             41
SUBARU             41
DODGE              37
CHRYSLER           30
SSANGYONG          14
SMART              12
ALFA ROMEO          9
LIFAN               8
MASERATI            7
JAC                 3
IVECO               2
EFFA                1
FERRARI             1
BRM                 1
Name: count, dtype: int64

In [18]:
df_test["marca"].value_counts()

marca
VOLKSWAGEN       1546
CHEVROLET        1000
TOYOTA            702
HYUNDAI           697
JEEP              667
FIAT              605
AUDI              593
BMW               591
PEUGEOT           571
HONDA             511
FORD              385
MERCEDES-BENZ     376
MITSUBISHI        286
LAND ROVER        267
RENAULT           173
KIA               157
NISSAN            145
PORSCHE           121
VOLVO              76
JAGUAR             64
CITROËN            54
RAM                53
CHERY              49
TROLLER            46
MINI               45
LEXUS              16
SUBARU             13
DODGE              10
CHRYSLER           10
SUZUKI             10
SSANGYONG           6
MASERATI            5
SMART               4
LIFAN               2
JAC                 2
FERRARI             1
EFFA                1
ALFA ROMEO          1
LAMBORGHINI         1
Name: count, dtype: int64

In [19]:
# converter os dados de object para categorico
df_train["marca"] = df_train["marca"].astype("category")
df_test["marca"] = df_test["marca"].astype("category")

In [20]:
# Verificar os tipos de dados atualizados da coluna
print(df_train["marca"].dtype)
print(df_test["marca"].dtype)

category
category


In [21]:
# 3 coluna "modelo"
df_train["modelo"].value_counts()

modelo
COMPASS         1480
2008            1431
Q3               914
TORO             902
COROLLA          867
                ... 
X-TRAIL            1
QUATTROPORTE       1
ES                 1
S4                 1
SLK 230            1
Name: count, Length: 457, dtype: int64

In [22]:
df_test["modelo"].value_counts()

modelo
2008          493
COMPASS       487
COROLLA       301
Q3            299
ONIX          285
             ... 
ONE             1
FREELANDER      1
QQ              1
PARATI          1
M 140i          1
Name: count, Length: 378, dtype: int64

In [23]:
# converter os dados de object para categorico
df_train["modelo"] = df_train["modelo"].astype("category")
df_test["modelo"] = df_test["modelo"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["modelo"].dtype)
print(df_test["modelo"].dtype)

category
category


In [24]:
# 4 coluna "versao"
df_train["versao"].value_counts()

versao
1.6 16V FLEX ALLURE PACK 4P AUTOMÁTICO                            1352
2.0 16V FLEX LIMITED AUTOMÁTICO                                   1032
2.0 TFSI AMBIENTE QUATTRO 4P GASOLINA S TRONIC                     757
1.0 200 TSI COMFORTLINE AUTOMÁTICO                                 466
2.0 HIGHLINE 4X4 CD 16V TURBO INTERCOOLER DIESEL 4P AUTOMÁTICO     429
                                                                  ... 
1.0 SV 12V FLEX 4P MANUAL                                            1
1.5 i-VTEC FLEX TOURING CVT                                          1
1.6 SE SEDAN 16V FLEX 4P MANUAL                                      1
1.0 EX 12V GASOLINA 4P AUTOMÁTICO                                    1
1.3 CGI GASOLINA PROGRESSIVE 7G-DCT                                  1
Name: count, Length: 1916, dtype: int64

In [25]:
df_test["versao"].value_counts()

versao
1.6 16V FLEX ALLURE PACK 4P AUTOMÁTICO                            473
2.0 16V FLEX LIMITED AUTOMÁTICO                                   323
2.0 TFSI AMBIENTE QUATTRO 4P GASOLINA S TRONIC                    250
1.0 200 TSI COMFORTLINE AUTOMÁTICO                                158
2.0 HIGHLINE 4X4 CD 16V TURBO INTERCOOLER DIESEL 4P AUTOMÁTICO    138
                                                                 ... 
1.4 MPFI SPORT CS 8V FLEX 2P MANUAL                                 1
1.6 EXCLUSIVE 16V FLEX 4P MANUAL                                    1
2.0 D5 DIESEL MOMENTUM AWD GEARTRONIC                               1
2.0 COMFORTLINE FLEX 4P MANUAL                                      1
2.0 MI 8V GASOLINA 2P AUTOMÁTICO                                    1
Name: count, Length: 1377, dtype: int64

In [26]:
# converter os dados de object para categorico
df_train["versao"] = df_train["versao"].astype("category")
df_test["versao"] = df_test["versao"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["versao"].dtype)
print(df_test["versao"].dtype)

category
category


In [27]:
# 5 coluna "ano_de_fabricacao"
df_train["ano_de_fabricacao"].value_counts()

ano_de_fabricacao
2020    4729
2017    4369
2019    3880
2018    3820
2021    2614
2013    2443
2014    2221
2016    1822
2015    1753
2012     509
2007     121
2008     117
2001      95
2006      88
2010      83
2009      82
2000      81
2002      80
1999      80
2011      75
2003      72
1998      66
2005      62
1997      61
1996      58
2004      55
2022      37
1995      34
1994      31
1993      15
1992      14
1991      10
1990       4
1988       2
1985       1
Name: count, dtype: int64

In [28]:
df_test["ano_de_fabricacao"].value_counts()

ano_de_fabricacao
2020    1568
2017    1470
2019    1299
2018    1295
2021     840
2013     819
2014     706
2016     625
2015     564
2012     183
2008      44
2000      35
2007      34
2010      33
2001      30
2011      30
1999      28
2003      27
1997      26
1998      25
2006      25
2004      23
2005      20
2009      20
2002      18
1996      16
1995      15
2022      14
1993       9
1991       7
1992       6
1994       5
1988       2
1990       1
Name: count, dtype: int64

In [29]:
# 6 coluna "ano_modelo"
df_train["ano_modelo"].value_counts()

ano_modelo
2021.0    5071
2017.0    4519
2018.0    4221
2019.0    3587
2020.0    3541
2015.0    2386
2014.0    2377
2013.0    1212
2016.0     890
2022.0     829
2012.0     693
2011.0     228
2023.0      15
2010.0       9
2008.0       4
2006.0       1
1997.0       1
Name: count, dtype: int64

In [30]:
df_test["ano_modelo"].value_counts()

ano_modelo
2021.0    1696
2017.0    1558
2018.0    1383
2019.0    1213
2020.0    1146
2015.0     795
2014.0     781
2013.0     404
2016.0     282
2022.0     275
2012.0     232
2011.0      78
2023.0       8
2010.0       5
2007.0       2
2008.0       2
2009.0       2
Name: count, dtype: int64

In [31]:
# converter os dados de float para int 
df_train["ano_modelo"] = df_train["ano_modelo"].astype(int)
df_test["ano_modelo"] = df_test["ano_modelo"].astype(int)

# Verificar os tipos de dados atualizados da coluna
print(df_train["ano_modelo"].dtype)
print(df_test["ano_modelo"].dtype)

int32
int32


In [32]:
# 7 coluna "hodometro"
df_train["hodometro"].value_counts()

hodometro
100.0       76
34765.0      5
79577.0      4
63074.0      4
82502.0      4
            ..
21578.0      1
66805.0      1
125263.0     1
28160.0      1
90433.0      1
Name: count, Length: 26004, dtype: int64

In [33]:
df_test["hodometro"].value_counts()

hodometro
100.0      29
90598.0     3
82025.0     3
53994.0     3
33290.0     3
           ..
64959.0     1
20310.0     1
21618.0     1
32866.0     1
32511.0     1
Name: count, Length: 9430, dtype: int64

In [34]:
# converter os dados de float para int 
df_train["hodometro"] = df_train["hodometro"].astype(int)
df_test["hodometro"] = df_test["hodometro"].astype(int)

# Verificar os tipos de dados atualizados da coluna
print(df_train["hodometro"].dtype)
print(df_test["hodometro"].dtype)

int32
int32


In [35]:
# 8 coluna "cambio"
df_train["cambio"].value_counts()

cambio
Automática               22545
Manual                    4989
CVT                       1792
Automatizada               139
Automatizada DCT            53
Semi-automática             41
Automática Sequencial       25
Name: count, dtype: int64

In [36]:
df_test["cambio"].value_counts()

cambio
Automática               7528
Manual                   1642
CVT                       599
Automatizada               53
Automatizada DCT           18
Semi-automática            15
Automática Sequencial       7
Name: count, dtype: int64

In [37]:
# converter os dados de object para categorico
df_train["cambio"] = df_train["cambio"].astype("category")
df_test["cambio"] = df_test["cambio"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["cambio"].dtype)
print(df_test["cambio"].dtype)

category
category


In [38]:
# 9 coluna "num_portas"
df_train["num_portas"].value_counts()

num_portas
4    28697
2      868
3       19
Name: count, dtype: int64

In [39]:
df_test["num_portas"].value_counts()

num_portas
4    9577
2     282
3       3
Name: count, dtype: int64

In [40]:
# 10 coluna "tipo"
df_train["tipo"].value_counts()

tipo
Sedã                    16429
Hatchback                4924
Picape                   4849
Utilitário esportivo     3322
Perua/SW                   27
Cupê                       26
Minivan                     7
Name: count, dtype: int64

In [41]:
df_test["tipo"].value_counts()

tipo
Sedã                    5481
Hatchback               1646
Picape                  1577
Utilitário esportivo    1136
Perua/SW                  10
Cupê                       8
Minivan                    3
Conversível                1
Name: count, dtype: int64

In [42]:
# converter os dados de object para categorico
df_train["tipo"] = df_train["tipo"].astype("category")
df_test["tipo"] = df_test["tipo"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["tipo"].dtype)
print(df_test["tipo"].dtype)

category
category


In [43]:
# 11 coluna "blindado"
df_train["blindado"].value_counts()

blindado
N    29336
S      248
Name: count, dtype: int64

In [44]:
df_test["blindado"].value_counts()

blindado
N    9792
S      70
Name: count, dtype: int64

In [45]:
# converter os dados de object para categorico
df_train["blindado"] = df_train["blindado"].astype("category")
df_test["blindado"] = df_test["blindado"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["blindado"].dtype)
print(df_test["blindado"].dtype)

category
category


In [46]:
# 12 coluna "cor"
df_train["cor"].value_counts()

cor
Branco      20949
Preto        5256
Prata        1741
Cinza        1634
Dourado         2
Verde           1
Vermelho        1
Name: count, dtype: int64

In [47]:
df_test["cor"].value_counts()

cor
Branco     6970
Preto      1729
Prata       618
Cinza       540
Dourado       4
Azul          1
Name: count, dtype: int64

In [48]:
# converter os dados de object para categorico
df_train["cor"] = df_train["cor"].astype("category")
df_test["cor"] = df_test["cor"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["cor"].dtype)
print(df_test["cor"].dtype)

category
category


In [49]:
# 13 coluna "tipo_vendedor"
df_train["tipo_vendedor"].value_counts()

tipo_vendedor
PF    17926
PJ    11658
Name: count, dtype: int64

In [50]:
df_test["tipo_vendedor"].value_counts()

tipo_vendedor
PF    5931
PJ    3931
Name: count, dtype: int64

In [51]:
# converter os dados de object para categorico
df_train["tipo_vendedor"] = df_train["tipo_vendedor"].astype("category")
df_test["tipo_vendedor"] = df_test["tipo_vendedor"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["tipo_vendedor"].dtype)
print(df_test["tipo_vendedor"].dtype)

category
category


In [52]:
# 14 coluna "cidade_vendedor"
df_train["cidade_vendedor"].value_counts()

cidade_vendedor
São Paulo              6158
Rio de Janeiro         5793
Belo Horizonte         2172
Presidente Prudente    1536
Goiânia                1396
                       ... 
Garopaba                  1
Porto Feliz               1
Antônio Carlos            1
Panambi                   1
Descalvado                1
Name: count, Length: 575, dtype: int64

In [53]:
df_test["cidade_vendedor"].value_counts()

cidade_vendedor
São Paulo              2040
Rio de Janeiro         1946
Belo Horizonte          753
Presidente Prudente     486
Goiânia                 475
                       ... 
Birigui                   1
Capelinha                 1
Ivaí                      1
Pau dos Ferros            1
Balsas                    1
Name: count, Length: 337, dtype: int64

In [54]:
# converter os dados de object para categorico
df_train["cidade_vendedor"] = df_train["cidade_vendedor"].astype("category")
df_test["cidade_vendedor"] = df_test["cidade_vendedor"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["cidade_vendedor"].dtype)
print(df_test["cidade_vendedor"].dtype)

category
category


In [55]:
# 15 coluna "estado_vendedor"
df_train["estado_vendedor"].value_counts()

estado_vendedor
São Paulo (SP)              16378
Rio de Janeiro (RJ)          2548
Paraná (PR)                  2526
Santa Catarina (SC)          2302
Minas Gerais (MG)            1775
Rio Grande do Sul (RS)       1646
Goiás (GO)                    789
Bahia (BA)                    604
Pernambuco (PE)               318
Alagoas (AL)                  125
Paraíba (PB)                  108
Rio Grande do Norte (RN)       90
Pará (PA)                      74
Ceará (CE)                     69
Amazonas (AM)                  51
Mato Grosso do Sul (MS)        35
Mato Grosso (MT)               33
Acre (AC)                      29
Sergipe (SE)                   24
Espírito Santo (ES)            21
Tocantins (TO)                 20
Maranhão (MA)                   7
Piauí (PI)                      6
Rondônia (RO)                   4
Roraima (RR)                    2
Name: count, dtype: int64

In [56]:
df_test["estado_vendedor"].value_counts()

estado_vendedor
São Paulo (SP)              5416
Paraná (PR)                  854
Rio de Janeiro (RJ)          836
Santa Catarina (SC)          817
Minas Gerais (MG)            575
Rio Grande do Sul (RS)       545
Goiás (GO)                   254
Bahia (BA)                   223
Pernambuco (PE)               93
Alagoas (AL)                  46
Paraíba (PB)                  39
Pará (PA)                     33
Rio Grande do Norte (RN)      29
Ceará (CE)                    18
Mato Grosso (MT)              15
Amazonas (AM)                 15
Tocantins (TO)                14
Mato Grosso do Sul (MS)       11
Acre (AC)                     11
Espírito Santo (ES)            8
Sergipe (SE)                   5
Piauí (PI)                     3
Rondônia (RO)                  1
Roraima (RR)                   1
Name: count, dtype: int64

In [57]:
# converter os dados de object para categorico
df_train["estado_vendedor"] = df_train["estado_vendedor"].astype("category")
df_test["estado_vendedor"] = df_test["estado_vendedor"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["estado_vendedor"].dtype)
print(df_test["estado_vendedor"].dtype)

category
category


In [58]:
# 16 coluna "anunciante"
df_train["anunciante"].value_counts()

anunciante
Pessoa Física                       17999
Loja                                 9879
Concessionária                       1702
Acessórios e serviços para autos        4
Name: count, dtype: int64

In [59]:
df_test["anunciante"].value_counts()

anunciante
Pessoa Física                       5950
Loja                                3303
Concessionária                       608
Acessórios e serviços para autos       1
Name: count, dtype: int64

In [60]:
# converter os dados de object para categorico
df_train["anunciante"] = df_train["anunciante"].astype("category")
df_test["anunciante"] = df_test["anunciante"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["anunciante"].dtype)
print(df_test["anunciante"].dtype)

category
category


In [61]:
# 17 coluna "entrega_delivery"
df_train["entrega_delivery"].value_counts()

entrega_delivery
False    23601
True      5983
Name: count, dtype: int64

In [62]:
df_test["entrega_delivery"].value_counts()

entrega_delivery
False    7907
True     1955
Name: count, dtype: int64

In [63]:
# 18 coluna "troca"
df_train["troca"].value_counts()

troca
False    24523
True      5061
Name: count, dtype: int64

In [64]:
df_test["troca"].value_counts()

troca
False    8217
True     1645
Name: count, dtype: int64

In [65]:
# 19 coluna "elegivel_revisao"
df_train["elegivel_revisao"].value_counts()

elegivel_revisao
False    29584
Name: count, dtype: int64

In [66]:
df_test["elegivel_revisao"].value_counts()

elegivel_revisao
False    9862
Name: count, dtype: int64

In [67]:
# 20 coluna "dono_aceita_troca"
df_train["dono_aceita_troca"].value_counts()

dono_aceita_troca
Aceita troca    21922
Name: count, dtype: int64

In [68]:
df_test["dono_aceita_troca"].value_counts()

dono_aceita_troca
Aceita troca    7308
Name: count, dtype: int64

In [69]:
# converter os dados de object para categorico
df_train["dono_aceita_troca"] = df_train["dono_aceita_troca"].astype("category")
df_test["dono_aceita_troca"] = df_test["dono_aceita_troca"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["dono_aceita_troca"].dtype)
print(df_test["dono_aceita_troca"].dtype)

category
category


In [70]:
# 21 coluna "veiculo_único_dono"
df_train["veiculo_único_dono"].value_counts()

veiculo_único_dono
Único dono    10423
Name: count, dtype: int64

In [71]:
df_test["veiculo_único_dono"].value_counts()

veiculo_único_dono
Único dono    3475
Name: count, dtype: int64

In [72]:
# converter os dados de object para categorico
df_train["veiculo_único_dono"] = df_train["veiculo_único_dono"].astype("category")
df_test["veiculo_único_dono"] = df_test["veiculo_único_dono"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["veiculo_único_dono"].dtype)
print(df_test["veiculo_único_dono"].dtype)

category
category


In [73]:
# 22 coluna "revisoes_concessionaria"
df_train["revisoes_concessionaria"].value_counts()

revisoes_concessionaria
Todas as revisões feitas pela concessionária    9172
Name: count, dtype: int64

In [74]:
df_test["revisoes_concessionaria"].value_counts()

revisoes_concessionaria
Todas as revisões feitas pela concessionária    3067
Name: count, dtype: int64

In [75]:
# converter os dados de object para categorico
df_train["revisoes_concessionaria"] = df_train["revisoes_concessionaria"].astype("category")
df_test["revisoes_concessionaria"] = df_test["revisoes_concessionaria"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["revisoes_concessionaria"].dtype)
print(df_test["revisoes_concessionaria"].dtype)

category
category


In [76]:
# 23 coluna "ipva_pago"
df_train["ipva_pago"].value_counts()

ipva_pago
IPVA pago    19659
Name: count, dtype: int64

In [77]:
df_test["ipva_pago"].value_counts()

ipva_pago
IPVA pago    6564
Name: count, dtype: int64

In [78]:
# converter os dados de object para categorico
df_train["ipva_pago"] = df_train["ipva_pago"].astype("category")
df_test["ipva_pago"] = df_test["ipva_pago"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["ipva_pago"].dtype)
print(df_test["ipva_pago"].dtype)

category
category


In [79]:
# 24 coluna "veiculo_licenciado"
df_train["veiculo_licenciado"].value_counts()

veiculo_licenciado
Licenciado    15906
Name: count, dtype: int64

In [80]:
df_test["veiculo_licenciado"].value_counts()

veiculo_licenciado
Licenciado    5344
Name: count, dtype: int64

In [81]:
# converter os dados de object para categorico
df_train["veiculo_licenciado"] = df_train["veiculo_licenciado"].astype("category")
df_test["veiculo_licenciado"] = df_test["veiculo_licenciado"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["veiculo_licenciado"].dtype)
print(df_test["veiculo_licenciado"].dtype)

category
category


In [82]:
# 25 coluna "garantia_de_fábrica"
df_train["garantia_de_fábrica"].value_counts()

garantia_de_fábrica
Garantia de fábrica    4365
Name: count, dtype: int64

In [83]:
df_test["garantia_de_fábrica"].value_counts()

garantia_de_fábrica
Garantia de fábrica    1423
Name: count, dtype: int64

In [84]:
# converter os dados de object para categorico
df_train["garantia_de_fábrica"] = df_train["garantia_de_fábrica"].astype("category")
df_test["garantia_de_fábrica"] = df_test["garantia_de_fábrica"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["garantia_de_fábrica"].dtype)
print(df_test["garantia_de_fábrica"].dtype)

category
category


In [85]:
# 26 coluna "revisoes_dentro_agenda"
df_train["revisoes_dentro_agenda"].value_counts()

revisoes_dentro_agenda
Todas as revisões feitas pela agenda do carro    5910
Name: count, dtype: int64

In [86]:
df_test["revisoes_dentro_agenda"].value_counts()

revisoes_dentro_agenda
Todas as revisões feitas pela agenda do carro    1993
Name: count, dtype: int64

In [87]:
# converter os dados de object para categorico
df_train["revisoes_dentro_agenda"] = df_train["revisoes_dentro_agenda"].astype("category")
df_test["revisoes_dentro_agenda"] = df_test["revisoes_dentro_agenda"].astype("category")

# Verificar os tipos de dados atualizados da coluna
print(df_train["revisoes_dentro_agenda"].dtype)
print(df_test["revisoes_dentro_agenda"].dtype)

category
category


In [88]:
# 27 coluna "veiculo_alienado" 
df_train["veiculo_alienado"].value_counts()

Series([], Name: count, dtype: int64)

In [89]:
df_test["veiculo_alienado"].value_counts()

Series([], Name: count, dtype: int64)

In [90]:
# 28 coluna "preco"
df_train["preco"].value_counts()

preco
7.473.259.008.373.930     1
9.159.064.294.214.690     1
1.515.658.785.087.030     1
2.239.269.909.210.560     1
16.776.575.600.627.500    1
                         ..
343.976.640.460.006       1
28.719.260.904.618.300    1
1.379.983.440.960.510     1
7.661.572.975.536.530     1
13.250.787.318.702.800    1
Name: count, Length: 29584, dtype: int64

In [91]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29584 entries, 0 to 29583
Data columns (total 29 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   id                       29584 non-null  object  
 1   num_fotos                29584 non-null  int32   
 2   marca                    29584 non-null  category
 3   modelo                   29584 non-null  category
 4   versao                   29584 non-null  category
 5   ano_de_fabricacao        29584 non-null  int64   
 6   ano_modelo               29584 non-null  int32   
 7   hodometro                29584 non-null  int32   
 8   cambio                   29584 non-null  category
 9   num_portas               29584 non-null  int64   
 10  tipo                     29584 non-null  category
 11  blindado                 29584 non-null  category
 12  cor                      29584 non-null  category
 13  tipo_vendedor            29584 non-null  category
 14  cidade

In [92]:
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9862 entries, 0 to 9861
Data columns (total 28 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   id                       9862 non-null   object  
 1   num_fotos                9862 non-null   int32   
 2   marca                    9862 non-null   category
 3   modelo                   9862 non-null   category
 4   versao                   9862 non-null   category
 5   ano_de_fabricacao        9862 non-null   int64   
 6   ano_modelo               9862 non-null   int32   
 7   hodometro                9862 non-null   int32   
 8   cambio                   9862 non-null   category
 9   num_portas               9862 non-null   int64   
 10  tipo                     9862 non-null   category
 11  blindado                 9862 non-null   category
 12  cor                      9862 non-null   category
 13  tipo_vendedor            9862 non-null   category
 14  cidade_v

# Conversão do formato do arquivo de csv para  parquet
Escolhi mudar para o formato **Parquet**, pois, pensando no dia-a-dia de um cientista de dados, 
é uma escolha recomendável para armazenar conjuntos de dados de machine learning
devido à sua eficiência, compressão de dados, suporte a particionamento, 
integração com ecossistemas de big data e capacidade de lidar com esquemas complexos.

In [93]:
# converter formato do arquivo de csv para parquet 

df_train.to_parquet("cars_train")
df2 = pd.read_parquet("cars_train")

df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29584 entries, 0 to 29583
Data columns (total 29 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   id                       29584 non-null  object  
 1   num_fotos                29584 non-null  int32   
 2   marca                    29584 non-null  category
 3   modelo                   29584 non-null  category
 4   versao                   29584 non-null  category
 5   ano_de_fabricacao        29584 non-null  int64   
 6   ano_modelo               29584 non-null  int32   
 7   hodometro                29584 non-null  int32   
 8   cambio                   29584 non-null  category
 9   num_portas               29584 non-null  int64   
 10  tipo                     29584 non-null  category
 11  blindado                 29584 non-null  category
 12  cor                      29584 non-null  category
 13  tipo_vendedor            29584 non-null  category
 14  cidade

In [94]:
df_test.to_parquet("cars_test")
df3 = pd.read_parquet("cars_test")

df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9862 entries, 0 to 9861
Data columns (total 28 columns):
 #   Column                   Non-Null Count  Dtype   
---  ------                   --------------  -----   
 0   id                       9862 non-null   object  
 1   num_fotos                9862 non-null   int32   
 2   marca                    9862 non-null   category
 3   modelo                   9862 non-null   category
 4   versao                   9862 non-null   category
 5   ano_de_fabricacao        9862 non-null   int64   
 6   ano_modelo               9862 non-null   int32   
 7   hodometro                9862 non-null   int32   
 8   cambio                   9862 non-null   category
 9   num_portas               9862 non-null   int64   
 10  tipo                     9862 non-null   category
 11  blindado                 9862 non-null   category
 12  cor                      9862 non-null   category
 13  tipo_vendedor            9862 non-null   category
 14  cidade_v