# PREPARAÇÃO/TRATAMENTO NOS DADOS

### Importando as Bibliotecas utéis

In [26]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
from scipy.stats import mode

Vamos iniar o nosso trabalho pelo dataframe cars_test

### Importando o arquivo CSV

In [2]:
df_cars_test = pd.read_csv("cars_test.csv", encoding='utf-16', sep="\t")

Ao abrir o arquivo, percebi que as colunas estavam todas juntas e não havia uma separação clara entre elas. Isso ocorreu porque o arquivo utiliza o caractere de tabulação (\t) como separador de colunas, em vez do padrão utilizado pelo pandas, que é a vírgula (,). Para garantir que o pandas interpretasse corretamente as colunas, tive que especificar o separador usando o parâmetro "sep" e definir seu valor como "\t".

Além disso, observei que o arquivo estava codificado em UTF-16, um formato de codificação de caracteres que difere do padrão UTF-8 amplamente utilizado. Portanto, também foi necessário especificar a codificação correta usando o parâmetro "encoding" e definir seu valor como 'utf-16'.

Com essas alterações, consegui abrir o arquivo corretamente no pandas, garantindo que as colunas estivessem separadas e prontas para análise. Isso é essencial para que possamos extrair informações precisas e relevantes do conjunto de dados.

In [3]:
df_cars_test.shape

(9862, 28)

In [4]:
## INFORMAÇÕES RESUMIDA DA TABELA DE DADOS
df_cars_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9862 entries, 0 to 9861
Data columns (total 28 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       9862 non-null   object 
 1   num_fotos                9802 non-null   float64
 2   marca                    9862 non-null   object 
 3   modelo                   9862 non-null   object 
 4   versao                   9862 non-null   object 
 5   ano_de_fabricacao        9862 non-null   int64  
 6   ano_modelo               9862 non-null   float64
 7   hodometro                9862 non-null   float64
 8   cambio                   9862 non-null   object 
 9   num_portas               9862 non-null   int64  
 10  tipo                     9862 non-null   object 
 11  blindado                 9862 non-null   object 
 12  cor                      9862 non-null   object 
 13  tipo_vendedor            9862 non-null   object 
 14  cidade_vendedor         

In [5]:
## VISUALIZANDO APENAS AS PRIMEIRAS LINHAS 
df_cars_test.head()

Unnamed: 0,id,num_fotos,marca,modelo,versao,ano_de_fabricacao,ano_modelo,hodometro,cambio,num_portas,...,troca,elegivel_revisao,dono_aceita_troca,veiculo_único_dono,revisoes_concessionaria,ipva_pago,veiculo_licenciado,garantia_de_fábrica,revisoes_dentro_agenda,veiculo_alienado
0,13518783164498355150900635905895481162,8.0,NISSAN,VERSA,1.6 16V FLEXSTART V-DRIVE MANUAL,2021,2021.0,20258.0,Manual,4,...,False,False,Aceita troca,,,IPVA pago,Licenciado,Garantia de fábrica,,
1,299896161723793383246777788797566040330,18.0,FIAT,STRADA,1.4 MPI WORKING CS 8V FLEX 2P MANUAL,2021,2021.0,53045.0,Manual,2,...,False,False,Aceita troca,Único dono,,IPVA pago,Licenciado,,,
2,316180649972302128246133616457018378621,8.0,AUDI,Q5,2.0 TFSI GASOLINA BLACK S TRONIC,2018,2019.0,32486.0,Automática,4,...,False,False,Aceita troca,,,IPVA pago,,,,
3,222527157104148385909188217274642813298,16.0,CHEVROLET,CRUZE,1.4 TURBO LT 16V FLEX 4P AUTOMÁTICO,2019,2020.0,24937.0,Automática,4,...,False,False,Aceita troca,Único dono,,IPVA pago,Licenciado,,,
4,160460343059850745858546502614838368036,8.0,FORD,ECOSPORT,1.5 TI-VCT FLEX SE AUTOMÁTICO,2019,2019.0,62074.0,Automática,4,...,False,False,Aceita troca,,,IPVA pago,Licenciado,,,


In [6]:
##VERIFICANDO SE HÁ DADOS DUPLICADOS
duplicados = df_cars_test['id'].duplicated()
if duplicados.any():
    print("Existem elementos duplicados na coluna 'id'.")
else:
    print("Não existem elementos duplicados na coluna 'id'.")

Não existem elementos duplicados na coluna 'id'.


In [7]:
print("==== ÍNDICE DE NULOS NOS ATRIBUTOS ====")
dados = df_cars_test.copy()
indice_nulos = (dados.isnull().sum() / len(dados) * 100)
print(indice_nulos)

==== ÍNDICE DE NULOS NOS ATRIBUTOS ====
id                           0.000000
num_fotos                    0.608396
marca                        0.000000
modelo                       0.000000
versao                       0.000000
ano_de_fabricacao            0.000000
ano_modelo                   0.000000
hodometro                    0.000000
cambio                       0.000000
num_portas                   0.000000
tipo                         0.000000
blindado                     0.000000
cor                          0.000000
tipo_vendedor                0.000000
cidade_vendedor              0.000000
estado_vendedor              0.000000
anunciante                   0.000000
entrega_delivery             0.000000
troca                        0.000000
elegivel_revisao             0.000000
dono_aceita_troca           25.897384
veiculo_único_dono          64.763740
revisoes_concessionaria     68.900831
ipva_pago                   33.441493
veiculo_licenciado          45.812208
garantia_d

### Deletando colunas

A exclusão das colunas com mais de 50% de valores nulos é uma abordagem razoável quando temos uma quantidade considerável de dados ausentes. Essas colunas possuem uma falta significativa de informações, o que pode comprometer a qualidade e confiabilidade da análise. Ao excluir essas colunas, garantimos que estamos trabalhando com dados mais completos e relevantes, facilitando a interpretação e a tomada de decisões. Além disso, evitamos introduzir vieses ou distorções nos resultados devido à falta de informações substanciais em determinadas colunas.

In [8]:
## DELETANDO COLUNAS COM MAIS DE 50% DE VALORES NULOS

limite = len(df_cars_test) * 0.5  # Definindo o limite de 50% dos valores nulos
df_cars_test = df_cars_test.dropna(thresh=limite, axis=1)

In [9]:
print("==== ÍNDICE DE NULOS NOS ATRIBUTOS ====")
dados = df_cars_test.copy()
indice_nulos = (dados.isnull().sum() / len(dados) * 100)
print(indice_nulos)

==== ÍNDICE DE NULOS NOS ATRIBUTOS ====
id                     0.000000
num_fotos              0.608396
marca                  0.000000
modelo                 0.000000
versao                 0.000000
ano_de_fabricacao      0.000000
ano_modelo             0.000000
hodometro              0.000000
cambio                 0.000000
num_portas             0.000000
tipo                   0.000000
blindado               0.000000
cor                    0.000000
tipo_vendedor          0.000000
cidade_vendedor        0.000000
estado_vendedor        0.000000
anunciante             0.000000
entrega_delivery       0.000000
troca                  0.000000
elegivel_revisao       0.000000
dono_aceita_troca     25.897384
ipva_pago             33.441493
veiculo_licenciado    45.812208
dtype: float64


### Substituindo valores nulos

A substituição dos valores nulos pela mediana (dados numéricos) ou pela moda (dados categóricos) é uma estratégia comum para preencher lacunas nos dados ausentes. Utilizar a mediana é uma abordagem robusta, especialmente para dados numéricos, pois é menos sensível a valores discrepantes (outliers) em comparação com a média. 

Ao substituir os valores nulos pela mediana nas colunas com menos de 50% de valores ausentes, estamos mantendo o máximo de informação possível, evitando perdas significativas de dados e preservando a distribuição original da variável. Isso nos permite realizar análises mais completas e confiáveis.

Ao substituir os valores nulos pela moda nessas colunas, estamos preenchendo as lacunas com os valores mais frequentes, ou seja, aqueles que aparecem com maior frequência nos dados existentes. Isso ajuda a preservar a distribuição original das variáveis e evita distorções significativas na análise estatística posterior.

In [10]:
mediana = df_cars_test['num_fotos'].median()  # Calculando a mediana da coluna "num_fotos"
df_cars_test['num_fotos'].fillna(mediana, inplace=True)  # Substituindo os valores nulos pela mediana

In [27]:
moda_dono_aceita_troca = mode(df_cars_test['dono_aceita_troca'])[0][0]  # Calculando a moda da coluna "dono_aceita_troca"
moda_ipva_pago = mode(df_cars_test['ipva_pago'])[0][0]  # Calculando a moda da coluna "ipva_pago"
moda_veiculo_licenciado = mode(df_cars_test['veiculo_licenciado'])[0][0]  # Calculando a moda da coluna "veiculo_licenciado"

df_cars_test['dono_aceita_troca'].fillna(moda_dono_aceita_troca, inplace=True)  # Substituindo os valores nulos pela moda em "dono_aceita_troca"
df_cars_test['ipva_pago'].fillna(moda_ipva_pago, inplace=True)  # Substituindo os valores nulos pela moda em "ipva_pago"
df_cars_test['veiculo_licenciado'].fillna(moda_veiculo_licenciado, inplace=True)  # Substituindo os valores nulos pela moda em "veiculo_licenciado"

In [12]:
print("==== ÍNDICE DE NULOS NOS ATRIBUTOS ====")
dados = df_cars_test.copy()
indice_nulos = (dados.isnull().sum() / len(dados) * 100)
print(indice_nulos)

==== ÍNDICE DE NULOS NOS ATRIBUTOS ====
id                    0.0
num_fotos             0.0
marca                 0.0
modelo                0.0
versao                0.0
ano_de_fabricacao     0.0
ano_modelo            0.0
hodometro             0.0
cambio                0.0
num_portas            0.0
tipo                  0.0
blindado              0.0
cor                   0.0
tipo_vendedor         0.0
cidade_vendedor       0.0
estado_vendedor       0.0
anunciante            0.0
entrega_delivery      0.0
troca                 0.0
elegivel_revisao      0.0
dono_aceita_troca     0.0
ipva_pago             0.0
veiculo_licenciado    0.0
dtype: float64


### Salvando os dados tratados em um novo dataframe

In [13]:
df_cars_test_limpos = df_cars_test.copy()  # Copia o DataFrame original para preservar os dados originais

# Salvar o DataFrame limpo em um novo arquivo CSV
df_cars_test_limpos.to_csv('df_cars_test_limpos.csv', index=False)

Vamos agora aplicar o mesmo tratamento ao dataframe cars_train

### Importando o arquivo CSV

In [14]:
df_cars_train = pd.read_csv("cars_train.csv", encoding='utf-16', sep="\t")

In [15]:
df_cars_train.shape

(29584, 29)

In [16]:
## INFORMAÇÕES RESUMIDA DA TABELA DE DADOS
df_cars_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29584 entries, 0 to 29583
Data columns (total 29 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   id                       29584 non-null  object 
 1   num_fotos                29407 non-null  float64
 2   marca                    29584 non-null  object 
 3   modelo                   29584 non-null  object 
 4   versao                   29584 non-null  object 
 5   ano_de_fabricacao        29584 non-null  int64  
 6   ano_modelo               29584 non-null  float64
 7   hodometro                29584 non-null  float64
 8   cambio                   29584 non-null  object 
 9   num_portas               29584 non-null  int64  
 10  tipo                     29584 non-null  object 
 11  blindado                 29584 non-null  object 
 12  cor                      29584 non-null  object 
 13  tipo_vendedor            29584 non-null  object 
 14  cidade_vendedor       

In [17]:
## VISUALIZANDO APENAS AS PRIMEIRAS LINHAS 
df_cars_train.head()

Unnamed: 0,id,num_fotos,marca,modelo,versao,ano_de_fabricacao,ano_modelo,hodometro,cambio,num_portas,...,elegivel_revisao,dono_aceita_troca,veiculo_único_dono,revisoes_concessionaria,ipva_pago,veiculo_licenciado,garantia_de_fábrica,revisoes_dentro_agenda,veiculo_alienado,preco
0,300716223898539419613863097469899222392,8.0,NISSAN,KICKS,1.6 16V FLEXSTART SL 4P XTRONIC,2017,2017.0,67772.0,CVT,4,...,False,,,Todas as revisões feitas pela concessionária,IPVA pago,Licenciado,,,,74732.590084
1,279639842134129588306469566150288644214,8.0,JEEP,COMPASS,2.0 16V FLEX LIMITED AUTOMÁTICO,2017,2017.0,62979.0,Automática,4,...,False,Aceita troca,,,IPVA pago,,,,,81965.332634
2,56414460810621048900295678236538171981,16.0,KIA,SORENTO,2.4 16V GASOLINA EX 7L AWD AUTOMÁTICO,2018,2019.0,44070.0,Automática,4,...,False,Aceita troca,,,,,,,,162824.814472
3,56862509826849933428086372390159405545,14.0,VOLKSWAGEN,AMAROK,2.0 HIGHLINE 4X4 CD 16V TURBO INTERCOOLER DIES...,2013,2015.0,85357.0,Automática,4,...,False,Aceita troca,,,IPVA pago,Licenciado,,,,123681.358857
4,338980975753200343894519909855598027197,8.0,SSANGYONG,KORANDO,2.0 GLS 4X4 16V TURBO DIESEL 4P AUTOMÁTICO,2013,2015.0,71491.0,Automática,4,...,False,,,Todas as revisões feitas pela concessionária,,,Garantia de fábrica,Todas as revisões feitas pela agenda do carro,,82419.763891


In [18]:
##VERIFICANDO SE HÁ DADOS DUPLICADOS
duplicados = df_cars_train['id'].duplicated()
if duplicados.any():
    print("Existem elementos duplicados na coluna 'id'.")
else:
    print("Não existem elementos duplicados na coluna 'id'.")

Não existem elementos duplicados na coluna 'id'.


In [19]:
print("==== ÍNDICE DE NULOS NOS ATRIBUTOS ====")
dados = df_cars_train.copy()
indice_nulos = (dados.isnull().sum() / len(dados) * 100)
print(indice_nulos)

==== ÍNDICE DE NULOS NOS ATRIBUTOS ====
id                           0.000000
num_fotos                    0.598296
marca                        0.000000
modelo                       0.000000
versao                       0.000000
ano_de_fabricacao            0.000000
ano_modelo                   0.000000
hodometro                    0.000000
cambio                       0.000000
num_portas                   0.000000
tipo                         0.000000
blindado                     0.000000
cor                          0.000000
tipo_vendedor                0.000000
cidade_vendedor              0.000000
estado_vendedor              0.000000
anunciante                   0.000000
entrega_delivery             0.000000
troca                        0.000000
elegivel_revisao             0.000000
dono_aceita_troca           25.899135
veiculo_único_dono          64.768118
revisoes_concessionaria     68.996755
ipva_pago                   33.548540
veiculo_licenciado          46.234451
garantia_d

In [20]:
## DELETANDO COLUNAS COM MAIS DE 50% DE VALORES NULOS

limite = len(df_cars_train) * 0.5  # Definindo o limite de 50% dos valores nulos
df_cars_train = df_cars_train.dropna(thresh=limite, axis=1)

In [21]:
print("==== ÍNDICE DE NULOS NOS ATRIBUTOS ====")
dados = df_cars_train.copy()
indice_nulos = (dados.isnull().sum() / len(dados) * 100)
print(indice_nulos)

==== ÍNDICE DE NULOS NOS ATRIBUTOS ====
id                     0.000000
num_fotos              0.598296
marca                  0.000000
modelo                 0.000000
versao                 0.000000
ano_de_fabricacao      0.000000
ano_modelo             0.000000
hodometro              0.000000
cambio                 0.000000
num_portas             0.000000
tipo                   0.000000
blindado               0.000000
cor                    0.000000
tipo_vendedor          0.000000
cidade_vendedor        0.000000
estado_vendedor        0.000000
anunciante             0.000000
entrega_delivery       0.000000
troca                  0.000000
elegivel_revisao       0.000000
dono_aceita_troca     25.899135
ipva_pago             33.548540
veiculo_licenciado    46.234451
preco                  0.000000
dtype: float64


In [22]:
mediana = df_cars_train['num_fotos'].median()  # Calculando a mediana da coluna "num_fotos"
df_cars_train['num_fotos'].fillna(mediana, inplace=True)  # Substituindo os valores nulos pela mediana

In [28]:
moda_dono_aceita_troca = mode(df_cars_test['dono_aceita_troca'])[0][0]  # Calculando a moda da coluna "dono_aceita_troca"
moda_ipva_pago = mode(df_cars_test['ipva_pago'])[0][0]  # Calculando a moda da coluna "ipva_pago"
moda_veiculo_licenciado = mode(df_cars_test['veiculo_licenciado'])[0][0]  # Calculando a moda da coluna "veiculo_licenciado"

df_cars_train['dono_aceita_troca'].fillna(moda_dono_aceita_troca, inplace=True)  # Substituindo os valores nulos pela moda em "dono_aceita_troca"
df_cars_train['ipva_pago'].fillna(moda_ipva_pago, inplace=True)  # Substituindo os valores nulos pela moda em "ipva_pago"
df_cars_train['veiculo_licenciado'].fillna(moda_veiculo_licenciado, inplace=True)  # Substituindo os valores nulos pela moda em "veiculo_licenciado"

In [24]:
print("==== ÍNDICE DE NULOS NOS ATRIBUTOS ====")
dados = df_cars_train.copy()
indice_nulos = (dados.isnull().sum() / len(dados) * 100)
print(indice_nulos)

==== ÍNDICE DE NULOS NOS ATRIBUTOS ====
id                    0.0
num_fotos             0.0
marca                 0.0
modelo                0.0
versao                0.0
ano_de_fabricacao     0.0
ano_modelo            0.0
hodometro             0.0
cambio                0.0
num_portas            0.0
tipo                  0.0
blindado              0.0
cor                   0.0
tipo_vendedor         0.0
cidade_vendedor       0.0
estado_vendedor       0.0
anunciante            0.0
entrega_delivery      0.0
troca                 0.0
elegivel_revisao      0.0
dono_aceita_troca     0.0
ipva_pago             0.0
veiculo_licenciado    0.0
preco                 0.0
dtype: float64


### Salvando os dados limpos em um novo dataframe

In [25]:
df_cars_train_limpos = df_cars_train.copy()  # Copia o DataFrame original para preservar os dados originais

# Salvar o DataFrame limpo em um novo arquivo CSV
df_cars_train_limpos.to_csv('df_cars_train_limpos.csv', index=False)

### Com base no que foi analisado inicialmente nos dados, realizamos os seguintes procedimentos para tratar os dados:
- Importamos os dados utilizando os parametros encoding='utf-16', sep="\t"
- Exclusão das colunas com mais de 50% de valores nulos (veiculo_alienado, revisoes_dentro_agenda, garantia_de_fábrica, revisoes_concessionaria, veiculo_único_dono)
- Substituindo valores nulos pela mediana (dados numéricos) ou pela moda (dados categóricos)
- Salvando os dados limpos em um novo dataframe