# Importando Ferramentas

In [302]:
import pandas as pd
import numpy as np

# Criando o DataFrame com as Colunas Desejadas (excl. Pandas)

In [303]:
colunas = [0,1,2,3,4,5,6,7,9,10,14,29]

In [304]:
dados = pd.read_csv('dados/cars.csv',usecols=colunas)

In [305]:
dfuc = pd.DataFrame(dados)

In [306]:
dfuc.head()

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_capacity,body_type,price_usd,duration_listed
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,2.5,universal,10900.0,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,3.0,universal,5000.0,83
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,2.5,suv,2800.0,151
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,3.0,sedan,9999.0,86
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,2.5,universal,2134.11,7


# Renomeando Colunas

In [307]:
nomes_colunas = {'manufacturer_name':'Montadora','model_name':'Modelo','transmission':'Transmissão','color':'Cor','odometer_value':'Kilometragem','year_produced':'Ano','engine_fuel':'Combustível','engine_has_gas':'Tem GNV','engine_capacity':'Motor','body_type':'Categoria','price_usd':'Preço (US$)','duration_listed':'Duração do Anúncio (dias)'}

In [308]:
dfuc.rename(columns=nomes_colunas,inplace=True)

In [309]:
dfuc.head()

Unnamed: 0,Montadora,Modelo,Transmissão,Cor,Kilometragem,Ano,Combustível,Tem GNV,Motor,Categoria,Preço (US$),Duração do Anúncio (dias)
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,2.5,universal,10900.0,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,3.0,universal,5000.0,83
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,2.5,suv,2800.0,151
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,3.0,sedan,9999.0,86
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,2.5,universal,2134.11,7


# Alterando o DataType da Coluna Preço

In [310]:
dfuc.dtypes

Montadora                     object
Modelo                        object
Transmissão                   object
Cor                           object
Kilometragem                   int64
Ano                            int64
Combustível                   object
Tem GNV                         bool
Motor                        float64
Categoria                     object
Preço (US$)                  float64
Duração do Anúncio (dias)      int64
dtype: object

In [311]:
# não necessário. O Pandas já interpreta os tipos de dados de cada coluna

# Removendo Registros de Valor Nulo

In [312]:
null = dfuc['Motor'].isnull()

In [313]:
null.drop_duplicates()

0       False
8782     True
Name: Motor, dtype: bool

In [314]:
dfuc.dropna(axis=0,how='any',inplace=True)

In [315]:
null = dfuc['Motor'].isnull()
null.drop_duplicates()

0    False
Name: Motor, dtype: bool

# Convertendo Coluna "Tem GNV"

In [316]:
dfuc['GNV'] = np.where(dfuc['Tem GNV'] == True, 'Sim', 'Não')

In [317]:
dfuc.head()

Unnamed: 0,Montadora,Modelo,Transmissão,Cor,Kilometragem,Ano,Combustível,Tem GNV,Motor,Categoria,Preço (US$),Duração do Anúncio (dias),GNV
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,2.5,universal,10900.0,16,Não
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,3.0,universal,5000.0,83,Não
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,2.5,suv,2800.0,151,Não
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,3.0,sedan,9999.0,86,Não
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,2.5,universal,2134.11,7,Não


In [318]:
gnv = dfuc['GNV']
gnv.drop_duplicates()

0     Não
31    Sim
Name: GNV, dtype: object

# Traduzindo / Convertendo Dados

In [319]:
dfuc.head()

Unnamed: 0,Montadora,Modelo,Transmissão,Cor,Kilometragem,Ano,Combustível,Tem GNV,Motor,Categoria,Preço (US$),Duração do Anúncio (dias),GNV
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,2.5,universal,10900.0,16,Não
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,3.0,universal,5000.0,83,Não
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,2.5,suv,2800.0,151,Não
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,3.0,sedan,9999.0,86,Não
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,2.5,universal,2134.11,7,Não


## Transmissão

In [320]:
transmissao = dfuc['Transmissão']
transmissao.drop_duplicates()

0     automatic
3    mechanical
Name: Transmissão, dtype: object

In [321]:
transm_rename = {'automatic':'Automático','machanical':'Manual'}
dfuc['Transmissão'].replace(transm_rename,inplace=True)

In [322]:
transmissao_new = dfuc['Transmissão']
transmissao_new.drop_duplicates()

0    Automático
3    mechanical
Name: Transmissão, dtype: object

## Cor

In [323]:
cor = dfuc['Cor']
cor.drop_duplicates()

0     silver
1       blue
2        red
4      black
8       grey
10     other
14     brown
20     white
24     green
27    violet
59    orange
92    yellow
Name: Cor, dtype: object

In [328]:
cor_rename = {'silver':'Prata','blue':'Azul','red':'Vermelho','black':'Preto','grey':'Cinza','other':'Outro','brown':'Marrom','white':'Branco','green':'Verde','violet':'Roxo','orange':'Laranja','yellow':'Amarelo'}
dfuc['Cor'].replace(cor_rename,inplace=True)

In [329]:
cor_new = dfuc['Cor']
cor_new.drop_duplicates()

0        Prata
1         Azul
2     Vermelho
4        Preto
8        Cinza
10       Outro
14      Marrom
20      Branco
24       Verde
27        Roxo
59     Laranja
92     Amarelo
Name: Cor, dtype: object

## Combustível

In [331]:
combustivel = dfuc['Combustível']
combustivel.drop_duplicates()

0            gasoline
31                gas
136            diesel
2153    hybrid-petrol
5177    hybrid-diesel
Name: Combustível, dtype: object

In [332]:
combs_rename = {'gasoline':'Gasolina','gas':'Gás','diesel':'Diesel','hybrid-petrol':'Híbrido','hybrid-diesel':'Híbrido'}
dfuc['Combustível'].replace(combs_rename,inplace=True)

In [333]:
combustivel_new = dfuc['Combustível']
combustivel_new.drop_duplicates()

0       Gasolina
31           Gás
136       Diesel
2153     Híbrido
Name: Combustível, dtype: object

## Categoria

In [334]:
categoria = dfuc['Categoria']
categoria.drop_duplicates()

0        universal
2              suv
3            sedan
13       hatchback
43        liftback
103        minivan
201        minibus
318            van
384         pickup
440          coupe
1835     cabriolet
19486    limousine
Name: Categoria, dtype: object

In [336]:
categ_rename = {'universal':'SUV','suv':'SUV','sedan':'Sedan','hatchback':'Hatch','liftback':'SUV','minivan':'Minivan','minibus':'Minivan','van':'Van','pickup':'Pickup','coupe':'Coupê','cabriolet':'Conversível','limousine':'Limosine'}
dfuc['Categoria'].replace(categ_rename,inplace=True)

In [337]:
categoria_new = dfuc['Categoria']
categoria_new.drop_duplicates()

0                SUV
3              Sedan
13             Hatch
103          Minivan
318              Van
384           Pickup
440            Coupê
1835     Conversível
19486       Limosine
Name: Categoria, dtype: object

## Preço (US$)

In [338]:
dfuc['Valor (R$)'] = round(dfuc['Preço (US$)'] * 5.5,2)

In [339]:
dfuc.head()

Unnamed: 0,Montadora,Modelo,Transmissão,Cor,Kilometragem,Ano,Combustível,Tem GNV,Motor,Categoria,Preço (US$),Duração do Anúncio (dias),GNV,Valor (R$)
0,Subaru,Outback,Automático,Prata,190000,2010,Gasolina,False,2.5,SUV,10900.0,16,Não,59950.0
1,Subaru,Outback,Automático,Azul,290000,2002,Gasolina,False,3.0,SUV,5000.0,83,Não,27500.0
2,Subaru,Forester,Automático,Vermelho,402000,2001,Gasolina,False,2.5,SUV,2800.0,151,Não,15400.0
3,Subaru,Impreza,mechanical,Azul,10000,1999,Gasolina,False,3.0,Sedan,9999.0,86,Não,54994.5
4,Subaru,Legacy,Automático,Preto,280000,2001,Gasolina,False,2.5,SUV,2134.11,7,Não,11737.61


# Excluindo Colunas "Tem GNV" e "Preço (US$)"

In [340]:
colunas_excluir = ['Tem GNV', 'Preço (US$)']

In [341]:
dfuc.drop(columns=colunas_excluir,inplace=True)

In [342]:
dfuc.head()

Unnamed: 0,Montadora,Modelo,Transmissão,Cor,Kilometragem,Ano,Combustível,Motor,Categoria,Duração do Anúncio (dias),GNV,Valor (R$)
0,Subaru,Outback,Automático,Prata,190000,2010,Gasolina,2.5,SUV,16,Não,59950.0
1,Subaru,Outback,Automático,Azul,290000,2002,Gasolina,3.0,SUV,83,Não,27500.0
2,Subaru,Forester,Automático,Vermelho,402000,2001,Gasolina,2.5,SUV,151,Não,15400.0
3,Subaru,Impreza,mechanical,Azul,10000,1999,Gasolina,3.0,Sedan,86,Não,54994.5
4,Subaru,Legacy,Automático,Preto,280000,2001,Gasolina,2.5,SUV,7,Não,11737.61


# Exportando DataFrame Para JSON

In [343]:
dfuc.to_json('dados/carros_usados.json')