## Vizualização de dados sobre venda de carros

## Informações que seram geradas com o DF em questão
1. Qual a media de preco
2. Qual a media de kilometragem
3. Qual a media de quilometragem rodada por quantidade de donos
4. Media de preço por tipo combustivel e tipo de transmição

### Configurando ambiente e recebendo os dados  

In [29]:
# Importando as Bibliotecas do Python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [30]:
# Recebendo os dados do Kaggle
df = pd.read_csv("./data/CAR_DETAILS.csv")

# Confirmando o carregamento do DataFrame
display(df)

Unnamed: 0,name,year,selling_price,km_driven,fuel,seller_type,transmission,owner
0,Maruti 800 AC,2007,60000,70000,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000,50000,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000,100000,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000,46000,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000,141000,Diesel,Individual,Manual,Second Owner
...,...,...,...,...,...,...,...,...
4335,Hyundai i20 Magna 1.4 CRDi (Diesel),2014,409999,80000,Diesel,Individual,Manual,Second Owner
4336,Hyundai i20 Magna 1.4 CRDi,2014,409999,80000,Diesel,Individual,Manual,Second Owner
4337,Maruti 800 AC BSIII,2009,110000,83000,Petrol,Individual,Manual,Second Owner
4338,Hyundai Creta 1.6 CRDi SX Option,2016,865000,90000,Diesel,Individual,Manual,First Owner


### Visualizando informações do DF carregado 

In [31]:
# Verifando informacaoes do DF
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4340 entries, 0 to 4339
Data columns (total 8 columns):
name             4340 non-null object
year             4340 non-null int64
selling_price    4340 non-null int64
km_driven        4340 non-null int64
fuel             4340 non-null object
seller_type      4340 non-null object
transmission     4340 non-null object
owner            4340 non-null object
dtypes: int64(3), object(5)
memory usage: 271.4+ KB


In [32]:
# Verificando a existencia de dados ausentes
df.isnull().sum()

name             0
year             0
selling_price    0
km_driven        0
fuel             0
seller_type      0
transmission     0
owner            0
dtype: int64

In [33]:
# Acessando informaÇões do DF
df.count() # Out 4340 dados

name             4340
year             4340
selling_price    4340
km_driven        4340
fuel             4340
seller_type      4340
transmission     4340
owner            4340
dtype: int64

In [34]:
# Informações estatisticas do DF
df.describe()

Unnamed: 0,year,selling_price,km_driven
count,4340.0,4340.0,4340.0
mean,2013.090783,504127.3,66215.777419
std,4.215344,578548.7,46644.102194
min,1992.0,20000.0,1.0
25%,2011.0,208749.8,35000.0
50%,2014.0,350000.0,60000.0
75%,2016.0,600000.0,90000.0
max,2020.0,8900000.0,806599.0


In [35]:
# Vizualizando dados distintos do DF
# pd.unique(df['Ano_Venda'])
# [2007, 2012, 2017, 2014, 2016, 2015, 2018, 2019, 2013, 2011, 2010,
# 2009, 2006, 1996, 2005, 2008, 2004, 1998, 2003, 2002, 2020, 2000,
# 1999, 2001, 1995, 1997, 1992

# pd.unique(df['Tipo_Combustivel'])
# ['Petrol', 'Diesel', 'CNG', 'LPG', 'Electric']

# pd.unique(df['Tipo_Venda'])
# ['Individual', 'Dealer', 'Trustmark Dealer']

# pd.unique(df['Tipo_Transmissao'])
# ['Manual', 'Automatic']

# pd.unique(df['Proprietario'])
# ['First Owner', 'Second Owner', 'Fourth & Above Owner', 'Third Owner', 'Test Drive Car']

### Tratando o DF

In [36]:
# Traduzindo os o nome das colunas do DF
df.rename(columns={'name': 'Nome', 
                'year': 'Ano_Venda', 
                'selling_price': 'Valor_Venda', 
                'km_driven': 'Km_Rodado', 
                'fuel': 'Tipo_Combustivel', 
                'seller_type': 'Tipo_Venda',
                'transmission': 'Tipo_Transmissao',
                'owner': 'Proprietario'}, inplace=True)
df.head()

Unnamed: 0,Nome,Ano_Venda,Valor_Venda,Km_Rodado,Tipo_Combustivel,Tipo_Venda,Tipo_Transmissao,Proprietario
0,Maruti 800 AC,2007,60000,70000,Petrol,Individual,Manual,First Owner
1,Maruti Wagon R LXI Minor,2007,135000,50000,Petrol,Individual,Manual,First Owner
2,Hyundai Verna 1.6 SX,2012,600000,100000,Diesel,Individual,Manual,First Owner
3,Datsun RediGO T Option,2017,250000,46000,Petrol,Individual,Manual,First Owner
4,Honda Amaze VX i-DTEC,2014,450000,141000,Diesel,Individual,Manual,Second Owner


In [37]:
# Traduzindo os valores do DF
df['Tipo_Combustivel'].replace(
    {'Petrol': 'Gasolina', 'Diesel': 'Disel', 'CNG': 'Gas Natural Veicular', 'LPG': 'gás liquefeito de petróleo', 'Electric': 'Eletrico'},
    inplace=True)

df['Tipo_Venda'].replace({'Trustmark Dealer': 'Revendedor de confiança', 'Dealer': 'Revendedor'}, inplace=True)

df['Tipo_Transmissao'].replace({'Automatic': 'Automatico'}, inplace=True)

df['Proprietario'].replace(
    {'First Owner': 'Primeiro Dono', 'Second Owner': 'Segundo Dono', 
     'Fourth & Above Owner': 'Quarto e Proprietário Acima', 'Third Owner': 'Terceiro Proprietário', 
     'Test Drive Car': 'Carro de Teste'}, inplace=True
)
# df

In [38]:
# Mudando o tipo do dado da coluna Valor_Venda para float
df['Valor_Venda'].astype(float)

0        60000.0
1       135000.0
2       600000.0
3       250000.0
4       450000.0
          ...   
4335    409999.0
4336    409999.0
4337    110000.0
4338    865000.0
4339    225000.0
Name: Valor_Venda, Length: 4340, dtype: float64

### Analizando os Dados

#### Criando as Series para plotar os dados 

In [41]:
# Media de precos
df['Valor_Venda'].mean()

504127.3117511521

In [None]:
# Preco por ano
ano = df['Ano_Venda']
preco = df['Valor_Venda']

plt.bar(ano, preco)
plt.title("Ano de Venda X Valor da Venda")
plt.xlabel("Ano da Venda")
plt.xticks(np.arange(1990, 2021, step=10))
plt.ylabel("Valor da Venda")
plt.yticks(np.arange(50000.00, 5000000.00))
plt.show()