## Análise exploratória de dados


A análise deverá conter as seguintes seções:
- ***Descrição dos dados:*** informações sobre a quantidade de instâncias, variáveis e seus tipos, quantidade de valores faltantes, etc.
- ***Perguntas de partida e hipóteses:*** que tipo de informações podem ser obtidas a partir dos dados e quais hipóteses podem ser levantadas?
- ***Insights:*** respostas às perguntas feitas na seção anterior e quais informações interessantes podem ser levantadas através dos dados?

### Imports

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
from matplotlib import pyplot as plt
from IPython.display import Markdown

from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

### Leitura do dataset

In [2]:
df = pd.read_csv('/home/shuel/bootcamp/atlantico-bootcamp-cd/data/raw/Automobile_data.csv')
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [3]:
display(df.isnull().sum())

symboling            0
normalized-losses    0
make                 0
fuel-type            0
aspiration           0
num-of-doors         0
body-style           0
drive-wheels         0
engine-location      0
wheel-base           0
length               0
width                0
height               0
curb-weight          0
engine-type          0
num-of-cylinders     0
engine-size          0
fuel-system          0
bore                 0
stroke               0
compression-ratio    0
horsepower           0
peak-rpm             0
city-mpg             0
highway-mpg          0
price                0
dtype: int64

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 205 entries, 0 to 204
Data columns (total 26 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   symboling          205 non-null    int64  
 1   normalized-losses  205 non-null    object 
 2   make               205 non-null    object 
 3   fuel-type          205 non-null    object 
 4   aspiration         205 non-null    object 
 5   num-of-doors       205 non-null    object 
 6   body-style         205 non-null    object 
 7   drive-wheels       205 non-null    object 
 8   engine-location    205 non-null    object 
 9   wheel-base         205 non-null    float64
 10  length             205 non-null    float64
 11  width              205 non-null    float64
 12  height             205 non-null    float64
 13  curb-weight        205 non-null    int64  
 14  engine-type        205 non-null    object 
 15  num-of-cylinders   205 non-null    object 
 16  engine-size        205 non

In [6]:
df.describe(include="all")

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
count,205.0,205,205,205,205,205,205,205,205,205.0,...,205.0,205,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205
unique,,52,22,2,2,3,5,3,2,,...,,8,39.0,37.0,,60.0,24.0,,,187
top,,?,toyota,gas,std,four,sedan,fwd,front,,...,,mpfi,3.62,3.4,,68.0,5500.0,,,?
freq,,41,32,185,168,114,96,120,202,,...,,94,23.0,20.0,,19.0,37.0,,,4
mean,0.834146,,,,,,,,,98.756585,...,126.907317,,,,10.142537,,,25.219512,30.75122,
std,1.245307,,,,,,,,,6.021776,...,41.642693,,,,3.97204,,,6.542142,6.886443,
min,-2.0,,,,,,,,,86.6,...,61.0,,,,7.0,,,13.0,16.0,
25%,0.0,,,,,,,,,94.5,...,97.0,,,,8.6,,,19.0,25.0,
50%,1.0,,,,,,,,,97.0,...,120.0,,,,9.0,,,24.0,30.0,
75%,2.0,,,,,,,,,102.4,...,141.0,,,,9.4,,,30.0,34.0,


### 

### Descrição dos dados

Depois de ler o dataset podemos tirar algumas informações:

0. **Descrição das variáveis e seus tipos**

      ***symboling:*** corresponde ao nível de risco de seguro de um carro. Os carros recebem inicialmente um símbolo de fator de risco associado ao seu preço. Então, se um automóvel é mais arriscado, esse símbolo é ajustado movendo-o para cima na escala. Um valor de +3 indica que o automóvel é arriscado, -3 que provavelmente é bastante seguro.   
      
      ***normalized-losses:*** é o pagamento de perda média relativa por ano de veículo segurado. Este valor é normalizado para todos os automóveis dentro de uma determinada classificação de tamanho (duas portas, pequenos, peruas, esportivos/especializados, etc...), e representa a perda média por carro por ano. Os valores variam de 65 a 256.  
        
      ***make:*** marca do carro     
      
      ***fuel-type:*** tipo de combústivel    
      
      ***aspiration:*** tipo de motor | turbo ou aspirado (std) 
      
      ***num-of-doors:*** número de portas 
      
      ***body-style:*** tipo de carro    
      
      ***drive-wheels:*** tração
      
      ***engine-location:*** local onde fica o motor
      
      ***wheel-base:*** distância entre os eixos   
      
      ***length:*** comprimento
      
      ***width:*** largura
      
      ***height:*** altura
      
      ***curb-weight:*** o peso do veículo, incluindo um tanque cheio de combustível e todo o equipamento padrão  
      
      ***engine-type:***  sistemas de comando de válvulas
      
      ***num-of-cylinders:*** número de cilindros
      
      ***engine-size:*** cilindradas    
      
      ***fuel-system:*** injeção eletrônica
      
      ***bore:*** parte do motor de pistão, significa diâmetro do cilindro no motor.       
      
      ***stroke:*** movimento do ponto morto inferior para o ponto morto superior ou o oposto     
      
      ***compression-ratio:***  taxa de compressão, é a razão entre o volume do cilindro e a câmara de combustão em um motor de combustão interna em seus valores máximo e mínimo.
      
      ***horsepower:***  cavalos
      
      ***peak-rpm:***  rotações por minuto   
      
      ***city-mpg:***  distância, medida em milhas, que um carro pode percorrer por galão de combustível na cidade
      
      ***highway-mpg:*** distância, medida em milhas, que um carro pode percorrer por galão de combustível na estrada 
      
      ***price:*** preço do carro


1. **Quantidade de instâncias:** 205

2. **Variáveis e seus tipos:**
    Temos 25 variáveis
    
    ***Variáveis quantitativas:***
    
        wheel-base
        length
        width
        height
        curb-weight
        engine-size
        compression-ratio
        horsepower
        city-mpg 
        highway-mpg
        price
           
    ***Variáveis qualitativas:***
    
        symboling
        normalized-losses
        make
        fuel-type
        aspiration
        num-of-doors
        body-style
        drive-wheels 
        engine-location
        engine-type 
        num-of-cylinders
        fuel-system 
        bore 
        stroke
        peak-rpm  
        
    
        
3. **Quantidade de valores faltantes:**

In [7]:
df = df.replace('?', np.nan)

In [8]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [10]:
display(Markdown("#### Quantidade faltante "))
display(df.isnull().sum())

display(Markdown("#### Quantidade de linhas e linhas"))
display(df.shape)

#### Quantidade faltante 

symboling             0
normalized-losses    41
make                  0
fuel-type             0
aspiration            0
num-of-doors          2
body-style            0
drive-wheels          0
engine-location       0
wheel-base            0
length                0
width                 0
height                0
curb-weight           0
engine-type           0
num-of-cylinders      0
engine-size           0
fuel-system           0
bore                  4
stroke                4
compression-ratio     0
horsepower            2
peak-rpm              2
city-mpg              0
highway-mpg           0
price                 4
dtype: int64

#### Quantidade de linhas e linhas

(205, 26)

In [11]:
# Como quero fazer um comparativo de valores e carros, vou eliminar os que estão com valores ausentes

In [12]:
df.dropna(subset=["price"], axis=0, inplace=True)

In [13]:
# Conforme os dados mostrados anteriormente podemos ver que,"normalized-losses", "num-of-doors", "bore", "stroke", "horsepower", "peak-rpm" tem valores faltantes

In [14]:
# Vou excluir as faltantas no normalized-losses par não comprometer minha análise
df.dropna(subset=["normalized-losses"], axis=0, inplace=True)

In [15]:
display(Markdown("#### Quantidade faltante "))
display(df.isnull().sum())

display(Markdown("#### Quantidade de linhas e linhas"))
display(df.shape)

#### Quantidade faltante 

symboling            0
normalized-losses    0
make                 0
fuel-type            0
aspiration           0
num-of-doors         1
body-style           0
drive-wheels         0
engine-location      0
wheel-base           0
length               0
width                0
height               0
curb-weight          0
engine-type          0
num-of-cylinders     0
engine-size          0
fuel-system          0
bore                 4
stroke               4
compression-ratio    0
horsepower           0
peak-rpm             0
city-mpg             0
highway-mpg          0
price                0
dtype: int64

#### Quantidade de linhas e linhas

(164, 26)

In [16]:
# Agora tenho dados faltantes apenas em "num-of-doors", "bore" e "stroke"
# Para não perder mais dados vou utilizar uma ténica em cada um:
# num-of-doors - Vou substituir os valores faltantes pela moda
# bore - Vou substituir os valores faltantes pela média
# stroke - Vou substituir os valores faltantes pela mediana

In [35]:
simple_imputer = SimpleImputer(strategy='most_frequent')
simple_imputer.fit(df[['num-of-doors']])
df[['num-of-doors']] = simple_imputer.transform(df[['num-of-doors']])

In [36]:
simple_imputer = SimpleImputer(strategy='mean')
simple_imputer.fit(df[['bore']])
df[['bore']] = simple_imputer.transform(df[['bore']])

In [37]:
simple_imputer = SimpleImputer(strategy='median')
simple_imputer.fit(df[['stroke']])
df[['stroke']] = simple_imputer.transform(df[['stroke']])

In [38]:
display(Markdown("#### Quantidade faltante "))
display(df.isnull().sum())

display(Markdown("#### Quantidade de linhas e linhas"))
display(df.shape)

#### Quantidade faltante 

symboling            0
normalized-losses    0
make                 0
fuel-type            0
aspiration           0
num-of-doors         0
body-style           0
drive-wheels         0
engine-location      0
wheel-base           0
length               0
width                0
height               0
curb-weight          0
engine-type          0
num-of-cylinders     0
engine-size          0
fuel-system          0
bore                 0
stroke               0
compression-ratio    0
horsepower           0
peak-rpm             0
city-mpg             0
highway-mpg          0
price                0
dtype: int64

#### Quantidade de linhas e linhas

(164, 26)

In [39]:
# Agora que tenho nenhum valor faltantes posso fazer uma melhor análise

In [40]:
# Quais são as características que mais impactam no preço do carro ?
# Qual estilo de carro (body-style) é o mais caro?
# Relação de cavalos e automia de combustível
# Qual marca possui os carros mais caros e qual marca possui os carros mais baratos?
# Diferença de peso (curb-weight) de acordo com cada estilo de carro (body-style).