# Análise exploratória de dados

In [3]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
from pathlib import Path
import seaborn as sns 
from IPython.display import display, Markdown 

## 1. Descrição dos dados

### Conjunto de dados

Este conjunto de dados é uma coleção de mais de 90 mil carros abrangendo os anos de 1970 a 2024. Além disso, conta com informações como o modelo, preço,quilometragem, transmissão, tamanho do motor, fabricante e tipo de combustível.

In [4]:
df = pd.read_csv('../data/raw/CarsData.csv')
df.to_csv('../data/raw/CarsData.csv', index=False)

#### Dimensão do DataFrame

In [5]:
df.shape

(97712, 10)

#### Visão geral dos dados

In [6]:
df.head()

Unnamed: 0,model,year,price,transmission,mileage,fuelType,tax,mpg,engineSize,Manufacturer
0,I10,2017,7495,Manual,11630,Petrol,145,60.1,1.0,hyundi
1,Polo,2017,10989,Manual,9200,Petrol,145,58.9,1.0,volkswagen
2,2 Series,2019,27990,Semi-Auto,1614,Diesel,145,49.6,2.0,BMW
3,Yeti Outdoor,2017,12495,Manual,30960,Diesel,150,62.8,2.0,skoda
4,Fiesta,2017,7999,Manual,19353,Petrol,125,54.3,1.2,ford


#### Informações da tabela

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97712 entries, 0 to 97711
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   model         97712 non-null  object 
 1   year          97712 non-null  int64  
 2   price         97712 non-null  int64  
 3   transmission  97712 non-null  object 
 4   mileage       97712 non-null  int64  
 5   fuelType      97712 non-null  object 
 6   tax           97712 non-null  int64  
 7   mpg           97712 non-null  float64
 8   engineSize    97712 non-null  float64
 9   Manufacturer  97712 non-null  object 
dtypes: float64(2), int64(4), object(4)
memory usage: 7.5+ MB


#### Colunas da tabela

In [33]:
df.columns

Index(['model', 'year', 'price', 'transmission', 'mileage', 'fuelType', 'tax',
       'mpg', 'engineSize', 'Manufacturer'],
      dtype='object')

### Dicionário de dados

In [8]:
df_dc = pd.read_csv('../data/external/DictionaryCarsData.csv')
df_dc.head()

Unnamed: 0,Variável,Descrição
0,Model,O modelo do carro
1,Year,O ano de fabricação do carro
2,Price,O preço do carro
3,Transmission,O tipo de transmissão usado no carro
4,Mileage,A quilometragem do carro


### Adição de duas colunas na documentação

É necessária duas colunas com o tipo e o subtipo das variáveis no discionário, que serão adicionadas abaixo.

In [10]:
caminho = '../data/external/DictionaryCarsData.csv'

df_dc = pd.read_csv(caminho)

#adição da coluna tipo
Tipo = [
    'Qualitativa', 'Quantitativa', 'Quantitativa', 'Qualitativa', 
    'Quantitativa', 'Qualitativa', 'Quantitativa', 'Quantitativa', 
    'Quantitativa', 'Qualitativa'
]

#adição da coluna subtipo
Subtipo = [
    'Nominal', 'Discreta', 'Continua', 'Nominal', 
    'Continua', 'Nominal', 'Continua', 'Continua', 
    'Continua', 'Nominal'
]

df_dc['Tipo'] = Tipo
df_dc['Subtipo'] = Subtipo

df_dc.to_csv(caminho, index=False)

In [11]:
df_dc.head()

Unnamed: 0,Variável,Descrição,Tipo,Subtipo
0,Model,O modelo do carro,Qualitativa,Nominal
1,Year,O ano de fabricação do carro,Quantitativa,Discreta
2,Price,O preço do carro,Quantitativa,Continua
3,Transmission,O tipo de transmissão usado no carro,Qualitativa,Nominal
4,Mileage,A quilometragem do carro,Quantitativa,Continua


In [12]:
df_dc.columns

Index(['Variável', 'Descrição', 'Tipo', 'Subtipo'], dtype='object')

### Estatísticas Descritivas

Estatísticas descritivas para as variáveis numéricas (média, mediana, desvio padrão, valores mínimos e máximos, quartis).

In [13]:
df.describe().round(2)

Unnamed: 0,year,price,mileage,tax,mpg,engineSize
count,97712.0,97712.0,97712.0,97712.0,97712.0,97712.0
mean,2017.07,16773.49,23219.48,120.14,55.21,1.66
std,2.12,9868.55,21060.88,63.36,16.18,0.56
min,1970.0,450.0,1.0,0.0,0.3,0.0
25%,2016.0,9999.0,7673.0,125.0,47.1,1.2
50%,2017.0,14470.0,17682.5,145.0,54.3,1.6
75%,2019.0,20750.0,32500.0,145.0,62.8,2.0
max,2024.0,159999.0,323000.0,580.0,470.8,6.6


#### Categorias e Frequências

Estatísticas descritivas para variáveis qualitativas, categorias únicas e as frequências.

In [14]:
df = pd.read_csv('../data/raw/CarsData.csv')

colunas_categoricas = ['model', 'transmission', 'fuelType', 'Manufacturer']

for coluna in colunas_categoricas:
    print(f'Valores e Frequências para a coluna {coluna}:')
    print(df[coluna].value_counts())
    print('\n')

Valores e Frequências para a coluna model:
Fiesta             6509
Golf               4797
Focus              4555
C Class            3694
Corsa              3285
                   ... 
Transit Tourneo       1
Escort                1
200                   1
Ranger                1
220                   1
Name: model, Length: 195, dtype: int64


Valores e Frequências para a coluna transmission:
Manual       55502
Semi-Auto    22296
Automatic    19905
Other            9
Name: transmission, dtype: int64


Valores e Frequências para a coluna fuelType:
Petrol      53982
Diesel      40419
Hybrid       3059
Other         246
Electric        6
Name: fuelType, dtype: int64


Valores e Frequências para a coluna Manufacturer:
ford          17811
volkswagen    14893
vauxhall      13258
merc          12860
BMW           10664
Audi          10565
toyota         6699
skoda          6188
hyundi         4774
Name: Manufacturer, dtype: int64




#### Número de categorias por variáveis

In [15]:
df = pd.read_csv('../data/raw/CarsData.csv')

colunas_categoricas = ['model', 'transmission', 'fuelType', 'Manufacturer']

categorias_unicas = {}

for coluna in colunas_categoricas:
    categorias_unicas[coluna] = df[coluna].nunique()

for coluna, num_categorias in categorias_unicas.items():
    print(f'{coluna}: {num_categorias}')

model: 195
transmission: 4
fuelType: 5
Manufacturer: 9


### Verificação de valores ausentes

In [16]:
valores_ausentes = df.isnull().sum()

total_valores = df.shape[0]



analise_ausentes = pd.DataFrame({
    'Valores Ausentes': valores_ausentes,
})

print(analise_ausentes)

              Valores Ausentes
model                        0
year                         0
price                        0
transmission                 0
mileage                      0
fuelType                     0
tax                          0
mpg                          0
engineSize                   0
Manufacturer                 0


## 2. Perguntas de partida e hipóteses

#### As perguntas de partida e hipóteses serão com base nos seguintes questionamentos: ###
#### 1. Evolução de Preços:
- Como os preços dos carros mudaram ao longo do tempo (1970-2024)? 
- Existe uma diferença significativa de preço entre carros de diferentes fabricantes ao longo dos anos?
#### 2. Características dos Carros:
- Como as características dos carros (como tipo de combustível, potência, consumo de combustível) evoluíram ao longo das décadas?
- Houve um aumento significativo no uso de carros elétricos ou híbridos desde 2010?
#### 4. Desempenho e Eficiência:
- Houve uma melhora no desempenho (potência do motor) em relação ao consumo de combustível (km/l)?
- Como a eficiência de combustível dos carros mudou ao longo do tempo, especialmente com a introdução de novos modelos e tecnologias?
#### 5. Mudanças no Mercado de Automóveis:
- Quais marcas ou modelos dominaram o mercado de carros em diferentes décadas?
- Como a segmentação do mercado (carros de luxo, populares, esportivos) evoluiu ao longo dos anos?

## Hipóteses:
- O consumo médio de combustível dos carros aumentou com o passar das décadas, devido ao aumento de carros com maior potência.
- O preço médio dos carros aumentou ao longo do tempo, especialmente devido ao aumento nos custos de fabricação e melhorias tecnológicas.
- As crises econômicas, como a crise financeira de 2008, tiveram um impacto negativo nas vendas de carros de luxo e veículos de alta potência.


## 3. Insights

- Mudança de características dos carros: Como a potência e a eficiência dos motores mudaram ao longo das décadas?
- Como os preços e a demanda por carros esportivos mudaram em relação aos carros familiares?