# 1 Análise Exploratória dos dados

A partir da base de dados precos_carros_brasil.csv, execute as seguintes tarefas:
<ol type="a">
<li>Carregue a base de dados media_precos_carros_brasil.csv</li>
<li>Verifique se há valores faltantes nos dados. Caso haja, escolha uma tratativa para resolver o problema de valores faltantes</li>
<li>Verifique se há dados duplicados nos dados</li>
<li>Crie duas categorias, para separar colunas numéricas e categóricas.</li>
<li>Imprima o resumo de informações das variáveis numéricas e categóricas (estatística descritiva dos dados) Imprima a contagem de valores por modelo (model) e marca do carro (brand)</li>
<li>Dê um breve explicação (máximo de quatro linhas) sobre os principais resultados encontrados na Análise Exploratória dos dados</li>
</ol>

Importando as libs necessárias

In [67]:
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

## Carregando a base de dados precos_carros_brasil.csv

In [68]:
# lendo o csv com os dados
dados = pd.read_csv('precos_carros_brasil.csv')

In [69]:
# verificando os dados
dados.head()

Unnamed: 0,year_of_reference,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size,year_model,avg_price_brl
0,2021.0,January,004001-0,cfzlctzfwrcp,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Gasoline,manual,1,2002.0,9162.0
1,2021.0,January,004001-0,cdqwxwpw3y2p,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Gasoline,manual,1,2001.0,8832.0
2,2021.0,January,004001-0,cb1t3xwwj1xp,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Gasoline,manual,1,2000.0,8388.0
3,2021.0,January,004001-0,cb9gct6j65r0,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Alcohol,manual,1,2000.0,8453.0
4,2021.0,January,004003-7,g15wg0gbz1fx,GM - Chevrolet,Corsa Pick-Up GL/ Champ 1.6 MPFI / EFI,Gasoline,manual,16,2001.0,12525.0


In [70]:
# verificando as colunas
dados.columns

Index(['year_of_reference', 'month_of_reference', 'fipe_code',
       'authentication', 'brand', 'model', 'fuel', 'gear', 'engine_size',
       'year_model', 'avg_price_brl'],
      dtype='object')

In [71]:
# verificando o tamanho 
dados.shape

(267542, 11)

In [72]:
dados.dtypes

year_of_reference     float64
month_of_reference     object
fipe_code              object
authentication         object
brand                  object
model                  object
fuel                   object
gear                   object
engine_size            object
year_model            float64
avg_price_brl         float64
dtype: object

---
## Verificando se há valores faltantes

Verifique se há valores faltantes nos dados. Caso haja, escolha uma tratativa para resolver o problema de valores faltantes

In [73]:
# vamos ver se temos dados faltando
dados.isna().any()

year_of_reference     True
month_of_reference    True
fipe_code             True
authentication        True
brand                 True
model                 True
fuel                  True
gear                  True
engine_size           True
year_model            True
avg_price_brl         True
dtype: bool

In [74]:
# faltam dados em todas as colunas, mas quanto temos faltando?
dados.isna().sum()

year_of_reference     65245
month_of_reference    65245
fipe_code             65245
authentication        65245
brand                 65245
model                 65245
fuel                  65245
gear                  65245
engine_size           65245
year_model            65245
avg_price_brl         65245
dtype: int64

In [75]:
# vamos adicionar um valor padrão para os faltantes
dados['year_of_reference'].fillna(0.0, inplace=True)
dados['month_of_reference'].fillna("ND", inplace=True)
dados['fipe_code'].fillna("ND", inplace=True)
dados['authentication'].fillna("ND", inplace=True)
dados['brand'].fillna("ND", inplace=True)
dados['model'].fillna("ND", inplace=True)
dados['fuel'].fillna("ND", inplace=True)
dados['gear'].fillna("ND", inplace=True)
dados['engine_size'].fillna("ND", inplace=True)
dados['year_model'].fillna(0.0, inplace=True)
dados['avg_price_brl'].fillna(0.0, inplace=True)

## Verificando dados duplicados
Verifique se há dados duplicados nos dados

In [76]:
# verificando se tem dados duplicados
dados.duplicated().sum()

65246

In [77]:
# listando os duplicados
dados[dados.duplicated()]

Unnamed: 0,year_of_reference,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size,year_model,avg_price_brl
45793,2021.0,June,025232-8,5rtdwkpkpq5h,Renault,DUSTER OROCH Dyna. 2.0 Flex 16V Mec.,Gasoline,manual,2,2018.0,69893.0
189896,2022.0,December,003296-4,3r6c277cnqcb,Ford,Ranger Limited 3.0 PSE 4x4 CD TB Diesel,Diesel,manual,3,2007.0,64638.0
202298,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0
202299,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0
202300,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...
267537,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0
267538,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0
267539,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0
267540,0.0,ND,ND,ND,ND,ND,ND,ND,ND,0.0,0.0


In [None]:
# vamos remover as duplicatas
dados.drop_duplicates(inplace=True)

0

---
## Separando Numéricas de Categóricas
Crie duas categorias, para separar colunas numéricas e categóricas.

In [80]:
# separando as categorias numéricas de categóricas
numericas_cols = [col for col in dados.columns if dados[col].dtype != 'object']
categoricas_cols = [col for col in dados.columns if dados[col].dtype == 'object']

---
## Resumo
Imprima o resumo de informações das variáveis numéricas e categóricas (estatística descritiva dos dados)  
Imprima a contagem de valores por modelo (model) e marca do carro (brand)

In [None]:
# numéricas: estatística descritiva dos dados
dados[numericas_cols].describe()

Unnamed: 0,year_of_reference,year_model,avg_price_brl
count,202296.0,202296.0,202296.0
mean,2021.554702,2011.261572,52756.504923
std,4.530869,7.787987,51628.917751
min,0.0,0.0,0.0
25%,2021.0,2006.0,22855.0
50%,2022.0,2012.0,38027.0
75%,2022.0,2016.0,64064.0
max,2023.0,2023.0,979358.0


In [None]:
# categóricas: estatística descritiva dos dados
dados[categoricas_cols].describe()

Unnamed: 0,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size
count,202296,202296,202296,202296,202296,202296,202296,202296
unique,13,2092,202296,7,2113,4,3,30
top,January,003281-6,cfzlctzfwrcp,Fiat,Palio Week. Adv/Adv TRYON 1.8 mpi Flex,Gasoline,manual,16
freq,24260,425,1,44962,425,168684,161883,47420
