# 1. Análise explortória de dados


#### a. Carregue a base de dados media_precos_carros_brasil.csv

In [2]:
# importando bibliotecas necessárias
import pandas as pd
import warnings

warnings.filterwarnings('ignore')

In [3]:
# Carregando dados do arquivo precos_carros_brasil
dados = pd.read_csv('precos_carros_brasil.csv')

In [4]:
# Listando o nome das colunas
dados.columns

Index(['year_of_reference', 'month_of_reference', 'fipe_code',
       'authentication', 'brand', 'model', 'fuel', 'gear', 'engine_size',
       'year_model', 'avg_price_brl'],
      dtype='object')

In [5]:
# Imprimindo somente as cinco primeiras linhas
dados.head()

Unnamed: 0,year_of_reference,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size,year_model,avg_price_brl
0,2021.0,January,004001-0,cfzlctzfwrcp,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Gasoline,manual,1,2002.0,9162.0
1,2021.0,January,004001-0,cdqwxwpw3y2p,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Gasoline,manual,1,2001.0,8832.0
2,2021.0,January,004001-0,cb1t3xwwj1xp,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Gasoline,manual,1,2000.0,8388.0
3,2021.0,January,004001-0,cb9gct6j65r0,GM - Chevrolet,Corsa Wind 1.0 MPFI / EFI 2p,Alcohol,manual,1,2000.0,8453.0
4,2021.0,January,004003-7,g15wg0gbz1fx,GM - Chevrolet,Corsa Pick-Up GL/ Champ 1.6 MPFI / EFI,Gasoline,manual,16,2001.0,12525.0


In [6]:
# Imprime o tipo de dado de cada coluna
dados.dtypes

year_of_reference     float64
month_of_reference     object
fipe_code              object
authentication         object
brand                  object
model                  object
fuel                   object
gear                   object
engine_size            object
year_model            float64
avg_price_brl         float64
dtype: object

In [7]:
# Imprimindo o tipo de dado de cada coluna após conversões
dados.dtypes

year_of_reference     float64
month_of_reference     object
fipe_code              object
authentication         object
brand                  object
model                  object
fuel                   object
gear                   object
engine_size            object
year_model            float64
avg_price_brl         float64
dtype: object

In [8]:
# Número de linhas e colunas
dados.shape

(267542, 11)

#### b. Verifique se há valores faltantes nos dados. Caso haja, escolha uma tratativa para resolver o problema de valores faltantes

In [9]:
# verificando se há valores faltantes nos dados
dados.isna().any()

year_of_reference     True
month_of_reference    True
fipe_code             True
authentication        True
brand                 True
model                 True
fuel                  True
gear                  True
engine_size           True
year_model            True
avg_price_brl         True
dtype: bool

In [10]:
# verificando a quantidade de valores faltantes por coluna
dados.isna().sum()

year_of_reference     65245
month_of_reference    65245
fipe_code             65245
authentication        65245
brand                 65245
model                 65245
fuel                  65245
gear                  65245
engine_size           65245
year_model            65245
avg_price_brl         65245
dtype: int64

pelo o resultado é possível supor que pode haver um grande número de linhas inteiramente vazias

In [11]:
# verificando se há linhas inteiramente vazias e quantas existem
dados.isnull().all(axis=1).sum()

65245

In [12]:
# Removendo todas as linhas que teem em todos os seus campos valores faltantes
dados.dropna(axis=0, how='all', inplace=True)

In [13]:
# Após correções, verificando novamente se há linhas inteiramente vazias e quantas existem
dados.isnull().all(axis=1).sum()

0

In [14]:
# Após correções, verificando novamente a quantidade de valores faltantes por coluna
dados.isna().sum()

year_of_reference     0
month_of_reference    0
fipe_code             0
authentication        0
brand                 0
model                 0
fuel                  0
gear                  0
engine_size           0
year_model            0
avg_price_brl         0
dtype: int64

#### c. Verifique se há dados duplicados nos dados

In [15]:
# Verificando se há dados duplicados
dados.duplicated().sum()

2

In [16]:
# Removendo dados duplicados
dados.drop_duplicates(inplace=True)

In [17]:
# Verificando se ainda há dados duplicados após remoção dos dados duplicados
dados.duplicated().sum()

0

#### d. Crie duas categorias, para separar colunas numéricas e categóricas. Imprima o resumo de informações das variáveis numéricas e categóricas (estatística descritiva dos dados)

In [18]:
# Convertendo engine_size de object para float64
dados['engine_size'] = dados['engine_size'].str.replace(',', '.').astype(float)

In [19]:
numericas_cols = [col for col in dados.columns if dados[col].dtype != 'object']
categoricas_cols = [col for col in dados.columns if dados[col].dtype == 'object']

In [20]:
# Imprimindo alguns valores de medidas de tendências centrais
dados[numericas_cols].describe()

Unnamed: 0,year_of_reference,engine_size,year_model,avg_price_brl
count,202295.0,202295.0,202295.0,202295.0
mean,2021.564695,1.822302,2011.271514,52756.765713
std,0.571904,0.734432,6.376241,51628.912116
min,2021.0,1.0,2000.0,6647.0
25%,2021.0,1.4,2006.0,22855.0
50%,2022.0,1.6,2012.0,38027.0
75%,2022.0,2.0,2016.0,64064.0
max,2023.0,6.2,2023.0,979358.0


In [21]:
# Imprimindo resumos de variáveis categóricas - estatística descritiva
dados[categoricas_cols].describe()

Unnamed: 0,month_of_reference,fipe_code,authentication,brand,model,fuel,gear
count,202295,202295,202295,202295,202295,202295,202295
unique,12,2091,202295,6,2112,3,2
top,January,003281-6,cfzlctzfwrcp,Fiat,Palio Week. Adv/Adv TRYON 1.8 mpi Flex,Gasoline,manual
freq,24260,425,1,44962,425,168684,161883


In [22]:
# Contando a quantidade dos elementos pela categoria mês de referência
dados['month_of_reference'].value_counts()

month_of_reference
January      24260
December     16303
November     16297
October      16289
September    16258
August       16222
July         16200
June         16169
March        16104
May          16076
April        16060
February     16057
Name: count, dtype: int64

In [23]:
# Contando a quantidade dos elementos pela categoria marca do carro
dados['brand'].value_counts()

brand
Fiat               44962
VW - VolksWagen    44312
GM - Chevrolet     38590
Ford               33150
Renault            29191
Nissan             12090
Name: count, dtype: int64

In [24]:
# Contando a quantidade de elementos pela categoria modelo do carro
dados['model'].value_counts() 

model
Palio Week. Adv/Adv TRYON 1.8 mpi Flex    425
Focus 1.6 S/SE/SE Plus Flex 8V/16V 5p     425
Focus 2.0 16V/SE/SE Plus Flex 5p Aut.     400
Saveiro 1.6 Mi/ 1.6 Mi Total Flex 8V      400
Corvette 5.7/ 6.0, 6.2 Targa/Stingray     375
                                         ... 
STEPWAY Zen Flex 1.0 12V Mec.               2
Saveiro Robust 1.6 Total Flex 16V CD        2
Saveiro Robust 1.6 Total Flex 16V           2
Gol Last Edition 1.0 Flex 12V 5p            2
Polo Track 1.0 Flex 12V 5p                  2
Name: count, Length: 2112, dtype: int64

In [25]:
# Contando a quantidade dos elementos pela categoria combustível
dados['fuel'].value_counts()

fuel
Gasoline    168684
Diesel       30098
Alcohol       3513
Name: count, dtype: int64

In [26]:
# Contando a quantidade dos elementos pela categoria tipo de cambio
dados['gear'].value_counts()

gear
manual       161883
automatic     40412
Name: count, dtype: int64

In [27]:
# Contando a quantidade dos elementos pela categoria tamanho do motor
dados['engine_size'].value_counts()

engine_size
1.6    47420
1.0    36333
2.0    27459
1.8    23317
1.4    17352
2.8     9709
2.3     7125
2.5     6754
1.5     4158
2.4     3719
1.3     3119
3.0     2984
2.2     2023
3.9     1800
3.2     1787
4.2     1619
3.6      952
3.5      850
5.7      825
4.0      650
4.3      525
6.2      499
1.9      450
1.2      255
3.8      204
5.0      191
3.3      125
2.7       66
4.1       25
Name: count, dtype: int64

---
# 2. Visualização de dados