
---

# Dashboard: Preço médio dos carros do Brasil
Dataset Kaggle: [Average car prices - Brazil](https://www.kaggle.com/datasets/vagnerbessa/average-car-prices-bazil/data) <br>
Autor: Bruno Pereira <br>

---

## 1\. Contexto

A base de dados consiste no preço médio dos carros do Brasil segundo a tabela FIPE durante os anos de 2021 e 2023. Cada linha corresponde a uma pesquisa do preço médio de um carro. Meu objetivo é fazer uma análise exploratória desses dados e traduzí-los e insights valiosos. Utilizei como guia os conceitos ensinados pela EBAC(*Escola Britânica de Artes e Tecnologia*) e principalmente o livro: **Estatística Prática para Cientistas de Dados**(*Autores: Peter Bruce & Andrew Bruce*)

## 2\. Pacotes, bibliotecas & Importações

In [32]:
import pandas as pd

In [33]:
# Função utilizada para verificar os valores únicos
def verifica_valores_unicos(DataFrame: pd.DataFrame, colunas_ignoradas: list|str|None) -> None:
    for x in DataFrame.columns:
    
        if type(colunas_ignoradas) == str:
            if x != colunas_ignoradas:
                print('++'*30)
                print(f'NOME DA COLUNA COLUNA: "{x}"')
                print('--'*5)
                print('VALORES ÚNICOS:')
                print(f'{DataFrame[x].unique()}')
                print('--'*5)
                print(f'CONTAGEM DOS VALORES ÚNICOS: {len(DataFrame[x].unique())}')
                print('++'*30)
                print('\n')
        
        elif type(colunas_ignoradas) == list:
            if x not in colunas_ignoradas:
                print('++'*30)
                print(f'NOME DA COLUNA COLUNA: "{x}"')
                print('--'*5)
                print('VALORES ÚNICOS:')
                print(f'{DataFrame[x].unique()}')
                print('--'*5)
                print(f'CONTAGEM DOS VALORES ÚNICOS: {len(DataFrame[x].unique())}')
                print('++'*30)
                print('\n')

        else:
            print('++'*30)
            print(f'NOME DA COLUNA COLUNA: "{x}"')
            print('--'*5)
            print('VALORES ÚNICOS:')
            print(f'{DataFrame[x].unique()}')
            print('--'*5)
            print(f'CONTAGEM DOS VALORES ÚNICOS: {len(DataFrame[x].unique())}')
            print('++'*30)
            print('\n')

In [34]:
df_FIPE_carros = pd.read_csv("./Materiais extras das aulas/Base - Preço medio carros Brasil/fipe_cars.csv")

## 3\. Exploração inicial dos dados

In [4]:
# Verificando as primieras linhas do DataFrame
df_FIPE_carros.head()

Unnamed: 0,year_of_reference,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size,year_model,avg_price_brl
0,2021,January,038001-6,tlp4qry07m,Acura,NSX 3.0,Gasoline,manual,3.0,1995,40374.0
1,2021,January,038001-6,s1wksdv9by,Acura,NSX 3.0,Gasoline,manual,3.0,1994,38939.0
2,2021,January,038001-6,skrbcfnkch,Acura,NSX 3.0,Gasoline,manual,3.0,1993,37648.0
3,2021,January,038001-6,rxzh76d5db,Acura,NSX 3.0,Gasoline,manual,3.0,1992,35962.0
4,2021,January,038001-6,qrm322tpd8,Acura,NSX 3.0,Gasoline,manual,3.0,1991,32863.0


In [5]:
# Verificando a dimensionalidade do DataFrame
df_FIPE_carros.shape

(599007, 11)

In [6]:
# Informações gerais sobre o DataFrame
df_FIPE_carros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 599007 entries, 0 to 599006
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   year_of_reference   599007 non-null  int64  
 1   month_of_reference  599007 non-null  object 
 2   fipe_code           599007 non-null  object 
 3   authentication      599007 non-null  object 
 4   brand               599007 non-null  object 
 5   model               599007 non-null  object 
 6   fuel                599007 non-null  object 
 7   gear                599007 non-null  object 
 8   engine_size         599007 non-null  float64
 9   year_model          599007 non-null  int64  
 10  avg_price_brl       599007 non-null  float64
dtypes: float64(2), int64(2), object(7)
memory usage: 50.3+ MB


In [7]:
# Verificando a existência de valores duplicados
valores_duplicados = df_FIPE_carros[df_FIPE_carros.duplicated()]
print("Quantidade de linhas duplicadas:",len(valores_duplicados))
valores_duplicados

Quantidade de linhas duplicadas: 3


Unnamed: 0,year_of_reference,month_of_reference,fipe_code,authentication,brand,model,fuel,gear,engine_size,year_model,avg_price_brl
135875,2021,June,025232-8,5rtdwkpkpq5h,Renault,DUSTER OROCH Dyna. 2.0 Flex 16V Mec.,Gasoline,manual,2.0,2018,69893.0
383231,2022,May,004051-7,gb76cyvp29j4,GM - Chevrolet,Monza Classic SE 2.0 /MPFI e EFI 2p e 4p,Gasoline,manual,2.0,1992,10655.0
559711,2022,December,003296-4,3r6c277cnqcb,Ford,Ranger Limited 3.0 PSE 4x4 CD TB Diesel,Diesel,manual,3.0,2007,64638.0


In [8]:
# Verificando as informações sobre únicas sobre alguns atributos
verifica_valores_unicos(DataFrame=df_FIPE_carros, colunas_ignoradas=['authentication', 'avg_price_brl'])

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
NOME DA COLUNA COLUNA: "year_of_reference"
----------
VALORES ÚNICOS:
[2021 2022 2023]
----------
CONTAGEM DOS VALORES ÚNICOS: 3
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++


++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
NOME DA COLUNA COLUNA: "month_of_reference"
----------
VALORES ÚNICOS:
['January' 'February' 'March' 'April' 'May' 'June' 'July' 'August'
 'September' 'October' 'November' 'December']
----------
CONTAGEM DOS VALORES ÚNICOS: 12
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++


++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
NOME DA COLUNA COLUNA: "fipe_code"
----------
VALORES ÚNICOS:
['038001-6' '038002-4' '038003-2' ... '005538-7' '005539-5' '005540-9']
----------
CONTAGEM DOS VALORES ÚNICOS: 5956
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++


++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
NOME DA COLUNA COLUNA: "brand"
-

## 4\. Wrangling

Excluindo as linhas duplicadas

In [35]:
df_FIPE_carros.drop_duplicates(inplace=True)

Criação de uma coluna com a idade do carro para faciliar a compreensão
- **OBS:** Utilizei o código ``df['idade_carro'] = df['idade_carro'].apply(lambda x: 0 if x < 0 else x)`` pois caso for feita apenas a subtração entre as colunas year_of_reference e year_model gerará alguns idades com o valor -1 por causa da forma como os anos são registrados na tabela FIPE. Especificamente, quando um carro é registrado como "modelo do próximo ano", ele terá um year_model maior que o year_of_reference, resultando em um valor negativo ao calcular a idade do carro.

In [36]:
df_FIPE_carros["Idade_do_automovel"] = df_FIPE_carros['year_of_reference'] - df_FIPE_carros['year_model']
df_FIPE_carros['Idade_do_automovel'] = df_FIPE_carros['Idade_do_automovel'].apply(lambda x: 0 if x < 0 else x)

Criando uma nova coluna 'Data_Completa' com a junção do Ano e do Mês em uma única coluna

In [37]:
column_year_month = []

for index, value in df_FIPE_carros.iterrows():
    column_year_month.append(f"{value['year_of_reference']}-{value['month_of_reference']}")

df_FIPE_carros['Data_Completa'] = column_year_month
df_FIPE_carros['Data_Completa'] = pd.to_datetime(df_FIPE_carros['Data_Completa'], format='%Y-%B')

Excluindo as colunas que não utilizaremos

In [38]:
df_FIPE_carros.drop(columns=['authentication', 'fipe_code'], inplace=True)

Configuração adicional devido ao Looker Studio interpretar a vírgula como separador das colunas, como a coluna ``modelo`` exitem carros com a vírgula no nome colocarei todos os valores entre aspas duplas para contorar esse erro.

In [39]:
df_FIPE_carros['model'] = df_FIPE_carros['model'].apply(lambda x: f'"{x}"')

Renomeando as colunas

In [40]:
df_FIPE_carros.rename(columns={'year_of_reference': 'ano_de_referencia', 
                               'month_of_reference': 'mes_de_referencia',
                               'brand': 'marca', 
                               'model': 'modelo', 
                               'fuel': 'combustivel', 
                               'gear': 'cambio', 
                               'engine_size': 'potencia_do_motor', 
                               'year_model': 'ano_modelo', 
                               'avg_price_brl': 'preco_medio_FIPE', 
                                }, 
                    inplace = True)

Reordenando as colunas para melhor compreensão

In [41]:
df_FIPE_carros = df_FIPE_carros[['Data_Completa', 'mes_de_referencia', 'ano_de_referencia', 'ano_modelo', 
                                 'Idade_do_automovel', 'marca', 'modelo', 'preco_medio_FIPE', 
                                 'potencia_do_motor','combustivel', 'cambio']]

Após o tratamento dos dados, será feita a exportação do resultado para o formato CSV pois precisarei fazer a importação dessa base no PowerBI e no Looker Studio

In [42]:
df_FIPE_carros.to_csv('dados_tratados_FIPE_carros.xlsx', index=False)

## 5\. Visualização

Segue abaixo o Link para acessar o Dashboard feito tanto no Looker Studio quanto no Power BI <br>

---
Looker Studio: [Dashboard-LookerStudio](https://lookerstudio.google.com/reporting/2c24e641-c581-479d-8c2e-b35c9d909721) <br>
Power BI: [Dashboard-PowerBI](https://app.powerbi.com/view?r=eyJrIjoiZDA0ZDVjMjktYmI5ZC00OWZmLWI2YTctMGM5OWNmMTVjZjhiIiwidCI6IjYxOTQzZjdjLTdhMTMtNDcxYy1hZDkyLTc2OTdmYzc1ODE1NSJ9)