---
#  Mini ETL com Python para alimentar dashboard

Este notebook explica o processo de ETL (Extra√ß√£o, Transforma√ß√£o e Carga) dos dados de pre√ßos dos combust√≠veis no Brasil, utilizados em um dashboard desenvolvido no Power BI. O objetivo √© consolidar diversos arquivos CSV semestrais em uma √∫nica base limpa e padronizada para an√°lise visual, permitindo que novos dados sejam facilmente inseridos no fluxo sem necessidade de altera√ß√µes manuais.

---
### Importa√ß√£o de bibliotecas

Utilizamos as seguintes bibliotecas:

- `os`: para manipula√ß√£o e navega√ß√£o entre arquivos e pastas do sistema.
- `pandas`: para leitura, transforma√ß√£o e consolida√ß√£o dos dados tabulares (CSV).
- `chardet`: para detectar automaticamente o encoding de cada arquivo CSV, garantindo a leitura correta das informa√ß√µes.

In [1]:
import os
import pandas as pd
import chardet

---
### Listagem dos Arquivos CSV
Nesta etapa, criamos uma lista com os nomes de todos os arquivos localizados na pasta `DADOS`. Cada arquivo representa um per√≠odo semestral de coleta de pre√ßos de combust√≠veis disponibilizado pela ANP.

In [2]:
caminho = r"C:\\Users\\hiago\\OneDrive\\Documentos\\CURSOS\\PORTIFOLIO\\DASHBOARD_PRECO_COMBUSTIVEL"
lista_arquivos = os.listdir(f"{caminho}/DADOS")
print(f"Arquivos encontrados: {len(lista_arquivos)}")

Arquivos encontrados: 36


---
### Consolida√ß√£o dos Arquivos CSV

Nesta etapa, percorremos todos os arquivos da pasta `DADOS` e executamos as seguintes a√ß√µes para consolidar os dados em um √∫nico DataFrame final:

- **Detectar o encoding de cada arquivo CSV**  
  Utilizamos a biblioteca `chardet` para identificar automaticamente a codifica√ß√£o do texto, evitando problemas com acentos e caracteres especiais.

- **Ler os arquivos CSV com o encoding correto**  
  Cada arquivo √© lido individualmente com `pandas.read_csv`, utilizando o separador `;`.

- **Remover colunas desnecess√°rias**  
  Ap√≥s a leitura, mantemos apenas as colunas definidas na lista `colunas_necess`, eliminando qualquer informa√ß√£o extra que n√£o ser√° utilizada na an√°lise.

- **Concatenar os dados em um √∫nico DataFrame**  
  Cada arquivo processado √© anexado ao `df_final`, formando uma base √∫nica consolidada para ser utilizada no Power BI.

Esse processo garante que, independentemente do n√∫mero de arquivos existentes na pasta, os dados ser√£o unificados de forma padronizada e consistente.

In [3]:
colunas_necess = [
    "Regiao - Sigla",
    "Estado - Sigla",
    "Municipio",
    "Revenda",
    "Produto",
    "Data da Coleta",
    "Valor de Venda",
    "Unidade de Medida",
    "Bandeira",
]

df_final = pd.DataFrame()

for arquivo in lista_arquivos:
    caminho_arquivo = f"{caminho}/DADOS/{arquivo}"
    
    # Detecta o encoding do arquivo
    with open(caminho_arquivo, 'rb') as f:
        resultado = chardet.detect(f.read(10000))
    
    # Leitura do CSV
    df = pd.read_csv(caminho_arquivo, sep=';', encoding=resultado['encoding'])
    
    # Remo√ß√£o de colunas desnecess√°rias
    for coluna in df.columns:
        if coluna not in colunas_necess:
            df.drop(coluna, axis=1, inplace=True)
    
    # Concatena√ß√£o no dataframe final
    df_final = pd.concat([df_final, df], ignore_index=True)

  df = pd.read_csv(caminho_arquivo, sep=';', encoding=resultado['encoding'])


---
### Convers√£o de Tipos de Dados
Nesta etapa, realizamos a convers√£o de tipo de dados nas colunas do DataFrame com o objetivo de **otimizar o uso de mem√≥ria** e **melhorar o desempenho durante a an√°lise no Power BI**.

As a√ß√µes executadas s√£o:

- **Itera√ß√£o sobre todas as colunas do DataFrame**
  Verificamos cada coluna individualmente para aplicar o tipo de dado adequado.

- **Convers√£o para o tipo `category`**
  Todas as colunas, exceto `"Valor de Venda"`, s√£o convertidas para o tipo `category`.  
  Esse tipo √© ideal para colunas que possuem um n√∫mero limitado de valores distintos (como nomes de estados, cidades, bandeiras, etc.).

- **Motivo da exce√ß√£o**
  A coluna `"Valor de Venda"` √© mantida com tipo num√©rico (float), pois ser√° utilizada em c√°lculos e medidas no Power BI (como m√©dias e varia√ß√µes).

Essa padroniza√ß√£o reduz o uso de mem√≥ria RAM e melhora o tempo de carregamento e resposta do Power BI ao manipular os dados.

In [4]:
for coluna in df_final.columns:
    if coluna != "Valor de Venda":
        df_final[coluna] = df_final[coluna].astype("category")

---
### Resultado Final

Ao final do processo, temos como resultado o `df_final`: um DataFrame consolidado, limpo e padronizado, contendo apenas os dados essenciais para a an√°lise dos pre√ßos de combust√≠veis no Brasil.

Esse resultado cumpre exatamente o objetivo do projeto: **automatizar a prepara√ß√£o dos dados para visualiza√ß√£o no Power BI**.  
Com essa base tratada, podemos integrar diretamente o Python ao Power BI, permitindo que o dashboard seja alimentado de forma autom√°tica e escal√°vel sempre que novos arquivos forem adicionados √† pasta de dados.

Assim, garantimos uma solu√ß√£o pr√°tica e reutiliz√°vel, que reduz o retrabalho manual e facilita a an√°lise cont√≠nua da varia√ß√£o dos pre√ßos ao longo do tempo.

---

üîô [**Voltar**](https://github.com/Hiagofb/DASHBOARD_COMBUSTIVEL) 