# üìä Desafio de C√≥digo ‚Äì Pipeline ETL em Python

Este projeto tem como objetivo demonstrar, de forma pr√°tica, a aplica√ß√£o dos conceitos e boas pr√°ticas de **ETL (Extract, Transform, Load)** utilizando Python. O pipeline foi desenvolvido a partir de dados p√∫blicos do **Portal da Transpar√™ncia**, preparando o dataset final para an√°lise no **Power BI**.

A solu√ß√£o foi estruturada de maneira modular e organizada, facilitando a leitura, manuten√ß√£o e reaproveitamento do c√≥digo, al√©m de evidenciar a capacidade t√©cnica aplicada na resolu√ß√£o do desafio.

# ‚öôÔ∏è Etapa 0 ‚Äì Configura√ß√£o do Ambiente

Nesta etapa inicial, o ambiente √© preparado para garantir organiza√ß√£o e reprodutibilidade do processo:

Importa√ß√£o de bibliotecas padr√£o do Python (`os`, `zipfile`, `glob`, `unicodedata`) e bibliotecas externas amplamente utilizadas em projetos de dados (`requests` e `pandas`);

Defini√ß√£o de diret√≥rios separados para **dados brutos** (`data_raw`) e **dados processados** (`data_processed`), seguindo boas pr√°ticas de organiza√ß√£o;

Cria√ß√£o autom√°tica dessas pastas, evitando erros em execu√ß√µes futuras.

Essa estrutura facilita tanto o entendimento do fluxo quanto a escalabilidade do projeto.

In [1]:
# ============================================================
# ETAPA 0 ‚Äì CONFIGURA√á√ÉO DO AMBIENTE
# ============================================================

# Bibliotecas padr√£o
import os
import zipfile
import glob
import unicodedata

# Bibliotecas externas
import requests
import pandas as pd

# üì• Etapa 1 ‚Äì Extra√ß√£o dos Dados (Extract)

A etapa de extra√ß√£o √© respons√°vel por obter os dados diretamente da fonte oficial:

* **Download automatizado** do arquivo ZIP a partir do Portal da Transpar√™ncia, utilizando requisi√ß√µes HTTP com tratamento de erros;

* **Armazenamento do arquivo bruto localmente**, garantindo rastreabilidade dos dados originais;

* **Extra√ß√£o controlada do conte√∫do do ZIP**, evitando duplicidades;

* **Identifica√ß√£o autom√°tica do arquivo CSV** para processamento.

Essa abordagem garante **confiabilidade** na origem dos dados e reduz depend√™ncias manuais.


In [5]:
# ============================================================
# ETAPA 1 ‚Äì EXTRA√á√ÉO DOS DADOS
# ============================================================

URL = "https://portaldatransparencia.gov.br/download-de-dados/despesas-favorecidos/202511"

try:
    BASE_DIR = os.path.dirname(os.path.abspath(__file__))
except NameError:
    BASE_DIR = os.getcwd()

RAW_DIR = os.path.join(BASE_DIR, "data_raw")
PROCESSED_DIR = os.path.join(BASE_DIR, "data_processed")

os.makedirs(RAW_DIR, exist_ok=True)
os.makedirs(PROCESSED_DIR, exist_ok=True)

headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(URL, headers=headers)

if response.status_code != 200:
    raise Exception(f"Erro no download | Status: {response.status_code}")

zip_path = os.path.join(RAW_DIR, "despesas_favorecidos_202511.zip")

with open(zip_path, "wb") as f:
    f.write(response.content)

print("üì¶ ZIP baixado com sucesso!")

with zipfile.ZipFile(zip_path, "r") as zip_ref:
    for member in zip_ref.namelist():
        target_path = os.path.join(RAW_DIR, member)
        if os.path.exists(target_path):
            os.remove(target_path)
        zip_ref.extract(member, RAW_DIR)

print("üìÇ ZIP extra√≠do com sucesso!")

csv_files = glob.glob(os.path.join(RAW_DIR, "*.csv"))

if not csv_files:
    raise Exception("Nenhum arquivo CSV encontrado ap√≥s extra√ß√£o do ZIP.")

raw_file = csv_files[0]
print(f"üìÑ CSV identificado: {os.path.basename(raw_file)}")


üì¶ ZIP baixado com sucesso!
üìÇ ZIP extra√≠do com sucesso!
üìÑ CSV identificado: 202511_RecebimentosRecursosPorFavorecido.csv


# üîÑ Etapa 2 ‚Äì Transforma√ß√£o dos Dados (Transform)

Esta √© a etapa central do processo, onde os dados brutos s√£o tratados e padronizados para uso anal√≠tico.

## 2.1 Padroniza√ß√£o dos nomes das colunas

Os nomes das colunas s√£o normalizados para remover acentos, espa√ßos e inconsist√™ncias de formata√ß√£o, facilitando o uso em ferramentas anal√≠ticas e evitando erros futuros.

## 2.2 Convers√£o de valores monet√°rios

A coluna de valores financeiros √© convertida corretamente para o tipo num√©rico, respeitando o padr√£o brasileiro de separadores decimais, garantindo precis√£o em c√°lculos e an√°lises.

## 2.3 Tratamento de datas

A coluna de data √© convertida para o formato de data do Python, com tratamento de valores inv√°lidos, assegurando consist√™ncia temporal no dataset.

## 2.4 Convers√£o de c√≥digos num√©ricos

Colunas que representam c√≥digos administrativos s√£o convertidas para o tipo inteiro, preservando valores nulos quando necess√°rio e garantindo melhor desempenho em an√°lises e relacionamentos.

## 2.5 Padroniza√ß√£o de colunas de texto

As colunas textuais passam por limpeza b√°sica, como remo√ß√£o de espa√ßos extras, garantindo maior qualidade dos dados.

### üîç Destaque importante:
A coluna **CodigoFavorecido** foi mantida e tratada como **texto**, pois na base original ela pode conter **valores alfanum√©ricos**. Essa decis√£o evita perda de informa√ß√£o e demonstra aten√ß√£o √† natureza real dos dados, uma pr√°tica essencial em projetos de dados profissionais.


In [6]:
# ============================================================
# ETAPA 2 ‚Äì TRANSFORMA√á√ÉO DOS DADOS
# ============================================================

df = pd.read_csv(
    raw_file,
    sep=';',
    encoding='latin1',
    low_memory=False
)

# ------------------------------------------------------------
# 2.1 ‚Äì Padroniza√ß√£o dos nomes das colunas
# ------------------------------------------------------------

def normalizar_coluna(col):
    col = col.strip()
    col = unicodedata.normalize("NFKD", col).encode("ascii", "ignore").decode("utf-8")
    col = col.replace(" ", "")
    return col

df.columns = [normalizar_coluna(c) for c in df.columns]

if "Anoemesdolancamento" in df.columns:
    df.rename(columns={"Anoemesdolancamento": "DataLancamento"}, inplace=True)
else:
    raise Exception("Coluna de data n√£o encontrada no dataset.")

# ------------------------------------------------------------
# 2.2 ‚Äì Convers√£o de valores monet√°rios
# ------------------------------------------------------------

df["ValorRecebido"] = (
    df["ValorRecebido"]
      .astype(str)
      .str.replace(".", "", regex=False)
      .str.replace(",", ".", regex=False)
      .astype(float)
)

# ------------------------------------------------------------
# 2.3 ‚Äì Convers√£o da coluna de data
# ------------------------------------------------------------

df["DataLancamento"] = pd.to_datetime(
    df["DataLancamento"],
    dayfirst=True,
    errors="coerce"
)

# ------------------------------------------------------------
# 2.4 ‚Äì Convers√£o de c√≥digos para inteiro
# ------------------------------------------------------------

colunas_inteiro = [
    "CodigoOrgaoSuperior",
    "CodigoOrgao",
    "CodigoUnidadeGestora"
]

for col in colunas_inteiro:
    df[col] = (
        df[col]
          .astype(str)
          .str.replace(".0", "", regex=False)
          .replace("nan", None)
          .astype("Int64")
    )

# ------------------------------------------------------------
# 2.5 ‚Äì Padroniza√ß√£o das colunas texto
# ------------------------------------------------------------

colunas_texto = [
    "CodigoFavorecido",
    "NomeFavorecido",
    "SiglaUF",
    "NomeMunicipio",
    "NomeOrgaoSuperior",
    "NomeOrgao",
    "NomeUnidadeGestora"
]

for col in colunas_texto:
    df[col] = df[col].astype(str).str.strip()


# üìà Etapa 3 ‚Äì Prepara√ß√£o Final para An√°lise (Load)

Na etapa final, os dados s√£o preparados para consumo no Power BI:

Garantia dos tipos finais das colunas, assegurando compatibilidade com ferramentas de BI;

Sele√ß√£o e ordena√ß√£o das colunas mais relevantes para an√°lise;

Exporta√ß√£o do dataset final em formato CSV, com encoding adequado e separador compat√≠vel com o Power BI.

O arquivo final √© salvo na pasta de dados processados, pronto para visualiza√ß√µes e an√°lises.

In [7]:
# ============================================================
# ETAPA 3 ‚Äì PREPARA√á√ÉO FINAL PARA POWER BI
# ============================================================

# ------------------------------------------------------------
# 3.1 ‚Äì Garantia dos tipos finais
# ------------------------------------------------------------

df["DataLancamento"] = df["DataLancamento"].dt.date
df["ValorRecebido"] = df["ValorRecebido"].astype(float)

# ------------------------------------------------------------
# 3.2 ‚Äì Sele√ß√£o e ordena√ß√£o das colunas finais
# ------------------------------------------------------------

colunas_final = [
    "DataLancamento",
    "ValorRecebido",
    "CodigoFavorecido",
    "NomeFavorecido",
    "SiglaUF",
    "NomeMunicipio",
    "CodigoOrgaoSuperior",
    "NomeOrgaoSuperior",
    "CodigoOrgao",
    "NomeOrgao",
    "CodigoUnidadeGestora",
    "NomeUnidadeGestora"
]

df = df[colunas_final]

# ------------------------------------------------------------
# 3.3 ‚Äì Exporta√ß√£o do dataset final
# ------------------------------------------------------------

output_file = os.path.join(
    PROCESSED_DIR,
    "despesas_favorecidos_202511_powerbi.csv"
)

df.to_csv(
    output_file,
    index=False,
    sep=';',
    encoding='latin1'
)

print("üéâ Dataset final preparado para consumo no Power BI!")

üéâ Dataset final preparado para consumo no Power BI!


# ‚úÖ Boas Pr√°ticas Aplicadas

* Separa√ß√£o clara entre dados brutos e processados;

* C√≥digo organizado por etapas do ETL;

* Tratamento expl√≠cito de erros e valida√ß√µes;

* Padroniza√ß√£o de nomes e tipos de dados;

* Decis√µes t√©cnicas baseadas na natureza real dos dados;

* Foco em reprodutibilidade, clareza e qualidade dos dados.

# üéØ Conclus√£o

Este projeto demonstra a aplica√ß√£o pr√°tica de um pipeline ETL completo, desde a extra√ß√£o de dados p√∫blicos at√© a entrega de um dataset pronto para an√°lise. A solu√ß√£o equilibra **qualidade t√©cnica, clareza de implementa√ß√£o e boas pr√°ticas de engenharia de dados**.