**üìä Projeto ETL ‚Äì Pipeline de Vendas**

Este notebook mostra um pipeline completo de ETL (Extra√ß√£o, Transforma√ß√£o e Carga) aplicado a dados de vendas de uma loja.

üîπ Objetivo: Demonstrar o fluxo de dados desde a importa√ß√£o do CSV at√© an√°lises em um banco SQLite.
üîπ O que voc√™ ver√° aqui:

Extra√ß√£o dos dados de vendas üì•

Limpeza e transforma√ß√£o para an√°lise üîÑ

Cria√ß√£o de coluna valor_total üí∞

Carga dos dados em banco SQLite üíæ

Consultas SQL para gerar insights r√°pidos üîç

üéØ Benef√≠cio: Aprender a construir um pipeline ETL simples e did√°tico, pronto para portf√≥lio de Engenharia de Dados!

**ETAPA 1** ‚Äì Preparar o ambiente üõ†Ô∏è

Vamos importar as ferramentas que vamos usar:

pandas para manipular os dados üóÇÔ∏è

sqlite3 para criar e acessar o banco de dados üíæ

os para gerenciar pastas e arquivos üìÅ

In [1]:
import pandas as pd
import sqlite3
import os

print("‚úÖ Bibliotecas importadas")


‚úÖ Bibliotecas importadas


**ETAPA 2** ‚Äì Extra√ß√£o de dados üì•

Aqui realizamos a leitura do arquivo CSV contendo os dados de vendas. Essa √© a etapa de extra√ß√£o, onde trazemos os dados para dentro do nosso ambiente de trabalho.

In [2]:
# Carregar CSV
caminho_arquivo = "vendas.csv"

if os.path.exists(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo)
    print("‚úÖ CSV carregado com sucesso!")
    display(df.head())
else:
    print("‚ö†Ô∏è Arquivo CSV n√£o encontrado. Fa√ßa o upload novamente.")


‚úÖ CSV carregado com sucesso!


Unnamed: 0,Produto,Cidade,Vendedor,Quantidade,Preco_Unitario,Total_Venda,Data_Venda
0,Cal√ßa,Rio de Janeiro,Lucas,1,342.11,342.11,2025-09-13
1,Vestido,Rio de Janeiro,Paulo,7,263.39,1843.73,2025-02-23
2,Rel√≥gio,Rio de Janeiro,Patr√≠cia,7,334.39,2340.73,2025-08-20
3,Jaqueta,Rio de Janeiro,Marcos,3,497.52,1492.56,2025-09-18
4,Cal√ßa,Belo Horizonte,Carla,8,271.71,2173.68,2025-02-01


**ETAPA 3 ‚Äì** Transforma√ß√£o de dados üîÑ

üîç**Tratar valores nulos**

Substitu√≠mos valores ausentes por 0 para evitar problemas em c√°lculos futuros.

In [4]:
# Tratando valores nulos

df_tratado = df.fillna(0)
print("‚úÖ Valores nulos tratados")


‚úÖ Valores nulos tratados


**Padronizar nomes das colunas ‚úèÔ∏è**

Ajustamos os nomes das colunas para formato snake_case (tudo min√∫sculo, com _), garantindo consist√™ncia.

In [5]:
# Padronizando nomes de colunas

df_tratado.columns = df_tratado.columns.str.lower().str.replace(" ", "_")
print("‚úÖ Nomes das colunas padronizados")
print(df_tratado.columns)


‚úÖ Nomes das colunas padronizados
Index(['produto', 'cidade', 'vendedor', 'quantidade', 'preco_unitario',
       'total_venda', 'data_venda'],
      dtype='object')


**Converter datas üìÖ**

Convertendo a coluna de datas para o formato datetime, permitindo an√°lises temporais corretas.

In [6]:
# Convertendo datas

if "data_venda" in df_tratado.columns:
    df_tratado["data_venda"] = pd.to_datetime(df_tratado["data_venda"], errors="coerce")
    print("‚úÖ Coluna de data convertida")


‚úÖ Coluna de data convertida


**Criar coluna valor_total üí∞**

Calculamos o total de cada venda multiplicando quantidade pelo preco_unitario. Essa coluna ser√° usada em an√°lises de receita e vendas.

In [7]:
# Criando coluna valor total

if "preco_unitario" in df_tratado.columns and "quantidade" in df_tratado.columns:
    df_tratado["valor_total"] = df_tratado["preco_unitario"] * df_tratado["quantidade"]
    print("‚úÖ Coluna 'valor_total' criada")
display(df_tratado.head())


‚úÖ Coluna 'valor_total' criada


Unnamed: 0,produto,cidade,vendedor,quantidade,preco_unitario,total_venda,data_venda,valor_total
0,Cal√ßa,Rio de Janeiro,Lucas,1,342.11,342.11,2025-09-13,342.11
1,Vestido,Rio de Janeiro,Paulo,7,263.39,1843.73,2025-02-23,1843.73
2,Rel√≥gio,Rio de Janeiro,Patr√≠cia,7,334.39,2340.73,2025-08-20,2340.73
3,Jaqueta,Rio de Janeiro,Marcos,3,497.52,1492.56,2025-09-18,1492.56
4,Cal√ßa,Belo Horizonte,Carla,8,271.71,2173.68,2025-02-01,2173.68


**Carga no banco SQLite üíæ**

Nesta etapa, criamos a pasta database (caso n√£o exista) e carregamos o DataFrame tratado no banco SQLite. Essa √© a fase de carga (Load) do pipeline ETL.

In [8]:
# Criar pasta database se n√£o existir
if not os.path.exists("database"):
    os.makedirs("database")

# Conectar/criar banco SQLite dentro da pasta database
conexao = sqlite3.connect("database/vendas.db")

# Carregar o DataFrame tratado no banco
df_tratado.to_sql("vendas", conexao, if_exists="replace", index=False)
print("‚úÖ Banco SQLite criado e atualizado com a coluna 'valor_total'")


‚úÖ Banco SQLite criado e atualizado com a coluna 'valor_total'


**Consultas de valida√ß√£o üîç**

Executamos consultas SQL no banco para validar os dados carregados e gerar insights, como o total de vendas e a quantidade de vendas por cidade.

In [9]:
consulta = """
SELECT cidade,
       SUM(valor_total) AS total_vendas,
       COUNT(*) AS qtd_vendas
FROM vendas
GROUP BY cidade
ORDER BY total_vendas DESC
"""

resultado = pd.read_sql_query(consulta, conexao)
display(resultado)


Unnamed: 0,cidade,total_vendas,qtd_vendas
0,Fortaleza,27405.28,18
1,Rio de Janeiro,26238.26,17
2,Curitiba,25410.75,17
3,S√£o Paulo,21958.43,11
4,Belo Horizonte,21299.86,13
5,Salvador,18435.59,16
6,Porto Alegre,13915.86,8


**Fechar conex√£o üîí**

Ap√≥s finalizar as consultas, encerramos a conex√£o com o banco de dados, garantindo que o arquivo SQLite seja salvo corretamente e evitando problemas de acesso.

In [10]:
conexao.close()
print("‚úÖ Conex√£o com o banco encerrada")


‚úÖ Conex√£o com o banco encerrada
