üß© **1Ô∏è‚É£ Importa√ß√£o das bibliotecas**  
Importamos as bibliotecas necess√°rias para o ETL:

- **pandas** ‚Üí manipula√ß√£o e an√°lise de dados  
- **os** ‚Üí intera√ß√£o com o sistema de arquivos  
- **sqlite3** ‚Üí criar e gerenciar banco de dados SQLite


In [3]:
import pandas as pd
import os
import sqlite3

print("‚úÖ Bibliotecas importadas")



‚úÖ Bibliotecas importadas


üß© **2Ô∏è‚É£ Prepara√ß√£o da pasta de dados**  
Garantimos que existe uma pasta `/content/data` para armazenar os arquivos CSV e o banco de dados.


In [4]:
os.makedirs("/content/data", exist_ok=True)
print("‚úÖ Pasta /content/data pronta")


‚úÖ Pasta /content/data pronta


üß© **3Ô∏è‚É£ Carregamento do CSV**  
Carregamos o CSV gerado no primeiro notebook para iniciar o ETL.  
Caso o arquivo n√£o exista, o Colab ir√° solicitar upload manual.


In [5]:
caminho_arquivo = "/content/data/vendas.csv"

if os.path.exists(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo)
    print("‚úÖ CSV carregado com sucesso!")
    display(df.head())
else:
    print("‚ö†Ô∏è Arquivo CSV n√£o encontrado. Fa√ßa upload do arquivo.")
    from google.colab import files
    uploaded = files.upload()
    for fn in uploaded.keys():
        os.rename(fn, f"/content/data/{fn}")
    df = pd.read_csv(f"/content/data/{fn}")
    print("‚úÖ CSV carregado com sucesso ap√≥s upload!")
    display(df.head())


‚úÖ CSV carregado com sucesso!


Unnamed: 0,ID_Venda,Produto,Categoria,Cidade,Vendedor,Quantidade,Preco_Unitario,Total_Venda,Data_Venda
0,32,Bon√©,Acess√≥rios,Fortaleza,Patr√≠cia,7,153.41,1073.87,2024-10-24
1,6,Bon√©,Acess√≥rios,Salvador,Ana,9,493.45,4441.05,2024-10-30
2,47,Jaqueta,Vestu√°rio,Belo Horizonte,Jo√£o,3,445.31,1335.93,2024-11-02
3,19,Camisa,Vestu√°rio,Fortaleza,Patr√≠cia,7,50.78,355.46,2024-11-04
4,22,Camisa,Vestu√°rio,Rio de Janeiro,Paulo,5,287.98,1439.9,2024-11-14


üß© **4Ô∏è‚É£ Transforma√ß√£o dos dados**  
Nesta etapa aplicamos transforma√ß√µes para deixar os dados prontos para an√°lise:

- Convers√£o de colunas num√©ricas  
- Convers√£o de datas  
- Remo√ß√£o de duplicados  
- Tratamento de valores ausentes


In [6]:
df = df.copy()

# Exemplo de convers√£o de colunas num√©ricas
for col in df.columns:
    if 'preco' in col.lower() or 'valor' in col.lower() or 'quantidade' in col.lower():
        df[col] = pd.to_numeric(df[col], errors='coerce')

# Convers√£o de colunas de datas
for col in df.columns:
    if 'data' in col.lower():
        df[col] = pd.to_datetime(df[col], errors='coerce')

# Remover duplicados
df = df.drop_duplicates()

# Mostrar resultado da transforma√ß√£o
print("‚úÖ Transforma√ß√µes aplicadas")
display(df.head())


‚úÖ Transforma√ß√µes aplicadas


Unnamed: 0,ID_Venda,Produto,Categoria,Cidade,Vendedor,Quantidade,Preco_Unitario,Total_Venda,Data_Venda
0,32,Bon√©,Acess√≥rios,Fortaleza,Patr√≠cia,7,153.41,1073.87,2024-10-24
1,6,Bon√©,Acess√≥rios,Salvador,Ana,9,493.45,4441.05,2024-10-30
2,47,Jaqueta,Vestu√°rio,Belo Horizonte,Jo√£o,3,445.31,1335.93,2024-11-02
3,19,Camisa,Vestu√°rio,Fortaleza,Patr√≠cia,7,50.78,355.46,2024-11-04
4,22,Camisa,Vestu√°rio,Rio de Janeiro,Paulo,5,287.98,1439.9,2024-11-14


üß© **5Ô∏è‚É£ Carga no banco SQLite**  
Salvamos os dados transformados em um banco SQLite para consultas futuras.  
- **if_exists='replace'** ‚Üí substitui a tabela se j√° existir  
- **index=False** ‚Üí n√£o salva o √≠ndice do DataFrame


In [7]:
# Conex√£o com o banco SQLite
conn = sqlite3.connect("/content/data/banco_vendas.db")

# Carregar DataFrame no banco
df.to_sql("vendas", conn, if_exists="replace", index=False)

print("‚úÖ Dados carregados no banco SQLite com sucesso")


‚úÖ Dados carregados no banco SQLite com sucesso


üß© **6Ô∏è‚É£ Consulta de verifica√ß√£o no banco**  
Verificamos se os dados foram salvos corretamente realizando uma consulta simples.


In [8]:
query = "SELECT * FROM vendas LIMIT 5"
df_db = pd.read_sql(query, conn)
display(df_db)


Unnamed: 0,ID_Venda,Produto,Categoria,Cidade,Vendedor,Quantidade,Preco_Unitario,Total_Venda,Data_Venda
0,32,Bon√©,Acess√≥rios,Fortaleza,Patr√≠cia,7,153.41,1073.87,2024-10-24 00:00:00
1,6,Bon√©,Acess√≥rios,Salvador,Ana,9,493.45,4441.05,2024-10-30 00:00:00
2,47,Jaqueta,Vestu√°rio,Belo Horizonte,Jo√£o,3,445.31,1335.93,2024-11-02 00:00:00
3,19,Camisa,Vestu√°rio,Fortaleza,Patr√≠cia,7,50.78,355.46,2024-11-04 00:00:00
4,22,Camisa,Vestu√°rio,Rio de Janeiro,Paulo,5,287.98,1439.9,2024-11-14 00:00:00


üß© **7Ô∏è‚É£ Finaliza√ß√£o do ETL**  
Pipeline conclu√≠do com sucesso.  
O CSV transformado foi carregado no banco SQLite e est√° pronto para an√°lise.


In [9]:
conn.close()
print("‚úÖ Conex√£o com o banco encerrada. ETL finalizado!")


‚úÖ Conex√£o com o banco encerrada. ETL finalizado!
