<a href="https://colab.research.google.com/github/ingridcos/Exercicios-WoMakersCode/blob/main/Desafio_Data_Wrangling_e_Pipelines_Semana_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [42]:
import pandas as pd
import sqlite3

# 1. EXTRAÇÃO
df = pd.read_csv("vendas.csv")  # se precisar, passe sep=";" ou encoding
print(df.head())
print(df.shape)
print(df.dtypes)
print(df.isna().sum())


   id_venda  data_venda        cliente        produto quantidade  \
0         1  2025/06/01  Fernanda Lima      iPhone 13          5   
1         2  2025-05-02     João Souza        Caderno          1   
2         3  04-04-2025    Maria Silva  Notebook Dell          2   
3         4  21-06-2025  Fernanda Lima        Caderno          1   
4         5  15-09-2025  Fernanda Lima    Mouse Gamer          3   

   preco_unitario    categoria  
0          5500.0  Eletrônicos  
1            25.0    Papelaria  
2          3500.0  Eletrônicos  
3            25.0    Papelaria  
4           200.0  Eletrônicos  
(2000, 7)
id_venda            int64
data_venda         object
cliente            object
produto            object
quantidade         object
preco_unitario    float64
categoria          object
dtype: object
id_venda            0
data_venda          0
cliente           335
produto             0
quantidade          0
preco_unitario      0
categoria          52
dtype: int64


In [43]:
df = df.copy() # Criar uma cópia explícita para evitar SettingWithCopyWarning

# Padronizar datas
df["data_venda"] = pd.to_datetime(df["data_venda"], errors="coerce", dayfirst=True)
df["data_venda"] = df["data_venda"].dt.strftime("%Y-%m-%d")

# Categoria nula -> "Não informado"
df["categoria"] = df["categoria"].fillna("Não informado")

# Corrigir quantidade: trocar 'trs' por 3, remover sinais negativos, converter para int
df["quantidade"] = (
    df["quantidade"]
      .astype(str)
      .str.replace("trs", "3", regex=False)
      .str.replace("três", "3", regex=False)
      .str.replace("-", "", regex=False)
      .astype(float)
      .astype("Int64")
)

# Tratar preços negativos
df["preco_unitario"] = (
    df["preco_unitario"]
      .astype(str)
      .str.replace("trs", "", regex=False)  # se aparecer texto
      .astype(float)
)
df = df[df["preco_unitario"] >= 0].copy()  # exemplo: descartar linhas negativas e criar uma cópia explícita

# Criar valor total
df["valortotal"] = df["quantidade"] * df["preco_unitario"]


In [44]:
con = sqlite3.connect("vendas.db")

df.to_sql("tbvendas", con, if_exists="replace", index=False)

con.close()


In [54]:
df = pd.read_csv("vendas.csv")
print(df.head())
print(df.shape)
print(df.dtypes)
print(df.isna().sum())


   id_venda  data_venda        cliente        produto quantidade  \
0         1  2025/06/01  Fernanda Lima      iPhone 13          5   
1         2  2025-05-02     João Souza        Caderno          1   
2         3  04-04-2025    Maria Silva  Notebook Dell          2   
3         4  21-06-2025  Fernanda Lima        Caderno          1   
4         5  15-09-2025  Fernanda Lima    Mouse Gamer          3   

   preco_unitario    categoria  
0          5500.0  Eletrônicos  
1            25.0    Papelaria  
2          3500.0  Eletrônicos  
3            25.0    Papelaria  
4           200.0  Eletrônicos  
(2000, 7)
id_venda            int64
data_venda         object
cliente            object
produto            object
quantidade         object
preco_unitario    float64
categoria          object
dtype: object
id_venda            0
data_venda          0
cliente           335
produto             0
quantidade          0
preco_unitario      0
categoria          52
dtype: int64


In [55]:
def etl():
    # ...
    print(df.head())

etl()  # chama a função para ver os prints


   id_venda  data_venda        cliente        produto quantidade  \
0         1  2025/06/01  Fernanda Lima      iPhone 13          5   
1         2  2025-05-02     João Souza        Caderno          1   
2         3  04-04-2025    Maria Silva  Notebook Dell          2   
3         4  21-06-2025  Fernanda Lima        Caderno          1   
4         5  15-09-2025  Fernanda Lima    Mouse Gamer          3   

   preco_unitario    categoria  
0          5500.0  Eletrônicos  
1            25.0    Papelaria  
2          3500.0  Eletrônicos  
3            25.0    Papelaria  
4           200.0  Eletrônicos  


In [56]:
# cria (ou abre) o arquivo do banco
con = sqlite3.connect("vendas.db")

# grava o dataframe na tabela tbvendas
df.to_sql("tbvendas", con, if_exists="replace", index=False)

con.close()


In [57]:
con = sqlite3.connect("vendas.db")
teste = pd.read_sql("SELECT * FROM tbvendas LIMIT 5", con)
con.close()

print(teste)


   id_venda  data_venda        cliente        produto quantidade  \
0         1  2025/06/01  Fernanda Lima      iPhone 13          5   
1         2  2025-05-02     João Souza        Caderno          1   
2         3  04-04-2025    Maria Silva  Notebook Dell          2   
3         4  21-06-2025  Fernanda Lima        Caderno          1   
4         5  15-09-2025  Fernanda Lima    Mouse Gamer          3   

   preco_unitario    categoria  
0          5500.0  Eletrônicos  
1            25.0    Papelaria  
2          3500.0  Eletrônicos  
3            25.0    Papelaria  
4           200.0  Eletrônicos  


In [58]:
df = pd.read_csv("vendas.csv")  # aqui entram também suas transformações
# ... limpezas nas colunas ...


In [59]:
con = sqlite3.connect("vendas.db")
check = pd.read_sql("SELECT * FROM tbvendas LIMIT 5", con)
con.close()

print(check)


   id_venda  data_venda        cliente        produto quantidade  \
0         1  2025/06/01  Fernanda Lima      iPhone 13          5   
1         2  2025-05-02     João Souza        Caderno          1   
2         3  04-04-2025    Maria Silva  Notebook Dell          2   
3         4  21-06-2025  Fernanda Lima        Caderno          1   
4         5  15-09-2025  Fernanda Lima    Mouse Gamer          3   

   preco_unitario    categoria  
0          5500.0  Eletrônicos  
1            25.0    Papelaria  
2          3500.0  Eletrônicos  
3            25.0    Papelaria  
4           200.0  Eletrônicos  


In [60]:
import os
os.listdir()


['.config', 'vendas.db', 'vendas.csv', 'sample_data']

In [61]:
con = sqlite3.connect("vendas.db")

# ver se existe a tabela tbvendas
tabelas = pd.read_sql(
    "SELECT name FROM sqlite_master WHERE type='table';",
    con
)
print(tabelas)

con.close()


       name
0  tbvendas


In [62]:
etl()

   id_venda  data_venda        cliente        produto quantidade  \
0         1  2025/06/01  Fernanda Lima      iPhone 13          5   
1         2  2025-05-02     João Souza        Caderno          1   
2         3  04-04-2025    Maria Silva  Notebook Dell          2   
3         4  21-06-2025  Fernanda Lima        Caderno          1   
4         5  15-09-2025  Fernanda Lima    Mouse Gamer          3   

   preco_unitario    categoria  
0          5500.0  Eletrônicos  
1            25.0    Papelaria  
2          3500.0  Eletrônicos  
3            25.0    Papelaria  
4           200.0  Eletrônicos  
