<a href="https://colab.research.google.com/github/alessandramdsz/Desafio-Data-Wrangling-e-Pipelines-em-Python/blob/main/Desafio_Data_Wrangling_e_Pipelines_em_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Bibliotecas

In [1]:
import gdown
import pandas as pd
import numpy as np

# Extração (E)

### Leitura CSV
- Fazer a leitura do CSV no Google Colab com pandas e visualizar as 5 primeiras linhas.

In [2]:
# Para a execução, subi o CSV na parte de arquivos e realizei o upload.

# ID do arquivo
arquivo_id = "13IPaHOFEnvDkApg4E6jwyhvHvaOHFOLX"   # seu file id
url = f"https://drive.google.com/uc?id={arquivo_id}"
output = "vendas.csv"

gdown.download(url, output, quiet=False)

try:
 df = pd.read_csv("vendas.csv")
 print("Arquivo extraído com sucesso!")

 print("Visualização das 5 primeiras linhas do dataset:")

except FileNotFoundError:
 print(f"Erro: Arquivo não encontrado no caminho: '/content/vendas.csv'")

df.head()

Downloading...
From: https://drive.google.com/uc?id=13IPaHOFEnvDkApg4E6jwyhvHvaOHFOLX
To: /content/vendas.csv
100%|██████████| 114k/114k [00:00<00:00, 40.9MB/s]

Arquivo extraído com sucesso!
Visualização das 5 primeiras linhas do dataset:





Unnamed: 0,id_venda,data_venda,cliente,produto,quantidade,preco_unitario,categoria
0,1,2025/06/01,Fernanda Lima,iPhone 13,5,5500.0,Eletrônicos
1,2,2025-05-02,João Souza,Caderno,1,25.0,Papelaria
2,3,04-04-2025,Maria Silva,Notebook Dell,2,3500.0,Eletrônicos
3,4,21-06-2025,Fernanda Lima,Caderno,1,25.0,Papelaria
4,5,15-09-2025,Fernanda Lima,Mouse Gamer,3,200.0,Eletrônicos


- Contar número de linhas e colunas, tipo de dados (dtype) de cada coluna e conte os valores ausentes de cada coluna

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_venda        2000 non-null   int64  
 1   data_venda      2000 non-null   object 
 2   cliente         1665 non-null   object 
 3   produto         2000 non-null   object 
 4   quantidade      2000 non-null   object 
 5   preco_unitario  2000 non-null   float64
 6   categoria       1948 non-null   object 
dtypes: float64(1), int64(1), object(5)
memory usage: 109.5+ KB


- Filtrar apenas linhas com preço unitário > 100


In [6]:
# Garante que a coluna 'preco_unitario' esteja no formato numérico
df['preco_unitario'] = pd.to_numeric(df['preco_unitario'], errors='coerce')

# Remove valores nulos nessa coluna (caso existam)
df = df.dropna(subset=['preco_unitario'])

# Aplica o filtro solicitado
df_filtrado = df[df['preco_unitario'] > 100]

- Ordene o dataset pelo valor do preço em ordem decrescente

In [9]:
df_resultado = df_filtrado.sort_values(by='preco_unitario', ascending=False)

### Transformação (T)

- Padronizar as datas para o formato YYYY-MM-DD

In [12]:
print(df.columns)

Index(['id_venda', 'data_venda', 'cliente', 'produto', 'quantidade',
       'preco_unitario', 'categoria'],
      dtype='object')


In [14]:
# Converte a coluna 'data_venda' para datetime
df['data_venda'] = pd.to_datetime(df['data_venda'], errors='coerce', infer_datetime_format=True)

# Formata para o padrão YYYY-MM-DD
df['data_venda'] = df['data_venda'].dt.strftime('%Y-%m-%d')

  df['data_venda'] = pd.to_datetime(df['data_venda'], errors='coerce', infer_datetime_format=True)


- Substituir valores nulos em “categoria” por “Não informado”

In [15]:
df['categoria'].fillna('Não informado', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['categoria'].fillna('Não informado', inplace=True)


In [18]:
# Verifica se ainda existem valores nulos na coluna - deve retornar 0
print("Total de valores nulos em 'categoria':", df['categoria'].isna().sum())

Total de valores nulos em 'categoria': 0


- Corrigir quantidade para ser sempre número inteiro ("três")

In [19]:
# Correção da coluna quantidade. As vezes tem numero escrito por extenso (o três), só que precisa ser tudo numérico.

df['quantidade'] = df['quantidade'].replace(['três', 'trÃªs'], '3')
df['quantidade'] = pd.to_numeric(df['quantidade'], errors='coerce')

if df['quantidade'].isnull().any():
  print("Alguns valores numéricos foram encontrados e convertidos para nan na coluna quantidade")
  print("A couna quantidade será convertida para Int64")
  df['quantidade'] = df['quantidade'].astype('Int64')
else:
  df['quantidade'] = df['quantidade'].astype(int)
  print("Coluna quantidade corrigida e convertida para inteiros")
df.info()

print(df['quantidade'].unique())
print(df[['id_venda', 'quantidade']].head(60))

Coluna quantidade corrigida e convertida para inteiros
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   id_venda        2000 non-null   int64  
 1   data_venda      652 non-null    object 
 2   cliente         1665 non-null   object 
 3   produto         2000 non-null   object 
 4   quantidade      2000 non-null   int64  
 5   preco_unitario  2000 non-null   float64
 6   categoria       2000 non-null   object 
dtypes: float64(1), int64(2), object(4)
memory usage: 109.5+ KB
[5 1 2 3 4]
    id_venda  quantidade
0          1           5
1          2           1
2          3           2
3          4           1
4          5           3
5          6           5
6          7           3
7          8           1
8          9           1
9         10           2
10        11           2
11        12           5
12        13           5
13      

- Corrigir ou remover preços negativos

In [20]:
# Correção ou remoção dos precos negativos

df['preco_unitario'] = pd.to_numeric(df['preco_unitario'], errors='coerce')
linhas_sem_tratamento_para_nan = len(df)
df.dropna(subset=['preco_unitario'], inplace=True)
linhas_com_tratamento_para_nan = len(df)

if linhas_sem_tratamento_para_nan > linhas_com_tratamento_para_nan:
  print(f"Foram removidas {linhas_sem_tratamento_para_nan - linhas_com_tratamento_para_nan} linhas por causa de valores não numéricos em preco_unitario")

quantidade_precos_negativos = df[df['preco_unitario'] < 0].shape[0]
if quantidade_precos_negativos > 0:
  print(f"Foi(ram) encontrado(s) {quantidade_precos_negativos} numeros negativos na coluna preco_unitario")

linhas_sem_tratamento_para_negativos = len(df)
df = df[df['preco_unitario'] >= 0]
linhas_com_tratamento_para_negativos = linhas_sem_tratamento_para_negativos - len(df)
print(f"Foram removidas {linhas_com_tratamento_para_negativos} linhas com preços negativos")
print("Os preços negativos foram removidos")

Foi(ram) encontrado(s) 53 numeros negativos na coluna preco_unitario
Foram removidas 53 linhas com preços negativos
Os preços negativos foram removidos


- Criar nova coluna valor_total = quantidade * preco_unitario

In [21]:
# Criar uma nova coluna valor_total = quantidade * preco_unitario

df['valor_total'] = df['quantidade'] * df['preco_unitario']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['valor_total'] = df['quantidade'] * df['preco_unitario']


###  Carga (L)

In [22]:
# Conectar a um banco de dados SQLite e salvar o DataFrame como uma tabela chamada "vendas"

conexao = sqlite3.connect('vendas.db')

# Salvar o DataFrame no banco de dados
df.to_sql('tb_vendas', conexao, if_exists='replace', index=False)

print("DataFrame salvo no banco de dados SQLite como tabela 'tb_vendas'.")

NameError: name 'sqlite3' is not defined

* Salvar os dados tratados em uma tabela tb_vendas

- Criar uma segunda tabela tb_clientes contendo apenas clientes únicos

In [24]:
# Criar um cursor para executar comandos SQL
cursor = conexao.cursor()

# Criar a tabela com clientes unicos
cursor.executescript("""
CREATE TABLE tb_clientes(
  id_cliente INTEGER PRIMARY KEY,
  cliente TEXT NOT NULL UNIQUE
);
INSERT INTO tb_clientes(cliente)
SELECT DISTINCT cliente FROM tb_vendas;
""")

# Salvar a tabela no banco de dados
conexao.commit()
print('Tabela contendo cliente únicos criada')

NameError: name 'conexao' is not defined

- Relacionar tb_vendas com tb_clientes via chave estrangeira

In [None]:
# Ativar o suporte para chave estrangeira
cursor.execute("PRAGMA foreign_keys = ON")

# Criando a coluna id_cliente na tabela tb_vendas
cursor.execute("ALTER TABLE tb_vendas ADD COLUMN id_cliente INTEGER;")
print('Coluna id_cliente foi adicionado à tabela tb_vendas')

# Salvar os ids dos clientes a partir da tabela tb_clientes
cursor.execute("""
UPDATE tb_vendas
SET id_cliente = (
  SELECT id_cliente
  FROM tb_clientes c
  WHERE c.cliente  = tb_vendas.cliente
);
""")
print('Coluna id_cliente foi carregada com os dados da tabela tb_clientes')

# Renomear a tabela tb_vendas
cursor.execute('ALTER TABLE tb_vendas RENAME TO tb_vendas_temp')

# Criar a tabela tb_vendas com a FK
cursor.execute("""
CREATE TABLE tb_vendas (
  id_venda INTEGER PRIMARY KEY,
  data_venda DATE,
  cliente TEXT,
  produto  TEXT,
  quantidade INTEGER,
  preco_unitario REAL,
  categoria  TEXT,
  valor_total REAL,
  id_cliente INTEGER NOT NULL
  FOREIGN KEY(id_cliente) REFERENCES tb_clientes(id_cliente)
);""")

# Salvar os dados na nova tb_vendas
cursor.execute("""
INSERT INTO tb_vendas(id_venda,data_venda,cliente, produto,quantidade, preco_unitario , categoria ,valor_total,id_cliente)
SELECT id_venda,data_venda,cliente, produto,quantidade, preco_unitario , categoria ,valor_total,id_cliente
FROM tb_vendas_temp
""")
# Apagar a tb_vendas_temp
cursor.execute("""DROP TABLE tb_vendas_temp;
""")

#Salvar as alterações
conexao.commit()
print('As tabelas tb_vendas e tb clientes foram relacionadas pela FK id_cliente')

- Escrever uma consulta SQL que mostre: total de vendas por categoria

In [None]:
# SELECT categoria....(selecionar a coluna categoria)
# SUM(valor_total) AS total_vendas.....(soma o valor total das vendas por categoria)
# FROM tb_vendas...........(indica a tabela de vendas)
# GROUP BY categoria....(agrupar as linhas por categoria) para somar os valores por cada categoria.
# ORDER BY total_vendas DESC ...(ordena o resultado do maior para o menor total de vendas)

SELECT categoria,
       SUM(valor_total) AS total_vendas
FROM tb_vendas
GROUP BY categoria
ORDER BY total_vendas DESC;

- Validar a carga executando uma query simples (SELECT * FROM tb_vendas LIMIT 5).

- Validar o resultado final no SQLite com uma query de seleção

- Criar o arquivo final pipeline.py integrando todas as etapas (E → T → L).