Extração (E)


In [1]:
# ✅ 1. EXTRAÇÃO (E)

# Importamos o Pandas, biblioteca essencial para manipular dados em Python
import pandas as pd

# Fazemos o upload do arquivo CSV chamado vendas.csv
from google.colab import files
uploaded = files.upload()

# Lê o arquivo CSV usando pandas. Altere o nome do arquivo abaixo se necessário.
df = pd.read_csv("vendas.csv")

# Mostra as primeiras 5 linhas do arquivo para verificar as colunas e estrutura dos dados
print("📋 Visualização inicial dos dados:")
df.head()

Saving vendas.csv to vendas.csv
📋 Visualização inicial dos dados:


Unnamed: 0,id_venda,data,cliente,regiao,produto,quantidade,preco_unitario
0,1,2024-01-02,Ana,Sul,Notebook,1,3500
1,2,2024-01-05,Bruno,Norte,Tablet,2,1200
2,3,2024-01-06,Camila,Sul,Smartphone,3,1800
3,4,2024-01-08,Daniel,Sudeste,Notebook,1,3600
4,5,2024-01-12,Eduardo,Norte,Smartphone,2,1700


In [2]:
# 🔄 2. TRANSFORMAÇÃO (T)

# Vamos criar uma nova coluna chamada 'valor_total'
# Esta coluna é o resultado da multiplicação da 'quantidade' pelo 'preço_unitário'
# Isso representa o total de valor da venda por linha

df["valor_total"] = df["quantidade"] * df["preco_unitario"]

# Exibe novamente as primeiras linhas com a nova coluna adicionada
print("📈 Dados com a nova coluna 'valor_total':")
df.head()

📈 Dados com a nova coluna 'valor_total':


Unnamed: 0,id_venda,data,cliente,regiao,produto,quantidade,preco_unitario,valor_total
0,1,2024-01-02,Ana,Sul,Notebook,1,3500,3500
1,2,2024-01-05,Bruno,Norte,Tablet,2,1200,2400
2,3,2024-01-06,Camila,Sul,Smartphone,3,1800,5400
3,4,2024-01-08,Daniel,Sudeste,Notebook,1,3600,3600
4,5,2024-01-12,Eduardo,Norte,Smartphone,2,1700,3400


In [3]:
df.to_csv("vendas_transformado.csv", index=False)
print("✅ Arquivo transformado salvo como 'vendas_transformado.csv'")

✅ Arquivo transformado salvo como 'vendas_transformado.csv'


🧼 ETL - Limpeza de Dados com Pandas

In [7]:
# ✅ 1. Importação das bibliotecas
import pandas as pd
# Fazemos o upload do arquivo CSV chamado vendas.csv
from google.colab import files
uploaded = files.upload()
# ✅ 2. Leitura do arquivo CSV com dados sujos
df = pd.read_csv("vendas_sujo.csv")

print("📋 Visualização inicial dos dados:")
df.head(20)


Saving vendas_sujo.csv to vendas_sujo (2).csv
📋 Visualização inicial dos dados:


Unnamed: 0,id_venda,data,cliente,região,produto,quantidade,preço_unitário
0,1,2023-01-01,Maria,Sul,Notebook,1.0,3000.0
1,2,2023-01-02,João,Sudeste,Mouse,2.0,150.0
2,3,,Carlos,Sul,Teclado,1.0,200.0
3,4,2023-01-04,Ana,Norte,Monitor,2.0,800.0
4,5,2023-01-05,João,Sudeste,Mouse,,150.0
5,5,2023-01-05,João,Sudeste,Mouse,2.0,150.0
6,6,2023-01-07,Carlos,Sul,Teclado,1.0,200.0
7,7,2023-01-08,Pedro,Norte,Notebook,2.0,3000.0
8,8,2023-01-09,,Sul,Notebook,1.0,3000.0
9,9,2023-01-10,Bruna,Norte,Teclado,2.0,200.0


In [5]:
# ✅ 3. Verificando dados ausentes (nulos)
print("\n🔍 Verificando valores nulos:")
print(df.isnull().sum())
print(df.dtypes)


🔍 Verificando valores nulos:
id_venda          0
data              1
cliente           1
região            0
produto           0
quantidade        1
preço_unitário    1
dtype: int64
id_venda            int64
data               object
cliente            object
região             object
produto            object
quantidade        float64
preço_unitário    float64
dtype: object


In [8]:
# ✅ 4. Remover linhas com valores nulos essenciais
# Consideramos que quantidade, preço_unitário, data e cliente são obrigatórios
df = df.dropna(subset=["quantidade", "preço_unitário", "data", "cliente"])


In [9]:
# ✅ 5. Corrigir tipos de dados
# preço_unitário veio como string, vamos converter para float
df["preço_unitário"] = pd.to_numeric(df["preço_unitário"], errors='coerce')

# quantidade deve ser float/int
df["quantidade"] = pd.to_numeric(df["quantidade"], errors='coerce')

# data como datetime
df["data"] = pd.to_datetime(df["data"], errors='coerce')


In [10]:
# ✅ 6. Remover duplicatas (por exemplo, vendas duplicadas)
df = df.drop_duplicates()


In [11]:
# ✅ 7. Criar nova coluna: faturamento = quantidade * preço_unitário
df["faturamento"] = df["quantidade"] * df["preço_unitário"]


In [14]:
# ✅ 8. Exportar o CSV limpo

df.to_csv("vendas_limpo.csv", index=False)
print("✅ Arquivo limpo salvo como 'vendas_limpo.csv'")

df.head(20)


✅ Arquivo limpo salvo como 'vendas_limpo.csv'


Unnamed: 0,id_venda,data,cliente,região,produto,quantidade,preço_unitário,faturamento
0,1,2023-01-01,Maria,Sul,Notebook,1.0,3000.0,3000.0
1,2,2023-01-02,João,Sudeste,Mouse,2.0,150.0,300.0
3,4,2023-01-04,Ana,Norte,Monitor,2.0,800.0,1600.0
5,5,2023-01-05,João,Sudeste,Mouse,2.0,150.0,300.0
6,6,2023-01-07,Carlos,Sul,Teclado,1.0,200.0,200.0
7,7,2023-01-08,Pedro,Norte,Notebook,2.0,3000.0,6000.0
9,9,2023-01-10,Bruna,Norte,Teclado,2.0,200.0,400.0
