#üß© 1Ô∏è‚É£ Importa√ß√£o das bibliotecas


Importamos as bibliotecas necess√°rias para gerar e manipular os dados:


*   **pandas:** manipula√ß√£o de tabelas de dados (DataFrames).
*   **random**: para gerar valores aleat√≥rios, como produtos, cidades, clientes, quantidades e pre√ßos.
*   **datetime e timedelta:** para criar datas de venda realistas dentro de um per√≠odo espec√≠fico.
*   **numpy:** utilizado para c√°lculos vetorizados, como gera√ß√£o de pre√ßos ou quantidades com distribui√ß√£o mais realista.

In [8]:
# Importando as bibliotecas:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta



# üõçÔ∏è 2Ô∏è‚É£ Cria√ß√£o das listas de refer√™ncia

Aqui definimos listas com poss√≠veis valores para cada categoria:
- **Produtos** vendidos (ex: Camisa, T√™nis, Jaqueta...)  
- **Cidades** onde as vendas ocorreram  
- **Vendedores** respons√°veis pelas vendas  

Essas listas servir√£o de base para gerar os dados de forma aleat√≥ria.


In [10]:
#Criando colunas e registros
nomes_produtos = [
    "Camisa", "Cal√ßa", "T√™nis", "Jaqueta",
    "Bolsa", "Rel√≥gio", "Bon√©", "Vestido"
]

cidades = [
    "S√£o Paulo", "Rio de Janeiro", "Belo Horizonte",
    "Curitiba", "Porto Alegre", "Salvador", "Fortaleza"
]

vendedores = [
    "Marcos", "Ana", "Jo√£o", "Carla", "Paulo",
    "Fernanda", "Lucas", "Patr√≠cia"
]

# Dicion√°rio de categorias (mapeia produto -> categoria)
categorias = {
    "Camisa": "Vestu√°rio",
    "Cal√ßa": "Vestu√°rio",
    "Vestido": "Vestu√°rio",
    "T√™nis": "Cal√ßados",
    "Jaqueta": "Vestu√°rio",
    "Bolsa": "Acess√≥rios",
    "Rel√≥gio": "Acess√≥rios",
    "Bon√©": "Acess√≥rios"
}


# üìä 3Ô∏è‚É£ Gera√ß√£o dos dados de vendas


Neste bloco, criamos uma lista chamada dados que armazenar√° todas as linhas do nosso dataset de vendas:

- n_registros = 100: define que vamos gerar 100 vendas fict√≠cias.

- Para cada venda:

       -id_venda: identificador √∫nico da venda (1 a 100).

       -produto: selecionado aleatoriamente da lista nomes_produtos.

       -categoria: obtida a partir do dicion√°rio categorias; se o produto n√£o estiver no dicion√°rio, usamos "Outros".

       -cidade: cidade da venda, escolhida aleatoriamente da lista cidades.

       -vendedor: selecionado aleatoriamente da lista vendedores.

       -quantidade: quantidade vendida, gerada aleatoriamente entre 1 e 10.

       -preco_unitario: pre√ßo do produto, gerado aleatoriamente entre 50 e 500, arredondado para 2 casas decimais.

       -total_venda: calculado como quantidade * preco_unitario, arredondado para 2 casas decimais.

       -data_venda: data da venda, gerada aleatoriamente dentro do √∫ltimo ano a partir da data atual (datetime.now() - timedelta(days=random.randint(0, 365))).

Cada linha √© adicionada √† lista dados na forma de uma lista com todos esses campos, pronta para ser transformada em um DataFrame do pandas.


In [11]:
# Gerando 100 linhas de vendas fict√≠cias (com ID, categoria e data)
dados = [] # Criando a lista
n_registros = 100 # Especificando o numero de registros

for i in range(n_registros):
    id_venda = i + 1
    produto = random.choice(nomes_produtos)
    categoria = categorias.get(produto, "Outros")
    cidade = random.choice(cidades)
    vendedor = random.choice(vendedores)
    quantidade = random.randint(1, 10)
    preco_unitario = round(random.uniform(50, 500), 2)
    total_venda = round(quantidade * preco_unitario, 2)
    # gerar datas ao longo do √∫ltimo ano
    data_venda = datetime.now() - timedelta(days=random.randint(0, 365))

    dados.append([
        id_venda,
        produto,
        categoria,
        cidade,
        vendedor,
        quantidade,
        preco_unitario,
        total_venda,
        data_venda.date()
    ])


#üß© 4Ô∏è‚É£ Inser√ß√£o proposital de dados nulos, erros e duplicatas

Neste bloco, enriquecemos o dataset com inconsist√™ncias de forma proposital, para criar um cen√°rio de dados ‚Äúsujos‚Äù e permitir pr√°ticas de ETL mais realistas:

Primeiro, transformamos a lista dados em um DataFrame tempor√°rio (df_temp) para facilitar manipula√ß√µes por coluna, mantendo depois o formato original como lista de listas.

- **1) Inserir valores nulos:**

Selecionamos 5 √≠ndices aleat√≥rios e definimos o campo Vendedor como NaN.

Isso simula dados faltantes comuns em datasets reais.

- **2) Inserir erros de digita√ß√£o:**

Selecionamos 3 √≠ndices aleat√≥rios e modificamos a coluna Cidade, simulando erros como "S√£o Paulo" ‚Üí "Sao Pualo".

Isso cria dados inconsistentes, √∫teis para testar limpeza e padroniza√ß√£o de strings.

- **3) Inserir pre√ßos inv√°lidos:**

Selecionamos 2 registros e atribu√≠mos valores de Preco_Unitario zero ou negativo.

Simula erros de entrada de dados que podem ocorrer em sistemas de vendas.

- **4) Inserir duplicatas propositalmente:**

Selecionamos 2 registros aleat√≥rios e os duplicamos, simulando registros repetidos.

Permite testar a remo√ß√£o de duplicatas durante o processo de ETL.



Por fim, atualizamos a vari√°vel dados convertendo o DataFrame de volta para lista de listas, mantendo o mesmo formato usado nas etapas seguintes do notebook.

In [12]:
# Transformar em DataFrame tempor√°rio para manipula√ß√£o mais f√°cil
df_temp = pd.DataFrame(dados, columns=[
    "ID_Venda","Produto","Categoria","Cidade","Vendedor",
    "Quantidade","Preco_Unitario","Total_Venda","Data_Venda"
])

# 1) Inserir alguns valores nulos no Vendedor
null_indices = np.random.choice(df_temp.index, size=5, replace=False)
df_temp.loc[null_indices, "Vendedor"] = np.nan

# 2) Inserir alguns erros de digita√ß√£o em 'Cidade' (simulando dados sujos)
erro_indices = np.random.choice(df_temp.index, size=3, replace=False)
df_temp.loc[erro_indices, "Cidade"] = df_temp.loc[erro_indices, "Cidade"].apply(
    lambda x: x.replace("S√£o", "Sao").replace("Paulo", "Pualo") if isinstance(x, str) else x
)

# 3) Inserir um pre√ßo unit√°rio zero ou negativo em 2 registros (erro de entrada)
preco_err_indices = np.random.choice(df_temp.index, size=2, replace=False)
df_temp.loc[preco_err_indices, "Preco_Unitario"] = [0, -99.9]

# 4) Opcional: duplicar propositalmente 2 registros para simular duplicatas
dup_indices = np.random.choice(df_temp.index, size=2, replace=False)
df_temp = pd.concat([df_temp, df_temp.loc[dup_indices]], ignore_index=True)

# Atualizar a vari√°vel 'dados' para continuar o fluxo (lista de listas)
dados = df_temp.values.tolist()



#üß© 5Ô∏è‚É£ Cria√ß√£o do DataFrame final e ajustes de tipos de dados


Neste bloco, organizamos o dataset final para an√°lise e futuras etapas do ETL:


**Criar DataFrame final:**

- Transformamos a lista dados em um DataFrame df com colunas nomeadas corretamente.

- Isso garante consist√™ncia e clareza no dataset.

**Converter Data_Venda para datetime:**

- Garantimos que a coluna de datas esteja no formato datetime.

- Usamos errors="coerce" para transformar valores inv√°lidos em NaT, evitando erros em an√°lises temporais.

**Converter tipos num√©ricos explicitamente:**

- Quantidade: convertida para inteiro (Int64) com suporte a valores nulos.

- Preco_Unitario e Total_Venda: convertidos para num√©rico, permitindo c√°lculos futuros.

**Ordenar por data de venda:**

- Organiza o DataFrame cronologicamente, essencial para an√°lises de s√©ries temporais e relat√≥rios de vendas.

- Resetamos o √≠ndice para manter a sequ√™ncia correta ap√≥s a ordena√ß√£o.

In [13]:
# Criando o DataFrame final
df = pd.DataFrame(dados, columns=[
    "ID_Venda","Produto","Categoria","Cidade","Vendedor",
    "Quantidade","Preco_Unitario","Total_Venda","Data_Venda"
])

# Convertendo Data_Venda para datetime (se n√£o estiver)
df["Data_Venda"] = pd.to_datetime(df["Data_Venda"], errors="coerce")

# Convertendo tipos num√©ricos
df["Quantidade"] = pd.to_numeric(df["Quantidade"], errors="coerce").astype("Int64")
df["Preco_Unitario"] = pd.to_numeric(df["Preco_Unitario"], errors="coerce")
df["Total_Venda"] = pd.to_numeric(df["Total_Venda"], errors="coerce")

# Ordenando por Data_Venda
df = df.sort_values(by="Data_Venda").reset_index(drop=True)


#üß© 6Ô∏è‚É£ Salvamento do CSV final e confer√™ncia do dataset

Neste bloco, finalizamos o processo de gera√ß√£o do dataset e salvamos o arquivo para uso futuro:

**Salvar o CSV:**

- to_csv("vendas.csv", index=False, encoding="utf-8-sig") salva o DataFrame em CSV, sem incluir o √≠ndice.

- A codifica√ß√£o utf-8-sig garante compatibilidade com Excel e sistemas que exigem BOM para UTF-8.

**Mensagem de confirma√ß√£o:**

- Informamos que o dataset foi gerado com sucesso.

- Exibimos informa√ß√µes importantes para confer√™ncia r√°pida:

**Total de registros ap√≥s inser√ß√£o de nulos, erros e duplicatas.**

- Quantidade de registros com Vendedor nulo.

- Quantidade de registros com Preco_Unitario menor ou igual a zero.

**Visualiza√ß√£o inicial:**

- display(df.head(10)) mostra as primeiras 10 linhas do DataFrame, permitindo verificar rapidamente a diversidade de dados e se os erros inseridos est√£o presentes.


In [14]:
# Salvando o CSV final
df.to_csv("vendas.csv", index=False, encoding="utf-8-sig")

# Mensagem final e visualiza√ß√£o
print("‚úÖ Dataset 'vendas.csv' gerado com sucesso!")
print(f"Total de registros (ap√≥s inje√ß√µes e duplicatas): {len(df)}")
print(f"Registros com vendedor nulo: {df['Vendedor'].isna().sum()}")
print(f"Registros com Preco_Unitario <= 0: {(df['Preco_Unitario'] <= 0).sum()}")
display(df.head(10))


‚úÖ Dataset 'vendas.csv' gerado com sucesso!
Total de registros (ap√≥s inje√ß√µes e duplicatas): 102
Registros com vendedor nulo: 6
Registros com Preco_Unitario <= 0: 2


Unnamed: 0,ID_Venda,Produto,Categoria,Cidade,Vendedor,Quantidade,Preco_Unitario,Total_Venda,Data_Venda
0,32,Bon√©,Acess√≥rios,Fortaleza,Patr√≠cia,7,153.41,1073.87,2024-10-24
1,6,Bon√©,Acess√≥rios,Salvador,Ana,9,493.45,4441.05,2024-10-30
2,47,Jaqueta,Vestu√°rio,Belo Horizonte,Jo√£o,3,445.31,1335.93,2024-11-02
3,19,Camisa,Vestu√°rio,Fortaleza,Patr√≠cia,7,50.78,355.46,2024-11-04
4,22,Camisa,Vestu√°rio,Rio de Janeiro,Paulo,5,287.98,1439.9,2024-11-14
5,95,Jaqueta,Vestu√°rio,Porto Alegre,Ana,1,176.35,176.35,2024-11-16
6,55,T√™nis,Cal√ßados,S√£o Paulo,Lucas,9,307.4,2766.6,2024-11-17
7,90,Cal√ßa,Vestu√°rio,Salvador,Fernanda,2,225.91,451.82,2024-11-19
8,5,Bolsa,Acess√≥rios,Belo Horizonte,Lucas,8,50.95,407.6,2024-11-20
9,56,Rel√≥gio,Acess√≥rios,Fortaleza,Fernanda,10,255.38,2553.8,2024-12-05


**### Pr√≥ximos passos (para o notebook 02_pipeline_ETL.ipynb)**


- Ler `vendas.csv`.
- Tratar nulos em `Vendedor` (preencher com "Desconhecido" ou imputa√ß√£o).
- Corrigir erros de digita√ß√£o em `Cidade` (string matching/manual rules).
- Tratar `Preco_Unitario <= 0` (corrigir ou remover).
- Remover duplicatas por `ID_Venda`.
- Ajustar tipos e criar coluna de dimens√£o (por exemplo, `Ano`, `Mes`).
- Salvar `vendas_tratadas.csv` e carregar em um banco SQLite (opcional).
