# Criação de um Dataframe de vendas

## 1. Importações de bibliotecas

In [49]:
# Importando bibliotecas necessárias
# Importar numpy e random para geração de números aleatórios é uma boa prática


import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta
import os

print("Bibliotecas importadas com sucesso.");

Bibliotecas importadas com sucesso.


## 2. Configuração inicial

In [50]:
# Definindo sementes para reprodutibilidade
# Isso garante que os valores aleatórios gerados sejam os mesmos em cada execução
# Usaremos np.random

np.random.seed(46)
random.seed(46)

print("Sementes definidas para reprodutibilidade.");


Sementes definidas para reprodutibilidade.


In [51]:
# Criando diretório para salvar o Dataframe
# O diretório "Dataframes" será criado na raiz do projeto (dentro da pasta notebooks)


try: 

    output_dir = "Dataframes"
    os.makedirs(output_dir, exist_ok=True)

    print(f"Pasta '{output_dir}' criada (ou já existia).");


except PermissionError:

    print(f"Permissão negada para criar o diretório '{output_dir}'. Verifique as permissões do sistema.")    

except Exception as e:

    print(f"Erro ao criar diretório: {e}")    


Pasta 'Dataframes' criada (ou já existia).


## Definição dos parâmetros e lista de variaveis

In [52]:
# Definindo o número de registros que o dataset terá
# Pode ser ajustado se necessário

num_registros = 3000

print(f"Criando DataFrame com {num_registros} registros...");


Criando DataFrame com 3000 registros...


In [53]:
# Gerando uma série de datas diárias para o ano de 2023
# Essas datas serão usadas para popular a coluna "Data da Venda"

datas = pd.date_range(start="2023-01-01", end="2023-12-31", freq="D")

print(f"Datas geradas de {datas.min().date()} a {datas.max().date()}.");


Datas geradas de 2023-01-01 a 2023-12-31.


In [54]:
# Definindo listas de produtos, categorias e métodos de pagamento
# Esses valores serão usados para popular o DataFrame

mapa_produtos = {
    "Ferramentas": [
        "Martelo", "Chave de Fenda", "Furadeira", "Serrote", 
        "Trena", "Alicate", "Parafusadeira", "Lixadeira"
    ],
    "Elétrica": [
        "Tomada", "Interruptor", "Fio Elétrico", "Lâmpada LED", 
        "Disjuntor", "Extensão", "Lanterna", "Pilha"
    ],
    "Hidráulica": [
        "Torneira", "Cano PVC", "Registro de Água", "Conexão T", 
        "Caixa de água", "Válvula de Descarga", "Mangueira", "Bomba de água"
    ],
    "Tintas e Acabamento": [
        "Tinta Acrílica", "Tinta Esmalte", "Rolo de Pintura", "Lixa", 
        "Pincel", "Massa Corrida", "Selador", "Verniz"
    ],
    "Construção e Estrutura": [
        "Cimento", "Areia", "Brita", "Tijolo", "Bloco de Concreto", 
        "Argamassa", "Telha Cerâmica", "Verga Metálica"
    ],
    "Jardinagem": [
        "Pá", "Enxada", "Regador", "Mangueira Jardim", 
        "Sementes de Grama", "Tesoura de Poda", "Adubo", "Carrinho de Mão"
    ],
    "Segurança e EPI": [
        "Capacete", "Luva de Proteção", "Máscara Respiratória", 
        "Óculos de Proteção", "Protetor Auricular", "Botina", "Colete Reflexivo"
    ]
}

pagamentos = [
    "Crédito", "Débito", "Pix", "Dinheiro", 
    "Boleto", "Transferência Bancária", "Carteira Digital"
]

print(f"Produtos, categorias e métodos de pagamento definidos.");

Produtos, categorias e métodos de pagamento definidos.


## 4. Simulação do Dataset

In [55]:
categorias_lista = []
produtos_lista = []

for _ in range(num_registros):
    categoria = random.choice(list(mapa_produtos.keys()))
    produto = random.choice(mapa_produtos[categoria])
    categorias_lista.append(categoria)
    produtos_lista.append(produto)

In [56]:
# Criando o DataFrame com dados simulados utilizando escolhas aleatórias
# Cada coluna é preenchida com os dados em aleatoriedade para simular um cenário real de vendas

df = pd.DataFrame({
    "ID": range(1, num_registros + 1),
    "Data": np.random.choice(datas, size=num_registros),
    "Produto": produtos_lista,
    "Categoria": categorias_lista,
    "Quantidade": np.random.randint(1, 101, size=num_registros),
    "Preço": np.round(np.random.uniform(50, 5000, size=num_registros), 2),
    "Pagamento": np.random.choice(pagamentos, size=num_registros)
})

print("DataFrame criado com sucesso ✅.");

DataFrame criado com sucesso ✅.


## 5. Criação e Inserção de valores nulos

In [57]:
# Gera 5% de valores nulos aleatórios (exceto na coluna ID)
# Isso simula falhas reais de preenchimento em bases de vendas

nulos_porcentagem = 0.05
cols_sem_id = df.columns[df.columns != "ID"] 
num_celulas = df[cols_sem_id].size
num_nulos = int(num_celulas * nulos_porcentagem)

for _ in range(num_nulos):
    i = np.random.randint(0, df.shape[0])
    j = np.random.randint(0, len(cols_sem_id))
    col = cols_sem_id[j]
    df.at[i, col] = np.nan


print(f"Inserindo {num_nulos} valores NaN aleatórios\n ({nulos_porcentagem*100}% das células, exceto ID)...");

Inserindo 900 valores NaN aleatórios
 (5.0% das células, exceto ID)...


## 6. Gerando e Inserindo registros duplicados

In [58]:
# Inserindo 3% de linhas duplicadas no DataFrame
# Isso simula falhas reais de preenchimento em bases de vendas


num_duplicadas = int(0.03 * len(df))
duplicadas = df.sample(n=num_duplicadas, random_state=42)
df = pd.concat([df, duplicadas], ignore_index=True)

print(f"{num_duplicadas} linhas duplicadas inseridas. DataFrame agora tem {len(df)} linhas.");

90 linhas duplicadas inseridas. DataFrame agora tem 3090 linhas.


## 7. Salvando o Dataset 

In [59]:
# Salvando o DataFrame em um arquivo CSV no diretório criado
# os.path.join monta o caminho correto para o arquivo (ajuda em compatibilidade entre sistemas)

try:

    output_path = os.path.join(output_dir, "vendas_raw.csv")
    df.to_csv(output_path, index=False)

    print(f"DataFrame salvo em '{output_path}'.")

except PermissionError:

    print(f"❌ Erro de Permissão: Não foi possível escrever no diretório '{output_dir}'. Verifique as permissões.")    

except Exception as e:
    print(f"❌ Ocorreu um erro inesperado ao salvar o arquivo: {e}")

DataFrame salvo em 'Dataframes\vendas_raw.csv'.


## 8. Prints para verificação do Dataset criado

In [60]:
# Mostrando o total de registros no DataFrame final

print(f"Total de registros: {len(df)}")


Total de registros: 3090


In [61]:
# Mostrando o total de duplicatas no DataFrame final

print(f"Duplicatas: {df.duplicated().sum()}")

Duplicatas: 90


In [62]:
# Mostrando o total de nulos no DataFrame final

print(f"Nulos totais: {df.isnull().sum().sum()}")

Nulos totais: 900


In [63]:
# Verificando as primeiras 10 linhas do DataFrame final
# Isso ajuda a ter uma visão rápida dos dados gerados

df.head(10)

Unnamed: 0,ID,Data,Produto,Categoria,Quantidade,Preço,Pagamento
0,1,2023-07-09,Parafusadeira,Ferramentas,66.0,4763.78,Carteira Digital
1,2,2023-11-22,Serrote,Ferramentas,10.0,,Pix
2,3,2023-02-10,Regador,Jardinagem,56.0,3572.49,Pix
3,4,2023-05-27,Cimento,Construção e Estrutura,59.0,1037.29,Pix
4,5,2023-07-23,Chave de Fenda,Ferramentas,77.0,2157.34,Dinheiro
5,6,2023-12-16,Máscara Respiratória,Segurança e EPI,5.0,1584.25,Crédito
6,7,2023-11-13,Pá,Jardinagem,72.0,2243.43,Boleto
7,8,2023-08-24,Capacete,Segurança e EPI,34.0,2752.94,Pix
8,9,2023-05-11,Disjuntor,Elétrica,51.0,876.9,Crédito
9,10,2023-03-14,Argamassa,Construção e Estrutura,50.0,1043.67,Crédito


In [64]:
# Mostrando um resumo por coluna do DataFrame final
# Ajuda a entender superficialmente tipos de dados e nulos por coluna

print("\nResumo por coluna:")
print(df.info())


Resumo por coluna:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3090 entries, 0 to 3089
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          3090 non-null   int64         
 1   Data        2946 non-null   datetime64[ns]
 2   Produto     2942 non-null   object        
 3   Categoria   2951 non-null   object        
 4   Quantidade  2939 non-null   float64       
 5   Preço       2932 non-null   float64       
 6   Pagamento   2930 non-null   object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 169.1+ KB
None
