# Criação de um Dataframe de vendas

## 1. Importações de bibliotecas

In [248]:
# Importando bibliotecas necessárias
# Importar numpy e random para geração de números aleatórios é uma boa prática


import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta
import os

print("Bibliotecas importadas com sucesso.");

Bibliotecas importadas com sucesso.


## 2. Configuração inicial

In [249]:
# Definindo sementes para reprodutibilidade
# Isso garante que os valores aleatórios gerados sejam os mesmos em cada execução
# Usaremos np.random

np.random.seed(46)
random.seed(46)

print("Sementes definidas para reprodutibilidade.");


Sementes definidas para reprodutibilidade.


In [250]:
# Criando diretório para salvar o Dataframe
# O diretório "Dataframes" será criado na raiz do projeto (dentro da pasta notebooks)

try: 

    output_dir = "Dataframes"
    os.makedirs(output_dir, exist_ok=True)

    print(f"Pasta '{output_dir}' criada (ou já existia).");


except PermissionError:

    print(f"Permissão negada para criar o diretório '{output_dir}'. Verifique as permissões do sistema.")    

except Exception as e:

    print(f"Erro ao criar diretório: {e}")    


Pasta 'Dataframes' criada (ou já existia).


## Definição dos parâmetros e lista de variaveis

In [251]:
# Definindo o número de registros que o dataset terá
# Pode ser ajustado se necessário

num_registros = 3000

print(f"Criando DataFrame com {num_registros} registros...");


Criando DataFrame com 3000 registros...


In [252]:
# Definindo listas de produtos, categorias e métodos de pagamento
# Esses valores serão usados para popular o DataFrame

mapa_produtos = {
    "Ferramentas": [
        "Martelo", "Chave de Fenda", "Furadeira", "Serrote", 
        "Trena", "Alicate", "Parafusadeira", "Lixadeira"
    ],
    "Elétrica": [
        "Tomada", "Interruptor", "Fio Elétrico (100m)", "Lâmpada LED", 
        "Disjuntor", "Extensão (5m)", "Lanterna", "Pilha AA"
    ],
    "Hidráulica": [
        "Torneira", "Cano PVC (6m)", "Registro de Água", "Conexão T", 
        "Caixa de água (500L)", "Válvula de Descarga", "Mangueira (20m)", "Bomba de água"
    ],
    "Tintas e Acabamento": [
        "Tinta Acrílica (18L)", "Tinta Esmalte (3,6L)", "Rolo de Pintura", 
        "Lixa (Folha)", "Pincel", "Massa Corrida (25kg)", "Selador (5L)", 
        "Verniz (900ml)"
    ],
    "Construção e Estrutura": [
        "Cimento (50kg)", "Areia (20kg)", "Brita (20kg)", "Tijolo", 
        "Bloco de Concreto", "Argamassa (20kg)", "Telha Cerâmica", 
        "Verga Metálica (2m)"
    ],
    "Jardinagem": [
        "Pá", "Enxada", "Regador (10L)", "Mangueira Jardim (30m)", 
        "Sementes de Grama (1kg)", "Tesoura de Poda", "Adubo (5kg)", "Carrinho de Mão"
    ],
    "Segurança e EPI": [
        "Capacete", "Luva de Proteção", "Máscara Respiratória", 
        "Óculos de Proteção", "Protetor Auricular", "Botina", "Colete Reflexivo"
    ]
}
pagamentos = [
    "Crédito", "Débito", "Pix", "Dinheiro", 
    "Boleto", "Transferência Bancária", "Carteira Digital"
]

print(f"Produtos, categorias e métodos de pagamento definidos.");

Produtos, categorias e métodos de pagamento definidos.


In [253]:
# Definindo preços unitários para cada produto

precos_produtos = {
    "Martelo": 79.90, "Chave de Fenda": 24.50, "Furadeira": 499.90, "Serrote": 64.90,
    "Trena": 32.00, "Alicate": 41.90, "Parafusadeira": 429.00, "Lixadeira": 389.00,

    "Tomada": 9.90, "Interruptor": 12.90, "Fio Elétrico (100m)": 3.50, "Lâmpada LED": 14.90,
    "Disjuntor": 45.00, "Extensão (5m)": 39.90, "Lanterna": 59.90, "Pilha AA": 6.90,
    
    "Torneira": 79.00, "Cano PVC (6m)": 29.90, "Registro de Água": 54.90, "Conexão T": 7.90,
    "Caixa de água (500L)": 799.00, "Válvula de Descarga": 119.00, "Mangueira (20m)": 59.00, "Bomba de água": 899.00,

    "Tinta Acrílica (18L)": 249.00, "Tinta Esmalte (3,6L)": 229.00, "Rolo de Pintura": 24.90,
    "Lixa (Folha)": 4.90, "Pincel": 12.90, "Massa Corrida (25kg)": 89.90, "Selador (5L)": 99.90, "Verniz (900ml)": 139.90,

    "Cimento (50kg)": 39.90, "Areia (20kg)": 14.90, "Brita (20kg)": 17.90, "Tijolo": 2.00,
    "Bloco de Concreto": 6.00, "Argamassa (20kg)": 24.90, "Telha Cerâmica": 7.90, "Verga Metálica (2m)": 119.00,

    "Pá": 74.90, "Enxada": 89.90, "Regador (10L)": 39.90, "Mangueira Jardim (30m)": 69.90,
    "Sementes de Grama (1kg)": 19.90, "Tesoura de Poda": 59.90, "Adubo (5kg)": 49.90, "Carrinho de Mão": 359.00,

    "Capacete": 49.90, "Luva de Proteção": 19.90, "Máscara Respiratória": 29.90,
    "Óculos de Proteção": 24.90, "Protetor Auricular": 9.90, "Botina": 149.00, "Colete Reflexivo": 39.90
}
print("Preços unitários definidos com sucesso.")


Preços unitários definidos com sucesso.


## 4. Simulação do Dataset

In [254]:
# Gerando listas de categorias e produtos
# Essas listas serão usadas para popular o DataFrame

categorias_lista = []
produtos_lista = []


for _ in range(num_registros):
    categoria_escolhida = random.choice(list(mapa_produtos.keys()))
    produto_escolhido = random.choice(mapa_produtos[categoria_escolhida])
    categorias_lista.append(categoria_escolhida)
    produtos_lista.append(produto_escolhido)

print("Listas de categorias e produtos criadas com sucesso.")

Listas de categorias e produtos criadas com sucesso.


In [255]:
# Criando o DataFrame com dados simulados utilizando escolhas aleatórias
# Cada coluna é preenchida com os dados em aleatoriedade para simular um cenário real de vendas

df = pd.DataFrame({
    "id": range(1, num_registros + 1),
    "data": np.random.choice(pd.date_range("2023-01-01", "2023-12-31", freq='D'), size=num_registros),
    "produto": produtos_lista,
    "categoria": categorias_lista,
    "quantidade": np.random.randint(1, 501, size=num_registros),
    "pagamento": np.random.choice(pagamentos, size=num_registros)
})
print("DataFrame criado com sucesso.");

df["preco_unitario"] = df["produto"].map(precos_produtos)

print(" Colunas de preço unitário calculada e inserida com sucesso! ")


DataFrame criado com sucesso.
 Colunas de preço unitário calculada e inserida com sucesso! 


## 5. Criação e Inserção de valores nulos

In [256]:
# Gera 1% de valores nulos aleatórios em todas as colunas (exceto na coluna ID)
# Isso simula falhas reais de preenchimento em bases de vendas

nulos_porcentagem = 0.01
cols_sem_id = df.columns[df.columns != "id"] 
num_celulas = df[cols_sem_id].size
num_nulos = int(num_celulas * nulos_porcentagem)

for _ in range(num_nulos):
    i = np.random.randint(0, df.shape[0])
    j = np.random.randint(0, len(cols_sem_id))
    col = cols_sem_id[j]
    df.at[i, col] = np.nan


print(f"Inserindo {num_nulos} valores NaN aleatórios\n ({nulos_porcentagem*100}% das células, exceto ID)...");

Inserindo 180 valores NaN aleatórios
 (1.0% das células, exceto ID)...


## 6. Gerando e Inserindo registros duplicados

In [257]:
# Inserindo 2% de linhas duplicadas no DataFrame
# Isso simula falhas reais de preenchimento em bases de vendas


num_duplicadas = int(0.02 * len(df))
duplicadas = df.sample(n=num_duplicadas, random_state=42)
df = pd.concat([df, duplicadas], ignore_index=True)

print(f"{num_duplicadas} linhas duplicadas inseridas. DataFrame agora tem {len(df)} linhas.");

60 linhas duplicadas inseridas. DataFrame agora tem 3060 linhas.


## 8. Prints para verificação do Dataset criado

In [258]:
# Mostrando o total de registros no DataFrame final

print(f"Total de registros: {len(df)}")


Total de registros: 3060


In [259]:
# Mostrando o total de duplicatas no DataFrame final

print(f"Duplicatas: {df.duplicated().sum()}")

Duplicatas: 60


In [260]:
# Mostrando o total de nulos no DataFrame final

print(f"Nulos totais: {df.isnull().sum().sum()}")

Nulos totais: 186


In [261]:
# Verificando as primeiras 10 linhas do DataFrame final
# Isso ajuda a ter uma visão rápida dos dados gerados

df.head(10)

Unnamed: 0,id,data,produto,categoria,quantidade,pagamento,preco_unitario
0,1,2023-07-09,Parafusadeira,Ferramentas,450.0,Pix,429.0
1,2,2023-11-22,Serrote,Ferramentas,266.0,Débito,64.9
2,3,2023-02-10,Regador (10L),Jardinagem,184.0,Débito,39.9
3,4,2023-05-27,Cimento (50kg),Construção e Estrutura,491.0,Pix,39.9
4,5,2023-07-23,Chave de Fenda,Ferramentas,315.0,Transferência Bancária,24.5
5,6,2023-12-16,Máscara Respiratória,Segurança e EPI,205.0,Débito,29.9
6,7,2023-11-13,Pá,Jardinagem,389.0,Dinheiro,74.9
7,8,2023-08-24,Capacete,Segurança e EPI,456.0,Dinheiro,49.9
8,9,2023-05-11,Disjuntor,Elétrica,418.0,Carteira Digital,45.0
9,10,2023-03-14,Argamassa (20kg),Construção e Estrutura,179.0,Transferência Bancária,24.9


In [262]:
# Mostrando um resumo por coluna do DataFrame final
# Ajuda a entender superficialmente tipos de dados e nulos por coluna

print("\nResumo por coluna:")
print(df.info())


Resumo por coluna:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3060 entries, 0 to 3059
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   id              3060 non-null   int64         
 1   data            3024 non-null   datetime64[ns]
 2   produto         3030 non-null   object        
 3   categoria       3017 non-null   object        
 4   quantidade      3030 non-null   float64       
 5   pagamento       3036 non-null   object        
 6   preco_unitario  3037 non-null   float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 167.5+ KB
None


## 7. Salvando o Dataset 

In [263]:
# Salvando o DataFrame em um arquivo CSV no diretório criado
# os.path.join monta o caminho correto para o arquivo (ajuda em compatibilidade entre sistemas)

try:

    output_path = os.path.join(output_dir, "vendas_raw.csv")
    df.to_csv(output_path, index=False)

    print(f"DataFrame salvo em '{output_path}'.")

except PermissionError:

    print(f" Erro de Permissão: Não foi possível escrever no diretório '{output_dir}'. Verifique as permissões.")    

except Exception as e:
    print(f" Ocorreu um erro inesperado ao salvar o arquivo: {e}")

DataFrame salvo em 'Dataframes\vendas_raw.csv'.
