In [None]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta
import os

In [54]:
np.random.seed(46)
random.seed(46)

In [55]:
output_dir = "datasets"
os.makedirs(output_dir, exist_ok=True)

In [56]:
num_registros = 3000

datas = pd.date_range(start="2023-01-01", end="2023-12-31", freq="D")
produtos = ["Notebook", "Smartphone", "Mouse", "Teclado", "Monitor", "Fone de Ouvido", "Impressora", "Cadeira Gamer"]
categorias = ["Informática", "Acessórios", "Periféricos", "Móveis de Escritório"]
pagamentos = ["Crédito", "Débito", "Pix", "Dinheiro", "Boleto"]

In [57]:
df = pd.DataFrame({
    "ID": range(1, num_registros + 1),
    "Data": np.random.choice(datas, size=num_registros),
    "Produto": np.random.choice(produtos, size=num_registros),
    "Categoria": np.random.choice(categorias, size=num_registros),
    "Quantidade": np.random.randint(1, 10, size=num_registros),
    "Preço": np.round(np.random.uniform(50, 5000, size=num_registros), 2),
    "Pagamento": np.random.choice(pagamentos, size=num_registros)
})


In [58]:
nulos_porcentagem = 0.05
n_celulas = df.size
n_nulos = int(n_celulas * nulos_porcentagem)

for _ in range(n_nulos):
    i = np.random.randint(0, df.shape[0])
    j = np.random.randint(0, df.shape[1])
    df.iat[i, j] = np.nan

In [59]:
n_duplicatas = int(0.03 * len(df))
duplicatas = df.sample(n=n_duplicatas, random_state=42)
df = pd.concat([df, duplicatas], ignore_index=True)


In [60]:
output_path = os.path.join(output_dir, "vendas_raw.csv")
df.to_csv(output_path, index=False)

In [61]:
print(f"✅ Dataset gerado com sucesso: {output_path}")


✅ Dataset gerado com sucesso: datasets\vendas_raw.csv


In [62]:
print(f"Total de registros: {len(df)}")


Total de registros: 3090


In [63]:
print(f"Duplicatas reais: {df.duplicated().sum()}")


Duplicatas reais: 90


In [64]:
print(f"Nulos totais: {df.isnull().sum().sum()}")


Nulos totais: 1058


In [65]:
print("\nResumo por coluna:")
print(df.info())


Resumo por coluna:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3090 entries, 0 to 3089
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   ID          2934 non-null   float64       
 1   Data        2933 non-null   datetime64[ns]
 2   Produto     2914 non-null   object        
 3   Categoria   2954 non-null   object        
 4   Quantidade  2940 non-null   float64       
 5   Preço       2952 non-null   float64       
 6   Pagamento   2945 non-null   object        
dtypes: datetime64[ns](1), float64(3), object(3)
memory usage: 169.1+ KB
None
