In [2]:
import pandas as pd
import numpy as np
import random

# Definindo as marcas, modelos e outros dados fictícios
marcas = ['Toyota', 'Honda', 'Ford', 'Chevrolet', 'Volkswagen', 'Hyundai', 'Nissan', 'BMW', 'Mercedes', 'Audi']
modelos = ['Corolla', 'Civic', 'F-150', 'Onix', 'Gol', 'HB20', 'Sentra', 'X1', 'X5', 'A3']
precos = [90000, 85000, 120000, 75000, 65000, 70000, 95000, 150000, 160000, 170000]
quantidade = [1, 2, 3, 4, 5]
dias_do_mes = [i for i in range(1, 32)]

# Função para gerar datas aleatórias entre janeiro e dezembro de 2024
def gerar_data():
    ano = 2024
    mes = random.randint(1, 12)
    dia = random.choice(dias_do_mes)
    try:
        return pd.to_datetime(f'{ano}-{mes:02d}-{dia:02d}')
    except ValueError:
        return pd.to_datetime(f'{ano}-{mes:02d}-{1:02d}')  # Caso o dia seja inválido, ajusta para o dia 1

# Gerando o dataset
dados = {
    'ID_Venda': range(1, 501),
    'Marca': [random.choice(marcas) for _ in range(500)],
    'Modelo': [random.choice(modelos) for _ in range(500)],
    'Ano': [random.choice([2022, 2023, 2024]) for _ in range(500)],
    'Preço': [random.choice(precos) for _ in range(500)],
    'Quantidade': [random.choice(quantidade) for _ in range(500)],
    'Data_Venda': [gerar_data() for _ in range(500)],
}

# Criando o DataFrame
df = pd.DataFrame(dados)

# Introduzindo alguns valores ausentes aleatórios (aproximadamente 5% de valores ausentes)
num_ausentes = int(len(df) * 0.05)
indices_ausentes = random.sample(range(len(df)), num_ausentes)
for i in indices_ausentes:
    df.loc[i, 'Preço'] = np.nan  # Preço ausente

# Introduzindo valores duplicados aleatórios (aproximadamente 5% de duplicação)
num_duplicados = int(len(df) * 0.05)
duplicados_indices = random.sample(range(len(df)), num_duplicados)
df = pd.concat([df, df.iloc[duplicados_indices]], ignore_index=True)

# Embaralhando o DataFrame para parecer mais realista
df = df.sample(frac=1).reset_index(drop=True)

# Exibindo as primeiras linhas para verificar
print(df.head())

# Salvando o dataset em um arquivo CSV
df.to_csv('vendas_automoveis_2024.csv', index=False)


   ID_Venda      Marca Modelo   Ano     Preço  Quantidade Data_Venda
0       378   Mercedes   HB20  2022  120000.0           1 2024-07-16
1       457   Mercedes     A3  2024  160000.0           2 2024-12-12
2        93  Chevrolet     X1  2023  120000.0           5 2024-11-03
3        90   Mercedes  Civic  2022  120000.0           5 2024-03-10
4       222  Chevrolet  Civic  2023   85000.0           4 2024-09-25
