In [1]:
import pandas as pd
import numpy as np

# Definir semente para reprodutibilidade
np.random.seed(42)

# Quantidade de linhas
num_rows = 1000

# Geração das variáveis

# 1. Ano (entre 2000 e 2023)
anos = np.random.randint(2000, 2024, num_rows)

# 2. KM Rodados (entre 0 e 300.000)
km_rodados = np.random.randint(0, 300001, num_rows)

# 3. Modelos (escolha aleatória de alguns tipos hipotéticos)
modelos_possiveis = [
    'Sedan Basico', 'Hatch Popular', 'SUV Compacto', 
    'Picape Media', 'Sedan Premium', 'Esportivo', 'Minivan Familiar'
]
modelos = np.random.choice(modelos_possiveis, num_rows)

# 4. Tipo de Combustível
combustiveis_possiveis = ['Gasolina', 'Alcool', 'Diesel', 'Flex']
tipo_combustivel = np.random.choice(combustiveis_possiveis, num_rows)

# 5. Potência do Motor (entre 80 e 300 cv)
potencia_motor = np.random.randint(80, 301, num_rows)

# 6. Número de Portas (2, 3 ou 4)
n_portas = np.random.choice([2, 3, 4], num_rows)

# 7. Preço (variável-alvo)
#    Vamos criar uma lógica simples para gerar o preço
#    Exemplo: preço base + ajuste pela idade do carro, quilometragem, potência, etc.
#    Ajuste aleatório (ruído) para cada instância.

# Definir um preço base
preco_base = 20000  

# Fator de ajuste por ano (carros mais novos tendem a ser mais caros)
# Vamos supor que cada ano acima de 2000 acrescente ~R$ 700 no preço
fator_ano = (anos - 2000) * 700

# Fator de ajuste por km (cada 1000 km rodados reduz algo como R$ 30)
fator_km = (km_rodados / 1000) * (-30)

# Fator de ajuste pela potência (cada 1 cv adiciona R$ 120)
fator_potencia = potencia_motor * 120

# Ruído aleatório para simular variação (entre -5000 e 5000)
ruido = np.random.randint(-5000, 5001, num_rows)

# Cálculo final do preço
preco = preco_base + fator_ano + fator_km + fator_potencia + ruido

# Evitar preços negativos (caso extremo de quilometragem muito alta, mais ruído)
preco = np.where(preco < 2000, 2000, preco)  # preço mínimo fictício de R$ 2000

# Montar o DataFrame
df_carros = pd.DataFrame({
    'preco': preco.astype(int),
    'ano': anos,
    'km_rodados': km_rodados,
    'modelo': modelos,
    'tipo_combustivel': tipo_combustivel,
    'potencia_motor': potencia_motor,
    'n_portas': n_portas
})

# Salvar em CSV
df_carros.to_csv('../../datasets/carros.csv', index=False)

print("Arquivo 'carros.csv' gerado com sucesso!")


Arquivo 'carros.csv' gerado com sucesso!
