In [1]:
import pandas as pd
import numpy as np
import random
from datetime import datetime, timedelta

# Função para gerar datas aleatórias de nascimento de clientes
def gerar_data_nascimento():
    ano = random.randint(1980, 1998)
    mes = random.randint(1, 12)
    dia = random.randint(1, 28)  # Para garantir que a data seja válida
    return f'{ano}-{mes:02d}-{dia:02d}'

# Função para gerar um CPF válido (simulação)
def gerar_cpf():
    cpf = ''.join([str(random.randint(0, 9)) for _ in range(9)])
    cpf = f'{cpf[:3]}.{cpf[3:6]}.{cpf[6:9]}-{cpf[9:]}'
    return cpf

# Função para gerar datas de vendas
def gerar_data_venda():
    start_date = datetime(2019, 1, 1)
    end_date = datetime(2023, 12, 31)
    return start_date + timedelta(days=random.randint(0, (end_date - start_date).days))

# Gerando dados de imóveis (100 registros)
imoveis_data = {
    'imovel_id': range(1, 101),
    'tipo_imovel': random.choices(['Casa', 'Apartamento'], k=100),
    'preco': [round(random.uniform(150000, 800000), 2) for _ in range(100)],
    'bairro': random.choices(['Centro', 'Moinhos de Vento', 'Petrópolis', 'Ponta Grossa', 'Vila Flores', 'Campo Bom'], k=100),
    'data_construcao': [datetime(2015, 1, 1) + timedelta(days=random.randint(0, 2000)) for _ in range(100)]
}

# Gerando dados de clientes (100 registros)
clientes_data = {
    'cliente_id': range(1, 101),
    'nome_cliente': [f'Cliente {i}' for i in range(1, 101)],
    'cpf': [gerar_cpf() for _ in range(100)],
    'data_nascimento': [gerar_data_nascimento() for _ in range(100)],
}

# Gerando dados de vendas (200 registros)
vendas_data = {
    'venda_id': range(1, 201),
    'imovel_id': random.choices(range(1, 101), k=200),
    'cliente_id': random.choices(range(1, 101), k=200),
    'data_venda': [gerar_data_venda() for _ in range(200)],
}

# Criando os DataFrames
df_imoveis = pd.DataFrame(imoveis_data)
df_clientes = pd.DataFrame(clientes_data)
df_vendas = pd.DataFrame(vendas_data)

# Introduzindo valores ausentes (NaN) e duplicados de maneira aleatória

# Introduzindo valores ausentes no preço dos imóveis
df_imoveis.loc[5, 'preco'] = np.nan  # Falta o preço para o imóvel 6
df_imoveis.loc[25, 'preco'] = np.nan  # Falta o preç



In [4]:
df_imoveis.head()

Unnamed: 0,imovel_id,tipo_imovel,preco,bairro,data_construcao
0,1,Apartamento,395437.81,Petrópolis,2015-01-13
1,2,Casa,602374.77,Vila Flores,2016-07-24
2,3,Casa,419592.43,Campo Bom,2015-12-11
3,4,Casa,720023.6,Vila Flores,2016-10-20
4,5,Apartamento,609305.69,Centro,2018-03-24


In [5]:
df_clientes.head()

Unnamed: 0,cliente_id,nome_cliente,cpf,data_nascimento
0,1,Cliente 1,486.992.287-,1990-05-14
1,2,Cliente 2,278.084.283-,1989-07-20
2,3,Cliente 3,295.961.646-,1984-02-14
3,4,Cliente 4,508.080.838-,1985-02-26
4,5,Cliente 5,389.260.606-,1992-08-23


In [6]:
df_vendas.head()

Unnamed: 0,venda_id,imovel_id,cliente_id,data_venda
0,1,82,70,2023-10-17
1,2,82,24,2021-05-26
2,3,92,4,2019-08-19
3,4,73,18,2021-10-09
4,5,11,12,2020-02-21


In [7]:
df_imoveis.to_csv('imoveis.csv', index = False)

In [8]:
df_clientes.to_csv('clientes.csv', index = False)

In [9]:
df_vendas.to_csv('vendas.csv', index = False)