### Regressão

In [None]:
import pandas as pd
import numpy as np

# Fixando aleatoriedade
np.random.seed(42)

# Bairros mais comuns em João Pessoa com fatores de valorização
bairros = {
    "Manaíra": {"lat": -7.105, "lon": -34.830, "fator": 1.3},
    "Cabo Branco": {"lat": -7.130, "lon": -34.830, "fator": 1.4},
    "Altiplano": {"lat": -7.150, "lon": -34.825, "fator": 1.35},
    "Bessa": {"lat": -7.080, "lon": -34.830, "fator": 1.25},
    "Tambaú": {"lat": -7.115, "lon": -34.830, "fator": 1.3},
    "Bancários": {"lat": -7.160, "lon": -34.840, "fator": 0.9},
    "Mangabeira": {"lat": -7.180, "lon": -34.850, "fator": 0.8},
}

n = 500  # quantidade de registros

# Amostragem de bairros
bairro_choices = np.random.choice(list(bairros.keys()), size=n)

# Criando dataset
data = []
for i in range(n):
    bairro = bairro_choices[i]
    info = bairros[bairro]

    # Latitude/Longitude com variação
    lat = info["lat"] + np.random.uniform(-0.01, 0.01)
    lon = info["lon"] + np.random.uniform(-0.01, 0.01)

    # Características do imóvel
    area_terreno = np.random.randint(150, 600)
    area_construida = np.random.randint(80, area_terreno)
    quartos = np.random.randint(2, 6)
    suites = np.random.randint(1, quartos)
    banheiros = suites + np.random.randint(1, 3)
    vagas = np.random.randint(1, 4)
    ano_construcao = np.random.randint(1995, 2025)
    piscina = np.random.choice(["Sim", "Não"], p=[0.3, 0.7])
    gourmet = np.random.choice(["Sim", "Não"], p=[0.4, 0.6])
    conservacao = np.random.choice(["Novo", "Reformado", "Antigo"], p=[0.4, 0.3, 0.3])
    dist_praia = np.random.randint(100, 5000)

    # Definindo preço base
    preco = (
        area_construida * 3500 +
        area_terreno * 800 +
        suites * 20000 +
        vagas * 10000 -
        dist_praia * 5
    ) * info["fator"]

    # Ajustes por padrão
    if piscina == "Sim":
        preco += 70000
    if gourmet == "Sim":
        preco += 40000
    if conservacao == "Antigo":
        preco *= 0.85
    elif conservacao == "Novo":
        preco *= 1.1

    # Ruído para realismo
    preco += np.random.normal(0, 50000)

    data.append([
        i+1, bairro, lat, lon, area_terreno, area_construida,
        quartos, suites, banheiros, vagas, ano_construcao,
        piscina, gourmet, conservacao, dist_praia, round(preco, -3)
    ])

# Montando DataFrame
cols = [
    "ID", "Bairro", "Latitude", "Longitude", "Area_Terreno_m2", "Area_Construida_m2",
    "Quartos", "Suites", "Banheiros", "Vagas_Garagem", "Ano_Construcao",
    "Piscina", "Area_Gourmet", "Conservacao", "Dist_Praia_m", "Preco_R$"
]

df = pd.DataFrame(data, columns=cols)

# Exibir primeiros registros
print(df.head())

# Salvar em CSV
df.to_csv("imoveis_joaopessoa.csv", index=False, encoding="utf-8-sig")
