In [1]:
import pandas as pd


In [3]:
# carregar os dados
df = pd.read_csv("imoveis_petropolis_2025-09-15.csv", sep=";")
df["valor"] = pd.to_numeric(df["valor"], errors="coerce")
df["m2"] = pd.to_numeric(df["m2"], errors="coerce")
df["preco_m2"] = df["valor"] / df["m2"]

# remover registros inválidos
df = df.dropna(subset=["preco_m2"])
df = df[df["m2"] > 0]

# calcular limites pelo IQR (para remover outliers)
Q1 = df["preco_m2"].quantile(0.25)
Q3 = df["preco_m2"].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

df_sem_outliers = df[(df["preco_m2"] >= limite_inferior) & (df["preco_m2"] <= limite_superior)]

# média e número de imóveis por bairro
resumo_por_bairro = (
    df_sem_outliers.groupby("bairro")
    .agg(
        preco_m2_medio=("preco_m2", "mean"),
        qtd_imoveis=("preco_m2", "count")
    )
    .reset_index()
    .sort_values(by="preco_m2_medio", ascending=False)
)

print(resumo_por_bairro)

                   bairro  preco_m2_medio  qtd_imoveis
40      Vale do Carangola    12500.000000            1
22               Itaipava     7103.609556          959
3              Bonsucesso     6963.027428           65
9                  Centro     6943.978632          686
1                  Araras     6902.347917          256
26               Nogueira     6827.703264          217
15                 Duchas     6788.048266           19
42           Vila Militar     6389.250012           17
12                Corrêas     6337.831898          349
41             Valparaíso     6281.902880          118
11          Coronel Veiga     6001.743234           89
13                 Cuiabá     5936.487486           74
4               Carangola     5897.381244           32
37              Samambaia     5864.726794          117
34                 Retiro     5796.534553          124
2                  Bingen     5566.081210          103
27           Pedro do Rio     5531.420580          379
25        