<a href="https://colab.research.google.com/github/daniel-usp/MBA-BIA-USP/blob/main/gabarito_analytics_im%C3%B3veis_usp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
# 📦 Importando bibliotecas
import pandas as pd

# 📂 Carregar dados
df = pd.read_excel('/content/dados_imoveis_SP_Aula.xlsx')

print("\n" + "="*80)
print("🔎 EXPLORAÇÃO INICIAL")
print("="*80)

print("\n❓ 1. Quantas linhas e colunas existem no dataset?")
print("✅", df.shape)

print("\n❓ 2. Quais são os bairros únicos?")
print("✅", df["bairro"].unique())

print("\n❓ 3. Qual é a área média dos imóveis?")
print("✅", df["area_util"].mean())

print("\n❓ 4. Qual é o valor médio e máximo do preço?")
print("✅", df["valor_total"].mean(), " | Máximo:", df["valor_total"].max())

print("\n❓ 5. Qual é o preço médio por metro quadrado?")
print("✅", df["preco_m2"].mean())

print("\n❓ 6. Qual é o imóvel com maior e menor área útil?")
print("✅ Min:", df["area_util"].min(), " | Max:", df["area_util"].max())

print("\n❓ 7. Qual é o valor de condomínio mais alto?")
print("✅", df["condominio"].max())

print("\n❓ 8. Qual é a distribuição do número de quartos?")
print("✅\n", df["quartos"].value_counts())

print("\n" + "="*80)
print("🏘️ ANÁLISE POR BAIRROS")
print("="*80)

print("\n❓ 9. Qual é o bairro mais caro em média por m²?")
print("✅\n", df.groupby("bairro")["preco_m2"].mean().sort_values(ascending=False).head(1))

print("\n❓ 10. Qual é o bairro mais barato em média por m²?")
print("✅\n", df.groupby("bairro")["preco_m2"].mean().sort_values().head(1))

print("\n❓ 11. Quais são os 5 bairros com maior número de imóveis?")
print("✅\n", df["bairro"].value_counts().head(5))

print("\n❓ 12. Existe correlação entre renda per capita e preço por m²?")
print("✅\n", df[["renda_percapita","preco_m2"]].corr())

print("\n" + "="*80)
print("🏗️ INFRAESTRUTURA E COMODIDADES")
print("="*80)

print("\n❓ 13. Quantos imóveis possuem piscina?")
print("✅", df["piscina"].sum())

print("\n❓ 14. Quantos possuem academia e quadra ao mesmo tempo?")
print("✅", len(df[(df["academia"]==1) & (df["quadra"]==1)]))

print("\n❓ 15. Qual é o preço médio de imóveis com piscina vs sem piscina?")
print("✅\n", df.groupby("piscina")["preco_m2"].mean())

print("\n❓ 16. Qual linha de metrô concentra mais imóveis?")
print("✅\n", df["linha_prox"].value_counts().head(1))

print("\n❓ 17. Qual a correlação entre distância do metrô e preço do m²?")
print("✅\n", df[["dist_metro","preco_m2"]].corr())

print("\n" + "="*80)
print("⚖️ FATORES SOCIOECONÔMICOS")
print("="*80)

print("\n❓ 18. Relação entre IDH do bairro e preço do m²?")
print("✅\n", df[["media_idh","preco_m2"]].corr())

print("\n❓ 19. Relação entre Gini e preço do m²?")
print("✅\n", df[["media_gini","preco_m2"]].corr())

print("\n❓ 20. Top 5 bairros com maior renda per capita e preços médios?")
print("✅\n", df.groupby("bairro")[["renda_percapita","preco_m2"]]
        .mean()
        .sort_values("renda_percapita",ascending=False)
        .head(5))

print("\n" + "="*80)
print("📈 OPORTUNIDADES DE INVESTIMENTO")
print("="*80)

# Criar variáveis de comparação
df["media_preco_m2_bairro"] = df.groupby("bairro")["preco_m2"].transform("mean")
df["status_valorizacao"] = df["preco_m2"] - df["media_preco_m2_bairro"]

print("\n❓ 21. Criar média de preço por m² por bairro e comparar com cada imóvel.")
print("✅ Colunas adicionadas: 'media_preco_m2_bairro' e 'status_valorizacao'.")

print("\n❓ 22. Quantos imóveis estão SUPER e SUB?")
print("✅ SUPER:", (df["status_valorizacao"]>0).sum(),
      " | SUB:", (df["status_valorizacao"]<0).sum())

print("\n❓ 23. Quais são os 10 melhores negócios (SUB com maior área útil)?")
print("✅\n", df[df["status_valorizacao"]<0]
        .sort_values("area_util",ascending=False)
        .head(10))

print("\n❓ 24. Qual imóvel ideal (SUB, ≥2 quartos, ≥1 vaga, <1 km metrô, IDH acima da média)?")
idh_medio = df["media_idh"].mean()
imovel_recomendado = df[(df["status_valorizacao"]<0) &
                        (df["quartos"]>=2) &
                        (df["vagas"]>=1) &
                        (df["dist_metro"]<1000) &
                        (df["media_idh"]>idh_medio)].head(1)
print("✅\n", imovel_recomendado)

print("\n" + "="*80)
print("🏆 CONCLUSÃO FINAL")
print("="*80)
print("\nO investidor deve priorizar imóveis SUB, próximos ao metrô, com boa infraestrutura e localizados em bairros de alto IDH.")


🔎 EXPLORAÇÃO INICIAL

❓ 1. Quantas linhas e colunas existem no dataset?
✅ (2259, 18)

❓ 2. Quais são os bairros únicos?
✅ ['JOSE BONIFACIO' 'JARDIM SAO LUIS' 'ARTUR ALVIM' 'VILA PRUDENTE'
 'JAGUARE' 'JARAGUA' 'JARDIM PAULISTA' 'LAJEADO' 'LAPA' 'LIBERDADE'
 'LIMAO' 'VILA MEDEIROS' 'JARDIM ANGELA' 'PARELHEIROS' 'VILA SONIA'
 'AGUA RASA' 'ALTO DE PINHEIROS' 'ANHANGUERA' 'ARICANDUVA' 'BARRA FUNDA'
 'BELA VISTA' 'BELEM' 'BOM RETIRO' 'BRAS' 'BRASILANDIA' 'BUTANTA'
 'CACHOEIRINHA' 'CAMBUCI' 'CAMPO BELO' 'CAMPO GRANDE' 'CAMPO LIMPO'
 'CANGAIBA' 'CAPAO REDONDO' 'CARRAO' 'CASA VERDE' 'CID ADEMAR' 'CID DUTRA'
 'CID LIDER' 'CID TIRADENTES' 'CONSOLACAO' 'CURSINO' 'ERMELINO MATARAZZO'
 'FREGUESIA DO O' 'GRAJAU' 'GUAIANASES' 'IPIRANGA' 'ITAIM PAULISTA'
 'ITAQUERA' 'JABAQUARA' 'JACANA' 'MANDAQUI' 'MOEMA' 'MOOCA' 'MORUMBI'
 'PARQUE DO CARMO' 'PEDREIRA' 'PENHA' 'PERDIZES' 'PERUS' 'PINHEIROS'
 'PIRITUBA' 'PONTE RASA' 'RAPOSO TAVARES' 'RIO PEQUENO' 'SACOMA' 'SANTANA'
 'SANTO AMARO' 'SAO DOMINGOS' 'SAO LU