# An√°lise Explorat√≥ria de Dados (EDA)
## Preditor de Pre√ßos Imobili√°rios Regionais
### Projeto de Intelig√™ncia Artificial

---

**Fontes de Dados**:
- API Banco Central: IPCA, SELIC, PIB
- API IBGE: Censo, PIB Municipal, Popula√ß√£o
- Brasil API: Dados complementares

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

print('‚úÖ Bibliotecas importadas com sucesso!')

## 1. Carregamento dos Dados

In [None]:
df_ml = pd.read_csv('../data/processed/dataset_ml.csv')
df_indicadores = pd.read_csv('../data/raw/indicadores_economicos.csv')

print(f"üìä Dataset ML: {df_ml.shape}")
print(f"üìà Indicadores Econ√¥micos: {df_indicadores.shape}")

df_ml.head()

## 2. An√°lise Descritiva

In [None]:
df_ml.describe()

In [None]:
df_ml.info()

In [None]:
missing = df_ml.isnull().sum()
missing_pct = (missing / len(df_ml)) * 100
missing_df = pd.DataFrame({
    'Valores Faltantes': missing,
    'Percentual (%)': missing_pct
}).sort_values('Valores Faltantes', ascending=False)

print(missing_df[missing_df['Valores Faltantes'] > 0])

## 3. An√°lise da Vari√°vel Target

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

axes[0].hist(df_ml['valorizacao_esperada_12m'], bins=50, color='skyblue', edgecolor='black')
axes[0].axvline(df_ml['valorizacao_esperada_12m'].mean(), color='red', linestyle='--', label='M√©dia')
axes[0].axvline(df_ml['valorizacao_esperada_12m'].median(), color='green', linestyle='--', label='Mediana')
axes[0].set_xlabel('Valoriza√ß√£o Esperada (%)')
axes[0].set_ylabel('Frequ√™ncia')
axes[0].set_title('Distribui√ß√£o da Valoriza√ß√£o Esperada (12 meses)')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

axes[1].boxplot(df_ml['valorizacao_esperada_12m'], vert=True)
axes[1].set_ylabel('Valoriza√ß√£o Esperada (%)')
axes[1].set_title('Box Plot da Valoriza√ß√£o')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"M√©dia: {df_ml['valorizacao_esperada_12m'].mean():.2f}%")
print(f"Mediana: {df_ml['valorizacao_esperada_12m'].median():.2f}%")
print(f"Desvio Padr√£o: {df_ml['valorizacao_esperada_12m'].std():.2f}%")

## 4. An√°lise por Regi√£o

In [None]:
valorizacao_regiao = df_ml.groupby('regiao')['valorizacao_esperada_12m'].agg(['mean', 'median', 'std', 'count'])
valorizacao_regiao.columns = ['M√©dia', 'Mediana', 'Desvio Padr√£o', 'N¬∫ Munic√≠pios']
valorizacao_regiao = valorizacao_regiao.sort_values('M√©dia', ascending=False)

print("üìä Valoriza√ß√£o por Regi√£o:")
print(valorizacao_regiao)

In [None]:
fig = px.bar(
    valorizacao_regiao.reset_index(),
    x='regiao',
    y='M√©dia',
    color='M√©dia',
    color_continuous_scale='Greens',
    title='Valoriza√ß√£o M√©dia Esperada por Regi√£o',
    labels={'regiao': 'Regi√£o', 'M√©dia': 'Valoriza√ß√£o M√©dia (%)'},
    text='M√©dia'
)
fig.update_traces(texttemplate='%{text:.2f}%', textposition='outside')
fig.show()

## 5. An√°lise de Correla√ß√£o

In [None]:
vars_numericas = ['valorizacao_esperada_12m', 'pib_per_capita', 'populacao', 
                  'score_economico', 'ipca', 'selic']
vars_disponiveis = [v for v in vars_numericas if v in df_ml.columns]

correlation_matrix = df_ml[vars_disponiveis].corr()

plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correla√ß√£o - Vari√°veis Principais', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

## 6. An√°lise de Indicadores Econ√¥micos

In [None]:
df_indicadores['data'] = pd.to_datetime(df_indicadores['data'])
df_indicadores = df_indicadores.sort_values('data')

df_temp = df_indicadores.tail(36)

fig, axes = plt.subplots(2, 2, figsize=(15, 10))

if 'ipca' in df_temp.columns:
    axes[0, 0].plot(df_temp['data'], df_temp['ipca'], marker='o', linewidth=2)
    axes[0, 0].set_title('IPCA (%)', fontweight='bold')
    axes[0, 0].grid(True, alpha=0.3)

if 'selic' in df_temp.columns:
    axes[0, 1].plot(df_temp['data'], df_temp['selic'], marker='o', linewidth=2, color='orange')
    axes[0, 1].set_title('Taxa SELIC (%)', fontweight='bold')
    axes[0, 1].grid(True, alpha=0.3)

if 'cambio' in df_temp.columns:
    axes[1, 0].plot(df_temp['data'], df_temp['cambio'], marker='o', linewidth=2, color='green')
    axes[1, 0].set_title('Taxa de C√¢mbio (R$/USD)', fontweight='bold')
    axes[1, 0].grid(True, alpha=0.3)

if 'desemprego' in df_temp.columns:
    axes[1, 1].plot(df_temp['data'], df_temp['desemprego'], marker='o', linewidth=2, color='red')
    axes[1, 1].set_title('Taxa de Desemprego (%)', fontweight='bold')
    axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 7. Top Munic√≠pios Promissores

In [None]:
top_12 = df_ml.nlargest(12, 'valorizacao_esperada_12m')[[
    'nome_municipio', 'uf', 'regiao', 'valorizacao_esperada_12m',
    'pib_per_capita', 'populacao', 'score_economico'
]].reset_index(drop=True)

top_12.index = top_12.index + 1
top_12.index.name = 'Ranking'

print("üèÜ TOP 12 MUNIC√çPIOS COM MAIOR POTENCIAL DE VALORIZA√á√ÉO")
print("=" * 80)
print(top_12.to_string())

## 8. An√°lise Bivariada

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

if 'pib_per_capita' in df_ml.columns:
    axes[0, 0].scatter(df_ml['pib_per_capita'], df_ml['valorizacao_esperada_12m'], alpha=0.5)
    axes[0, 0].set_xlabel('PIB per Capita (R$)')
    axes[0, 0].set_ylabel('Valoriza√ß√£o Esperada (%)')
    axes[0, 0].set_title('Valoriza√ß√£o vs PIB per Capita')
    axes[0, 0].grid(True, alpha=0.3)

if 'populacao' in df_ml.columns:
    axes[0, 1].scatter(df_ml['populacao'], df_ml['valorizacao_esperada_12m'], alpha=0.5, color='orange')
    axes[0, 1].set_xlabel('Popula√ß√£o')
    axes[0, 1].set_ylabel('Valoriza√ß√£o Esperada (%)')
    axes[0, 1].set_xscale('log')
    axes[0, 1].set_title('Valoriza√ß√£o vs Popula√ß√£o (escala log)')
    axes[0, 1].grid(True, alpha=0.3)

if 'score_economico' in df_ml.columns:
    axes[1, 0].scatter(df_ml['score_economico'], df_ml['valorizacao_esperada_12m'], alpha=0.5, color='green')
    axes[1, 0].set_xlabel('Score Econ√¥mico')
    axes[1, 0].set_ylabel('Valoriza√ß√£o Esperada (%)')
    axes[1, 0].set_title('Valoriza√ß√£o vs Score Econ√¥mico')
    axes[1, 0].grid(True, alpha=0.3)

if 'selic' in df_ml.columns:
    axes[1, 1].scatter(df_ml['selic'], df_ml['valorizacao_esperada_12m'], alpha=0.5, color='red')
    axes[1, 1].set_xlabel('Taxa SELIC (%)')
    axes[1, 1].set_ylabel('Valoriza√ß√£o Esperada (%)')
    axes[1, 1].set_title('Valoriza√ß√£o vs SELIC')
    axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

## 9. Insights e Conclus√µes

In [None]:
print("üí° PRINCIPAIS INSIGHTS DA AN√ÅLISE EXPLORAT√ìRIA")
print("=" * 80)
print()

val_media = df_ml['valorizacao_esperada_12m'].mean()
print(f"1. Valoriza√ß√£o m√©dia esperada: {val_media:.2f}% em 12 meses")
print()

regioes_altas = df_ml[df_ml['valorizacao_esperada_12m'] >= 15]
print(f"2. {len(regioes_altas)} munic√≠pios ({len(regioes_altas)/len(df_ml)*100:.1f}%) apresentam")
print(f"   valoriza√ß√£o esperada ‚â• 15%")
print()

if 'pib_per_capita' in vars_disponiveis:
    corr_pib = correlation_matrix.loc['valorizacao_esperada_12m', 'pib_per_capita']
    print(f"3. Correla√ß√£o PIB per capita vs Valoriza√ß√£o: {corr_pib:.3f}")
    if corr_pib > 0.3:
        print("   ‚Üí Correla√ß√£o positiva moderada/forte")
    print()

melhor_regiao = valorizacao_regiao.index[0]
val_melhor = valorizacao_regiao.iloc[0]['M√©dia']
print(f"4. Regi√£o com maior potencial: {melhor_regiao}")
print(f"   Valoriza√ß√£o m√©dia: {val_melhor:.2f}%")
print()

std_val = df_ml['valorizacao_esperada_12m'].std()
print(f"5. Desvio padr√£o da valoriza√ß√£o: {std_val:.2f}%")
print("   ‚Üí Indica" + (" alta" if std_val > 5 else " moderada") + " variabilidade entre munic√≠pios")
print()

print("=" * 80)