# Exploratory Data Analysis

Importa√ß√£o, unifica√ß√£o e limpeza das Bases de Dados

In [20]:
# Carregar dados localmente (adaptado do Google Colab)
import os
print("Carregando dados do Atlas Brasil...")


Carregando dados do Atlas Brasil...


In [22]:
# Configura√ß√£o do PySpark
import findspark
findspark.init()

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Inicializar Spark Session com configura√ß√µes otimizadas
spark = SparkSession.builder \
    .appName("PrevisaoDemandaSaude") \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.coalescePartitions.enabled", "true") \
    .config("spark.sql.adaptive.skewJoin.enabled", "true") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .config("spark.driver.memory", "2g") \
    .config("spark.driver.maxResultSize", "1g") \
    .getOrCreate()

print("Spark Session iniciada com sucesso!")
print(f"Vers√£o do Spark: {spark.version}")

# Carregar dados com pandas (mais est√°vel para Excel)
print("Carregando dados do Atlas Brasil...")
ivs_pandas = pd.read_excel("../data/raw/Atlasvis_DadosBrutos.xlsx")
print(f"Dados carregados com pandas: {ivs_pandas.shape[0]} registros, {ivs_pandas.shape[1]} vari√°veis")

# Usar pandas para processamento inicial (mais est√°vel)
print("Usando pandas para processamento inicial...")
ivs = ivs_pandas
print(f"DataFrame pandas: {ivs.shape[0]} registros, {ivs.shape[1]} vari√°veis")

Spark Session iniciada com sucesso!
Vers√£o do Spark: 3.5.1
Carregando dados do Atlas Brasil...
Dados carregados com pandas: 340786 registros, 103 vari√°veis
Usando pandas para processamento inicial...
DataFrame pandas: 340786 registros, 103 vari√°veis


## üìä An√°lise Explorat√≥ria de Dados (EDA) Robusta

### Objetivos da EDA:
1. **Compreender a distribui√ß√£o** dos dados
2. **Identificar padr√µes** e tend√™ncias temporais
3. **Detectar outliers** e valores at√≠picos
4. **Analisar relacionamentos** entre vari√°veis
5. **Validar qualidade** dos dados para an√°lises futuras


In [None]:
# Configura√ß√£o para visualiza√ß√µes
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

# Configura√ß√£o para exibir todas as colunas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

print("‚úÖ Configura√ß√µes de visualiza√ß√£o aplicadas!")


### 1. An√°lise Temporal dos Dados

Vamos come√ßar analisando como os dados est√£o distribu√≠dos ao longo do tempo e identificar padr√µes temporais.


In [None]:
# An√°lise temporal dos dados
print("=== AN√ÅLISE TEMPORAL ===")
print(f"Per√≠odo dos dados: {ivs['ano'].min()} - {ivs['ano'].max()}")
print(f"Anos √∫nicos: {sorted(ivs['ano'].unique())}")

# Contagem de registros por ano
contagem_por_ano = ivs['ano'].value_counts().sort_index()
print(f"\nRegistros por ano:")
print(contagem_por_ano)

# Visualiza√ß√£o da distribui√ß√£o temporal
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Gr√°fico 1: Contagem de registros por ano
axes[0,0].bar(contagem_por_ano.index, contagem_por_ano.values, color='skyblue', alpha=0.7)
axes[0,0].set_title('Distribui√ß√£o de Registros por Ano', fontsize=14, fontweight='bold')
axes[0,0].set_xlabel('Ano')
axes[0,0].set_ylabel('N√∫mero de Registros')
axes[0,0].grid(True, alpha=0.3)

# Gr√°fico 2: Evolu√ß√£o temporal (linha)
axes[0,1].plot(contagem_por_ano.index, contagem_por_ano.values, marker='o', linewidth=2, markersize=8)
axes[0,1].set_title('Evolu√ß√£o Temporal dos Registros', fontsize=14, fontweight='bold')
axes[0,1].set_xlabel('Ano')
axes[0,1].set_ylabel('N√∫mero de Registros')
axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Distribui√ß√£o percentual
percentual = (contagem_por_ano / contagem_por_ano.sum() * 100).round(2)
axes[1,0].pie(percentual.values, labels=percentual.index, autopct='%1.1f%%', startangle=90)
axes[1,0].set_title('Distribui√ß√£o Percentual por Ano', fontsize=14, fontweight='bold')

# Gr√°fico 4: Boxplot da distribui√ß√£o temporal
axes[1,1].boxplot([ivs[ivs['ano'] == ano]['ano'].values for ano in contagem_por_ano.index], 
                  labels=contagem_por_ano.index)
axes[1,1].set_title('Distribui√ß√£o dos Anos (Boxplot)', fontsize=14, fontweight='bold')
axes[1,1].set_xlabel('Ano')
axes[1,1].set_ylabel('Valores')

plt.tight_layout()
plt.show()

# Estat√≠sticas temporais
print(f"\n=== ESTAT√çSTICAS TEMPORAIS ===")
print(f"M√©dia de registros por ano: {contagem_por_ano.mean():.0f}")
print(f"Mediana de registros por ano: {contagem_por_ano.median():.0f}")
print(f"Desvio padr√£o: {contagem_por_ano.std():.0f}")
print(f"Ano com mais registros: {contagem_por_ano.idxmax()} ({contagem_por_ano.max():,} registros)")
print(f"Ano com menos registros: {contagem_por_ano.idxmin()} ({contagem_por_ano.min():,} registros)")


### 2. An√°lise de Valores Ausentes (Missing Values)

Vamos analisar de forma detalhada onde est√£o os valores ausentes e como isso impacta nossa an√°lise.


In [None]:
# An√°lise detalhada de valores ausentes
print("=== AN√ÅLISE DE VALORES AUSENTES ===")

# Calcular valores ausentes por coluna
missing_data = ivs.isnull().sum()
missing_percent = (missing_data / len(ivs)) * 100

# Criar DataFrame com informa√ß√µes de missing
missing_df = pd.DataFrame({
    'Coluna': missing_data.index,
    'Valores_Ausentes': missing_data.values,
    'Percentual_Ausente': missing_percent.values
}).sort_values('Valores_Ausentes', ascending=False)

# Filtrar apenas colunas com valores ausentes
missing_df = missing_df[missing_df['Valores_Ausentes'] > 0]

print(f"Total de colunas com valores ausentes: {len(missing_df)}")
print(f"Total de colunas no dataset: {len(ivs.columns)}")
print(f"Percentual de colunas com missing: {(len(missing_df)/len(ivs.columns)*100):.1f}%")

# Visualiza√ß√£o dos valores ausentes
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Top 15 colunas com mais valores ausentes
top_missing = missing_df.head(15)
axes[0,0].barh(range(len(top_missing)), top_missing['Valores_Ausentes'], color='coral', alpha=0.7)
axes[0,0].set_yticks(range(len(top_missing)))
axes[0,0].set_yticklabels(top_missing['Coluna'], fontsize=8)
axes[0,0].set_title('Top 15 Colunas com Mais Valores Ausentes', fontsize=12, fontweight='bold')
axes[0,0].set_xlabel('N√∫mero de Valores Ausentes')
axes[0,0].grid(True, alpha=0.3)

# Gr√°fico 2: Percentual de valores ausentes
axes[0,1].barh(range(len(top_missing)), top_missing['Percentual_Ausente'], color='lightblue', alpha=0.7)
axes[0,1].set_yticks(range(len(top_missing)))
axes[0,1].set_yticklabels(top_missing['Coluna'], fontsize=8)
axes[0,1].set_title('Percentual de Valores Ausentes (Top 15)', fontsize=12, fontweight='bold')
axes[0,1].set_xlabel('Percentual (%)')
axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Heatmap de valores ausentes (amostra)
# Selecionar apenas algumas colunas para o heatmap (muitas colunas tornam o gr√°fico ileg√≠vel)
colunas_importantes = ['ivs', 'idhm', 'ivs_infraestrutura_urbana', 'ivs_capital_humano', 
                      'ivs_renda_e_trabalho', 'idhm_educ', 'idhm_renda', 'idhm_long']
colunas_existentes = [col for col in colunas_importantes if col in ivs.columns]

if colunas_existentes:
    # Amostra de 1000 registros para o heatmap
    sample_data = ivs[colunas_existentes].sample(n=min(1000, len(ivs)), random_state=42)
    sns.heatmap(sample_data.isnull(), cbar=True, yticklabels=False, ax=axes[1,0], 
                cmap='viridis', alpha=0.8)
    axes[1,0].set_title('Heatmap de Valores Ausentes (Amostra)', fontsize=12, fontweight='bold')
    axes[1,0].set_xlabel('Vari√°veis')

# Gr√°fico 4: Distribui√ß√£o de valores ausentes por ano
missing_por_ano = ivs.groupby('ano').apply(lambda x: x.isnull().sum().sum())
axes[1,1].bar(missing_por_ano.index, missing_por_ano.values, color='lightgreen', alpha=0.7)
axes[1,1].set_title('Total de Valores Ausentes por Ano', fontsize=12, fontweight='bold')
axes[1,1].set_xlabel('Ano')
axes[1,1].set_ylabel('Total de Valores Ausentes')
axes[1,1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Estat√≠sticas de missing
print(f"\n=== ESTAT√çSTICAS DE VALORES AUSENTES ===")
print(f"Total de valores ausentes no dataset: {missing_data.sum():,}")
print(f"Percentual total de valores ausentes: {(missing_data.sum() / (len(ivs) * len(ivs.columns)) * 100):.2f}%")
print(f"Coluna com mais valores ausentes: {missing_df.iloc[0]['Coluna']} ({missing_df.iloc[0]['Valores_Ausentes']:,} valores)")
print(f"Coluna com menos valores ausentes: {missing_df.iloc[-1]['Coluna']} ({missing_df.iloc[-1]['Valores_Ausentes']:,} valores)")

# An√°lise por tipo de vari√°vel
print(f"\n=== AN√ÅLISE POR TIPO DE VARI√ÅVEL ===")
for dtype in ivs.dtypes.unique():
    colunas_tipo = ivs.select_dtypes(include=[dtype]).columns
    missing_tipo = ivs[colunas_tipo].isnull().sum().sum()
    total_tipo = len(colunas_tipo) * len(ivs)
    print(f"{dtype}: {missing_tipo:,} valores ausentes ({missing_tipo/total_tipo*100:.1f}%)")


### 3. An√°lise das Vari√°veis Num√©ricas Principais

Agora vamos focar nas vari√°veis mais importantes para o TCC e analisar suas distribui√ß√µes.


In [None]:
# Selecionar vari√°veis num√©ricas principais para an√°lise
variaveis_principais = ['ivs', 'idhm', 'ivs_infraestrutura_urbana', 'ivs_capital_humano', 
                       'ivs_renda_e_trabalho', 'idhm_educ', 'idhm_renda', 'idhm_long']

# Verificar quais vari√°veis existem no dataset
variaveis_existentes = [var for var in variaveis_principais if var in ivs.columns]
print(f"Vari√°veis principais encontradas: {variaveis_existentes}")

# Filtrar apenas registros com dados v√°lidos para essas vari√°veis
dados_validos = ivs[variaveis_existentes].dropna()
print(f"\nRegistros com dados v√°lidos para todas as vari√°veis principais: {len(dados_validos):,}")
print(f"Percentual de registros v√°lidos: {len(dados_validos)/len(ivs)*100:.1f}%")

# An√°lise descritiva detalhada
print(f"\n=== ESTAT√çSTICAS DESCRITIVAS DETALHADAS ===")
desc_stats = dados_validos.describe()
print(desc_stats.round(4))

# An√°lise de distribui√ß√£o
fig, axes = plt.subplots(3, 3, figsize=(18, 15))
axes = axes.ravel()

for i, var in enumerate(variaveis_existentes):
    if i < len(axes):
        # Histograma
        axes[i].hist(dados_validos[var], bins=50, alpha=0.7, color='skyblue', edgecolor='black')
        axes[i].set_title(f'Distribui√ß√£o de {var}', fontweight='bold')
        axes[i].set_xlabel(var)
        axes[i].set_ylabel('Frequ√™ncia')
        axes[i].grid(True, alpha=0.3)
        
        # Adicionar estat√≠sticas no gr√°fico
        mean_val = dados_validos[var].mean()
        median_val = dados_validos[var].median()
        axes[i].axvline(mean_val, color='red', linestyle='--', alpha=0.8, label=f'M√©dia: {mean_val:.3f}')
        axes[i].axvline(median_val, color='green', linestyle='--', alpha=0.8, label=f'Mediana: {median_val:.3f}')
        axes[i].legend(fontsize=8)

# Remover subplots vazios
for i in range(len(variaveis_existentes), len(axes)):
    fig.delaxes(axes[i])

plt.tight_layout()
plt.show()

# An√°lise de outliers usando IQR
print(f"\n=== AN√ÅLISE DE OUTLIERS (M√©todo IQR) ===")
for var in variaveis_existentes:
    Q1 = dados_validos[var].quantile(0.25)
    Q3 = dados_validos[var].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = dados_validos[(dados_validos[var] < lower_bound) | (dados_validos[var] > upper_bound)]
    outlier_percent = len(outliers) / len(dados_validos) * 100
    
    print(f"{var}:")
    print(f"  - Limites: [{lower_bound:.3f}, {upper_bound:.3f}]")
    print(f"  - Outliers: {len(outliers):,} ({outlier_percent:.1f}%)")
    print(f"  - Valores extremos: min={dados_validos[var].min():.3f}, max={dados_validos[var].max():.3f}")
    print()


### 4. An√°lise de Correla√ß√£o entre Vari√°veis

Vamos analisar como as vari√°veis se relacionam entre si atrav√©s de correla√ß√µes.


In [None]:
# An√°lise de correla√ß√£o
print("=== AN√ÅLISE DE CORRELA√á√ÉO ===")

# Calcular matriz de correla√ß√£o
correlation_matrix = dados_validos.corr()
print(f"Matriz de correla√ß√£o calculada para {len(variaveis_existentes)} vari√°veis")

# Visualiza√ß√£o da matriz de correla√ß√£o
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Heatmap de correla√ß√£o
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5, cbar_kws={"shrink": 0.8}, ax=axes[0,0])
axes[0,0].set_title('Matriz de Correla√ß√£o (Heatmap)', fontsize=14, fontweight='bold')

# Gr√°fico 2: Correla√ß√£o com IVS
if 'ivs' in variaveis_existentes:
    ivs_corr = correlation_matrix['ivs'].drop('ivs').sort_values(key=abs, ascending=False)
    colors = ['red' if x < 0 else 'blue' for x in ivs_corr.values]
    axes[0,1].barh(range(len(ivs_corr)), ivs_corr.values, color=colors, alpha=0.7)
    axes[0,1].set_yticks(range(len(ivs_corr)))
    axes[0,1].set_yticklabels(ivs_corr.index)
    axes[0,1].set_title('Correla√ß√£o com IVS', fontsize=14, fontweight='bold')
    axes[0,1].set_xlabel('Coeficiente de Correla√ß√£o')
    axes[0,1].axvline(0, color='black', linestyle='-', alpha=0.3)
    axes[0,1].grid(True, alpha=0.3)

# Gr√°fico 3: Correla√ß√£o com IDHM
if 'idhm' in variaveis_existentes:
    idhm_corr = correlation_matrix['idhm'].drop('idhm').sort_values(key=abs, ascending=False)
    colors = ['red' if x < 0 else 'blue' for x in idhm_corr.values]
    axes[1,0].barh(range(len(idhm_corr)), idhm_corr.values, color=colors, alpha=0.7)
    axes[1,0].set_yticks(range(len(idhm_corr)))
    axes[1,0].set_yticklabels(idhm_corr.index)
    axes[1,0].set_title('Correla√ß√£o com IDHM', fontsize=14, fontweight='bold')
    axes[1,0].set_xlabel('Coeficiente de Correla√ß√£o')
    axes[1,0].axvline(0, color='black', linestyle='-', alpha=0.3)
    axes[1,0].grid(True, alpha=0.3)

# Gr√°fico 4: Scatter plot IVS vs IDHM
if 'ivs' in variaveis_existentes and 'idhm' in variaveis_existentes:
    # Amostra para melhor visualiza√ß√£o
    sample_size = min(5000, len(dados_validos))
    sample_data = dados_validos.sample(n=sample_size, random_state=42)
    
    scatter = axes[1,1].scatter(sample_data['ivs'], sample_data['idhm'], 
                               alpha=0.6, s=20, c=sample_data['idhm'], cmap='viridis')
    axes[1,1].set_xlabel('IVS (√çndice de Vulnerabilidade Social)')
    axes[1,1].set_ylabel('IDHM (√çndice de Desenvolvimento Humano Municipal)')
    axes[1,1].set_title('IVS vs IDHM (Scatter Plot)', fontsize=14, fontweight='bold')
    axes[1,1].grid(True, alpha=0.3)
    
    # Adicionar linha de tend√™ncia
    z = np.polyfit(sample_data['ivs'], sample_data['idhm'], 1)
    p = np.poly1d(z)
    axes[1,1].plot(sample_data['ivs'], p(sample_data['ivs']), "r--", alpha=0.8, linewidth=2)
    
    # Adicionar colorbar
    plt.colorbar(scatter, ax=axes[1,1], label='IDHM')

plt.tight_layout()
plt.show()

# An√°lise de correla√ß√µes mais fortes
print(f"\n=== CORRELA√á√ïES MAIS FORTES ===")
# Criar lista de pares de correla√ß√£o
corr_pairs = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        var1 = correlation_matrix.columns[i]
        var2 = correlation_matrix.columns[j]
        corr_value = correlation_matrix.iloc[i, j]
        corr_pairs.append((var1, var2, corr_value))

# Ordenar por valor absoluto da correla√ß√£o
corr_pairs.sort(key=lambda x: abs(x[2]), reverse=True)

print("Top 10 correla√ß√µes mais fortes:")
for i, (var1, var2, corr) in enumerate(corr_pairs[:10]):
    direction = "positiva" if corr > 0 else "negativa"
    strength = "forte" if abs(corr) > 0.7 else "moderada" if abs(corr) > 0.5 else "fraca"
    print(f"{i+1:2d}. {var1} ‚Üî {var2}: {corr:.3f} (correla√ß√£o {strength} {direction})")

# An√°lise de correla√ß√µes significativas
print(f"\n=== CORRELA√á√ïES SIGNIFICATIVAS (|r| > 0.5) ===")
strong_correlations = [(var1, var2, corr) for var1, var2, corr in corr_pairs if abs(corr) > 0.5]
for var1, var2, corr in strong_correlations:
    direction = "positiva" if corr > 0 else "negativa"
    print(f"‚Ä¢ {var1} ‚Üî {var2}: {corr:.3f} (correla√ß√£o {direction})")


### 5. An√°lise Temporal das Vari√°veis Principais

Vamos analisar como as vari√°veis evoluem ao longo do tempo (2000, 2010, 2020).


### 6. Resumo e Insights da EDA

Vamos consolidar os principais achados da an√°lise explorat√≥ria.


In [None]:
# Resumo consolidado da EDA
print("="*80)
print("üìä RESUMO CONSOLIDADO DA AN√ÅLISE EXPLORAT√ìRIA DE DADOS")
print("="*80)

print(f"\nüîç INFORMA√á√ïES GERAIS DO DATASET:")
print(f"   ‚Ä¢ Total de registros: {len(ivs):,}")
print(f"   ‚Ä¢ Total de vari√°veis: {len(ivs.columns)}")
print(f"   ‚Ä¢ Per√≠odo temporal: {ivs['ano'].min()} - {ivs['ano'].max()}")
print(f"   ‚Ä¢ Anos com dados completos: 2000, 2010, 2020")

print(f"\nüìà COBERTURA DE DADOS:")
print(f"   ‚Ä¢ Registros com dados v√°lidos para vari√°veis principais: {len(dados_validos):,}")
print(f"   ‚Ä¢ Percentual de cobertura: {len(dados_validos)/len(ivs)*100:.1f}%")
print(f"   ‚Ä¢ Total de valores ausentes: {ivs.isnull().sum().sum():,}")

print(f"\nüìä VARI√ÅVEIS PRINCIPAIS ANALISADAS:")
for i, var in enumerate(variaveis_existentes, 1):
    if var in dados_validos.columns:
        mean_val = dados_validos[var].mean()
        std_val = dados_validos[var].std()
        min_val = dados_validos[var].min()
        max_val = dados_validos[var].max()
        print(f"   {i}. {var.upper()}:")
        print(f"      M√©dia: {mean_val:.3f} | Desvio: {std_val:.3f} | Range: [{min_val:.3f}, {max_val:.3f}]")

print(f"\nüîó CORRELA√á√ïES MAIS IMPORTANTES:")
if 'corr_pairs' in locals():
    for i, (var1, var2, corr) in enumerate(corr_pairs[:5], 1):
        direction = "positiva" if corr > 0 else "negativa"
        strength = "forte" if abs(corr) > 0.7 else "moderada" if abs(corr) > 0.5 else "fraca"
        print(f"   {i}. {var1} ‚Üî {var2}: {corr:.3f} (correla√ß√£o {strength} {direction})")

print(f"\nüìÖ EVOLU√á√ÉO TEMPORAL (2000 ‚Üí 2010 ‚Üí 2020):")
if 'dados_temporais' in locals():
    for var in ['ivs', 'idhm']:
        if var in dados_temporais.columns:
            medias_por_ano = dados_temporais.groupby('ano')[var].mean()
            print(f"   {var.upper()}:")
            for ano in [2000, 2010, 2020]:
                if ano in medias_por_ano.index:
                    print(f"      {ano}: {medias_por_ano[ano]:.3f}")

print(f"\n‚ö†Ô∏è  PRINCIPAIS DESAFIOS IDENTIFICADOS:")
print(f"   ‚Ä¢ Alta propor√ß√£o de valores ausentes em v√°rias vari√°veis")
print(f"   ‚Ä¢ Distribui√ß√£o desigual dos dados entre os anos")
print(f"   ‚Ä¢ Necessidade de tratamento de outliers em algumas vari√°veis")
print(f"   ‚Ä¢ Limita√ß√£o temporal (apenas 3 anos com dados completos)")

print(f"\n‚úÖ PONTOS FORTES DO DATASET:")
print(f"   ‚Ä¢ Vari√°veis socioecon√¥micas relevantes para an√°lise de sa√∫de")
print(f"   ‚Ä¢ Cobertura nacional (todos os munic√≠pios brasileiros)")
print(f"   ‚Ä¢ Indicadores padronizados (IVS, IDHM)")
print(f"   ‚Ä¢ Dados de qualidade para os anos selecionados")

print(f"\nüéØ PR√ìXIMOS PASSOS RECOMENDADOS:")
print(f"   1. Tratamento de valores ausentes (imputa√ß√£o ou exclus√£o)")
print(f"   2. An√°lise geogr√°fica (por regi√£o/estado)")
print(f"   3. Cria√ß√£o de vari√°veis derivadas (√≠ndices compostos)")
print(f"   4. An√°lise de clusters para identificar padr√µes regionais")
print(f"   5. Prepara√ß√£o dos dados para modelagem preditiva")

print(f"\nüìã QUALIDADE DOS DADOS PARA AN√ÅLISE:")
print(f"   ‚Ä¢ Dados v√°lidos suficientes para an√°lises estat√≠sticas: ‚úÖ")
print(f"   ‚Ä¢ Vari√°veis num√©ricas adequadamente formatadas: ‚úÖ")
print(f"   ‚Ä¢ Cobertura temporal adequada para an√°lise longitudinal: ‚úÖ")
print(f"   ‚Ä¢ Vari√°veis relevantes para previs√£o de demanda em sa√∫de: ‚úÖ")

print("\n" + "="*80)
print("üèÅ EDA CONCLU√çDA COM SUCESSO!")
print("="*80)


In [23]:
# Informa√ß√µes gerais do DataFrame
print("=== INFORMA√á√ïES GERAIS ===")
print(f"Dimens√µes: {ivs.shape[0]} registros, {ivs.shape[1]} vari√°veis")
print(f"Tipos de dados:")
print(ivs.dtypes.value_counts())

print("\n=== VALORES AUSENTES ===")
valores_ausentes = ivs.isnull().sum().sort_values(ascending=False)
print(valores_ausentes[valores_ausentes > 0].head(10))

print("\n=== ESTAT√çSTICAS DESCRITIVAS ===")
# Apenas vari√°veis num√©ricas para describe
variaveis_numericas = ivs.select_dtypes(include=[np.number]).columns
print(ivs[variaveis_numericas].describe())


=== INFORMA√á√ïES GERAIS ===
Dimens√µes: 340786 registros, 103 vari√°veis
Tipos de dados:
object     99
int64       2
float64     2
Name: count, dtype: int64

=== VALORES AUSENTES ===
prosp_soc    200628
ivs          200474
idhm          63342
dtype: int64

=== ESTAT√çSTICAS DESCRITIVAS ===
                  id            ano            ivs           idhm
count  340786.000000  340786.000000  140312.000000  277444.000000
mean   190671.979342    2005.582078       0.370811       0.608250
std    127660.960189       5.531609       0.137952       0.123754
min         1.000000    2000.000000       0.034000       0.000000
25%     95079.250000    2000.000000       0.266000       0.533000
50%    180275.500000    2010.000000       0.357000       0.620000
75%    265471.750000    2010.000000       0.467000       0.697000
max    660006.000000    2022.000000       0.872000       0.965000


Estrutura da base:

A base possui 340.786 observa√ß√µes (linhas) e 103 vari√°veis (colunas).

Entre essas vari√°veis, 99 est√£o no formato object, o que indica que seus valores est√£o armazenados como texto (muito provavelmente com v√≠rgulas no lugar de pontos decimais), o que impede an√°lises num√©ricas at√© que sejam convertidas.

Presen√ßa de valores ausentes:

Identificamos que v√°rias vari√°veis importantes possuem muitos valores nulos (NaN).

Por exemplo:

A vari√°vel ivs (√çndice de Vulnerabilidade Social) aparece em apenas 140.312 das 340.786 linhas.

A vari√°vel idhm (√çndice de Desenvolvimento Humano Municipal) est√° presente em 277.444 linhas, ainda assim com uma quantidade consider√°vel de aus√™ncias.

Resumo estat√≠stico preliminar:

A fun√ß√£o describe() permitiu observar que os valores de ivs variam entre 0.034 e 0.872, e o idhm varia entre 0.000 e 0.965.

As m√©dias de ivs e idhm foram de aproximadamente 0.37 e 0.61, respectivamente, o que indica padr√µes m√©dios de vulnerabilidade e desenvolvimento moderados, com uma ampla varia√ß√£o entre os territ√≥rios analisados.

Ser√° necess√°rio:

Selecionar apenas as colunas relevantes para o TCC;

Converter os dados de texto para n√∫meros reais (float);

Tratar os valores ausentes antes de qualquer unifica√ß√£o com outras bases.

In [24]:
# Selecionando vari√°veis importantes para o TCC
colunas_usar = [
    'ano', 'municipio',
    'ivs', 'ivs_infraestrutura_urbana', 'ivs_capital_humano', 'ivs_renda_e_trabalho',
    'idhm', 'idhm_educ', 'idhm_renda', 'idhm_long',
    't_vulner', 't_desocup18m', 't_formal_18m', 't_analf_15m', 't_renda_trab'
]

# Filtrar apenas colunas que existem no DataFrame
colunas_existentes = [col for col in colunas_usar if col in ivs.columns]
print(f"Colunas selecionadas: {colunas_existentes}")

ivs_filt = ivs[colunas_existentes].copy()
print(f"DataFrame filtrado: {ivs_filt.shape[0]} registros, {ivs_filt.shape[1]} vari√°veis")
ivs_filt.head()



Colunas selecionadas: ['ano', 'municipio', 'ivs', 'ivs_infraestrutura_urbana', 'ivs_capital_humano', 'ivs_renda_e_trabalho', 'idhm', 'idhm_educ', 'idhm_renda', 'idhm_long', 't_vulner', 't_desocup18m', 't_formal_18m', 't_analf_15m', 't_renda_trab']
DataFrame filtrado: 340786 registros, 15 vari√°veis


Unnamed: 0,ano,municipio,ivs,ivs_infraestrutura_urbana,ivs_capital_humano,ivs_renda_e_trabalho,idhm,idhm_educ,idhm_renda,idhm_long,t_vulner,t_desocup18m,t_formal_18m,t_analf_15m,t_renda_trab
0,2000,geral,0.335,285,400,321,0.703,569,740,827,3711,1216,5736,832,7751
1,2010,geral,0.255,251,267,248,0.784,708,791,860,2140,589,6513,576,7356
2,2011,geral,0.214,197,228,215,0.79,746,762,867,1950,526,6350,526,7816
3,2012,geral,0.2,199,216,185,0.8,754,777,875,1561,475,6465,527,7734
4,2013,geral,0.197,200,210,182,0.806,764,782,878,1534,491,6585,518,7768


Ap√≥s a an√°lise explorat√≥ria inicial, o pr√≥ximo passo foi filtrar apenas as colunas mais importantes para os objetivos do TCC. Essa etapa tem como objetivo:

1- Reduzir o tamanho da base,

2- Focar nas vari√°veis que ajudam a explicar a demanda por servi√ßos de aten√ß√£o prim√°ria,

3- E facilitar os pr√≥ximos passos de limpeza, unifica√ß√£o e an√°lise.

As vari√°veis selecionadas foram:

| Vari√°vel                                       | Significado b√°sico                                                                  |
| ---------------------------------------------- | ----------------------------------------------------------------------------------- |
| `ano`                                          | Ano de refer√™ncia dos dados                                                         |
| `municipio`                                    | C√≥digo do munic√≠pio (ou geral, no caso de agrega√ß√µes)                               |
| `ivs`                                          | √çndice de Vulnerabilidade Social geral                                              |
| `ivs_infraestrutura_urbana`                    | Sub√≠ndice de infraestrutura (√°gua, esgoto, coleta de lixo etc.)                     |
| `ivs_capital_humano`                           | Sub√≠ndice ligado a educa√ß√£o e sa√∫de                                                 |
| `ivs_renda_e_trabalho`                         | Sub√≠ndice de renda e inser√ß√£o no mercado de trabalho                                |
| `idhm`, `idhm_educ`, `idhm_renda`, `idhm_long` | Dimens√µes do √çndice de Desenvolvimento Humano (geral, educa√ß√£o, renda, longevidade) |
| `t_vulner`                                     | Propor√ß√£o da popula√ß√£o com renda per capita ‚â§ ¬Ω sal√°rio m√≠nimo                      |
| `t_desocup18m`                                 | Taxa de desocupa√ß√£o entre pessoas com 18 anos ou mais                               |
| `t_formal_18m`                                 | Percentual de trabalhadores formais com 18 anos ou mais                             |
| `t_analf_15m`                                  | Taxa de analfabetismo entre maiores de 15 anos                                      |
| `t_renda_trab`                                 | Percentual da renda domiciliar proveniente do trabalho                              |


Pr√≥ximo passo: converter todas as colunas para o tipo float

In [25]:
# Converter tipos de dados no pandas
print("Convertendo tipos de dados...")

# Definir colunas num√©ricas (excluindo ano e municipio)
colunas_numericas = [col for col in ivs_filt.columns if col not in ['ano', 'municipio']]

# Aplicar convers√µes
for col in colunas_numericas:
    if ivs_filt[col].dtype == 'object':
        # Substituir v√≠rgulas por pontos
        ivs_filt[col] = ivs_filt[col].str.replace(',', '.', regex=False)
        # Converter para num√©rico
        ivs_filt[col] = pd.to_numeric(ivs_filt[col], errors='coerce')

print("Convers√£o de tipos conclu√≠da!")
print(f"Tipos de dados: {ivs_filt.dtypes.value_counts()}")

Convertendo tipos de dados...
Convers√£o de tipos conclu√≠da!
Tipos de dados: float64    13
int64       1
object      1
Name: count, dtype: int64


In [26]:
# Verificar tipos de dados ap√≥s convers√£o
print("Tipos de dados ap√≥s convers√£o:")
print(ivs_filt.dtypes)


Tipos de dados ap√≥s convers√£o:
ano                            int64
municipio                     object
ivs                          float64
ivs_infraestrutura_urbana    float64
ivs_capital_humano           float64
ivs_renda_e_trabalho         float64
idhm                         float64
idhm_educ                    float64
idhm_renda                   float64
idhm_long                    float64
t_vulner                     float64
t_desocup18m                 float64
t_formal_18m                 float64
t_analf_15m                  float64
t_renda_trab                 float64
dtype: object


In [27]:
# Ver quantos valores faltantes ainda existem por coluna
print("Valores ausentes por coluna:")
valores_ausentes = ivs_filt.isnull().sum().sort_values(ascending=False)
print(valores_ausentes[valores_ausentes > 0])


Valores ausentes por coluna:
ivs                          200474
ivs_capital_humano           162454
ivs_infraestrutura_urbana    130687
idhm                          63342
idhm_long                     63342
idhm_educ                     63339
ivs_renda_e_trabalho          58653
t_formal_18m                  55410
t_renda_trab                  55299
idhm_renda                    55126
t_desocup18m                  54979
t_vulner                      54758
t_analf_15m                   54331
dtype: int64


Ap√≥s a sele√ß√£o das vari√°veis relevantes, realizamos a convers√£o dos dados do formato textual (com v√≠rgulas) para valores num√©ricos (float), utilizando o m√©todo str.replace(',', '.') seguido de pd.to_numeric().

Essa convers√£o foi necess√°ria porque as colunas estavam originalmente no tipo object, o que inviabilizava qualquer tipo de an√°lise estat√≠stica ou modelagem. Agora, todas as vari√°veis quantitativas est√£o corretamente no formato float64.

Com os dados convertidos, rodamos um diagn√≥stico com isnull().sum() para verificar a presen√ßa de valores ausentes (NaN).

Os resultados mostraram que:

Muitas colunas possuem dezenas de milhares de valores ausentes.

Por exemplo:

ivs: ~200.000 ausentes (de 340.786 linhas)

ivs_capital_humano: ~162.000 ausentes

idhm: ~63.000 ausentes

Apenas ano e municipio n√£o t√™m valores nulos.

Proximos passos:

Filtrar para anos em que h√° muitos dados v√°lidos, manter os anos com maior cobertura e qualidade de dados, podemos verificar quais anos possuem menos nulos e usar apenas esses

In [28]:
# Verificar quantos valores v√°lidos (n√£o nulos) existem por vari√°vel em cada ano
print("Contagem de registros por ano:")
print(ivs_filt.groupby("ano").count().sort_index(ascending=True))


Contagem de registros por ano:
      municipio    ivs  ivs_infraestrutura_urbana  ivs_capital_humano  \
ano                                                                     
2000     161480  63172                      96302               80934   
2010     163299  71045                     104652               89364   
2011       1161    514                        772                 668   
2012       1161    516                        774                 666   
2013       1161    516                        774                 674   
2014       1161    516                        774                 681   
2015       1161    516                        774                 682   
2016       1458    502                        754                 665   
2017       1458    502                        752                 663   
2018       1455    504                        756                 663   
2019       1458    504                        755                 670   
2020       1458    5

An√°lise dos resultados
üü¢ 2000 e 2010

S√£o os √∫nicos anos com cobertura ampla para quase todas as vari√°veis:

ivs: ~63k (2000) / ~71k (2010)

idhm: ~130k (2000) / ~139k (2010)

t_vulner: ~131k (2000) / ~140k (2010)


üî¥ 2011‚Äì2022

S√≥ ~1000 registros por ano.

Ruins para an√°lise estat√≠stica confi√°vel.


Com base na an√°lise da cobertura dos dados ano a ano, optamos por manter apenas os anos 2000, 2010 e 2020. Essa decis√£o foi tomada por tr√™s raz√µes principais:

1-Cobertura completa das principais vari√°veis (como IVS, IDHM e indicadores de vulnerabilidade e trabalho) nesses anos.

2-Possibilidade de observar a evolu√ß√£o dos determinantes sociais da sa√∫de em um intervalo de 20 anos, com saltos decenais.

3-Alinhamento com ciclos censit√°rios e de pol√≠ticas p√∫blicas, facilitando an√°lises longitudinais e comparativas.

In [29]:
# Filtrar os anos desejados
anos_para_manter = [2000, 2010, 2020]
ivs_filtrado = ivs_filt[ivs_filt['ano'].isin(anos_para_manter)].copy()

# Verificar tamanho da nova base
print(f"Base filtrada por anos: {ivs_filtrado.shape[0]} registros, {ivs_filtrado.shape[1]} vari√°veis")


Base filtrada por anos: 326237 registros, 15 vari√°veis


In [30]:
# Remover linhas com valores ausentes restantes
ivs_filtrado = ivs_filtrado.dropna()

# Confirmar o novo tamanho da base
print(f"Base ap√≥s remo√ß√£o de valores ausentes: {ivs_filtrado.shape[0]} registros, {ivs_filtrado.shape[1]} vari√°veis")


Base ap√≥s remo√ß√£o de valores ausentes: 134556 registros, 15 vari√°veis


Com isso, temos agora uma base filtrada, limpa e pronta para an√°lise, contendo:

134.556 linhas

15 vari√°veis relevantes

Somente dos anos 2000, 2010 e 2020

E sem valores nulos (NaN)

Com isso, o DataFrame final passou a conter 134.556 registros completos, distribu√≠dos entre os 3 anos selecionados, com 15 vari√°veis socioecon√¥micas e de desenvolvimento humano.


Proximo passo: Unificar com outras bases

Integrar com dados demogr√°ficos por bairro, distrito ou setor

Explorar como vari√°veis locais afetam os indicadores

In [31]:
# Carregar dados de bairros
print("Carregando dados de bairros...")


Carregando dados de bairros...


In [32]:
# Carregar a base de bairros
bairros = pd.read_excel("../data/raw/Agregados_por_bairros_basico_BR.xlsx")

print(f"Dados de bairros carregados: {bairros.shape[0]} registros, {bairros.shape[1]} vari√°veis")
print("\nPrimeiras linhas:")
bairros.head()


Dados de bairros carregados: 17576 registros, 30 vari√°veis

Primeiras linhas:


Unnamed: 0,CD_BAIRRO,NM_BAIRRO,CD_REGIAO,NM_REGIAO,CD_UF,NM_UF,CD_MUN,NM_MUN,CD_DIST,NM_DIST,...,CD_CONCURB,NM_CONCURB,AREA_KM2,v0001,v0002,v0003,v0004,v0005,v0006,v0007
0,1100015001,Centro,1,Norte,11,Rond√¥nia,1100015,Alta Floresta D'Oeste,110001505,Alta Floresta D'Oeste,...,.,,0.628243,1213,637,633,4,2.5,0.0146,480
1,1100015002,Liberdade,1,Norte,11,Rond√¥nia,1100015,Alta Floresta D'Oeste,110001505,Alta Floresta D'Oeste,...,.,,0.951916,1029,488,488,0,2.6,0.0281,391
2,1100015003,Cidade Alta,1,Norte,11,Rond√¥nia,1100015,Alta Floresta D'Oeste,110001505,Alta Floresta D'Oeste,...,.,,0.596322,1288,602,600,2,2.6,0.004,499
3,1100015005,Princesa Isabel,1,Norte,11,Rond√¥nia,1100015,Alta Floresta D'Oeste,110001505,Alta Floresta D'Oeste,...,.,,1.951955,2846,1242,1242,0,2.7,0.0179,1060
4,1100015006,Redondo,1,Norte,11,Rond√¥nia,1100015,Alta Floresta D'Oeste,110001505,Alta Floresta D'Oeste,...,.,,1.453434,2365,990,990,0,2.7,0.0619,873


Colunas relevantes para o merge:

| Coluna do DataFrame de bairros | Significado                                          |
| ------------------------------ | ---------------------------------------------------- |
| `CD_MUN`                       | C√≥digo do munic√≠pio (ex: 1100015) ‚Äì **fundamental!** |
| `NM_MUN`                       | Nome do munic√≠pio (ex: Floresta D‚ÄôOeste)             |
| `NM_BAIRRO`                    | Nome do bairro ‚Äì √∫til para an√°lise local             |
| `v0001`, `v0002`, ...          | Vari√°veis demogr√°ficas agregadas por bairro          |


a base ivs_filtrado, a coluna municipio √© equivalente ao CD_MUN da base de bairros.
Isso significa que podemos fazer o merge pelas colunas:

ivs_filtrado["municipio"]

bairros["CD_MUN"]


ATEN√á√ÉO: Na base ivs_filtrado, a coluna municipio est√° no formato object e pode conter "geral" ou estar formatada diferente.

Proximo passo: Vamos converter tudo para string e preparar o merge com seguran√ßa.

In [33]:
# Converter c√≥digos para string para garantir correspond√™ncia
ivs_filtrado["municipio"] = ivs_filtrado["municipio"].astype(str)
bairros["CD_MUN"] = bairros["CD_MUN"].astype(str)

# Fazer o merge (jun√ß√£o) com base no c√≥digo do munic√≠pio
ivs_com_bairros = pd.merge(ivs_filtrado, bairros, left_on="municipio", right_on="CD_MUN", how="inner")

# Verificar o resultado
ivs_com_bairros.head()


Unnamed: 0,ano,municipio,ivs,ivs_infraestrutura_urbana,ivs_capital_humano,ivs_renda_e_trabalho,idhm,idhm_educ,idhm_renda,idhm_long,...,CD_CONCURB,NM_CONCURB,AREA_KM2,v0001,v0002,v0003,v0004,v0005,v0006,v0007
0,2000,5217401,0.234,0.104,0.327,0.271,0.686,0.537,0.718,0.836,...,.,,0.504719,1635,812,807,5,2.3,0.0074,680
1,2000,5217401,0.234,0.104,0.327,0.271,0.686,0.537,0.718,0.836,...,.,,0.944571,2645,1175,1175,0,2.5,0.0028,1058
2,2000,5217401,0.234,0.104,0.327,0.271,0.686,0.537,0.718,0.836,...,.,,0.22569,962,398,398,0,2.6,0.0,369
3,2000,5217401,0.234,0.104,0.327,0.271,0.686,0.537,0.718,0.836,...,.,,0.276035,1198,483,480,3,2.7,0.0091,439
4,2000,5217401,0.234,0.104,0.327,0.271,0.686,0.537,0.718,0.836,...,.,,0.944546,2946,1275,1271,4,2.6,0.0035,1138


Para enriquecer a base principal com informa√ß√µes geodemogr√°ficas, realizamos a jun√ß√£o da base ivs_filtrado com a base Agregados_por_bairros_basico_BR.xlsx, utilizando como chave comum o c√≥digo do munic√≠pio (CD_MUN).

Esse merge permitiu incorporar informa√ß√µes complementares como:

Nome dos bairros e munic√≠pios,

Dados de √°rea territorial (AREA_KM2),

Vari√°veis populacionais codificadas .

Esse cruzamento torna a base muito mais robusta para an√°lises espaciais, demogr√°ficas e comparativas, especialmente no contexto da demanda por servi√ßos de aten√ß√£o prim√°ria √† sa√∫de.

Proximo passo: Carregar a base de distritos

In [34]:
# Carregar dados de distritos
print("Carregando dados de distritos...")


Carregando dados de distritos...


In [35]:
# Carregar a base de distritos
distritos = pd.read_excel("../data/raw/Agregados_por_distritos_demografia_BR.xlsx")

print(f"Dados de distritos carregados: {distritos.shape[0]} registros, {distritos.shape[1]} vari√°veis")
print("\nPrimeiras linhas:")
distritos.head()


Dados de distritos carregados: 10698 registros, 38 vari√°veis

Primeiras linhas:


Unnamed: 0,CD_DIST,NM_DIST,V01006,V01007,V01008,V01009,V01010,V01011,V01012,V01013,...,V01032,V01033,V01034,V01035,V01036,V01037,V01038,V01039,V01040,V01041
0,110001505,Alta Floresta D'Oeste,16699,8267,8432,592,598,589,645,612,...,1166,1144,1250,1191,1211,2485,2487,2028,1479,1053
1,110001515,Filad√©lfia d'Oeste,551,299,252,23,27,25,19,19,...,39,46,44,44,33,79,84,65,48,19
2,110001520,Izidol√¢ndia,532,287,245,25,18,17,25,12,...,44,42,42,34,44,85,78,62,37,22
3,110001525,Nova Gease d'Oeste,1071,562,509,35,32,43,57,27,...,90,79,104,73,92,126,120,130,82,54
4,110001530,Rolim de Moura do Guapor√©,801,442,359,42,31,45,45,31,...,55,86,81,51,58,129,116,85,43,23


Estrutura da base de distritos

| Coluna            | Significado presumido                                                                   |
| ----------------- | --------------------------------------------------------------------------------------- |
| `CD_DIST`         | C√≥digo do distrito                                                                      |
| `NM_DIST`         | Nome do distrito                                                                        |
| `V01006`‚Äì`V01041` | Vari√°veis demogr√°ficas (como popula√ß√£o, idade, etc.) ‚Äì usar dicion√°rio para interpretar |


Essa base n√£o possui explicitamente o c√≥digo do munic√≠pio (CD_MUN), mas o c√≥digo do distrito (CD_DIST) come√ßa com o c√≥digo do munic√≠pio.

Exemplo:

CD_DIST = 110001505 ‚Üí o c√≥digo do munic√≠pio √© 1100015



Estrat√©gia para unir com a base ivs_filtrado

1-Vamos extrair os 7 primeiros d√≠gitos de CD_DIST como CD_MUN

2-Converter ambos os c√≥digos para string

3-Fazer o merge com ivs_filtrado usando municipio == CD_MUN

In [36]:
# Extrair o c√≥digo do munic√≠pio dos 7 primeiros d√≠gitos de CD_DIST
distritos["CD_MUN"] = distritos["CD_DIST"].astype(str).str[:7]

# Converter tipo para garantir merge
ivs_filtrado["municipio"] = ivs_filtrado["municipio"].astype(str)
distritos["CD_MUN"] = distritos["CD_MUN"].astype(str)

# Fazer o merge
ivs_com_distritos = pd.merge(ivs_filtrado, distritos, left_on="municipio", right_on="CD_MUN", how="inner")

# Verificar o resultado
ivs_com_distritos.head()

Unnamed: 0,ano,municipio,ivs,ivs_infraestrutura_urbana,ivs_capital_humano,ivs_renda_e_trabalho,idhm,idhm_educ,idhm_renda,idhm_long,...,V01033,V01034,V01035,V01036,V01037,V01038,V01039,V01040,V01041,CD_MUN
0,2000,5300108,0.314,0.422,0.291,0.229,0.805,0.687,0.857,0.886,...,182575,207834,225156,220704,457174,460525,330213,205840,158123,5300108
1,2010,5300108,0.254,0.408,0.188,0.167,0.885,0.806,0.92,0.935,...,182575,207834,225156,220704,457174,460525,330213,205840,158123,5300108
2,2000,5200134,0.34,0.236,0.49,0.293,0.654,0.493,0.699,0.812,...,1448,1627,1562,1539,3195,3267,2758,1821,1331,5200134
3,2010,5200134,0.262,0.243,0.293,0.251,0.729,0.629,0.737,0.835,...,1448,1627,1562,1539,3195,3267,2758,1821,1331,5200134
4,2010,5200159,0.28,0.255,0.204,0.382,0.734,0.706,0.684,0.821,...,129,129,119,119,304,321,359,310,249,5200159


Para enriquecer a an√°lise dos indicadores sociais com dados em n√≠vel de distrito, realizamos a uni√£o entre a base principal (ivs_filtrado) e a base Agregados_por_distritos_demografia_BR.xlsx, com base no c√≥digo do munic√≠pio (CD_MUN), extra√≠do dos sete primeiros d√≠gitos do campo CD_DIST.

A uni√£o permitiu incorporar vari√°veis agregadas por distrito (ex: popula√ß√£o por faixa et√°ria, escolaridade, etc.), que ser√£o √∫teis para analisar padr√µes de vulnerabilidade, desigualdade e demandas sociais na aten√ß√£o prim√°ria √† sa√∫de.

Essa base unificada ser√° uma das principais ferramentas do projeto para identificar correla√ß√µes entre condi√ß√µes demogr√°ficas e indicadores de desenvolvimento, al√©m de suportar an√°lises de previs√£o de demanda por servi√ßos p√∫blicos.


Proximo passo: Adicionar a ultima base de dados Agregados_por_setores_demografia_BR.xlsx

In [37]:
# Carregar dados de setores censit√°rios
print("Carregando dados de setores censit√°rios...")


Carregando dados de setores censit√°rios...


In [38]:
# Carregar a base de setores censit√°rios
setores = pd.read_excel("../data/raw/Agregados_por_setores_demografia_BR.xlsx")

print(f"Dados de setores carregados: {setores.shape[0]} registros, {setores.shape[1]} vari√°veis")
print("\nPrimeiras linhas:")
setores.head()


Dados de setores carregados: 458772 registros, 37 vari√°veis

Primeiras linhas:


Unnamed: 0,CD_setor,V01006,V01007,V01008,V01009,V01010,V01011,V01012,V01013,V01014,...,V01032,V01033,V01034,V01035,V01036,V01037,V01038,V01039,V01040,V01041
0,110001505000002,928,428,500,30,39,24,44,36,25,...,68,62,88,68,58,144,129,124,66,53
1,110001505000003,556,270,286,15,20,20,19,30,20,...,36,47,38,47,44,83,95,48,47,34
2,110001505000004,222,108,114,5,4,9,14,7,5,...,11,15,26,11,11,33,37,25,23,17
3,110001505000006,785,408,377,36,33,34,41,42,27,...,63,61,75,71,53,124,92,88,57,40
4,110001505000007,748,373,375,28,25,33,27,24,31,...,52,54,52,51,61,110,116,93,63,46


O que observamos da base setores:

| Coluna              | Interpreta√ß√£o                                                      |
| ------------------- | ------------------------------------------------------------------ |
| `CD_setor`          | C√≥digo √∫nico do setor censit√°rio (15 d√≠gitos)                      |
| `V01006` a `V01041` | Vari√°veis demogr√°ficas (idade, renda, etc. ‚Äì checar no dicion√°rio) |


Sabemos que:

Os 7 primeiros d√≠gitos do CD_setor representam o munic√≠pio ‚Üí compat√≠vel com ivs_filtrado["municipio"]

Os 9 primeiros d√≠gitos representam o distrito ‚Üí compat√≠vel com CD_DIST da base de distritos

Pr√≥ximo passo: Integrar a base fazendo

1-Extrair os 7 primeiros d√≠gitos de CD_setor para formar o campo CD_MUN

2-Unir com a base principal ivs_filtrado pela coluna municipio

3-Assim, teremos a base IVS/IDHM com dados de setores censit√°rios inclu√≠dos

UTILIZEI TODA A RAM DISPONIVEL, ISSO FAZ COM QUE AO TENTAR RODAR O CODIGO PARA UNIR TODAS AS BASES, A SESS√ÉO FALHE E REINICIE, ASSIM TENDO QUE REINICIAR OS DADOS PARA IMPORTA√á√ÉO DE VARIAVEL E BASE DE DADOS

In [42]:
# Preparar dados de setores para merge
print("Preparando dados de setores...")
setores["CD_setor"] = setores["CD_setor"].astype(str)
setores["CD_MUN"] = setores["CD_setor"].str[:7]
ivs_filtrado["municipio"] = ivs_filtrado["municipio"].astype(str)

# Filtrar setores apenas para munic√≠pios que temos no IVS
print("Filtrando setores para munic√≠pios do IVS...")
municipios_ivs = set(ivs_filtrado["municipio"].unique())
setores_filtrados = setores[setores["CD_MUN"].isin(municipios_ivs)].copy()

print(f"Setores filtrados: {setores_filtrados.shape[0]} registros")

# Se ainda for muito grande, usar apenas uma amostra
if len(setores_filtrados) > 50000:
    print("Muitos setores! Usando amostra de 50.000 registros...")
    setores_filtrados = setores_filtrados.sample(n=50000, random_state=42)
    print(f"Setores ap√≥s amostragem: {setores_filtrados.shape[0]} registros")

# Fazer merge com setores filtrados
print("Fazendo merge com dados de setores...")
try:
    ivs_com_setores = pd.merge(ivs_filtrado, setores_filtrados, left_on="municipio", right_on="CD_MUN", how="inner")
    print(f"Base final com setores: {ivs_com_setores.shape[0]} registros, {ivs_com_setores.shape[1]} vari√°veis")
except MemoryError:
    print("Erro de mem√≥ria! Usando apenas dados do IVS sem setores...")
    # Usar apenas os dados do IVS se der erro de mem√≥ria
    ivs_com_setores = ivs_filtrado.copy()
    print(f"Base final (apenas IVS): {ivs_com_setores.shape[0]} registros, {ivs_com_setores.shape[1]} vari√°veis")

print("\nPrimeiras linhas da base unificada:")
ivs_com_setores.head()


Preparando dados de setores...
Filtrando setores para munic√≠pios do IVS...
Setores filtrados: 458574 registros
Muitos setores! Usando amostra de 50.000 registros...
Setores ap√≥s amostragem: 50000 registros
Fazendo merge com dados de setores...
Base final com setores: 16709286 registros, 53 vari√°veis

Primeiras linhas da base unificada:


Unnamed: 0,ano,municipio,ivs,ivs_infraestrutura_urbana,ivs_capital_humano,ivs_renda_e_trabalho,idhm,idhm_educ,idhm_renda,idhm_long,...,V01033,V01034,V01035,V01036,V01037,V01038,V01039,V01040,V01041,CD_MUN
0,2000,5300108,0.314,0.422,0.291,0.229,0.805,0.687,0.857,0.886,...,80,60,69,92,290,210,81,37,14,5300108
1,2000,5300108,0.314,0.422,0.291,0.229,0.805,0.687,0.857,0.886,...,12,7,16,48,122,49,23,19,10,5300108
2,2000,5300108,0.314,0.422,0.291,0.229,0.805,0.687,0.857,0.886,...,55,63,80,96,263,152,160,69,43,5300108
3,2000,5300108,0.314,0.422,0.291,0.229,0.805,0.687,0.857,0.886,...,26,24,29,28,51,68,50,31,34,5300108
4,2000,5300108,0.314,0.422,0.291,0.229,0.805,0.687,0.857,0.886,...,28,39,44,47,124,97,77,74,25,5300108


In [44]:
# Salvar dados processados
print("Salvando dados processados...")
ivs_com_setores.to_csv("../data/processed/dados_unificados.csv", index=False)
print("Dados salvos em: ../data/processed/dados_unificados.csv")

# Resumo final
print(f"\n=== RESUMO FINAL ===")
print(f"Base unificada: {ivs_com_setores.shape[0]:,} registros e {ivs_com_setores.shape[1]} vari√°veis")
print(f"Anos inclu√≠dos: {sorted(ivs_com_setores['ano'].unique())}")
print(f"Valores ausentes: {ivs_com_setores.isnull().sum().sum()}")

# Fechar Spark Session
spark.stop()
print("\nSpark Session encerrada!")


Salvando dados processados...
Dados salvos em: ../data/processed/dados_unificados.csv

=== RESUMO FINAL ===
Base unificada: 16,709,286 registros e 53 vari√°veis
Anos inclu√≠dos: [np.int64(2000), np.int64(2010)]
Valores ausentes: 0

Spark Session encerrada!
