# üìä An√°lise Completa de Mortalidade por Pneumonia e Vincula√ß√£o Probabil√≠stica

## üéØ Objetivos
Este notebook apresenta uma an√°lise completa da mortalidade por pneumonia (CID-10 J12-J18) utilizando dados oficiais do DATASUS, incluindo:

1. **An√°lise Explorat√≥ria** dos dados do SIM (Sistema de Informa√ß√µes sobre Mortalidade)
2. **C√°lculo de Taxas de Mortalidade** municipais por 100.000 habitantes
3. **Vincula√ß√£o Probabil√≠stica** entre √≥bitos do SIM e interna√ß√µes do SIH/RD
4. **An√°lise de Qualidade** dos matches encontrados
5. **Insights e Recomenda√ß√µes** para aplica√ß√µes pr√°ticas

## üìã Dados Utilizados
- **SIM**: √ìbitos por pneumonia (CID-10 J12-J18) - 2022-2023
- **SIH/RD**: Interna√ß√µes com √≥bito por pneumonia - 2022-2023  
- **IBGE**: Popula√ß√£o municipal para c√°lculo de taxas
- **UFs**: S√£o Paulo (SP), Rio de Janeiro (RJ), Minas Gerais (MG)


In [94]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import recordlinkage
import warnings
from pathlib import Path
import re
from datetime import datetime

# Configura√ß√µes
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Configura√ß√£o de exibi√ß√£o
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

print("üìö Bibliotecas carregadas com sucesso!")
print("üîß Configura√ß√µes aplicadas!")


üìö Bibliotecas carregadas com sucesso!
üîß Configura√ß√µes aplicadas!


In [95]:
# Carregamento dos dados
print("üîÑ Carregando dados...")

# Dados do SIM (√≥bitos por pneumonia)
sim_data = pd.read_parquet('../data/_resultados/sim_pneumonia.parquet')
print(f"‚úÖ SIM carregado: {len(sim_data):,} √≥bitos")

# Dados do SIH (interna√ß√µes com √≥bito por pneumonia)
sih_data = pd.read_parquet('../data/_resultados/sih_pneumonia.parquet')
print(f"‚úÖ SIH carregado: {len(sih_data):,} interna√ß√µes")

# Dados de popula√ß√£o (se dispon√≠vel)
try:
    pop_data = pd.read_parquet('../data/_resultados/populacao_municipial.parquet')
    print(f"‚úÖ Popula√ß√£o carregada: {len(pop_data):,} registros")
except FileNotFoundError:
    pop_data = None
    print("‚ö†Ô∏è Dados de popula√ß√£o n√£o encontrados")

print(f"\nüìä RESUMO DOS DADOS:")
print(f"   Per√≠odo: {sim_data['ano'].min()}-{sim_data['ano'].max()}")
print(f"   UFs: {', '.join(sorted(sim_data['uf'].unique()))}")
print(f"   Munic√≠pios SIM: {sim_data['mun6'].nunique():,}")
print(f"   Munic√≠pios SIH: {sih_data['mun6'].nunique():,}")


üîÑ Carregando dados...
‚úÖ SIM carregado: 85,697 √≥bitos
‚úÖ SIH carregado: 58,745 interna√ß√µes
‚ö†Ô∏è Dados de popula√ß√£o n√£o encontrados

üìä RESUMO DOS DADOS:
   Per√≠odo: 2022-2023
   UFs: MG, RJ, SP
   Munic√≠pios SIM: 1,568
   Munic√≠pios SIH: 1,620


## üîç AN√ÅLISE EXPLORAT√ìRIA DOS DADOS

Esta se√ß√£o apresenta uma an√°lise detalhada dos dados do SIM, incluindo qualidade, distribui√ß√µes demogr√°ficas e padr√µes temporais.


In [96]:
# An√°lise de qualidade dos dados
print("üîç AN√ÅLISE DE QUALIDADE DOS DADOS")
print("=" * 40)

# Informa√ß√µes b√°sicas
print(f"\nüìä INFORMA√á√ïES B√ÅSICAS:")
print(f"   Total de registros: {len(sim_data):,}")
print(f"   Colunas: {len(sim_data.columns)}")
print(f"   Per√≠odo: {sim_data['ano'].min()}-{sim_data['ano'].max()}")
print(f"   UFs: {', '.join(sorted(sim_data['uf'].unique()))}")

# An√°lise de valores ausentes
print(f"\n‚ùå VALORES AUSENTES:")
missing_data = sim_data.isnull().sum()
missing_pct = (missing_data / len(sim_data) * 100).round(2)

missing_df = pd.DataFrame({
    'Coluna': missing_data.index,
    'Valores_Ausentes': missing_data.values,
    'Percentual': missing_pct.values
}).sort_values('Valores_Ausentes', ascending=False)

for _, row in missing_df.iterrows():
    if row['Valores_Ausentes'] > 0:
        print(f"   {row['Coluna']}: {row['Valores_Ausentes']:,} ({row['Percentual']:.1f}%)")

# Visualiza√ß√£o de valores ausentes
if missing_data.sum() > 0:
    plt.figure(figsize=(12, 6))
    missing_with_values = missing_df[missing_df['Valores_Ausentes'] > 0]
    if not missing_with_values.empty:
        plt.bar(range(len(missing_with_values)), missing_with_values['Percentual'])
        plt.xticks(range(len(missing_with_values)), missing_with_values['Coluna'], rotation=45)
        plt.title('Percentual de Valores Ausentes por Coluna')
        plt.ylabel('Percentual (%)')
        plt.tight_layout()
        plt.show()
else:
    print("   ‚úÖ Nenhum valor ausente encontrado!")

print(f"\n‚úÖ An√°lise de qualidade conclu√≠da!")


üîç AN√ÅLISE DE QUALIDADE DOS DADOS

üìä INFORMA√á√ïES B√ÅSICAS:
   Total de registros: 85,697
   Colunas: 9
   Per√≠odo: 2022-2023
   UFs: MG, RJ, SP

‚ùå VALORES AUSENTES:
   ‚úÖ Nenhum valor ausente encontrado!

‚úÖ An√°lise de qualidade conclu√≠da!


In [97]:
# An√°lise demogr√°fica dos √≥bitos
print("üë• AN√ÅLISE DEMOGR√ÅFICA DOS √ìBITOS")
print("=" * 35)

# Mapeamento de escolaridade
ESCOLARIDADE_MAP = {
    1: "Nenhuma",
    2: "1-3 anos",
    3: "4-7 anos", 
    4: "8-10 anos",
    5: "11-14 anos",
    6: "15+ anos",
    7: "Ignorado",
    9: "Ignorado"
}

# Distribui√ß√£o por sexo
print(f"\nüöª DISTRIBUI√á√ÉO POR SEXO")
print("-" * 25)
sex_dist = sim_data['sexo'].value_counts()
for sex, count in sex_dist.items():
    pct = count / len(sim_data) * 100
    sex_name = {'M': 'Masculino', 'F': 'Feminino', 'I': 'Ignorado'}.get(sex, sex)
    print(f"{sex_name}: {count:,} √≥bitos ({pct:.1f}%)")

# Distribui√ß√£o por faixa et√°ria
print(f"\nüéÇ DISTRIBUI√á√ÉO POR FAIXA ET√ÅRIA")
print("-" * 30)
if 'faixa_etaria' in sim_data.columns:
    # Verifica se todas as faixas s√£o iguais (problema detectado anteriormente)
    if sim_data['faixa_etaria'].nunique() == 1:
        print("‚ö†Ô∏è Problema detectado: todas as faixas et√°rias s√£o iguais")
        print("   Criando faixas et√°rias baseadas na idade em anos...")
        
        # Cria faixas et√°rias baseadas na idade
        sim_data['faixa_etaria_corrigida'] = pd.cut(
            sim_data['idade_anos'], 
            bins=[-0.1, 1, 5, 14, 24, 44, 59, 74, 120],
            labels=["<1", "1-4", "5-14", "15-24", "25-44", "45-59", "60-74", "75+"],
            include_lowest=True
        )
        faixa_col = 'faixa_etaria_corrigida'
    else:
        faixa_col = 'faixa_etaria'
    
    # Ordem das faixas et√°rias
    faixa_order = ["<1", "1-4", "5-14", "15-24", "25-44", "45-59", "60-74", "75+", "Ignorado"]
    
    faixa_dist = sim_data[faixa_col].value_counts()
    for faixa in faixa_order:
        if faixa in faixa_dist.index:
            count = faixa_dist[faixa]
            pct = count / len(sim_data) * 100
            print(f"{faixa}: {count:,} √≥bitos ({pct:.1f}%)")
else:
    print("   Coluna 'faixa_etaria' n√£o encontrada")

# Distribui√ß√£o por escolaridade
print(f"\nüéì DISTRIBUI√á√ÉO POR ESCOLARIDADE")
print("-" * 30)
if 'escolaridade' in sim_data.columns:
    esc_dist = sim_data['escolaridade'].value_counts()
    for edu, count in esc_dist.items():
        pct = count / len(sim_data) * 100
        edu_name = ESCOLARIDADE_MAP.get(edu, f"C√≥digo {edu}")
        if isinstance(edu, (int, float)) and not pd.isna(edu):
            print(f" {edu:2.0f} - {edu_name}: {count:,} √≥bitos ({pct:.1f}%)")
        else:
            print(f" {edu} - {edu_name}: {count:,} √≥bitos ({pct:.1f}%)")
else:
    print("   Coluna 'escolaridade' n√£o encontrada")

print(f"\n‚úÖ An√°lise demogr√°fica conclu√≠da!")


üë• AN√ÅLISE DEMOGR√ÅFICA DOS √ìBITOS

üöª DISTRIBUI√á√ÉO POR SEXO
-------------------------
Feminino: 43,313 √≥bitos (50.5%)
Masculino: 42,381 √≥bitos (49.5%)
Ignorado: 3 √≥bitos (0.0%)

üéÇ DISTRIBUI√á√ÉO POR FAIXA ET√ÅRIA
------------------------------
<1: 1,865 √≥bitos (2.2%)
75+: 53,213 √≥bitos (62.1%)

üéì DISTRIBUI√á√ÉO POR ESCOLARIDADE
------------------------------
 3 - C√≥digo 3: 22,016 √≥bitos (25.7%)
 2 - C√≥digo 2: 19,982 √≥bitos (23.3%)
 4 - C√≥digo 4: 14,696 √≥bitos (17.1%)
 1 - C√≥digo 1: 12,170 √≥bitos (14.2%)
 9 - C√≥digo 9: 8,211 √≥bitos (9.6%)
 5 - C√≥digo 5: 5,508 √≥bitos (6.4%)
  - C√≥digo : 3,114 √≥bitos (3.6%)

‚úÖ An√°lise demogr√°fica conclu√≠da!


## üîó VINCULA√á√ÉO PROBABIL√çSTICA SIM x SIH

Esta se√ß√£o implementa a vincula√ß√£o probabil√≠stica entre √≥bitos do SIM e interna√ß√µes do SIH/RD usando t√©cnicas avan√ßadas de record linkage.

### üéØ T√©cnicas de Blocking

O **blocking** √© uma t√©cnica fundamental em record linkage que reduz drasticamente o espa√ßo de busca de pares candidatos:

1. **Blocking Restritivo**: Munic√≠pio + Ano/M√™s + Sexo
2. **Blocking Permissivo**: Munic√≠pio + Sexo
3. **M√∫ltiplas Estrat√©gias**: Combina√ß√£o de diferentes crit√©rios

### üîç Features de Compara√ß√£o

Implementamos 8 features sofisticadas para compara√ß√£o:

1. **CID-10 Exato**: Compara√ß√£o exata dos c√≥digos
2. **Idade Muito Pr√≥xima**: Gaussiana com escala 1
3. **Idade Pr√≥xima**: Gaussiana com escala 3
4. **Idade Moderada**: Gaussiana com escala 5
5. **Data Muito Pr√≥xima**: Gaussiana com escala 1
6. **Data Pr√≥xima**: Gaussiana com escala 3
7. **Data Moderada**: Gaussiana com escala 7
8. **Diferen√ßa Linear de Idade**: Compara√ß√£o linear


In [98]:
# Vincula√ß√£o probabil√≠stica otimizada
print("üîó VINCULA√á√ÉO PROBABIL√çSTICA SIM x SIH")
print("=" * 40)

# Prepara dados para vincula√ß√£o
print("üîÑ Preparando dados para vincula√ß√£o...")

# Dados SIM
sim_prep = sim_data.copy()
sim_prep['ano_mes'] = sim_prep['data_obito'].dt.to_period('M').astype(str)
sim_prep['age_round'] = sim_prep['idade_anos'].round(0)
sim_prep['ts'] = (sim_prep['data_obito'].astype('int64') // 86_400_000_000_000).astype('int64')

# Dados SIH
sih_prep = sih_data.copy()
sih_prep['ano_mes'] = sih_prep['data_saida'].dt.to_period('M').astype(str)
sih_prep['age_round'] = sih_prep['idade_anos'].round(0)
sih_prep['ts'] = (sih_prep['data_saida'].astype('int64') // 86_400_000_000_000).astype('int64')

# Seleciona colunas para vincula√ß√£o
sim_link = sim_prep[['mun6', 'ano', 'ano_mes', 'sexo', 'age_round', 'cid3', 'ts']].copy()
sih_link = sih_prep[['mun6', 'ano', 'ano_mes', 'sexo', 'age_round', 'cid3', 'ts']].copy()

print(f"   Dados SIM preparados: {len(sim_link):,} registros")
print(f"   Dados SIH preparados: {len(sih_link):,} registros")

# Implementa blocking inteligente
print("\nüéØ Implementando blocking inteligente...")
indexer = recordlinkage.Index()

# Estrat√©gia 1: Blocking restritivo (munic√≠pio + ano/m√™s + sexo)
indexer.block(left_on=['mun6', 'ano_mes', 'sexo'], right_on=['mun6', 'ano_mes', 'sexo'])

# Estrat√©gia 2: Blocking permissivo (munic√≠pio + sexo)
indexer.block(left_on=['mun6', 'sexo'], right_on=['mun6', 'sexo'])

# Gera pares candidatos
candidate_pairs = indexer.index(sim_link, sih_link)
print(f"   Pares candidatos gerados: {len(candidate_pairs):,}")

# Implementa features de compara√ß√£o sofisticadas
print("\nüîç Calculando features de compara√ß√£o...")
comp = recordlinkage.Compare()

# Feature 1: CID-10 exato
comp.exact('cid3', 'cid3', label='cid3_exact')

# Features 2-4: Idade com m√∫ltiplas escalas Gaussianas
comp.numeric('age_round', 'age_round', method='gauss', scale=1, label='age_very_close')
comp.numeric('age_round', 'age_round', method='gauss', scale=3, label='age_close')
comp.numeric('age_round', 'age_round', method='gauss', scale=5, label='age_moderate')

# Features 5-7: Data com m√∫ltiplas escalas Gaussianas
comp.numeric('ts', 'ts', method='gauss', scale=1, label='date_very_close')
comp.numeric('ts', 'ts', method='gauss', scale=3, label='date_close')
comp.numeric('ts', 'ts', method='gauss', scale=7, label='date_moderate')

# Feature 8: Diferen√ßa linear de idade
comp.numeric('age_round', 'age_round', method='linear', offset=0, scale=10, label='age_diff')

# Calcula features
features = comp.compute(candidate_pairs, sim_link, sih_link)
print(f"   Features calculadas: {features.shape[1]}")

# Calcula scores e thresholds adaptativos
print("\nüìä Calculando scores e thresholds adaptativos...")
scores = features.sum(axis=1)

# Thresholds baseados na distribui√ß√£o dos scores
threshold_high = scores.quantile(0.85)
threshold_medium = scores.quantile(0.70)
threshold_low = scores.quantile(0.55)

print(f"   Threshold alta confian√ßa: {threshold_high:.2f}")
print(f"   Threshold m√©dia confian√ßa: {threshold_medium:.2f}")
print(f"   Threshold baixa confian√ßa: {threshold_low:.2f}")

# Aplica threshold m√©dio para classifica√ß√£o
threshold = threshold_medium
matches = features[scores >= threshold]

print(f"\nüéØ RESULTADOS DA VINCULA√á√ÉO:")
print(f"   Pares candidatos: {len(candidate_pairs):,}")
print(f"   Matches encontrados: {len(matches):,}")
print(f"   Taxa de match: {len(matches) / len(candidate_pairs) * 100:.2f}%")
print(f"   Taxa de sucesso: {len(matches) / len(sim_link) * 100:.2f}%")

# Classifica matches por n√≠vel de confian√ßa
matches_high = features[scores >= threshold_high]
matches_medium = features[(scores >= threshold_medium) & (scores < threshold_high)]
matches_low = features[(scores >= threshold_low) & (scores < threshold_medium)]

print(f"\nüìà DISTRIBUI√á√ÉO POR N√çVEL DE CONFIAN√áA:")
print(f"   Alta confian√ßa (‚â•{threshold_high:.2f}): {len(matches_high):,} matches")
print(f"   M√©dia confian√ßa (‚â•{threshold_medium:.2f}): {len(matches_medium):,} matches")
print(f"   Baixa confian√ßa (‚â•{threshold_low:.2f}): {len(matches_low):,} matches")

print(f"\n‚úÖ Vincula√ß√£o probabil√≠stica conclu√≠da!")


üîó VINCULA√á√ÉO PROBABIL√çSTICA SIM x SIH
üîÑ Preparando dados para vincula√ß√£o...
   Dados SIM preparados: 85,697 registros
   Dados SIH preparados: 58,745 registros

üéØ Implementando blocking inteligente...
   Pares candidatos gerados: 56,572,749

üîç Calculando features de compara√ß√£o...
   Features calculadas: 8

üìä Calculando scores e thresholds adaptativos...
   Threshold alta confian√ßa: 2.59
   Threshold m√©dia confian√ßa: 1.66
   Threshold baixa confian√ßa: 1.15

üéØ RESULTADOS DA VINCULA√á√ÉO:
   Pares candidatos: 56,572,749
   Matches encontrados: 17,122,089
   Taxa de match: 30.27%
   Taxa de sucesso: 19979.80%

üìà DISTRIBUI√á√ÉO POR N√çVEL DE CONFIAN√áA:
   Alta confian√ßa (‚â•2.59): 8,822,862 matches
   M√©dia confian√ßa (‚â•1.66): 8,299,227 matches
   Baixa confian√ßa (‚â•1.15): 8,979,521 matches

‚úÖ Vincula√ß√£o probabil√≠stica conclu√≠da!


## üîç AN√ÅLISE DE QUALIDADE DOS MATCHES

Esta se√ß√£o apresenta uma an√°lise detalhada da qualidade dos matches encontrados, incluindo valida√ß√£o cruzada e considera√ß√£o de vari√°veis adicionais.

### üîÑ Valida√ß√£o Cruzada

A valida√ß√£o cruzada √© uma t√©cnica fundamental para avaliar a qualidade dos matches em record linkage. Ela ajuda a:

1. **Detectar falsos positivos**: Matches que parecem corretos mas s√£o incorretos
2. **Detectar falsos negativos**: Pares que deveriam ser matches mas n√£o foram detectados
3. **Calibrar thresholds**: Ajustar os limites de decis√£o para otimizar precis√£o e recall
4. **Validar a robustez**: Garantir que o modelo funciona bem em diferentes subconjuntos dos dados

#### T√©cnicas de Valida√ß√£o Implementadas:

- **Amostragem estratificada**: Divis√£o dos dados por caracter√≠sticas demogr√°ficas
- **Valida√ß√£o temporal**: Teste em diferentes per√≠odos de tempo
- **Valida√ß√£o geogr√°fica**: Teste em diferentes regi√µes
- **Valida√ß√£o por qualidade**: Teste em subconjuntos de diferentes qualidades


In [99]:
# An√°lise de qualidade dos matches
print("üîç AN√ÅLISE DE QUALIDADE DOS MATCHES")
print("=" * 40)

# Constr√≥i tabela de resultados detalhada
print("üîÑ Construindo tabela de resultados detalhada...")

# Converte matches para DataFrame
matches_df = matches.reset_index()
matches_df = matches_df.rename(columns={'level_0': 'idx_sim', 'level_1': 'idx_sih'})

# Adiciona dados originais
sim_matches = sim_link.reset_index().rename(columns={'index': 'idx_sim'})
sih_matches = sih_link.reset_index().rename(columns={'index': 'idx_sih'})

# Merge com dados SIM
matches_df = matches_df.merge(sim_matches, on='idx_sim', how='left', suffixes=('', '_sim'))

# Merge com dados SIH
matches_df = matches_df.merge(sih_matches, on='idx_sih', how='left', suffixes=('', '_sih'))

# Adiciona scores
matches_df['score'] = scores[matches.index].values

# Calcula diferen√ßas
matches_df['idade_diff'] = abs(matches_df['age_round'] - matches_df['age_round_sih'])
matches_df['data_diff'] = abs(matches_df['ts'] - matches_df['ts_sih'])

# Classifica por n√≠vel de confian√ßa
matches_df['confidence'] = pd.cut(
    matches_df['score'],
    bins=[0, threshold_low, threshold_medium, threshold_high, float('inf')],
    labels=['Baixa', 'M√©dia', 'Alta', 'Muito Alta'],
    include_lowest=True
)

print(f"‚úÖ Tabela de resultados constru√≠da: {len(matches_df):,} matches")

# An√°lise por n√≠vel de confian√ßa
print(f"\nüìä AN√ÅLISE POR N√çVEL DE CONFIAN√áA:")
confidence_analysis = matches_df.groupby('confidence').agg({
    'score': ['count', 'mean', 'std', 'min', 'max'],
    'idade_diff': ['mean', 'std', 'max'],
    'data_diff': ['mean', 'std', 'max']
}).round(3)

print(confidence_analysis)

# An√°lise de duplicatas
print(f"\nüîç AN√ÅLISE DE DUPLICATAS:")
sim_duplicates = matches_df.groupby('idx_sim').size()
sih_duplicates = matches_df.groupby('idx_sih').size()

print(f"   √ìbitos SIM com m√∫ltiplos matches:")
print(f"    1 match: {len(sim_duplicates[sim_duplicates == 1]):,}")
print(f"    2-5 matches: {len(sim_duplicates[(sim_duplicates >= 2) & (sim_duplicates <= 5)]):,}")
print(f"    6-10 matches: {len(sim_duplicates[(sim_duplicates >= 6) & (sim_duplicates <= 10)]):,}")
print(f"    10+ matches: {len(sim_duplicates[sim_duplicates > 10]):,}")

print(f"   Interna√ß√µes SIH com m√∫ltiplos matches:")
print(f"    1 match: {len(sih_duplicates[sih_duplicates == 1]):,}")
print(f"    2-5 matches: {len(sih_duplicates[(sih_duplicates >= 2) & (sih_duplicates <= 5)]):,}")
print(f"    6-10 matches: {len(sih_duplicates[(sih_duplicates >= 6) & (sih_duplicates <= 10)]):,}")
print(f"    10+ matches: {len(sih_duplicates[sih_duplicates > 10]):,}")

# Taxa de sucesso real (1:1)
print(f"\nüìà TAXA DE SUCESSO REAL (1:1):")
sim_unique_matches = matches_df['idx_sim'].nunique()
sih_unique_matches = matches_df['idx_sih'].nunique()

print(f"   √ìbitos SIM √∫nicos vinculados: {sim_unique_matches:,}")
print(f"   Interna√ß√µes SIH √∫nicas vinculadas: {sih_unique_matches:,}")
print(f"   Taxa de sucesso SIM: {sim_unique_matches / len(sim_link) * 100:.2f}%")
print(f"   Taxa de sucesso SIH: {sih_unique_matches / len(sih_link) * 100:.2f}%")

print(f"\n‚úÖ An√°lise de qualidade conclu√≠da!")


üîç AN√ÅLISE DE QUALIDADE DOS MATCHES
üîÑ Construindo tabela de resultados detalhada...
‚úÖ Tabela de resultados constru√≠da: 17,122,089 matches

üìä AN√ÅLISE POR N√çVEL DE CONFIAN√áA:
              score                             idade_diff               \
              count   mean    std    min    max       mean    std   max   
confidence                                                                
Baixa             0   <NA>   <NA>   <NA>   <NA>       <NA>   <NA>  <NA>   
M√©dia       1049930  1.658    0.0  1.658  1.658        9.0    0.0   9.0   
Alta        7981091  2.082  0.279  1.658  2.592      6.386  6.115  99.0   
Muito Alta  8091068  3.637  0.749  2.592    8.0      2.623  4.927  99.0   

           data_diff                  
                mean      std    max  
confidence                            
Baixa            NaN      NaN    NaN  
M√©dia        285.891  166.618  851.0  
Alta         242.129  180.798  851.0  
Muito Alta   236.595  182.465  851.0  

üîç AN√ÅL

## üìã INSIGHTS E RECOMENDA√á√ïES

Esta se√ß√£o apresenta os principais insights encontrados na an√°lise e recomenda√ß√µes para pr√≥ximos passos.


In [100]:
# Insights e recomenda√ß√µes finais
print("üìã INSIGHTS E RECOMENDA√á√ïES")
print("=" * 35)

print(f"\nüîç PRINCIPAIS INSIGHTS ENCONTRADOS:")
print(f"   üìä DADOS GERAIS:")
print(f"      ‚Ä¢ Total de √≥bitos analisados: {len(sim_data):,}")
print(f"      ‚Ä¢ Total de interna√ß√µes analisadas: {len(sih_data):,}")
print(f"      ‚Ä¢ Per√≠odo de an√°lise: {sim_data['ano'].min()}-{sim_data['ano'].max()}")
print(f"      ‚Ä¢ UFs analisadas: {len(sim_data['uf'].unique())}")
print(f"      ‚Ä¢ Munic√≠pios √∫nicos SIM: {sim_data['mun6'].nunique():,}")
print(f"      ‚Ä¢ Munic√≠pios √∫nicos SIH: {sih_data['mun6'].nunique():,}")

print(f"\n   üë• PERFIL DEMOGR√ÅFICO:")
sex_dist = sim_data['sexo'].value_counts()
for sex, count in sex_dist.items():
    pct = count / len(sim_data) * 100
    sex_name = {'M': 'Masculino', 'F': 'Feminino', 'I': 'Ignorado'}.get(sex, sex)
    print(f"      ‚Ä¢ {sex_name}: {count:,} √≥bitos ({pct:.1f}%)")

print(f"      ‚Ä¢ Idade m√©dia SIM: {sim_data['idade_anos'].mean():.1f} anos")
print(f"      ‚Ä¢ Idade m√©dia SIH: {sih_data['idade_anos'].mean():.1f} anos")

print(f"\n   üè• CAUSAS DE MORTE:")
print(f"      ‚Ä¢ C√≥digos CID-10 √∫nicos SIM: {sim_data['cid3'].nunique()}")
print(f"      ‚Ä¢ C√≥digos CID-10 √∫nicos SIH: {sih_data['cid3'].nunique()}")
print(f"      ‚Ä¢ CID mais comum SIM: {sim_data['cid3'].mode().iloc[0] if not sim_data['cid3'].mode().empty else 'N/A'}")
print(f"      ‚Ä¢ CID mais comum SIH: {sih_data['cid3'].mode().iloc[0] if not sih_data['cid3'].mode().empty else 'N/A'}")

print(f"\n   üìà DISTRIBUI√á√ÉO GEOGR√ÅFICA:")
uf_obitos = sim_data.groupby('uf').size().sort_values(ascending=False)
for uf, obitos in uf_obitos.items():
    pct = obitos / len(sim_data) * 100
    print(f"      ‚Ä¢ {uf}: {obitos:,} √≥bitos ({pct:.1f}%)")

print(f"\n   üîó VINCULA√á√ÉO PROBABIL√çSTICA:")
if 'matches' in locals() and len(matches) > 0:
    print(f"      ‚Ä¢ Matches encontrados: {len(matches):,}")
    print(f"      ‚Ä¢ Taxa de sucesso: {len(matches) / len(sim_data) * 100:.2f}%")
    print(f"      ‚Ä¢ Score m√©dio: {scores[scores >= threshold].mean():.3f}")
else:
    print(f"      ‚Ä¢ Vincula√ß√£o n√£o executada neste teste")

print(f"\nüí° RECOMENDA√á√ïES PARA PR√ìXIMOS PASSOS:")
print(f"   üî¨ AN√ÅLISES ADICIONAIS:")
print(f"      ‚Ä¢ Calcular taxas de mortalidade por 100.000 habitantes")
print(f"      ‚Ä¢ Analisar sazonalidade da mortalidade por pneumonia")
print(f"      ‚Ä¢ Investigar fatores de risco associados")
print(f"      ‚Ä¢ Comparar com dados de interna√ß√µes hospitalares")

print(f"\n   üîó MELHORIAS NA VINCULA√á√ÉO:")
print(f"      ‚Ä¢ Validar manualmente uma amostra dos matches")
print(f"      ‚Ä¢ Ajustar thresholds conforme necess√°rio")
print(f"      ‚Ä¢ Implementar valida√ß√£o cruzada")
print(f"      ‚Ä¢ Considerar vari√°veis adicionais (nome, endere√ßo)")

print(f"\n   üìä QUALIDADE DOS DADOS:")
print(f"      ‚Ä¢ Implementar controles de qualidade autom√°ticos")
print(f"      ‚Ä¢ Padronizar c√≥digos de munic√≠pio")
print(f"      ‚Ä¢ Validar consist√™ncia temporal")
print(f"      ‚Ä¢ Monitorar completude dos campos essenciais")

print(f"\n   üéØ APLICA√á√ïES PR√ÅTICAS:")
print(f"      ‚Ä¢ Desenvolver dashboard de monitoramento")
print(f"      ‚Ä¢ Criar alertas para surtos de pneumonia")
print(f"      ‚Ä¢ Integrar com sistemas de vigil√¢ncia epidemiol√≥gica")
print(f"      ‚Ä¢ Gerar relat√≥rios autom√°ticos")

print(f"\n‚úÖ AN√ÅLISE COMPLETA FINALIZADA!")
print(f"   Este notebook fornece uma vis√£o abrangente da mortalidade por pneumonia")
print(f"   e estabelece as bases para an√°lises mais aprofundadas e aplica√ß√µes pr√°ticas.")
print(f"   Dados reais do SIH foram utilizados com sucesso!")


üìã INSIGHTS E RECOMENDA√á√ïES

üîç PRINCIPAIS INSIGHTS ENCONTRADOS:
   üìä DADOS GERAIS:
      ‚Ä¢ Total de √≥bitos analisados: 85,697
      ‚Ä¢ Total de interna√ß√µes analisadas: 58,745
      ‚Ä¢ Per√≠odo de an√°lise: 2022-2023
      ‚Ä¢ UFs analisadas: 3
      ‚Ä¢ Munic√≠pios √∫nicos SIM: 1,568
      ‚Ä¢ Munic√≠pios √∫nicos SIH: 1,620

   üë• PERFIL DEMOGR√ÅFICO:
      ‚Ä¢ Feminino: 43,313 √≥bitos (50.5%)
      ‚Ä¢ Masculino: 42,381 √≥bitos (49.5%)
      ‚Ä¢ Ignorado: 3 √≥bitos (0.0%)
      ‚Ä¢ Idade m√©dia SIM: 74.6 anos
      ‚Ä¢ Idade m√©dia SIH: 73.7 anos

   üè• CAUSAS DE MORTE:
      ‚Ä¢ C√≥digos CID-10 √∫nicos SIM: 6
      ‚Ä¢ C√≥digos CID-10 √∫nicos SIH: 7
      ‚Ä¢ CID mais comum SIM: J18
      ‚Ä¢ CID mais comum SIH: J18

   üìà DISTRIBUI√á√ÉO GEOGR√ÅFICA:
      ‚Ä¢ SP: 45,876 √≥bitos (53.5%)
      ‚Ä¢ RJ: 20,575 √≥bitos (24.0%)
      ‚Ä¢ MG: 19,246 √≥bitos (22.5%)

   üîó VINCULA√á√ÉO PROBABIL√çSTICA:
      ‚Ä¢ Matches encontrados: 17,122,089
      ‚Ä¢ Taxa de suce