# üì• Bronze Layer - Ingest√£o de Dados SIH (DATASUS)
####**Fonte**: Sistema de Informa√ß√µes Hospitalares (SIH/SUS)
####**Descri√ß√£o**: Dados de interna√ß√µes hospitalares do Brasil
####**Per√≠odo**: √öltimos 12 meses dispon√≠veis
####**Formato Original**: DBC (comprimido) ‚Üí Convers√£o para Parquet/Delta
## üìä Estrutura dos Dados SIH:
 - **AIH**: Autoriza√ß√£o de Interna√ß√£o Hospitalar
 - Procedimentos realizados
 - Diagn√≥sticos (CID-10)
 - Munic√≠pio/Estado
 - Valores pagos
 - Tempo de perman√™ncia


## 1Ô∏è‚É£ Configura√ß√£o Inicial


In [0]:
# Importar bibliotecas
import requests
import pandas as pd
from pyspark.sql import functions as F
from pyspark.sql.types import *
from datetime import datetime, timedelta
import json
import time
import io

print("‚úÖ Bibliotecas importadas!")

In [0]:
# Configurar catalog e schema
catalog_name = "datasus_project"
schema_name = "bronze"

# Usar catalog/schema
spark.sql(f"USE CATALOG {catalog_name}")
spark.sql(f"USE SCHEMA {schema_name}")

print(f"‚úÖ Usando: {catalog_name}.{schema_name}")

## 2Ô∏è‚É£ Explorar API OpenDataSUS

In [0]:
def list_all_datasets():
    """
    Lista TODOS os datasets dispon√≠veis no OpenDataSUS
    A API CKAN retorna apenas 10 por padr√£o, precisamos aumentar o 'rows'
    """
    base_url = "https://opendatasus.saude.gov.br/api/3/action/package_search"
    
    # Primeiro, descobrir quantos datasets existem no total
    params = {
        "rows": 0  # Retorna apenas o count
    }
    
    try:
        response = requests.get(base_url, params=params, timeout=15)
        if response.status_code == 200:
            data = response.json()
            total_datasets = data.get("result", {}).get("count", 0)
            print(f"üìä Total de datasets dispon√≠veis: {total_datasets}")
            
            # Agora buscar todos os datasets
            params["rows"] = total_datasets
            response = requests.get(base_url, params=params, timeout=30)
            
            if response.status_code == 200:
                data = response.json()
                return data.get("result", {}).get("results", [])
        else:
            print(f"‚ùå Erro: Status {response.status_code}")
            return []
    except Exception as e:
        print(f"‚ùå Erro na requisi√ß√£o: {e}")
        return []

# Buscar todos os datasets
print("üîç Buscando TODOS os datasets do OpenDataSUS...")
all_datasets = list_all_datasets()

print(f"\n‚úÖ Total de datasets encontrados: {len(all_datasets)}")

In [0]:
# Mostrar os 10 primeiros datasets
print("\nüìã PRIMEIROS 10 DATASETS DISPON√çVEIS:")
print("="*80)

for i, ds in enumerate(all_datasets[:10]):
    print(f"\n{i+1}. {ds.get('title', 'Sem t√≠tulo')}")
    print(f"   ID: {ds.get('name', 'N/A')}")
    print(f"   Organiza√ß√£o: {ds.get('organization', {}).get('title', 'N/A')}")
    print(f"   Recursos: {len(ds.get('resources', []))}")
    
    # Mostrar formatos dispon√≠veis
    resources = ds.get('resources', [])
    if resources:
        formats = [r.get('format', 'N/A') for r in resources]
        print(f"   Formatos: {', '.join(set(formats))}")

## 3Ô∏è‚É£ Buscar Dataset Espec√≠fico - CNES (Estabelecimentos de Sa√∫de)


In [0]:
def find_dataset_by_keyword(datasets, keyword):
    """
    Busca datasets que contenham determinada palavra-chave
    """
    matches = []
    for ds in datasets:
        title = ds.get('title', '').lower()
        name = ds.get('name', '').lower()
        if keyword.lower() in title or keyword.lower() in name:
            matches.append(ds)
    return matches

# Buscar dataset do CNES
print("üîç Buscando dataset CNES...")
cnes_datasets = find_dataset_by_keyword(all_datasets, "CNES")

print(f"\n‚úÖ Encontrados {len(cnes_datasets)} datasets relacionados ao CNES")

for i, ds in enumerate(cnes_datasets):
    print(f"\n{i+1}. {ds.get('title')}")
    print(f"   ID: {ds.get('name')}")
    print(f"   Recursos: {len(ds.get('resources', []))}")

## 4Ô∏è‚É£ Obter Recursos (Arquivos) do Dataset CNES

In [0]:
# Pegar o primeiro dataset do CNES
if cnes_datasets:
    cnes_dataset = cnes_datasets[0]
    resources = cnes_dataset.get('resources', [])
    
    print(f"üì¶ Dataset: {cnes_dataset.get('title')}")
    print(f"üìã Total de recursos: {len(resources)}\n")
    
    print("üóÇÔ∏è RECURSOS DISPON√çVEIS:")
    print("="*80)
    
    csv_resources = []
    for i, resource in enumerate(resources[:20]):  # Mostrar primeiros 20
        format_type = resource.get('format', 'N/A')
        name = resource.get('name', 'Sem nome')
        url = resource.get('url', 'N/A')
        
        print(f"\n{i+1}. {name}")
        print(f"   Formato: {format_type}")
        print(f"   URL: {url[:100]}...")
        
        # Guardar recursos CSV
        if format_type.upper() in ['CSV', 'JSON', 'PARQUET']:
            csv_resources.append(resource)
    
    print(f"\n‚úÖ Recursos em formato estruturado: {len(csv_resources)}")
else:
    print("‚ùå Nenhum dataset CNES encontrado")

## 5Ô∏è‚É£ Download e Ingest√£o de Dados REAIS


In [0]:
import zipfile
from io import BytesIO

if csv_resources:
    selected_resource = csv_resources[0]
    
    print(f"üì• Baixando recurso: {selected_resource.get('name')}")
    print(f"   URL: {selected_resource.get('url')}")
    
    try:
        print("\n‚è≥ Fazendo download...")
        response = requests.get(selected_resource.get('url'), timeout=120)
        
        if response.status_code == 200:
            file_size_mb = len(response.content) / (1024 * 1024)
            print(f"‚úÖ Download conclu√≠do! Tamanho: {file_size_mb:.2f} MB")
            
            if selected_resource.get('url').endswith('.zip'):
                print("\nüì¶ Descompactando ZIP...")
                
                try:
                    zip_file = zipfile.ZipFile(BytesIO(response.content))
                    file_list = zip_file.namelist()
                    csv_file = [f for f in file_list if f.endswith('.csv')][0]
                    
                    print(f"üìÑ Processando: {csv_file}")
                    print("‚è≥ Lendo CSV... (pode levar 1-2 minutos)")
                    
                    with zip_file.open(csv_file) as f:
                        # Tentar com ponto-e-v√≠rgula (padr√£o brasileiro)
                        try:
                            df_pandas = pd.read_csv(
                                f, 
                                nrows=20000,
                                encoding='latin-1',
                                sep=';',
                                on_bad_lines='skip',
                                engine='python',  # Removido low_memory
                                quotechar='"'
                            )
                            
                            print(f"\n‚úÖ Sucesso com separador ';'")
                            print(f"   Shape: {df_pandas.shape}")
                            
                        except Exception as e1:
                            print(f"‚ö†Ô∏è Erro com ';': {e1}")
                            print("üí° Tentando com v√≠rgula...")
                            
                            # Resetar o arquivo
                            f.seek(0)
                            
                            df_pandas = pd.read_csv(
                                f,
                                nrows=20000,
                                encoding='latin-1',
                                sep=',',
                                on_bad_lines='skip',
                                engine='python',
                                quotechar='"'
                            )
                            
                            print(f"\n‚úÖ Sucesso com separador ','")
                            print(f"   Shape: {df_pandas.shape}")
                        
                        # Se chegou aqui, deu certo!
                        print(f"\nüìä DADOS CARREGADOS COM SUCESSO!")
                        print(f"   Registros: {len(df_pandas):,}")
                        print(f"   Colunas: {len(df_pandas.columns)}")
                        
                        # Limpar nomes de colunas (remover espa√ßos)
                        df_pandas.columns = df_pandas.columns.str.strip()
                        
                        print(f"\nüîç Primeiras 15 colunas:")
                        for i, col in enumerate(df_pandas.columns[:15]):
                            print(f"   {i+1}. {col}")
                        
                        if len(df_pandas.columns) > 15:
                            print(f"   ... e mais {len(df_pandas.columns) - 15} colunas")
                        
                        print(f"\nüìã Primeiras linhas:")
                        display(df_pandas.head())
                        
                        # Se tiver coluna de UF/Estado
                        uf_cols = [col for col in df_pandas.columns if 'UF' in col.upper() or 'ESTADO' in col.upper()]
                        if uf_cols:
                            print(f"\nüìç Distribui√ß√£o por Estado (coluna: {uf_cols[0]}):")
                            print(df_pandas[uf_cols[0]].value_counts().head(10))
                        
                        # Informa√ß√µes de tipos
                        print(f"\nüîß Tipos de dados:")
                        print(df_pandas.dtypes.value_counts())
                        
                        # Guardar para usar depois
                        df_cnes_real = df_pandas.copy()
                        print("\n‚úÖ Dados REAIS do CNES prontos para uso!")
                        
                except Exception as e:
                    print(f"\n‚ùå Erro final ao processar CSV: {e}")
                    print(f"   Tipo: {type(e).__name__}")
                    print("\nüí° N√£o se preocupe! Vamos usar dados sint√©ticos de alta qualidade.")
                    df_cnes_real = None
                    
    except Exception as e:
        print(f"‚ùå Erro no download: {e}")
        df_cnes_real = None

else:
    print("‚ö†Ô∏è Nenhum recurso CSV encontrado")
    df_cnes_real = None

## 6Ô∏è‚É£ Salvar Dados (Real ou Sint√©tico)

In [0]:
# Verificar se temos dados reais
usar_dados_reais = 'df_cnes_real' in locals() and df_cnes_real is not None and len(df_cnes_real) > 0

if usar_dados_reais:
    print("="*70)
    print("üéâ PROCESSANDO DADOS REAIS DO DATASUS - CNES!")
    print("="*70)
    
    # Converter para Spark
    print("\nüîÑ Convertendo para PySpark DataFrame...")
    df_spark = spark.createDataFrame(df_cnes_real)
    
    # Adicionar metadados
    df_spark = df_spark \
        .withColumn("data_ingestao", F.current_timestamp()) \
        .withColumn("fonte", F.lit("datasus_cnes_oficial")) \
        .withColumn("versao", F.lit("2025"))
    
    record_count = df_spark.count()
    print(f"‚úÖ Convers√£o completa: {record_count:,} registros")
    
    # Salvar
    table_name = f"{catalog_name}.{schema_name}.cnes_estabelecimentos_raw"
    
    print(f"\nüíæ Salvando em Delta Table: {table_name}")
    
    start_time = time.time()
    
    df_spark.write \
        .format("delta") \
        .mode("overwrite") \
        .option("overwriteSchema", "true") \
        .saveAsTable(table_name)
    
    exec_time = time.time() - start_time
    
    print(f"‚úÖ Salvo com sucesso!")
    print(f"   Tempo de salvamento: {exec_time:.2f}s")
    print(f"   Tabela: {table_name}")
    
    # Log
    def log_pipeline_execution(pipeline_name, status, records=0, exec_time=0, error=None):
        schema_control = StructType([
            StructField("pipeline_name", StringType(), False),
            StructField("execution_date", TimestampType(), False),
            StructField("status", StringType(), False),
            StructField("records_processed", LongType(), True),
            StructField("execution_time_seconds", DoubleType(), True),
            StructField("error_message", StringType(), True)
        ])
        log_data = [(pipeline_name, datetime.now(), status, records, exec_time, error)]
        df_log = spark.createDataFrame(log_data, schema_control)
        df_log.write.format("delta").mode("append").saveAsTable(f"{catalog_name}.bronze.pipeline_control")
    
    log_pipeline_execution("bronze_ingest_cnes_real", "SUCCESS", record_count, exec_time)
    
    # Mostrar resultado
    print(f"\nüìä Amostra dos dados salvos:")
    spark.table(table_name).show(5, truncate=True)
    
    print(f"\n‚úÖ DADOS REAIS INGERIDOS COM SUCESSO!")

else:
    print("="*70)
    print("üí° GERANDO DADOS SINT√âTICOS DE ALTA QUALIDADE")
    print("="*70)
    print("\nBaseado na estrutura real do SIH/DATASUS")
    print("Perfeito para demonstrar pipeline completo!\n")
    
    # Gerar dados sint√©ticos
    import random
    from datetime import datetime, timedelta
    
    def generate_synthetic_sih_data(num_records=15000):
        print(f"üîÑ Gerando {num_records:,} registros sint√©ticos...")
        
        estados = ['PE', 'BA', 'CE', 'MA', 'PB', 'RN', 'AL', 'SE', 'PI']
        
        municipios = {
            'PE': [('261160', 'Recife'), ('260545', 'Jaboat√£o'), ('260410', 'Olinda')],
            'BA': [('292740', 'Salvador'), ('291080', 'Feira de Santana')],
            'CE': [('230440', 'Fortaleza'), ('230765', 'Juazeiro do Norte')],
        }
        
        procedimentos = [
            ('0303010029', 'Parto normal', 1500),
            ('0303010037', 'Parto cesariano', 2500),
            ('0303040114', 'Tratamento de pneumonia', 3500),
            ('0303050012', 'Tratamento de AVC', 8000),
            ('0303090022', 'Tratamento de fratura', 5000),
            ('0303080014', 'Tratamento card√≠aco', 7000),
        ]
        
        cids = [
            ('O80', 'Parto √∫nico espont√¢neo'),
            ('O82', 'Parto por cesariana'),
            ('J18', 'Pneumonia n√£o especificada'),
            ('I64', 'AVC n√£o especificado'),
            ('S72', 'Fratura do f√™mur'),
            ('I50', 'Insufici√™ncia card√≠aca'),
        ]
        
        data = []
        start_date = datetime.now() - timedelta(days=365)
        
        for i in range(num_records):
            uf = random.choice(estados)
            
            if uf in municipios:
                munic_info = random.choice(municipios[uf])
                munic_cod = munic_info[0]
                munic_nome = munic_info[1]
            else:
                munic_cod = f"00{random.randint(1000,9999)}"
                munic_nome = "Munic√≠pio Gen√©rico"
            
            dt_inter = start_date + timedelta(days=random.randint(0, 365))
            dias_perm = random.randint(1, 30)
            dt_saida = dt_inter + timedelta(days=dias_perm)
            
            proc = random.choice(procedimentos)
            cid = random.choice(cids)
            
            val_base = proc[2]
            val_total = val_base + random.uniform(-500, 1000) + (dias_perm * 200)
            
            record = {
                'N_AIH': f"{random.randint(10000000000, 99999999999)}",
                'CNES': f"{random.randint(2000000, 7999999)}",
                'MUNIC_RES_COD': munic_cod,
                'MUNIC_RES_NOME': munic_nome,
                'UF': uf,
                'PROC_REA': proc[0],
                'PROC_DESC': proc[1],
                'DIAG_PRINC': cid[0],
                'DIAG_DESC': cid[1],
                'DT_INTER': dt_inter.strftime('%Y-%m-%d'),
                'DT_SAIDA': dt_saida.strftime('%Y-%m-%d'),
                'DIAS_PERM': dias_perm,
                'VAL_TOT': round(val_total, 2),
                'IDADE': random.randint(0, 100),
                'SEXO': random.choice(['M', 'F']),
                'MARCA_UTI': random.choice(['Sim', 'N√£o']),
                'QT_DIARIAS': dias_perm,
                'ANO_CMPT': dt_inter.year,
                'MES_CMPT': dt_inter.month,
                'TRIMESTRE': ((dt_inter.month - 1) // 3) + 1,
            }
            
            data.append(record)
        
        return data
    
    # Gerar
    print()
    synthetic_data = generate_synthetic_sih_data(15000)
    df_pandas = pd.DataFrame(synthetic_data)
    
    print(f"‚úÖ Dados gerados com sucesso!")
    print(f"   Shape: {df_pandas.shape}")
    print(f"\nüìã Preview:")
    display(df_pandas.head())
    
    # Estat√≠sticas
    print(f"\nüìä Estat√≠sticas do dataset sint√©tico:")
    print(f"   Estados √∫nicos: {df_pandas['UF'].nunique()}")
    print(f"   Munic√≠pios: {df_pandas['MUNIC_RES_COD'].nunique()}")
    print(f"   Procedimentos: {df_pandas['PROC_REA'].nunique()}")
    print(f"   Valor total: R$ {df_pandas['VAL_TOT'].sum():,.2f}")
    print(f"   M√©dia de perman√™ncia: {df_pandas['DIAS_PERM'].mean():.1f} dias")
    
    # Converter para Spark
    print(f"\nüîÑ Convertendo para PySpark...")
    df_spark = spark.createDataFrame(df_pandas)
    
    df_spark = df_spark \
        .withColumn("data_ingestao", F.current_timestamp()) \
        .withColumn("fonte", F.lit("synthetic_sih_v2")) \
        .withColumn("versao", F.lit("2.0"))
    
    record_count = df_spark.count()
    print(f"‚úÖ Convers√£o completa: {record_count:,} registros")
    
    # Salvar
    table_name = f"{catalog_name}.{schema_name}.sih_internacoes_raw"
    
    print(f"\nüíæ Salvando em: {table_name}")
    
    start_time = time.time()
    
    df_spark.write \
        .format("delta") \
        .mode("overwrite") \
        .option("overwriteSchema", "true") \
        .partitionBy("ANO_CMPT", "MES_CMPT") \
        .saveAsTable(table_name)
    
    exec_time = time.time() - start_time
    
    print(f"‚úÖ Salvo em {exec_time:.2f}s!")
    
    # Log
    def log_pipeline_execution(pipeline_name, status, records=0, exec_time=0, error=None):
        schema_control = StructType([
            StructField("pipeline_name", StringType(), False),
            StructField("execution_date", TimestampType(), False),
            StructField("status", StringType(), False),
            StructField("records_processed", LongType(), True),
            StructField("execution_time_seconds", DoubleType(), True),
            StructField("error_message", StringType(), True)
        ])
        log_data = [(pipeline_name, datetime.now(), status, records, exec_time, error)]
        df_log = spark.createDataFrame(log_data, schema_control)
        df_log.write.format("delta").mode("append").saveAsTable(f"{catalog_name}.bronze.pipeline_control")
    
    log_pipeline_execution("bronze_ingest_sih_synthetic", "SUCCESS", record_count, exec_time)
    
    print(f"\nüìä Amostra dos dados salvos:")
    spark.table(table_name).show(5)

## üéâ Resumo da Ingest√£o Bronze

In [0]:
print("="*70)
print("üéâ BRONZE LAYER - INGEST√ÉO CONCLU√çDA COM SUCESSO!")
print("="*70)

# Listar tabelas
print("\nüìã TABELAS BRONZE:")
spark.sql(f"SHOW TABLES IN {catalog_name}.{schema_name}").show(truncate=False)

# Ver logs
print("\nüìä LOGS DE EXECU√á√ÉO:")
spark.sql(f"""
    SELECT 
        pipeline_name,
        DATE_FORMAT(execution_date, 'yyyy-MM-dd HH:mm:ss') as exec_date,
        status,
        FORMAT_NUMBER(records_processed, 0) as records,
        ROUND(execution_time_seconds, 2) as exec_time_sec
    FROM {catalog_name}.bronze.pipeline_control
    ORDER BY execution_date DESC
""").show(truncate=False)

print("\n" + "="*70)
print("üöÄ PR√ìXIMO PASSO: SILVER LAYER")
print("   - Limpeza e padroniza√ß√£o")
print("   - Enriquecimento de dados")
print("   - Valida√ß√µes de qualidade")
print("="*70)