In [1]:
# BANCO DE DADOS SIH-RS - ESTRUTURA NORMALIZADA
# Implementa todas as modificações solicitadas conforme reunião

import pandas as pd
from sqlalchemy import create_engine, text
import os
import gc
import psutil
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

PARQUET_PATH = "../../banco/parquet_unificado/sih_rs_tratado.parquet"
CHUNKSIZE = 50000

DB_CONFIG = {
    'usuario': 'postgres',
    'senha': '1234',
    'host': 'localhost',
    'porta': '5432',
    'banco': 'sih_rs'
}

CSVS_APOIO = {
    'procedimentos': '../../procedimentos.csv',
    'municipios': '../../municipios_cod.csv',
    'cid10': '../../cid10.csv'
}

# Estrutura das tabelas conforme diagrama do banco
ESTRUTURA_TABELAS = {
    'internacoes': {
        'pk': 'N_AIH',
        'colunas': [
            'N_AIH', 'IDENT', 'CEP', 'MUNIC_RES', 'NASC', 'SEXO', 
            'DT_INTER', 'DT_SAIDA', 'PROC_SOLIC', 'PROC_REA', 
            'NATUREZA', 'CNES', 'NAT_JUR', 'GESTAO', 'IND_VDRL', 
            'IDADE', 'DIAG_PRINC', 'DIAG_SECUN', 'COBRANCA', 'MORTE',
            'MUNIC_MOV', 'DIAS_PERM', 'NACIONAL', 'NUM_FILHOS', 'INSTRU',
            'CID_NOTIF', 'CBOR', 'CNAER', 'VINCPREV', 'INFEHOSP',
            'CID_ASSO', 'CID_MORTE', 'COMPLEX', 'RACA_COR', 'ETNIA',
            'DIAGSEC1', 'DIAGSEC2', 'DIAGSEC3', 'DIAGSEC4', 'DIAGSEC5',
            'DIAGSEC6', 'DIAGSEC7', 'DIAGSEC8', 'DIAGSEC9',
            'TPDISEC1', 'TPDISEC2', 'TPDISEC3', 'TPDISEC4', 'TPDISEC5',
            'TPDISEC6', 'TPDISEC7', 'TPDISEC8', 'TPDISEC9', 'ESPEC'
        ]
    },
    'financeiro': {
        'pk': 'N_AIH',
        'fk': [('N_AIH', 'internacoes')],
        'colunas': ['N_AIH', 'VAL_UTI', 'VAL_SP', 'VAL_SH', 'VAL_TOT']
    },
    'uti_info': {
        'pk': 'N_AIH',
        'fk': [('N_AIH', 'internacoes')],
        'colunas': ['N_AIH', 'UTI_MES_TO', 'MARCA_UTI', 'UTI_INT_TO', 'DIAR_ACOM']
    },
    'obstetricos': {
        'pk': 'N_AIH',
        'fk': [('N_AIH', 'internacoes')],
        'colunas': ['N_AIH', 'GESTRICO', 'INSC_PN', 'CONTRACEP1', 'CONTRACEP2']
    }
}

def verificar_memoria():
    """Monitora uso de memória para evitar crashes em notebooks"""
    memory = psutil.virtual_memory()
    print(f"Memória: {memory.percent:.1f}% usada ({memory.available / (1024**3):.1f}GB disponível)")
    return memory.percent

def limpar_memoria():
    gc.collect()

def log_operacao(mensagem, nivel="INFO"):
    print(f"{nivel}: {mensagem}")

def conectar_validar():
    """Conecta ao PostgreSQL e valida arquivos necessários"""
    log_operacao("Conectando ao PostgreSQL...")
    
    connection_string = f"postgresql+psycopg2://{DB_CONFIG['usuario']}:{DB_CONFIG['senha']}@{DB_CONFIG['host']}:{DB_CONFIG['porta']}/{DB_CONFIG['banco']}"
    engine = create_engine(connection_string)
    
    try:
        test = pd.read_sql("SELECT 1 as teste", engine)
        log_operacao("Conectado ao PostgreSQL com sucesso!")
    except Exception as e:
        raise Exception(f"Erro de conexão: {e}")
    
    if not os.path.exists(PARQUET_PATH):
        raise FileNotFoundError(f"Arquivo não encontrado: {PARQUET_PATH}")
    
    tamanho_mb = os.path.getsize(PARQUET_PATH) / (1024 * 1024)
    log_operacao(f"Arquivo principal: {tamanho_mb:.1f} MB")
    
    verificar_memoria()
    log_operacao("Validações concluídas")
    return engine

def carregar_dados_principais():
    """Carrega dados tratados e verifica integridade N_AIH"""
    log_operacao("Carregando dados principais...")
    
    try:
        df = pd.read_parquet(PARQUET_PATH, engine="pyarrow")
        log_operacao(f"Carregados {len(df):,} registros")
        log_operacao(f"AIHs únicas: {df['N_AIH'].nunique():,}")
        
        duplicatas = len(df) - df['N_AIH'].nunique()
        if duplicatas > 0:
            log_operacao(f"ATENÇÃO: {duplicatas:,} registros duplicados por N_AIH!", "WARNING")
            
            dups = df[df.duplicated('N_AIH', keep=False)].sort_values('N_AIH')
            if len(dups) > 0:
                log_operacao("Exemplo de duplicatas encontradas:")
                exemplo = dups[['N_AIH', 'DT_INTER', 'PROC_REA']].head(6)
                print(exemplo.to_string(index=False))
        else:
            log_operacao("Nenhuma duplicata encontrada")
        
        nulos_naih = df['N_AIH'].isnull().sum()
        if nulos_naih > 0:
            log_operacao(f"{nulos_naih:,} registros com N_AIH nulo", "WARNING")
        
        verificar_memoria()
        return df
        
    except Exception as e:
        log_operacao(f"Erro ao carregar dados: {e}", "ERROR")
        raise

def criar_tabelas_normalizadas(engine, df):
    """Cria estrutura normalizada conforme diagrama do banco"""
    log_operacao("Criando tabelas normalizadas...")
    
    estatisticas = {}
    
    for nome_tabela, config in ESTRUTURA_TABELAS.items():
        log_operacao(f"Processando tabela '{nome_tabela}'...")
        
        colunas_existentes = [col for col in config['colunas'] if col in df.columns]
        colunas_faltantes = [col for col in config['colunas'] if col not in df.columns]
        
        # Log apenas se houver colunas faltantes relevantes
        if colunas_faltantes:
            log_operacao(f"Colunas não encontradas: {colunas_faltantes}", "WARNING")
        
        if not colunas_existentes or 'N_AIH' not in colunas_existentes:
            log_operacao(f"Erro: tabela {nome_tabela} não pode ser criada", "ERROR")
            continue
        
        df_tabela = df[colunas_existentes].copy()
        
        # Remove registros com N_AIH nulo 
        antes_limpeza = len(df_tabela)
        df_tabela = df_tabela.dropna(subset=['N_AIH'])
        apos_limpeza = len(df_tabela)
        
        if antes_limpeza != apos_limpeza:
            removidos = antes_limpeza - apos_limpeza
            log_operacao(f"Removidos {removidos:,} registros com N_AIH nulo")
        
        log_operacao(f"Colunas incluídas: {len(colunas_existentes)}")
        log_operacao(f"Registros válidos: {len(df_tabela):,}")
        
        # Inserção em chunks --> otimizar memória
        total_chunks = (len(df_tabela) // CHUNKSIZE) + 1
        
        try:
            for i in range(0, len(df_tabela), CHUNKSIZE):
                chunk = df_tabela.iloc[i:i+CHUNKSIZE]
                
                chunk.to_sql(nome_tabela, engine, 
                            if_exists="append" if i > 0 else "replace", 
                            index=False, method='multi')
                
                if total_chunks > 10 and (i//CHUNKSIZE + 1) % 10 == 0:
                    chunk_num = i//CHUNKSIZE + 1
                    log_operacao(f"    Processados {chunk_num}/{total_chunks} chunks")
            
            count_result = pd.read_sql(f"SELECT COUNT(*) as total FROM {nome_tabela}", engine)
            registros_inseridos = count_result['total'].iloc[0]
            
            log_operacao(f"Tabela '{nome_tabela}' criada: {registros_inseridos:,} registros")
            
            estatisticas[nome_tabela] = {
                'colunas': len(colunas_existentes),
                'registros': registros_inseridos,
                'colunas_faltantes': len(colunas_faltantes)
            }
            
        except Exception as e:
            log_operacao(f"Erro ao criar tabela {nome_tabela}: {e}", "ERROR")
            continue
        
        del df_tabela
        limpar_memoria()
    
    log_operacao("Resumo das tabelas criadas:")
    for tabela, stats in estatisticas.items():
        log_operacao(f"   {tabela:12}: {stats['registros']:>8,} registros, {stats['colunas']:>2} colunas")
    
    return estatisticas

def carregar_tabelas_apoio(engine):
    """Carrega CSVs com detecção automática de formato"""
    log_operacao("Carregando tabelas de apoio...")
    
    separadores = [';', ',', '\t']
    encodings = ['utf-8', 'latin1', 'cp1252', 'iso-8859-1']
    
    estatisticas_apoio = {}
    
    for nome_tabela, csv_path in CSVS_APOIO.items():
        log_operacao(f"Processando '{nome_tabela}'...")
        
        if not os.path.exists(csv_path):
            log_operacao(f"Arquivo não encontrado: {csv_path}", "WARNING")
            continue
        
        tamanho_kb = os.path.getsize(csv_path) / 1024
        log_operacao(f"Tamanho: {tamanho_kb:.1f} KB")
        
        df_csv = None
        config_sucesso = None
        
        for sep in separadores:
            for encoding in encodings:
                try:
                    df_test = pd.read_csv(csv_path, sep=sep, encoding=encoding, nrows=10)
                    
                    if len(df_test.columns) > 1:
                        df_csv = pd.read_csv(csv_path, sep=sep, encoding=encoding)
                        config_sucesso = f"sep='{sep}', encoding='{encoding}'"
                        break
                        
                except Exception:
                    continue
            
            if df_csv is not None:
                break
        
        if df_csv is None:
            log_operacao(f"Não foi possível processar {csv_path}", "ERROR")
            continue
        
        log_operacao(f"Carregado com {config_sucesso}")
        log_operacao(f"Registros: {len(df_csv):,}, Colunas: {len(df_csv.columns)}")
        
        df_csv.columns = df_csv.columns.str.strip()
        colunas_originais = list(df_csv.columns)
        
        if nome_tabela == 'procedimentos':
            mapeamento_proc = {
                'codigo': 'PROC_REA',
                'cod': 'PROC_REA', 
                'procedure': 'PROC_REA',
                'nome': 'NOME_PROC',
                'descricao': 'NOME_PROC',
                'description': 'NOME_PROC'
            }
            
            for col_original in df_csv.columns:
                for key, new_name in mapeamento_proc.items():
                    if key.lower() in col_original.lower():
                        df_csv = df_csv.rename(columns={col_original: new_name})
                        break
            
            if 'PROC_REA' not in df_csv.columns:
                log_operacao("Coluna PROC_REA não encontrada em procedimentos", "WARNING")
            if 'NOME_PROC' not in df_csv.columns:
                log_operacao("Coluna NOME_PROC não encontrada em procedimentos", "WARNING")
                
        elif nome_tabela == 'municipios':
            mapeamento_mun = {
                'codigo': 'codigo_municipio_6d',
                'cod_municipio': 'codigo_municipio_6d',
                'municipio': 'nome',
                'nome_municipio': 'nome',
                'uf': 'UF',
                'estado': 'UF',
                'lat': 'latitude',
                'latitude': 'latitude',
                'lon': 'longitude',
                'longitude': 'longitude'
            }
            
            for col_original in df_csv.columns:
                for key, new_name in mapeamento_mun.items():
                    if key.lower() in col_original.lower():
                        df_csv = df_csv.rename(columns={col_original: new_name})
                        break
        
        elif nome_tabela == 'cid10':
            mapeamento_cid = {
                'codigo': 'CID_COD',
                'cod': 'CID_COD',
                'cid': 'CID_COD',
                'descricao': 'CID_NOME',
                'nome': 'CID_NOME',
                'description': 'CID_NOME'
            }
            
            for col_original in df_csv.columns:
                for key, new_name in mapeamento_cid.items():
                    if key.lower() in col_original.lower():
                        df_csv = df_csv.rename(columns={col_original: new_name})
                        break
        
        # Remove duplicatas em chaves primárias
        if nome_tabela == 'procedimentos' and 'PROC_REA' in df_csv.columns:
            antes_dup = len(df_csv)
            df_csv = df_csv.drop_duplicates('PROC_REA')
            apos_dup = len(df_csv)
            if antes_dup != apos_dup:
                log_operacao(f"Removidas {antes_dup - apos_dup} duplicatas em PROC_REA")
        
        elif nome_tabela == 'municipios' and 'codigo_municipio_6d' in df_csv.columns:
            antes_dup = len(df_csv)
            df_csv = df_csv.drop_duplicates('codigo_municipio_6d')
            apos_dup = len(df_csv)
            if antes_dup != apos_dup:
                log_operacao(f"Removidas {antes_dup - apos_dup} duplicatas em codigo_municipio_6d")
        
        try:
            df_csv.to_sql(nome_tabela, engine, if_exists='replace', index=False)
            
            count_result = pd.read_sql(f"SELECT COUNT(*) as total FROM {nome_tabela}", engine)
            registros_inseridos = count_result['total'].iloc[0]
            
            log_operacao(f"{registros_inseridos:,} registros inseridos")
            log_operacao(f"Colunas finais: {list(df_csv.columns)}")
            
            estatisticas_apoio[nome_tabela] = {
                'registros': registros_inseridos,
                'colunas_originais': colunas_originais,
                'colunas_finais': list(df_csv.columns)
            }
            
        except Exception as e:
            log_operacao(f"Erro ao inserir {nome_tabela}: {e}", "ERROR")
    
    log_operacao("Resumo das tabelas de apoio:")
    for tabela, stats in estatisticas_apoio.items():
        log_operacao(f"   {tabela:12}: {stats['registros']:>6,} registros")
    
    return estatisticas_apoio

def criar_chaves_relacionamentos(engine):
    """Implementa chaves primárias e estrangeiras conforme diagrama"""
    log_operacao("Criando chaves e relacionamentos...")
    
    comandos_sql = [
        # Chaves primárias
        {
            'sql': "ALTER TABLE internacoes ADD CONSTRAINT pk_internacoes PRIMARY KEY (N_AIH);",
            'desc': "PK internacoes",
            'tipo': "PK"
        },
        {
            'sql': "ALTER TABLE financeiro ADD CONSTRAINT pk_financeiro PRIMARY KEY (N_AIH);",
            'desc': "PK financeiro", 
            'tipo': "PK"
        },
        {
            'sql': "ALTER TABLE uti_info ADD CONSTRAINT pk_uti_info PRIMARY KEY (N_AIH);",
            'desc': "PK uti_info",
            'tipo': "PK"
        },
        {
            'sql': "ALTER TABLE obstetricos ADD CONSTRAINT pk_obstetricos PRIMARY KEY (N_AIH);",
            'desc': "PK obstetricos",
            'tipo': "PK"
        },
        {
            'sql': "ALTER TABLE procedimentos ADD CONSTRAINT pk_procedimentos PRIMARY KEY (PROC_REA);",
            'desc': "PK procedimentos",
            'tipo': "PK"
        },
        {
            'sql': "ALTER TABLE municipios ADD CONSTRAINT pk_municipios PRIMARY KEY (codigo_municipio_6d);",
            'desc': "PK municipios",
            'tipo': "PK"
        },
        
        # Chaves estrangeiras - relacionamentos principais
        {
            'sql': "ALTER TABLE financeiro ADD CONSTRAINT fk_financeiro_internacoes FOREIGN KEY (N_AIH) REFERENCES internacoes(N_AIH) ON DELETE CASCADE;",
            'desc': "FK financeiro → internacoes",
            'tipo': "FK"
        },
        {
            'sql': "ALTER TABLE uti_info ADD CONSTRAINT fk_uti_internacoes FOREIGN KEY (N_AIH) REFERENCES internacoes(N_AIH) ON DELETE CASCADE;",
            'desc': "FK uti_info → internacoes",
            'tipo': "FK"
        },
        {
            'sql': "ALTER TABLE obstetricos ADD CONSTRAINT fk_obs_internacoes FOREIGN KEY (N_AIH) REFERENCES internacoes(N_AIH) ON DELETE CASCADE;",
            'desc': "FK obstetricos → internacoes",
            'tipo': "FK"
        },
        
        # Chaves estrangeiras - tabelas de apoio
        {
            'sql': "ALTER TABLE internacoes ADD CONSTRAINT fk_internacoes_procedimentos FOREIGN KEY (PROC_REA) REFERENCES procedimentos(PROC_REA);",
            'desc': "FK internacoes → procedimentos",
            'tipo': "FK"
        },
        {
            'sql': "ALTER TABLE internacoes ADD CONSTRAINT fk_internacoes_municipios FOREIGN KEY (MUNIC_RES) REFERENCES municipios(codigo_municipio_6d);",
            'desc': "FK internacoes → municipios",
            'tipo': "FK"
        },
    ]
    
    sucessos = {'PK': 0, 'FK': 0}
    erros = {'PK': 0, 'FK': 0}
    
    with engine.connect() as conn:
        for comando in comandos_sql:
            try:
                conn.execute(text(comando['sql']))
                log_operacao(f"{comando['desc']}")
                sucessos[comando['tipo']] += 1
                
            except Exception as e:
                erro_msg = str(e)[:100] + "..." if len(str(e)) > 100 else str(e)
                log_operacao(f"{comando['desc']}: {erro_msg}", "WARNING")
                erros[comando['tipo']] += 1
                continue
        
        conn.commit()
    
    log_operacao("Resumo da criação de chaves:")
    log_operacao(f"   Chaves primárias: {sucessos['PK']}/6 criadas")
    log_operacao(f"   Chaves estrangeiras: {sucessos['FK']}/5 criadas")
    
    if erros['PK'] > 0 or erros['FK'] > 0:
        log_operacao(f"Erros: {erros['PK']} PK, {erros['FK']} FK", "WARNING")
    else:
        log_operacao("Todas as chaves criadas com sucesso!")
    
    return sucessos, erros

def executar_analise_procedimentos(engine):
    """Análise completa da tabela de procedimentos - 'correr da tabela'"""
    log_operacao("Executando análise completa de procedimentos...")
    
    try:
        log_operacao("Verificando integridade referencial...")
        
        orfaos = pd.read_sql("""
            SELECT 
                i.PROC_REA,
                COUNT(*) as qtd_internacoes
            FROM internacoes i
            LEFT JOIN procedimentos p ON i.PROC_REA = p.PROC_REA
            WHERE p.PROC_REA IS NULL
            GROUP BY i.PROC_REA
            ORDER BY qtd_internacoes DESC
            LIMIT 20
        """, engine)
        
        if len(orfaos) > 0:
            total_orfaos = orfaos['qtd_internacoes'].sum()
            log_operacao(f"{len(orfaos)} códigos sem nome cadastrado", "WARNING")
            log_operacao(f"{total_orfaos:,} internações afetadas")
            
            log_operacao("Top 5 procedimentos órfãos:")
            print(orfaos.head().to_string(index=False))
        else:
            log_operacao("Todos os procedimentos têm nome cadastrado!")
        
        # Estatísticas para apresentação
        stats_gerais = pd.read_sql("""
            SELECT 
                COUNT(DISTINCT i.PROC_REA) as proc_usados_internacoes,
                COUNT(DISTINCT p.PROC_REA) as proc_cadastrados,
                (SELECT COUNT(*) FROM internacoes) as total_internacoes,
                (SELECT COUNT(*) FROM procedimentos) as total_proc_cadastrados
            FROM internacoes i
            FULL OUTER JOIN procedimentos p ON i.PROC_REA = p.PROC_REA
        """, engine)
        
        log_operacao("Estatísticas gerais:")
        log_operacao(f"   Procedimentos usados: {stats_gerais['proc_usados_internacoes'].iloc[0]:,}")
        log_operacao(f"   Procedimentos cadastrados: {stats_gerais['proc_cadastrados'].iloc[0]:,}")
        log_operacao(f"   Total internações: {stats_gerais['total_internacoes'].iloc[0]:,}")
        
        # Top procedimentos para análise de padrões
        log_operacao("Analisando top procedimentos...")
        
        top_proc = pd.read_sql("""
            SELECT 
                i.PROC_REA,
                COALESCE(p.NOME_PROC, 'SEM_NOME') as nome_procedimento,
                COUNT(*) as total_internacoes,
                ROUND(COUNT(*) * 100.0 / (SELECT COUNT(*) FROM internacoes), 2) as percentual,
                ROUND(AVG(f.VAL_TOT), 2) as custo_medio,
                ROUND(SUM(f.VAL_TOT), 2) as custo_total
            FROM internacoes i
            LEFT JOIN procedimentos p ON i.PROC_REA = p.PROC_REA
            LEFT JOIN financeiro f ON i.N_AIH = f.N_AIH
            GROUP BY i.PROC_REA, p.NOME_PROC
            ORDER BY total_internacoes DESC
            LIMIT 10
        """, engine)
        
        log_operacao("Top 10 procedimentos mais realizados:")
        print(top_proc.to_string(index=False, max_colwidth=30))
        
        try:
            tendencia_anual = pd.read_sql("""
                SELECT 
                    EXTRACT(YEAR FROM DT_INTER) as ano,
                    COUNT(*) as total_internacoes,
                    COUNT(DISTINCT PROC_REA) as procedimentos_distintos
                FROM internacoes
                WHERE DT_INTER IS NOT NULL
                GROUP BY EXTRACT(YEAR FROM DT_INTER)
                ORDER BY ano DESC
                LIMIT 5
            """, engine)
            
            if len(tendencia_anual) > 0:
                log_operacao("Tendência por ano:")
                print(tendencia_anual.to_string(index=False))
            
        except Exception:
            log_operacao("Dados temporais indisponíveis", "WARNING")
        
        log_operacao("Gerando relatório detalhado...")
        
        relatorio_detalhado = pd.read_sql("""
            SELECT 
                i.PROC_REA,
                COALESCE(p.NOME_PROC, 'SEM_NOME') as nome_procedimento,
                COUNT(*) as total_internacoes,
                COUNT(DISTINCT i.MUNIC_RES) as municipios_atendidos,
                ROUND(AVG(i.IDADE), 1) as idade_media,
                ROUND(AVG(i.DIAS_PERM), 1) as dias_perm_medio,
                COUNT(CASE WHEN i.MORTE = 1 THEN 1 END) as obitos,
                ROUND(COUNT(CASE WHEN i.MORTE = 1 THEN 1 END) * 100.0 / COUNT(*), 2) as taxa_mortalidade,
                ROUND(AVG(f.VAL_TOT), 2) as custo_medio,
                ROUND(SUM(f.VAL_TOT), 2) as custo_total
            FROM internacoes i
            LEFT JOIN procedimentos p ON i.PROC_REA = p.PROC_REA
            LEFT JOIN financeiro f ON i.N_AIH = f.N_AIH
            GROUP BY i.PROC_REA, p.NOME_PROC
            HAVING COUNT(*) >= 10
            ORDER BY total_internacoes DESC
            LIMIT 100
        """, engine)
        
        relatorio_path = "relatorio_procedimentos_completo.csv"
        relatorio_detalhado.to_csv(relatorio_path, index=False)
        log_operacao(f"Relatório salvo: {relatorio_path}")
        
        if len(orfaos) > 0:
            log_operacao("Corrigindo procedimentos órfãos...")
            
            with engine.connect() as conn:
                for _, row in orfaos.iterrows():
                    proc_rea = row['PROC_REA']
                    nome_generico = f"PROCEDIMENTO_{proc_rea}"
                    
                    conn.execute(text("""
                        INSERT INTO procedimentos (PROC_REA, NOME_PROC) 
                        VALUES (:proc_rea, :nome_proc)
                        ON CONFLICT (PROC_REA) DO NOTHING
                    """), {'proc_rea': proc_rea, 'nome_proc': nome_generico})
                
                conn.commit()
                log_operacao(f"{len(orfaos)} procedimentos órfãos corrigidos!")
        
        log_operacao("Análise de procedimentos concluída!")
        return True
        
    except Exception as e:
        log_operacao(f"Erro na análise de procedimentos: {e}", "ERROR")
        return False

def verificacoes_finais(engine):
    """Verifica integridade final do banco"""
    log_operacao("Executando verificações finais...")
    
    tabelas_esperadas = ['internacoes', 'financeiro', 'uti_info', 'obstetricos', 
                        'procedimentos', 'municipios', 'cid10']
    
    log_operacao("Contagem de registros por tabela:")
    tabelas_existentes = []
    
    for tabela in tabelas_esperadas:
        try:
            count = pd.read_sql(f"SELECT COUNT(*) as total FROM {tabela}", engine)
            total_registros = count['total'].iloc[0]
            log_operacao(f"   {tabela:15}: {total_registros:>10,} registros")
            tabelas_existentes.append(tabela)
            
        except Exception as e:
            log_operacao(f"   {tabela:15}: Erro ou não existe", "WARNING")
    
    log_operacao("Verificando relacionamentos:")
    
    try:
        join_test = pd.read_sql("""
            SELECT i.N_AIH, i.PROC_REA, f.VAL_TOT 
            FROM internacoes i 
            JOIN financeiro f ON i.N_AIH = f.N_AIH 
            LIMIT 5
        """, engine)
        
        if len(join_test) > 0:
            log_operacao("Join internacoes ↔ financeiro funcionando")
        
        orfaos_financeiro = pd.read_sql("""
            SELECT COUNT(*) as orfaos 
            FROM financeiro f 
            LEFT JOIN internacoes i ON f.N_AIH = i.N_AIH 
            WHERE i.N_AIH IS NULL
        """, engine)
        
        orfaos_count = orfaos_financeiro['orfaos'].iloc[0]
        if orfaos_count == 0:
            log_operacao("Integridade referencial OK (financeiro)")
        else:
            log_operacao(f"{orfaos_count} registros órfãos em financeiro", "WARNING")
        
        if 'procedimentos' in tabelas_existentes:
            proc_join = pd.read_sql("""
                SELECT i.PROC_REA, p.NOME_PROC, COUNT(*) as casos
                FROM internacoes i
                LEFT JOIN procedimentos p ON i.PROC_REA = p.PROC_REA
                GROUP BY i.PROC_REA, p.NOME_PROC
                ORDER BY casos DESC
                LIMIT 5
            """, engine)
            
            if len(proc_join) > 0:
                log_operacao("Join internacoes ↔ procedimentos funcionando")
                sem_nome = proc_join[proc_join['NOME_PROC'].isnull()]
                if len(sem_nome) > 0:
                    log_operacao(f"{len(sem_nome)} procedimentos sem nome no top 5", "WARNING")
        
    except Exception as e:
        log_operacao(f"Erro na verificação de relacionamentos: {e}", "ERROR")
    
    log_operacao("Amostra da tabela internacoes:")
    try:
        sample = pd.read_sql("""
            SELECT N_AIH, PROC_REA, MUNIC_RES, IDADE, SEXO, MORTE, DIAS_PERM
            FROM internacoes 
            ORDER BY N_AIH 
            LIMIT 5
        """, engine)
        print(sample.to_string(index=False))
        
    except Exception as e:
        log_operacao(f"Erro ao buscar amostra: {e}", "ERROR")
    
    # Estatísticas finais para relatórios
    log_operacao("Estatísticas finais do banco:")
    try:
        stats_finais = pd.read_sql("""
            SELECT 
                (SELECT COUNT(*) FROM internacoes) as total_internacoes,
                (SELECT COUNT(DISTINCT PROC_REA) FROM internacoes) as procedimentos_distintos,
                (SELECT COUNT(DISTINCT MUNIC_RES) FROM internacoes) as municipios_distintos,
                (SELECT ROUND(AVG(IDADE), 1) FROM internacoes WHERE IDADE > 0) as idade_media,
                (SELECT COUNT(*) FROM internacoes WHERE MORTE = 1) as total_obitos
        """, engine)
        
        stats = stats_finais.iloc[0]
        log_operacao(f"   Total internações: {stats['total_internacoes']:,}")
        log_operacao(f"   Procedimentos distintos: {stats['procedimentos_distintos']:,}")
        log_operacao(f"   Municípios distintos: {stats['municipios_distintos']:,}")
        log_operacao(f"   Idade média: {stats['idade_media']} anos")
        log_operacao(f"   Total óbitos: {stats['total_obitos']:,}")
        
    except Exception as e:
        log_operacao(f"Erro nas estatísticas finais: {e}", "ERROR")
    
    log_operacao("Verificações finais concluídas!")

def configurar_atualizacao_automatica(engine):
    """Configura scripts de atualização automática para produção"""
    log_operacao("Configurando atualização automática...")
    
    try:
        info_atual = pd.read_sql("""
            SELECT 
                MAX(DT_INTER) as ultima_internacao,
                MIN(DT_INTER) as primeira_internacao,
                COUNT(*) as total_registros,
                COUNT(DISTINCT MUNIC_RES) as municipios_distintos,
                COUNT(DISTINCT PROC_REA) as procedimentos_distintos
            FROM internacoes
            WHERE DT_INTER IS NOT NULL
        """, engine)
        
        log_operacao("Informações atuais do banco:")
        stats = info_atual.iloc[0]
        log_operacao(f"   Primeira internação: {stats['primeira_internacao']}")
        log_operacao(f"   Última internação: {stats['ultima_internacao']}")
        log_operacao(f"   Total registros: {stats['total_registros']:,}")
        log_operacao(f"   Municípios distintos: {stats['municipios_distintos']:,}")
        log_operacao(f"   Procedimentos distintos: {stats['procedimentos_distintos']:,}")
        
    except Exception as e:
        log_operacao(f"Erro ao verificar informações atuais: {e}", "ERROR")
    
    # Script de atualização para produção
    script_atualizacao = f"""#!/bin/bash
# Script de atualização automática SIH-RS
# Gerado em {datetime.now()}

LOG_DIR="../../logs"
BACKUP_DIR="../../backups"
PROJETO_DIR="$(cd "$(dirname "${{BASH_SOURCE[0]}}")" && pwd)"
TIMESTAMP=$(date +%Y%m%d_%H%M%S)

mkdir -p "$LOG_DIR"
mkdir -p "$BACKUP_DIR"

LOG_FILE="$LOG_DIR/atualizacao_$TIMESTAMP.log"

echo "=== INICIANDO ATUALIZAÇÃO SIH-RS $TIMESTAMP ===" | tee -a "$LOG_FILE"

cd "$PROJETO_DIR"

# Executar pré-tratamento
echo "Executando pré-tratamento..." | tee -a "$LOG_FILE"
python3 pre_tratamento.py >> "$LOG_FILE" 2>&1

if [ $? -eq 0 ]; then
    echo "Pré-tratamento concluído" | tee -a "$LOG_FILE"
else
    echo "Erro no pré-tratamento" | tee -a "$LOG_FILE"
    exit 1
fi

# Executar atualização do banco
echo "Executando atualização do banco..." | tee -a "$LOG_FILE"
python3 bd.py >> "$LOG_FILE" 2>&1

if [ $? -eq 0 ]; then
    echo "Banco atualizado com sucesso" | tee -a "$LOG_FILE"
    
    # Backup do banco
    echo "Criando backup..." | tee -a "$LOG_FILE"
    pg_dump -U {DB_CONFIG['usuario']} -h {DB_CONFIG['host']} \\
            -p {DB_CONFIG['porta']} {DB_CONFIG['banco']} > "$BACKUP_DIR/sih_rs_$TIMESTAMP.sql"
    
    if [ $? -eq 0 ]; then
        echo "Backup criado: $BACKUP_DIR/sih_rs_$TIMESTAMP.sql" | tee -a "$LOG_FILE"
        
        # Manter apenas os últimos 10 backups
        find "$BACKUP_DIR" -name "sih_rs_*.sql" -type f | sort -r | tail -n +11 | xargs rm -f
        echo "Backups antigos removidos" | tee -a "$LOG_FILE"
    else
        echo "Erro ao criar backup" | tee -a "$LOG_FILE"
    fi
    
else
    echo "Erro na atualização do banco" | tee -a "$LOG_FILE"
    exit 1
fi

echo "=== ATUALIZAÇÃO CONCLUÍDA $TIMESTAMP ===" | tee -a "$LOG_FILE"
"""
    
    script_path = "atualizar_sih_automatico.sh"
    with open(script_path, 'w') as f:
        f.write(script_atualizacao)
    
    os.chmod(script_path, 0o755)
    log_operacao(f"Script criado: {script_path}")
    
    # Script de backup independente
    script_backup = f"""#!/bin/bash
# Script de backup independente SIH-RS
BACKUP_DIR="../../backups"
TIMESTAMP=$(date +%Y%m%d_%H%M%S)

mkdir -p "$BACKUP_DIR"

echo "Iniciando backup SIH-RS..."
pg_dump -U {DB_CONFIG['usuario']} -h {DB_CONFIG['host']} \\
        -p {DB_CONFIG['porta']} {DB_CONFIG['banco']} > "$BACKUP_DIR/sih_rs_$TIMESTAMP.sql"

if [ $? -eq 0 ]; then
    echo "Backup criado: $BACKUP_DIR/sih_rs_$TIMESTAMP.sql"
    
    # Comprimir backup
    gzip "$BACKUP_DIR/sih_rs_$TIMESTAMP.sql"
    echo "Backup comprimido"
    
    # Manter apenas últimos 7 backups
    find "$BACKUP_DIR" -name "sih_rs_*.sql.gz" -type f -mtime +7 -delete
    echo "Backups antigos removidos"
else
    echo "Erro no backup"
    exit 1
fi
"""
    
    backup_script_path = "backup_sih.sh"
    with open(backup_script_path, 'w') as f:
        f.write(script_backup)
    
    os.chmod(backup_script_path, 0o755)
    log_operacao(f"Script de backup criado: {backup_script_path}")
    
    log_operacao("Instruções para agendamento:")
    log_operacao("   1. Editar crontab: crontab -e")
    log_operacao("   2. Adicionar linha para atualização semanal:")
    log_operacao(f"      0 2 * * 1 {os.path.abspath(script_path)}")
    log_operacao("   3. Adicionar linha para backup diário:")
    log_operacao(f"      0 1 * * * {os.path.abspath(backup_script_path)}")
    log_operacao("   4. Verificar agendamento: crontab -l")
    
    # Arquivo de configuração para equipe
    config_atualizacao = f"""# Configuração de Atualização Automática SIH-RS
# Gerado em {datetime.now()}

# Horários recomendados:
# - Backup diário: 01:00 (0 1 * * *)
# - Atualização semanal: 02:00 Segunda-feira (0 2 * * 1)

# Configurações do banco
BANCO_HOST={DB_CONFIG['host']}
BANCO_PORTA={DB_CONFIG['porta']}
BANCO_NOME={DB_CONFIG['banco']}
BANCO_USUARIO={DB_CONFIG['usuario']}

# Diretórios
LOG_DIR=../../logs
BACKUP_DIR=../../backups
DADOS_DIR=../../banco

# Retenção de backups (dias)
BACKUP_RETENCAO=7
"""
    
    with open("config_atualizacao.conf", 'w') as f:
        f.write(config_atualizacao)
    
    log_operacao("Arquivo de configuração criado: config_atualizacao.conf")
    log_operacao("Atualização automática configurada!")

def executar_pipeline_completo():
    """Pipeline principal que implementa todas as modificações solicitadas"""
    inicio = datetime.now()
    
    print("=" * 70)
    print("           PIPELINE BANCO SIH-RS NORMALIZADO")
    print("                   VERSÃO FINAL")
    print("=" * 70)
    
    log_operacao("INICIANDO PIPELINE COMPLETO")
    log_operacao(f"Data/hora: {inicio}")
    verificar_memoria()
    
    try:
        # 1. Conectar e validar
        log_operacao("ETAPA 1: CONEXÃO E VALIDAÇÕES")
        engine = conectar_validar()
        
        # 2. Carregar dados principais
        log_operacao("ETAPA 2: CARREGAMENTO DE DADOS")
        df = carregar_dados_principais()
        
        # 3. Criar tabelas normalizadas
        log_operacao("ETAPA 3: CRIAÇÃO DE TABELAS NORMALIZADAS")
        stats_principais = criar_tabelas_normalizadas(engine, df)
        
        del df
        limpar_memoria()
        
        # 4. Carregar tabelas de apoio
        log_operacao("ETAPA 4: TABELAS DE APOIO")
        stats_apoio = carregar_tabelas_apoio(engine)
        
        # 5. Criar chaves e relacionamentos
        log_operacao("ETAPA 5: CHAVES E RELACIONAMENTOS")
        sucessos_chaves, erros_chaves = criar_chaves_relacionamentos(engine)
        
        # 6. Executar análise de procedimentos
        log_operacao("ETAPA 6: ANÁLISE DE PROCEDIMENTOS")
        analise_sucesso = executar_analise_procedimentos(engine)
        
        # 7. Verificações finais
        log_operacao("ETAPA 7: VERIFICAÇÕES FINAIS")
        verificacoes_finais(engine)
        
        # 8. Configurar atualização automática
        log_operacao("ETAPA 8: ATUALIZAÇÃO AUTOMÁTICA")
        configurar_atualizacao_automatica(engine)
        
        # Relatório final
        duracao = datetime.now() - inicio
        
        log_operacao("\n" + "="*70)
        log_operacao("PIPELINE CONCLUÍDO COM SUCESSO!")
        log_operacao("="*70)
        
        log_operacao(f"Duração total: {duracao}")
        log_operacao(f"Tabelas principais criadas: {len(stats_principais)}")
        log_operacao(f"Tabelas de apoio carregadas: {len(stats_apoio)}")
        log_operacao(f"Chaves primárias: {sucessos_chaves.get('PK', 0)}/6")
        log_operacao(f"Chaves estrangeiras: {sucessos_chaves.get('FK', 0)}/5")
        log_operacao(f"Análise de procedimentos: {'Concluída' if analise_sucesso else 'Com erros'}")
        
        log_operacao("\nArquivos gerados:")
        log_operacao("   • atualizar_sih_automatico.sh")
        log_operacao("   • backup_sih.sh")
        log_operacao("   • config_atualizacao.conf")
        log_operacao("   • relatorio_procedimentos_completo.csv")
        
        log_operacao("\nConectar ao banco:")
        log_operacao(f"   psql -U {DB_CONFIG['usuario']} -h {DB_CONFIG['host']} -d {DB_CONFIG['banco']}")
        
        log_operacao("\nPróximos passos:")
        log_operacao("   1. Configurar agendamento: crontab -e")
        log_operacao("   2. Testar scripts de backup")
        log_operacao("   3. Validar integridade dos dados")
        
        log_operacao("="*70)
        
        return True
        
    except Exception as e:
        duracao = datetime.now() - inicio
        log_operacao(f"\nERRO CRÍTICO NO PIPELINE: {e}", "ERROR")
        log_operacao(f"Duração até erro: {duracao}")
        log_operacao("="*70)
        raise

if __name__ == "__main__":
    try:
        sucesso = executar_pipeline_completo()
        if sucesso:
            print("\nEXECUÇÃO CONCLUÍDA COM SUCESSO!")
            print("Verifique os logs e arquivos gerados")
        
    except Exception as e:
        print(f"\nERRO NA EXECUÇÃO: {e}")
        print("Verifique os logs para mais detalhes")
        verificar_memoria()
        
    finally:
        limpar_memoria()
        print(f"\nExecução finalizada em {datetime.now()}")

# Comandos úteis para teste no Jupyter:
# engine = conectar_validar()
# df_sample = pd.read_parquet(PARQUET_PATH, engine="pyarrow").head(10000)
# criar_tabelas_normalizadas(engine, df_sample)
# pd.read_sql("SELECT COUNT(*) FROM internacoes", engine)

           PIPELINE BANCO SIH-RS NORMALIZADO
                   VERSÃO FINAL
INFO: INICIANDO PIPELINE COMPLETO
INFO: Data/hora: 2025-06-05 00:54:54.909425
Memória: 34.3% usada (10.5GB disponível)
INFO: ETAPA 1: CONEXÃO E VALIDAÇÕES
INFO: Conectando ao PostgreSQL...
INFO: Conectado ao PostgreSQL com sucesso!
INFO: Arquivo principal: 353.6 MB
Memória: 34.4% usada (10.5GB disponível)
INFO: Validações concluídas
INFO: ETAPA 2: CARREGAMENTO DE DADOS
INFO: Carregando dados principais...
INFO: Carregados 11,022,199 registros
INFO: AIHs únicas: 11,022,199
INFO: Nenhuma duplicata encontrada
Memória: 70.1% usada (4.8GB disponível)
INFO: ETAPA 3: CRIAÇÃO DE TABELAS NORMALIZADAS
INFO: Criando tabelas normalizadas...
INFO: Processando tabela 'internacoes'...
INFO: Colunas incluídas: 54
INFO: Registros válidos: 11,022,199
INFO:     Processados 10/221 chunks

Execução finalizada em 2025-06-05 01:02:36.452684


KeyboardInterrupt: 