In [48]:
import pandas as pd
from sqlalchemy import create_engine, text

# --- CONFIGURE SUAS CREDENCIAIS AQUI ---
# Exemplo de string: postgresql://usuario:senha@host:porta/nome_banco
DB_CONNECTION_STRING = "postgresql://postgres:admin123@localhost:5432/postgres"

# Cria a engine de conexão
engine = create_engine(DB_CONNECTION_STRING)

# Função auxiliar para rodar comandos SQL sem retorno (CREATE, UPDATE, DROP)
def exec_sql(query):
    with engine.connect() as conn:
        conn.execute(text(query))
        conn.commit()

# Função para consultas (SELECT)
def run_query(query):
    with engine.connect() as conn:
        return pd.read_sql_query(text(query), conn)

print("Conexão com PostgreSQL configurada!")

Conexão com PostgreSQL configurada!


In [49]:
# --- CÉLULA 2 (CORRIGIDA E BLINDADA) ---
colunas_nomes = [
    'ID', 'DATA', 'HORA_MINUTO', 'MUNICIPIO', 'BAIRRO',
    'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO',
    'SEXO', 'IDADE', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO'
]

# 1. Leitura (Mantendo nomes originais Maiúsculos das colunas no Pandas)
# header=None para 2025 (porque a linha 0 é dado)
# header=0 para 23/24 (porque a linha 0 é titulo)
df_2025 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_nomes, dtype=str)
df_2024 = pd.read_csv('../data/samu_2024.csv', header=0, names=colunas_nomes, dtype=str)
df_2023 = pd.read_csv('../data/samu_2023.csv', header=0, names=colunas_nomes, dtype=str)

df_staging = pd.concat([df_2025, df_2024, df_2023], ignore_index=True)

# 2. Ajuste Técnico: Passar colunas para minúsculo AGORA.
# Isso evita o erro de "Column not found" no Postgres.
# Fique tranquilo: Na última célula do notebook a gente renomeia para MAIÚSCULO de volta.
df_staging.columns = df_staging.columns.str.lower()

print("Verificando estrutura do Banco de Dados...")

with engine.connect() as conn:
    # A. CRIA O SCHEMA (A PASTA) SE NÃO EXISTIR
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS stage;"))
    
    # B. CRIA A TABELA SE NÃO EXISTIR
    # Criamos tudo como TEXT para o ELT ser robusto (não quebrar na carga)
    conn.execute(text("""
        CREATE TABLE IF NOT EXISTS stage.tb_staging_samu (
            id_temp SERIAL,
            id TEXT,
            data TEXT,
            hora_minuto TEXT,
            municipio TEXT,
            bairro TEXT,
            endereco TEXT,
            origem_chamado TEXT,
            tipo TEXT,
            subtipo TEXT,
            sexo TEXT,
            idade TEXT,
            motivo_finalizacao TEXT,
            motivo_desfecho TEXT
        );
    """))
    
    # C. LIMPA A TABELA PARA NÃO DUPLICAR DADOS
    conn.execute(text("TRUNCATE TABLE stage.tb_staging_samu;"))
    conn.commit()

print(f"Iniciando carga de {len(df_staging)} linhas...")

# 3. Carga Efetiva
df_staging.to_sql(
    'tb_staging_samu', 
    engine, 
    schema='stage', 
    if_exists='append', # Append porque acabamos de criar/limpar a tabela acima
    index=False, 
    method='multi', 
    chunksize=2000
)

# Limpeza de memória RAM
del df_staging, df_2025, df_2024, df_2023
print("✅ Carga realizada com sucesso na tabela stage.tb_staging_samu!")

Verificando estrutura do Banco de Dados...
Iniciando carga de 539519 linhas...
✅ Carga realizada com sucesso na tabela stage.tb_staging_samu!


In [50]:
# --- CÉLULA 3 (CORRIGIDA) ---
print("Criando tabela de trabalho...")

# Note que usamos nomes minúsculos aqui para o SQL não travar
query_trabalho = """
DROP TABLE IF EXISTS stage.tb_trabalho;

CREATE TABLE stage.tb_trabalho AS
SELECT
    ROW_NUMBER() OVER () - 1 AS id_gerado,
    
    TO_DATE(NULLIF(SUBSTRING(data, 1, 10), ''), 'YYYY-MM-DD') AS data_ocorrencia,
    TO_TIMESTAMP(NULLIF(SUBSTRING(TRIM(hora_minuto), 1, 8), ''), 'HH24:MI:SS')::TIME AS hora_ocorrencia,

    CAST(NULLIF(idade, '') AS INTEGER) AS idade,

    municipio, bairro, endereco, origem_chamado,
    tipo AS tipo_ocorrencia,
    subtipo AS subtipo_ocorrencia,
    sexo, motivo_finalizacao, motivo_desfecho
FROM stage.tb_staging_samu;
"""

exec_sql(query_trabalho)
print("✅ Tabela stage.tb_trabalho criada!")

Criando tabela de trabalho...
✅ Tabela stage.tb_trabalho criada!


In [51]:
# --- CÉLULA 4 (CORRIGIDA) ---
print("4. Tratando valores nulos...")

# 1. Calcula a Mediana (na coluna 'idade' do schema 'stage')
mediana_sql = run_query("""
    SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY idade)
    FROM stage.tb_trabalho
""").iloc[0,0]

# 2. Converte para Inteiro
mediana_int = int(mediana_sql)
print(f"   -> Mediana calculada: {mediana_int}")

# 3. Aplica o Update (USANDO OS NOMES CORRETOS DA CÉLULA 3)
query_fillna = f"""
UPDATE stage.tb_trabalho
SET
    idade = COALESCE(idade, {mediana_int}),
    motivo_finalizacao = COALESCE(motivo_finalizacao, 'SEM FINALIZAÇÃO'),
    endereco = COALESCE(endereco, 'NÃO INFORMADO'),
    origem_chamado = COALESCE(origem_chamado, 'NÃO INFORMADO'),
    sexo = COALESCE(sexo, 'NÃO INFORMADO'),
    municipio = COALESCE(municipio, 'NÃO INFORMADO'),
    bairro = COALESCE(bairro, 'NÃO INFORMADO'),
    
    -- CORREÇÃO AQUI: Nomes atualizados conforme criamos na Célula 3
    subtipo_ocorrencia = COALESCE(subtipo_ocorrencia, 'NÃO INFORMADO'),
    tipo_ocorrencia = COALESCE(tipo_ocorrencia, 'NÃO INFORMADO');
"""
exec_sql(query_fillna)
print("✅ Nulos tratados com valores inteiros.")

4. Tratando valores nulos...
   -> Mediana calculada: 49
✅ Nulos tratados com valores inteiros.


In [52]:
# Padronização (Upper e Trim) - Usando nomes corretos (_ocorrencia)
exec_sql("""
UPDATE stage.tb_trabalho
SET
    municipio = UPPER(TRIM(municipio)),
    bairro = UPPER(TRIM(bairro)),
    endereco = UPPER(TRIM(endereco)),
    origem_chamado = UPPER(TRIM(origem_chamado)),
    sexo = UPPER(TRIM(sexo)),
    motivo_finalizacao = UPPER(TRIM(motivo_finalizacao)),
    motivo_desfecho = UPPER(TRIM(motivo_desfecho)),
    
    -- Nomes corrigidos
    tipo_ocorrencia = UPPER(TRIM(tipo_ocorrencia)),
    subtipo_ocorrencia = UPPER(TRIM(subtipo_ocorrencia));
""")

# Lista de valores ruins
valores_ruins = [
    '93999830', 'ANI/ALI','JOSELENE', 'JUSELITA',
    'MARCILIA', 'R MA','RAYSSA', 'R  CELIA','JAGUARIB'
    'MONICA', 'AV NORTE', '00', 'MONIQUE', 'CARLOS', 'SANDRO',
    'EDVALDO', 'RECIFE', 'EDIMILSO', 'MARIA', 'MANOEL R', 'TEC ENF',
    'ANTONIO'
]
lista_sql = ", ".join([f"'{x}'" for x in valores_ruins])

# Replace condicional
query_replace = f"""
UPDATE stage.tb_trabalho
SET origem_chamado = CASE
    WHEN origem_chamado IN ({lista_sql}) THEN 'NÃO INFORMADO'
    WHEN origem_chamado = 'ESTAB PR' THEN 'ESTABELECIMENTO PRIVADO'
    WHEN origem_chamado = 'ESTAB PU' THEN 'ESTABELECIMENTO PUBLICO'
    ELSE origem_chamado
END;
"""
exec_sql(query_replace)
print("✅ Padronização concluída.")

✅ Padronização concluída.


In [53]:
# 1. Limpa tabela antiga
exec_sql("DROP TABLE IF EXISTS stage.tb_samu_tratada;")

# 2. Cria a estrutura
exec_sql("""
CREATE TABLE stage.tb_samu_tratada (
    "ID" INTEGER PRIMARY KEY,
    "DATA" DATE,
    "HORA_MINUTO" TIME,
    "MUNICIPIO" VARCHAR(100),
    "BAIRRO" VARCHAR(100),
    "ENDERECO" VARCHAR(255),
    "ORIGEM_CHAMADO" VARCHAR(100),
    "TIPO" VARCHAR(100),
    "SUBTIPO" VARCHAR(100),
    "SEXO" VARCHAR(20),
    "IDADE" INTEGER,
    "MOTIVO_FINALIZACAO" VARCHAR(255),
    "MOTIVO_DESFECHO" VARCHAR(255),
    "DIA_SEMANA" VARCHAR(20),
    "TURNO" VARCHAR(20),
    "ANO_ORIGEM" INTEGER
);
""")

query_final = """
INSERT INTO stage.tb_samu_tratada (
    "ID", "DATA", "HORA_MINUTO",
    "MUNICIPIO", "BAIRRO", "ENDERECO", "ORIGEM_CHAMADO",
    "TIPO", "SUBTIPO", "SEXO", "IDADE",
    "MOTIVO_FINALIZACAO", "MOTIVO_DESFECHO",
    "DIA_SEMANA", "TURNO", "ANO_ORIGEM"
)
SELECT * FROM (
    -- SUBQUERY: Faz a deduplicação seguindo a regra do Postgres
    SELECT DISTINCT ON (
        data_ocorrencia, hora_ocorrencia, municipio, bairro,
        endereco, origem_chamado, tipo_ocorrencia, subtipo_ocorrencia,
        sexo, idade, motivo_finalizacao, motivo_desfecho
    )
        id_gerado,
        
        data_ocorrencia,
        hora_ocorrencia,
        municipio, bairro, endereco, origem_chamado,
        tipo_ocorrencia, subtipo_ocorrencia, sexo, idade,
        motivo_finalizacao, motivo_desfecho,
        
        CASE EXTRACT(DOW FROM data_ocorrencia)
            WHEN 0 THEN 'DOMINGO' WHEN 1 THEN 'SEGUNDA-FEIRA'
            WHEN 2 THEN 'TERCA-FEIRA' WHEN 3 THEN 'QUARTA-FEIRA'
            WHEN 4 THEN 'QUINTA-FEIRA' WHEN 5 THEN 'SEXTA-FEIRA'
            WHEN 6 THEN 'SABADO'
        END,
        
        CASE
            WHEN EXTRACT(HOUR FROM hora_ocorrencia) >= 6 AND EXTRACT(HOUR FROM hora_ocorrencia) < 12 THEN 'MANHA'
            WHEN EXTRACT(HOUR FROM hora_ocorrencia) >= 12 AND EXTRACT(HOUR FROM hora_ocorrencia) < 18 THEN 'TARDE'
            WHEN EXTRACT(HOUR FROM hora_ocorrencia) >= 18 AND EXTRACT(HOUR FROM hora_ocorrencia) <= 23 THEN 'NOITE'
            ELSE 'MADRUGADA'
        END,

        EXTRACT(YEAR FROM data_ocorrencia)::INTEGER

    FROM stage.tb_trabalho
    
    ORDER BY
        data_ocorrencia, hora_ocorrencia, municipio, bairro,
        endereco, origem_chamado, tipo_ocorrencia, subtipo_ocorrencia,
        sexo, idade, motivo_finalizacao, motivo_desfecho,
        id_gerado ASC -- Desempate: Mantém o primeiro ID (keep='first')
) AS subquery

ORDER BY id_gerado ASC;
"""

exec_sql(query_final)
print("ELT CONCLUÍDO! Tabela final salva na ordem correta.")

ELT CONCLUÍDO! Tabela final salva na ordem correta.


In [54]:
df_resultado = run_query("SELECT * FROM stage.tb_samu_tratada LIMIT 10;")

from IPython.display import display
display(df_resultado)

total = run_query("SELECT COUNT(*) FROM stage.tb_samu_tratada").iloc[0,0]
print(f"\nTotal de linhas na tabela final: {total}")

Unnamed: 0,ID,DATA,HORA_MINUTO,MUNICIPIO,BAIRRO,ENDERECO,ORIGEM_CHAMADO,TIPO,SUBTIPO,SEXO,IDADE,MOTIVO_FINALIZACAO,MOTIVO_DESFECHO,DIA_SEMANA,TURNO,ANO_ORIGEM
0,0,2025-01-01,00:00:45,RECIFE,BOA VISTA,AV DA BOA VISTA,RESIDENCIAL,DROGAS,ALCOOLISMO,MASCULINO,25,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
1,1,2025-01-01,00:08:03,POMBOS,ALTO DO FRADE,R SARDINHA,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO ENVOLVENDO MOTO,MASCULINO,22,SEM FINALIZAÇÃO,1. OCORRÊNCIA CONCLUÍDA COM ÊXITO,QUARTA-FEIRA,MADRUGADA,2025
2,2,2025-01-01,00:08:35,PAULISTA,NOSSA SENHORA DO O,AV CLAUDIO JOSE GUEIROS LEIT NOSSA.SENHORA.DO.O,RESIDENCIAL,CAUSAS EXTERNAS,QUEDA DA PROPRIA ALTURA,FEMININO,45,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
3,3,2025-01-01,00:17:44,JABOATAO DOS GUARARAPES,MARCOS FREIRE,RUA DOMINGO FERNANDES N,RESIDENCIAL,DROGAS,INTOXICACAO EXOGENA,FEMININO,46,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
4,4,2025-01-01,00:19:24,IGARASSU,CRUZ DE REBOUCAS,R JOCA RODRIGUES,VIA PÚBLICA,GASTROINTESTINAL,DOR ABDOMINAL,MASCULINO,65,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
5,5,2025-01-01,00:20:55,ESCADA,ESCADA CENTRO,BR,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO COM CARROS,MASCULINO,57,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
6,6,2025-01-01,00:21:11,JABOATAO DOS GUARARAPES,PIEDADE,TRAV TERCEIRA DA RUA SUCUPIRA DO NORTE,VIA PÚBLICA,NEUROLOGICA,CONFUSAO MENTAL,MASCULINO,56,SEM FINALIZAÇÃO,1. OCORRÊNCIA CONCLUÍDA COM ÊXITO,QUARTA-FEIRA,MADRUGADA,2025
7,7,2025-01-01,00:22:49,SIRINHAEM,BARRA DE SIRINHAEM (DISTRITO),COND TOQUINHO,VIA PÚBLICA,GERAIS/OUTROS,OUTROS,MASCULINO,49,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
8,9,2025-01-01,00:26:51,RECIFE,CORDEIRO,ESTRADA FORTE DO ARRAIAL BOM JESUS,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO ENVOLVENDO MOTO,NÃO INFORMADO,49,SEM FINALIZAÇÃO,3. SOLICITAÇÃO DUPLICADA,QUARTA-FEIRA,MADRUGADA,2025
9,10,2025-01-01,00:26:55,RECIFE,TORROES,AVENIDA ARRAIAL DO BOM JESUS,VIA PÚBLICA,CAUSAS EXTERNAS,OUTROS,MASCULINO,49,SOLICITAÇÃO DUPLICADA,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025



Total de linhas na tabela final: 507376
