In [None]:
import pandas as pd
from sqlalchemy import create_engine, text

# --- CONFIGURE SUAS CREDENCIAIS AQUI ---
# Exemplo de string: postgresql://usuario:senha@host:porta/nome_banco
DB_CONNECTION_STRING = "postgresql://postgres:sua_senha@localhost:5432/samu_dw"

# Cria a engine de conexão
engine = create_engine(DB_CONNECTION_STRING)

# Função auxiliar para rodar comandos SQL sem retorno (CREATE, UPDATE, DROP)
def exec_sql(query):
    with engine.connect() as conn:
        conn.execute(text(query))
        conn.commit()

# Função para consultas (SELECT)
def run_query(query):
    with engine.connect() as conn:
        return pd.read_sql_query(text(query), conn)

print("Conexão com PostgreSQL configurada!")

In [None]:
# Configuração de nomes e leitura (MANTÉM SUA LÓGICA DE CABEÇALHOS)
colunas_nomes = [
    'ID', 'DATA', 'HORA_MINUTO', 'MUNICIPIO', 'BAIRRO',
    'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO',
    'SEXO', 'IDADE', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO'
]

# Leitura dos CSVs
df_2025 = pd.read_csv('Dados samu 2025.csv', header=None, names=colunas_nomes, dtype=str)
df_2024 = pd.read_csv('Dados samu 2024.csv', header=0, names=colunas_nomes, dtype=str)
df_2023 = pd.read_csv('Dados samu 2023.csv', header=0, names=colunas_nomes, dtype=str)

df_staging = pd.concat([df_2025, df_2024, df_2023], ignore_index=True)

# CARGA NO POSTGRESQL
# method='multi' acelera a inserção de muitas linhas
df_staging.to_sql('tb_staging', engine, if_exists='replace', index=False, method='multi', chunksize=1000)

# Limpeza
del df_staging, df_2025, df_2024, df_2023

print("Carga na tb_staging (Postgres) concluída.")

In [None]:
# --- CÉLULA 3 ATUALIZADA ---
# O segredo aqui é o ::INTEGER na coluna IDADE.
# Isso torna fisicamente impossível existir um "25.0" nesta tabela.

query_trabalho = """
DROP TABLE IF EXISTS tb_trabalho;

CREATE TABLE tb_trabalho AS
SELECT
    ROW_NUMBER() OVER () - 1 AS ID,
    TO_DATE(NULLIF(SUBSTRING(DATA, 1, 10), ''), 'YYYY-MM-DD') AS DATA,
    TO_TIMESTAMP(NULLIF(SUBSTRING(TRIM(HORA_MINUTO), 1, 8), ''), 'HH24:MI:SS')::TIME AS HORA_MINUTO,

    
    CAST(NULLIF(IDADE, '') AS INTEGER) AS IDADE,

    MUNICIPIO, BAIRRO, ENDERECO, ORIGEM_CHAMADO, TIPO,
    SUBTIPO, SEXO, MOTIVO_FINALIZACAO, MOTIVO_DESFECHO
FROM tb_staging;
"""
exec_sql(query_trabalho)
print("Tabela tb_trabalho criada. IDADE definida estritamente como INTEGER.")

In [None]:
# --- CÉLULA 4 ATUALIZADA ---

# 1. Calcula a Mediana no Banco (pode vir como float, ex: 32.5)
mediana_sql = run_query("""
    SELECT PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY IDADE)
    FROM tb_trabalho
""").iloc[0,0]

# 2. Converte para Inteiro no Python (Truncando decimais)
# Isso garante que estamos imputando 32, e não 32.5
mediana = int(mediana_sql)
print(f"Mediana calculada e convertida para inteiro: {mediana}")

# 3. Aplica o Update
# Como a coluna já é INTEGER (da Célula 3) e o valor é int, o match é 100%
query_fillna = f"""
UPDATE tb_trabalho
SET
    IDADE = COALESCE(IDADE, {mediana}),
    MOTIVO_FINALIZACAO = COALESCE(MOTIVO_FINALIZACAO, 'SEM FINALIZAÇÃO'),
    ENDERECO = COALESCE(ENDERECO, 'NÃO INFORMADO'),
    ORIGEM_CHAMADO = COALESCE(ORIGEM_CHAMADO, 'NÃO INFORMADO'),
    SEXO = COALESCE(SEXO, 'NÃO INFORMADO'),
    SUBTIPO = COALESCE(SUBTIPO, 'NÃO INFORMADO'),
    TIPO = COALESCE(TIPO, 'NÃO INFORMADO'),
    MUNICIPIO = COALESCE(MUNICIPIO, 'NÃO INFORMADO'),
    BAIRRO = COALESCE(BAIRRO, 'NÃO INFORMADO');
"""
exec_sql(query_fillna)
print("Nulos tratados com valores inteiros.")

In [None]:
# PADRONIZAÇÃO DE TEXTO
query_padronizacao = """
UPDATE tb_trabalho
SET
    MUNICIPIO = UPPER(TRIM(MUNICIPIO)),
    BAIRRO = UPPER(TRIM(BAIRRO)),
    ENDERECO = UPPER(TRIM(ENDERECO)),
    ORIGEM_CHAMADO = UPPER(TRIM(ORIGEM_CHAMADO)),
    TIPO = UPPER(TRIM(TIPO)),
    SUBTIPO = UPPER(TRIM(SUBTIPO)),
    SEXO = UPPER(TRIM(SEXO)),
    MOTIVO_FINALIZACAO = UPPER(TRIM(MOTIVO_FINALIZACAO)),
    MOTIVO_DESFECHO = UPPER(TRIM(MOTIVO_DESFECHO));
"""
exec_sql(query_padronizacao)

# CORREÇÃO DE VALORES (REPLACE)
valores_ruins = [
    '93999830', 'ANI/ALI','JOSELENE', 'JUSELITA',
    'MARCILIA', 'R MA','RAYSSA', 'R  CELIA','JAGUARIB'
    'MONICA', 'AV NORTE', '00', 'MONIQUE', 'CARLOS', 'SANDRO',
    'EDVALDO', 'RECIFE', 'EDIMILSO', 'MARIA', 'MANOEL R', 'TEC ENF',
    'ANTONIO'
]
lista_sql = ", ".join([f"'{x}'" for x in valores_ruins])

query_replace = f"""
UPDATE tb_trabalho
SET ORIGEM_CHAMADO = CASE
    WHEN ORIGEM_CHAMADO IN ({lista_sql}) THEN 'NÃO INFORMADO'
    WHEN ORIGEM_CHAMADO = 'ESTAB PR' THEN 'ESTABELECIMENTO PRIVADO'
    WHEN ORIGEM_CHAMADO = 'ESTAB PU' THEN 'ESTABELECIMENTO PUBLICO'
    ELSE ORIGEM_CHAMADO
END;
"""
exec_sql(query_replace)
print("Textos padronizados e limpos.")

In [None]:
query_features = """
ALTER TABLE tb_final ADD COLUMN DIA_SEMANA TEXT;
ALTER TABLE tb_final ADD COLUMN TURNO TEXT;
ALTER TABLE tb_final ADD COLUMN ANO_ORIGEM INTEGER;

UPDATE tb_final
SET
    ANO_ORIGEM = EXTRACT(YEAR FROM DATA),

    -- EXTRACT(DOW) retorna 0 para Domingo, 6 para Sábado
    DIA_SEMANA = CASE EXTRACT(DOW FROM DATA)
        WHEN 0 THEN 'DOMINGO'
        WHEN 1 THEN 'SEGUNDA-FEIRA'
        WHEN 2 THEN 'TERCA-FEIRA'
        WHEN 3 THEN 'QUARTA-FEIRA'
        WHEN 4 THEN 'QUINTA-FEIRA'
        WHEN 5 THEN 'SEXTA-FEIRA'
        WHEN 6 THEN 'SABADO'
    END,

    TURNO = CASE
        WHEN EXTRACT(HOUR FROM HORA_MINUTO) >= 6 AND EXTRACT(HOUR FROM HORA_MINUTO) < 12 THEN 'MANHA'
        WHEN EXTRACT(HOUR FROM HORA_MINUTO) >= 12 AND EXTRACT(HOUR FROM HORA_MINUTO) < 18 THEN 'TARDE'
        WHEN EXTRACT(HOUR FROM HORA_MINUTO) >= 18 AND EXTRACT(HOUR FROM HORA_MINUTO) <= 23 THEN 'NOITE'
        ELSE 'MADRUGADA'
    END;
"""
exec_sql(query_features)
print("Colunas novas criadas.")
run_query("SELECT DATA, HORA_MINUTO, DIA_SEMANA, TURNO FROM tb_final LIMIT 5")