## 1. Importação de Bibliotecas
Importação das bibliotecas fundamentais para o processo: `pandas` e `numpy` para manipulação de dados, e `sqlalchemy` para conexão e operações no banco de dados.

In [None]:
import pandas as pd
import numpy as np
import sqlalchemy
from sqlalchemy import create_engine

## 2. Carregamento e Unificação dos Dados
Leitura dos arquivos CSV contendo os dados do SAMU de 2023, 2024 e 2025. Em seguida, os dataframes são concatenados em um único (`df_unificado`), e são realizadas as conversões iniciais de tipos para as colunas de data, hora e idade.

In [None]:
colunas_nomes = [
    'id', 'data', 'hora_minuto', 'municipio', 'bairro',
    'endereco', 'origem_chamado', 'tipo', 'subtipo',
    'sexo', 'idade', 'motivo_finalizacao', 'motivo_desfecho'
]


df_2025 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_nomes)

df_2024 = pd.read_csv('../data/samu_2024.csv', header=0, names=colunas_nomes)
df_2023 = pd.read_csv('../data/samu_2023.csv', header=0, names=colunas_nomes)

df_unificado = pd.concat([df_2025, df_2024, df_2023], ignore_index=True)

df_unificado['id'] = df_unificado.index
df_unificado.set_index('id', inplace=True)

df_unificado['data'] = df_unificado['data'].astype(str).str.split('T').str[0]
df_unificado['data'] = pd.to_datetime(df_unificado['data'], errors='coerce').dt.date

df_unificado['hora_minuto'] = df_unificado['hora_minuto'].astype(str).str.strip().str[:8]
df_unificado['hora_minuto'] = pd.to_datetime(df_unificado['hora_minuto'], format='%H:%M:%S', errors='coerce').dt.time
df_unificado['idade'] = pd.to_numeric(df_unificado['idade'], errors='coerce')


print(df_unificado[['data', 'hora_minuto', 'idade']].info())
df_unificado.head()

## 3. Verificação de Tipos de Dados
Verificação pontual dos tipos de objetos nas colunas `DATA` e `HORA_MINUTO` para garantir que as conversões anteriores funcionaram como esperado.

In [None]:
print("Tipo real na coluna data:", type(df_unificado['data'].iloc[0]))

print("Tipo real na coluna hora:", type(df_unificado['hora_minuto'].iloc[0]))

## 4. Tratamento de Dados Faltantes: Idade
Preenchimento dos valores nulos na coluna `IDADE` utilizando a mediana dos dados. Após o preenchimento, a coluna é convertida para o tipo inteiro.

In [None]:
mediana_idade = df_unificado['idade'].median()

df_unificado['idade'].fillna(mediana_idade, inplace=True)
df_unificado['idade'] = df_unificado['idade'].astype(int)

qtd_nulos = df_unificado['idade'].isnull().sum()

print("Quantidade de valores nulos na coluna idade após preenchimento:", qtd_nulos)

## 5. Tratamento de Nulos: Motivo de Finalização
Substituição dos valores ausentes na coluna `MOTIVO_FINALIZACAO` pelo termo padronizado 'SEM FINALIZAÇÃO'.

In [None]:
df_unificado['motivo_finalizacao'] = df_unificado['motivo_finalizacao'].fillna('SEM FINALIZAÇÃO')

print("Quantidade de nulos após tratamento:", df_unificado['motivo_finalizacao'].isnull().sum())

df_unificado[['motivo_finalizacao']].info()

## 6. Tratamento de Nulos: Endereço e Origem
Preenchimento de valores nulos nas colunas `ENDERECO` e `ORIGEM_CHAMADO` com o termo 'NÃO INFORMADO'.

In [None]:
df_unificado['endereco'] = df_unificado['endereco'].fillna('NÃO INFORMADO')

df_unificado['origem_chamado'] = df_unificado['origem_chamado'].fillna('NÃO INFORMADO')

print(df_unificado[['endereco', 'origem_chamado']].isnull().sum())

df_unificado.head()

## 7. Tratamento de Nulos: Demais Colunas Categóricas
Preenchimento massivo de valores nulos nas colunas restantes (`SEXO`, `SUBTIPO`, `TIPO`, `MUNICIPIO`, `BAIRRO`) com 'NÃO INFORMADO', garantindo que não restem campos vazios no dataset.

In [None]:
colunas_restantes = ['sexo', 'subtipo', 'tipo', 'municipio', 'bairro']

df_unificado[colunas_restantes] = df_unificado[colunas_restantes].fillna('NÃO INFORMADO')

print("Contagem Final de Nulos:")
print(df_unificado.isnull().sum())

df_unificado.info()

## 8. Padronização de Textos
Normalização das colunas de texto: conversão de todas as strings para letras maiúsculas e remoção de espaços em branco no início e fim (strip), facilitando agrupamentos futuros.

In [None]:
colunas_texto = ['municipio', 'bairro', 'endereco', 'origem_chamado', 'tipo', 'subtipo', 'sexo', 'motivo_finalizacao', 'motivo_desfecho']

for col in colunas_texto:
    df_unificado[col] = df_unificado[col].astype(str).str.upper().str.strip()

## 9. Inspeção de Valores Únicos
Exibição dos valores únicos presentes em cada coluna de texto. Isso ajuda a identificar inconsistências de digitação (ex: 'Recife' vs 'RECIFE') que precisam de limpeza manual.

In [None]:
colunas_texto = ['municipio', 'bairro', 'endereco', 'origem_chamado', 'tipo', 'subtipo', 'sexo', 'motivo_finalizacao', 'motivo_desfecho']

for col in colunas_texto:
    print(f"\nValores Únicos em {col}")
    valores = sorted(df_unificado[col].unique())
    print(valores)

## 10. Limpeza Avançada: Origem do Chamado
Correção de valores inconsistentes ("sujos") identificados na inspeção anterior na coluna `ORIGEM_CHAMADO`. Substitui termos inválidos por 'NÃO INFORMADO' e padroniza abreviações de estabelecimentos.

In [None]:
valores_para_limpar = [
    '93999830', 'ANI/ALI','JOSELENE', 'JUSELITA', 
    'MARCILIA', 'R MA','RAYSSA', 'R  CELIA','JAGUARIB' ,
    'MONICA', 'AV NORTE', '00', 'MONIQUE', 'CARLOS', 'SANDRO',
    'EDVALDO', 'RECIFE', 'EDIMILSO', 'MARIA', 'MANOEL R', 'TEC ENF',
    'ANTONIO'
]

df_unificado['origem_chamado'] = df_unificado['origem_chamado'].replace(valores_para_limpar, 'NÃO INFORMADO')

df_unificado['origem_chamado'] = df_unificado['origem_chamado'].replace('ESTAB PR', 'ESTABELECIMENTO PRIVADO')
df_unificado['origem_chamado'] = df_unificado['origem_chamado'].replace('ESTAB PU', 'ESTABELECIMENTO PUBLICO')

## 11. Validação Pós-Limpeza
Verificação simples para confirmar se a quantidade de nulos na coluna `MOTIVO_FINALIZACAO` foi zerada conforme planejado.

In [None]:
nulos_finalizacao = df_unificado['motivo_finalizacao'].isnull().sum()
print("Quantidade de valores nulos na coluna motivo_finalizacao após todas as correções:", nulos_finalizacao)

## 12. Remoção de Linhas Duplicadas
Eliminação de registros duplicados considerando um subconjunto de colunas chave. Exibe a contagem de linhas antes e depois para controle de qualidade.

In [None]:
colunas_checagem = [
    'data', 'hora_minuto', 'municipio', 'bairro',
    'endereco', 'origem_chamado', 'tipo', 'subtipo',
    'sexo', 'idade', 'motivo_finalizacao', 'motivo_desfecho'
]

qtd_antes = len(df_unificado)
df_unificado.drop_duplicates(subset=colunas_checagem, keep='first', inplace=True)
qtd_depois = len(df_unificado)

print(f"Linhas antes: {qtd_antes}")
print(f"Linhas depois: {qtd_depois}")

## 13. Engenharia de Atributos: Turno e Dia da Semana
Criação de novas colunas analíticas:
- `DIA_SEMANA`: Nome do dia em português.
- `TURNO`: Categorização do horário (Manhã, Tarde, Noite, Madrugada).

In [None]:
mapa_dias = {
    'Monday': 'SEGUNDA-FEIRA', 'Tuesday': 'TERCA-FEIRA', 'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA', 'Friday': 'SEXTA-FEIRA', 'Saturday': 'SABADO', 'Sunday': 'DOMINGO'
}

df_unificado['data'] = pd.to_datetime(df_unificado['data'])
df_unificado['dia_semana'] = df_unificado['data'].dt.day_name().map(mapa_dias)


def definir_turno(hora_minuto):
    try:
        hora = int(str(hora_minuto)[:2])
        
        if 6 <= hora < 12:
            return 'MANHA'
        elif 12 <= hora < 18:
            return 'TARDE'
        elif 18 <= hora <= 23:
            return 'NOITE'
        else:
            return 'MADRUGADA'
    except:
        return 'NAO INFORMADO'

df_unificado['turno'] = df_unificado['hora_minuto'].apply(definir_turno)

print("Novas colunas geradas:")
df_unificado[['data', 'dia_semana', 'hora_minuto', 'turno']].head()

## 14. Engenharia de Atributos: Ano
Extração do ano da data da ocorrência para uma coluna dedicada `ANO_ORIGEM`.

In [None]:
df_unificado['ano_origem'] = df_unificado['data'].dt.year.astype('Int64')

## 15. Visualização dos Dados Tratados
Exibição das primeiras linhas do dataframe final para conferência antes da carga no banco de dados.

In [None]:
df_unificado.head(10)

## 16. Carga no Data Warehouse (ETL)
Etapa final do processo:
1. Conecta ao banco PostgreSQL.
2. Limpa as tabelas existentes no esquema `dw_etl`.
3. Cria e carrega as tabelas dimensão (`dim_localidade`, `dim_ocorrencia`, `dim_situacao`, `dim_paciente`, `dim_tempo`).
4. Prepara a tabela fato (`fato_atendimentos`) realizando os *joins* necessários para obter as chaves estrangeiras (IDs).
5. Carrega a tabela fato no banco de dados.

In [None]:
# Carga final no data warehouse do etl no esquema dw_etl
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text

# Configuracao da conexao
DB_STRING = "postgresql://postgres:admin123@localhost:5432/postgres"
engine = create_engine(DB_STRING)

print("Iniciando carga no esquema dw_etl...")

# Limpeza das tabelas do esquema dw_etl antes de carregar
with engine.connect() as conn:
    conn.execute(text("TRUNCATE TABLE dw_etl.fato_atendimentos CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_localidade CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_ocorrencia CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_situacao CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_paciente CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_tempo CASCADE;"))
    conn.commit()

# Carga da dimensao localidade
print("Carregando Dimensão Localidade...")
dim_local = df_unificado[['municipio', 'bairro']].drop_duplicates().sort_values(['municipio', 'bairro']).reset_index(drop=True)
dim_local['id_local'] = dim_local.index + 1
# Renomeia para minusculo para bater com o banco
dim_local = dim_local.rename(columns={'municipio': 'municipio', 'bairro': 'bairro'})
dim_local.to_sql('dim_localidade', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao ocorrencia
print("Carregando Dimensão Ocorrência...")
dim_ocorrencia = df_unificado[['origem_chamado', 'tipo', 'subtipo']].drop_duplicates().sort_values(['tipo', 'subtipo']).reset_index(drop=True)
dim_ocorrencia['id_ocorrencia'] = dim_ocorrencia.index + 1
# Renomeia para minusculo
dim_ocorrencia = dim_ocorrencia.rename(columns={'origem_chamado': 'origem_chamado', 'tipo': 'tipo', 'subtipo': 'subtipo'})
dim_ocorrencia.to_sql('dim_ocorrencia', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao situacao
print("Carregando Dimensão Situação...")
dim_situacao = df_unificado[['motivo_finalizacao', 'motivo_desfecho']].drop_duplicates().reset_index(drop=True)
dim_situacao['id_situacao'] = dim_situacao.index + 1
# Renomeia para minusculo
dim_situacao = dim_situacao.rename(columns={'motivo_finalizacao': 'motivo_finalizacao', 'motivo_desfecho': 'motivo_desfecho'})
dim_situacao.to_sql('dim_situacao', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao paciente
print("Carregando Dimensão Paciente...")
# Cria dataframe temporario
df_paciente_temp = df_unificado[['sexo', 'idade']].copy()
bins = [-1, 12, 18, 59, 200]
labels = ['CRIANCA', 'ADOLESCENTE', 'ADULTO', 'IDOSO']
df_paciente_temp['faixa_etaria'] = pd.cut(df_paciente_temp['idade'], bins=bins, labels=labels).astype(str)

# Remove duplicatas
dim_paciente = df_paciente_temp[['sexo', 'faixa_etaria']].drop_duplicates().sort_values(['sexo']).reset_index(drop=True)
dim_paciente['id_paciente'] = dim_paciente.index + 1
# Renomeia para minusculo (sexo virou sexo)
dim_paciente = dim_paciente.rename(columns={'sexo': 'sexo'})
dim_paciente.to_sql('dim_paciente', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao tempo
print("Carregando Dimensão Tempo...")
datas_unicas = pd.dataFrame({'data_completa': df_unificado['data'].unique()})
# Converte para datetime
datas_unicas['data_completa'] = pd.to_datetime(datas_unicas['data_completa'])

datas_unicas['ano'] = datas_unicas['data_completa'].dt.year
datas_unicas['mes'] = datas_unicas['data_completa'].dt.month
datas_unicas['dia'] = datas_unicas['data_completa'].dt.day
mapa_dias = {0:'SEGUNDA-FEIRA', 1:'TERCA-FEIRA', 2:'QUARTA-FEIRA', 3:'QUINTA-FEIRA', 4:'SEXTA-FEIRA', 5:'SABADO', 6:'DOMINGO'}
datas_unicas['dia_semana'] = datas_unicas['data_completa'].dt.dayofweek.map(mapa_dias)
datas_unicas['trimestre'] = datas_unicas['data_completa'].dt.quarter
datas_unicas['semestre'] = np.where(datas_unicas['mes'] <= 6, 1, 2)

dim_tempo = datas_unicas.sort_values('data_completa').reset_index(drop=True)
dim_tempo['id_tempo'] = dim_tempo.index + 1
# Converte para date
dim_tempo['data_completa'] = dim_tempo['data_completa'].dt.date
dim_tempo.to_sql('dim_tempo', engine, schema='dw_etl', if_exists='append', index=False)

# Montagem e carga da tabela fato
print("Montando e Carregando Tabela Fato...")
df_fato = df_unificado.copy()

# Recalcula faixa etaria na fato
df_fato['faixa_etaria'] = pd.cut(df_fato['idade'], bins=bins, labels=labels).astype(str)

# Garante datetime para o merge
df_fato['data'] = pd.to_datetime(df_fato['data'])

# Merges usando as colunas originais maiusculas do df_fato
df_fato = df_fato.merge(dim_local, left_on=['municipio', 'bairro'], right_on=['municipio', 'bairro'], how='left')
df_fato = df_fato.merge(dim_ocorrencia, left_on=['origem_chamado', 'tipo', 'subtipo'], right_on=['origem_chamado', 'tipo', 'subtipo'], how='left')
df_fato = df_fato.merge(dim_situacao, left_on=['motivo_finalizacao', 'motivo_desfecho'], right_on=['motivo_finalizacao', 'motivo_desfecho'], how='left')
df_fato = df_fato.merge(dim_paciente, left_on=['sexo', 'faixa_etaria'], right_on=['sexo', 'faixa_etaria'], how='left')

# Merge com tempo
df_fato['data_join'] = df_fato['data'].dt.date
df_fato = df_fato.merge(dim_tempo, left_on='data_join', right_on='data_completa', how='left')

# Selecao das colunas finais
df_fato_final = pd.dataFrame()
df_fato_final['fk_local'] = df_fato['id_local']
df_fato_final['fk_ocorrencia'] = df_fato['id_ocorrencia']
df_fato_final['fk_situacao'] = df_fato['id_situacao']
df_fato_final['fk_paciente'] = df_fato['id_paciente']
df_fato_final['fk_tempo'] = df_fato['id_tempo']
df_fato_final['hora_exata'] = df_fato['hora_minuto']
df_fato_final['idade_paciente'] = df_fato['idade']
df_fato_final['qtd_atendimentos'] = 1

# Carga em lotes
df_fato_final.to_sql('fato_atendimentos', engine, schema='dw_etl', if_exists='append', index=False, chunksize=2000)

print("Carga ETL concluída no esquema dw_etl!")