In [None]:
import pandas as pd
import numpy as np
import sqlalchemy
from sqlalchemy import create_engine

In [None]:
colunas_nomes = [
    'ID', 'DATA', 'HORA_MINUTO', 'MUNICIPIO', 'BAIRRO',
    'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO',
    'SEXO', 'IDADE', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO'
]


df_2025 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_nomes)

df_2024 = pd.read_csv('../data/samu_2024.csv', header=0, names=colunas_nomes)
df_2023 = pd.read_csv('../data/samu_2023.csv', header=0, names=colunas_nomes)

df_unificado = pd.concat([df_2025, df_2024, df_2023], ignore_index=True)

df_unificado['ID'] = df_unificado.index
df_unificado.set_index('ID', inplace=True)

df_unificado['DATA'] = df_unificado['DATA'].astype(str).str.split('T').str[0]
df_unificado['DATA'] = pd.to_datetime(df_unificado['DATA'], errors='coerce').dt.date

df_unificado['HORA_MINUTO'] = df_unificado['HORA_MINUTO'].astype(str).str.strip().str[:8]
df_unificado['HORA_MINUTO'] = pd.to_datetime(df_unificado['HORA_MINUTO'], format='%H:%M:%S', errors='coerce').dt.time
df_unificado['IDADE'] = pd.to_numeric(df_unificado['IDADE'], errors='coerce')


print(df_unificado[['DATA', 'HORA_MINUTO', 'IDADE']].info())
df_unificado.head()

In [None]:
print("Tipo real na coluna DATA:", type(df_unificado['DATA'].iloc[0]))

print("Tipo real na coluna HORA:", type(df_unificado['HORA_MINUTO'].iloc[0]))

In [None]:
mediana_idade = df_unificado['IDADE'].median()

df_unificado['IDADE'].fillna(mediana_idade, inplace=True)
df_unificado['IDADE'] = df_unificado['IDADE'].astype(int)

qtd_nulos = df_unificado['IDADE'].isnull().sum()

print("Quantidade de valores nulos na coluna IDADE após preenchimento:", qtd_nulos)

In [None]:
df_unificado['MOTIVO_FINALIZACAO'] = df_unificado['MOTIVO_FINALIZACAO'].fillna('SEM FINALIZAÇÃO')

print("Quantidade de nulos após tratamento:", df_unificado['MOTIVO_FINALIZACAO'].isnull().sum())

df_unificado[['MOTIVO_FINALIZACAO']].info()

In [None]:
df_unificado['ENDERECO'] = df_unificado['ENDERECO'].fillna('NÃO INFORMADO')

df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].fillna('NÃO INFORMADO')

print(df_unificado[['ENDERECO', 'ORIGEM_CHAMADO']].isnull().sum())

df_unificado.head()

In [None]:
colunas_restantes = ['SEXO', 'SUBTIPO', 'TIPO', 'MUNICIPIO', 'BAIRRO']

df_unificado[colunas_restantes] = df_unificado[colunas_restantes].fillna('NÃO INFORMADO')

print("Contagem Final de Nulos:")
print(df_unificado.isnull().sum())

df_unificado.info()

In [None]:
colunas_texto = ['MUNICIPIO', 'BAIRRO', 'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO', 'SEXO', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']

for col in colunas_texto:
    df_unificado[col] = df_unificado[col].astype(str).str.upper().str.strip()

In [None]:
colunas_texto = ['MUNICIPIO', 'BAIRRO', 'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO', 'SEXO', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']

for col in colunas_texto:
    print(f"\nValores Únicos em {col}")
    valores = sorted(df_unificado[col].unique())
    print(valores)

In [None]:
valores_para_limpar = [
    '93999830', 'ANI/ALI','JOSELENE', 'JUSELITA', 
    'MARCILIA', 'R MA','RAYSSA', 'R  CELIA','JAGUARIB'
    'MONICA', 'AV NORTE', '00', 'MONIQUE', 'CARLOS', 'SANDRO',
    'EDVALDO', 'RECIFE', 'EDIMILSO', 'MARIA', 'MANOEL R', 'TEC ENF',
    'ANTONIO'
]

df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].replace(valores_para_limpar, 'NÃO INFORMADO')

df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].replace('ESTAB PR', 'ESTABELECIMENTO PRIVADO')
df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].replace('ESTAB PU', 'ESTABELECIMENTO PUBLICO')

In [None]:
nulos_finalizacao = df_unificado['MOTIVO_FINALIZACAO'].isnull().sum()
print("Quantidade de valores nulos na coluna MOTIVO_FINALIZACAO após todas as correções:", nulos_finalizacao)

In [None]:
colunas_checagem = ['DATA', 'HORA_MINUTO', 'MUNICIPIO', 'BAIRRO', 
    'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO', 
    'SEXO', 'IDADE', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']


qtd_antes = len(df_unificado)
df_unificado.drop_duplicates(subset=colunas_checagem, keep='first', inplace=True)
qtd_depois = len(df_unificado)

print(f"Linhas antes: {qtd_antes}")
print(f"Linhas depois: {qtd_depois}")

In [None]:
mapa_dias = {
    'Monday': 'SEGUNDA-FEIRA', 'Tuesday': 'TERCA-FEIRA', 'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA', 'Friday': 'SEXTA-FEIRA', 'Saturday': 'SABADO', 'Sunday': 'DOMINGO'
}

df_unificado['DATA'] = pd.to_datetime(df_unificado['DATA'])
df_unificado['DIA_SEMANA'] = df_unificado['DATA'].dt.day_name().map(mapa_dias)


def definir_turno(hora_minuto):
    try:
        hora = int(str(hora_minuto)[:2])
        
        if 6 <= hora < 12:
            return 'MANHA'
        elif 12 <= hora < 18:
            return 'TARDE'
        elif 18 <= hora <= 23:
            return 'NOITE'
        else:
            return 'MADRUGADA'
    except:
        return 'NAO INFORMADO'

df_unificado['TURNO'] = df_unificado['HORA_MINUTO'].apply(definir_turno)

print("Novas colunas geradas:")
df_unificado[['DATA', 'DIA_SEMANA', 'HORA_MINUTO', 'TURNO']].head()

In [None]:
df_unificado['ANO_ORIGEM'] = df_unificado['DATA'].dt.year.astype('Int64')

In [None]:
df_unificado.head(10)

In [None]:
# Carga final no data warehouse do etl no esquema dw_etl
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text

# Configuracao da conexao
DB_STRING = "postgresql://postgres:admin123@localhost:5432/postgres"
engine = create_engine(DB_STRING)

print("Iniciando carga no esquema dw_etl...")

# Limpeza das tabelas do esquema dw_etl antes de carregar
with engine.connect() as conn:
    conn.execute(text("TRUNCATE TABLE dw_etl.fato_atendimentos CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_localidade CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_ocorrencia CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_situacao CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_paciente CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_tempo CASCADE;"))
    conn.commit()

# Carga da dimensao localidade
print("Carregando Dimensão Localidade...")
dim_local = df_unificado[['MUNICIPIO', 'BAIRRO']].drop_duplicates().sort_values(['MUNICIPIO', 'BAIRRO']).reset_index(drop=True)
dim_local['id_local'] = dim_local.index + 1
# Renomeia para minusculo para bater com o banco
dim_local = dim_local.rename(columns={'MUNICIPIO': 'municipio', 'BAIRRO': 'bairro'})
dim_local.to_sql('dim_localidade', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao ocorrencia
print("Carregando Dimensão Ocorrência...")
dim_ocorrencia = df_unificado[['ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO']].drop_duplicates().sort_values(['TIPO', 'SUBTIPO']).reset_index(drop=True)
dim_ocorrencia['id_ocorrencia'] = dim_ocorrencia.index + 1
# Renomeia para minusculo
dim_ocorrencia = dim_ocorrencia.rename(columns={'ORIGEM_CHAMADO': 'origem_chamado', 'TIPO': 'tipo', 'SUBTIPO': 'subtipo'})
dim_ocorrencia.to_sql('dim_ocorrencia', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao situacao
print("Carregando Dimensão Situação...")
dim_situacao = df_unificado[['MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']].drop_duplicates().reset_index(drop=True)
dim_situacao['id_situacao'] = dim_situacao.index + 1
# Renomeia para minusculo
dim_situacao = dim_situacao.rename(columns={'MOTIVO_FINALIZACAO': 'motivo_finalizacao', 'MOTIVO_DESFECHO': 'motivo_desfecho'})
dim_situacao.to_sql('dim_situacao', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao paciente
print("Carregando Dimensão Paciente...")
# Cria dataframe temporario
df_paciente_temp = df_unificado[['SEXO', 'IDADE']].copy()
bins = [-1, 12, 18, 59, 200]
labels = ['CRIANCA', 'ADOLESCENTE', 'ADULTO', 'IDOSO']
df_paciente_temp['faixa_etaria'] = pd.cut(df_paciente_temp['IDADE'], bins=bins, labels=labels).astype(str)

# Remove duplicatas
dim_paciente = df_paciente_temp[['SEXO', 'faixa_etaria']].drop_duplicates().sort_values(['SEXO']).reset_index(drop=True)
dim_paciente['id_paciente'] = dim_paciente.index + 1
# Renomeia para minusculo (SEXO virou sexo)
dim_paciente = dim_paciente.rename(columns={'SEXO': 'sexo'})
dim_paciente.to_sql('dim_paciente', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao tempo
print("Carregando Dimensão Tempo...")
datas_unicas = pd.DataFrame({'data_completa': df_unificado['DATA'].unique()})
# Converte para datetime
datas_unicas['data_completa'] = pd.to_datetime(datas_unicas['data_completa'])

datas_unicas['ano'] = datas_unicas['data_completa'].dt.year
datas_unicas['mes'] = datas_unicas['data_completa'].dt.month
datas_unicas['dia'] = datas_unicas['data_completa'].dt.day
mapa_dias = {0:'SEGUNDA-FEIRA', 1:'TERCA-FEIRA', 2:'QUARTA-FEIRA', 3:'QUINTA-FEIRA', 4:'SEXTA-FEIRA', 5:'SABADO', 6:'DOMINGO'}
datas_unicas['dia_semana'] = datas_unicas['data_completa'].dt.dayofweek.map(mapa_dias)
datas_unicas['trimestre'] = datas_unicas['data_completa'].dt.quarter
datas_unicas['semestre'] = np.where(datas_unicas['mes'] <= 6, 1, 2)

dim_tempo = datas_unicas.sort_values('data_completa').reset_index(drop=True)
dim_tempo['id_tempo'] = dim_tempo.index + 1
# Converte para date
dim_tempo['data_completa'] = dim_tempo['data_completa'].dt.date
dim_tempo.to_sql('dim_tempo', engine, schema='dw_etl', if_exists='append', index=False)

# Montagem e carga da tabela fato
print("Montando e Carregando Tabela Fato...")
df_fato = df_unificado.copy()

# Recalcula faixa etaria na fato
df_fato['faixa_etaria'] = pd.cut(df_fato['IDADE'], bins=bins, labels=labels).astype(str)

# Garante datetime para o merge
df_fato['DATA'] = pd.to_datetime(df_fato['DATA'])

# Merges usando as colunas originais maiusculas do df_fato
df_fato = df_fato.merge(dim_local, left_on=['MUNICIPIO', 'BAIRRO'], right_on=['municipio', 'bairro'], how='left')
df_fato = df_fato.merge(dim_ocorrencia, left_on=['ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO'], right_on=['origem_chamado', 'tipo', 'subtipo'], how='left')
df_fato = df_fato.merge(dim_situacao, left_on=['MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO'], right_on=['motivo_finalizacao', 'motivo_desfecho'], how='left')
df_fato = df_fato.merge(dim_paciente, left_on=['SEXO', 'faixa_etaria'], right_on=['sexo', 'faixa_etaria'], how='left')

# Merge com tempo
df_fato['data_join'] = df_fato['DATA'].dt.date
df_fato = df_fato.merge(dim_tempo, left_on='data_join', right_on='data_completa', how='left')

# Selecao das colunas finais
df_fato_final = pd.DataFrame()
df_fato_final['fk_local'] = df_fato['id_local']
df_fato_final['fk_ocorrencia'] = df_fato['id_ocorrencia']
df_fato_final['fk_situacao'] = df_fato['id_situacao']
df_fato_final['fk_paciente'] = df_fato['id_paciente']
df_fato_final['fk_tempo'] = df_fato['id_tempo']
df_fato_final['hora_exata'] = df_fato['HORA_MINUTO']
df_fato_final['idade_paciente'] = df_fato['IDADE']
df_fato_final['qtd_atendimentos'] = 1

# Carga em lotes
df_fato_final.to_sql('fato_atendimentos', engine, schema='dw_etl', if_exists='append', index=False, chunksize=2000)

print("Carga ETL concluída no esquema dw_etl!")