## 1. Importação de Bibliotecas
Importação das bibliotecas fundamentais para o processo: `pandas` e `numpy` para manipulação de dados, e `sqlalchemy` para conexão e operações no banco de dados.

In [1]:
import pandas as pd
import numpy as np
import sqlalchemy
from sqlalchemy import create_engine

## 2. Carregamento e Unificação dos Dados
Leitura dos arquivos CSV contendo os dados do SAMU de 2023, 2024 e 2025. Em seguida, os dataframes são concatenados em um único (`df_unificado`), e são realizadas as conversões iniciais de tipos para as colunas de data, hora e idade.

In [2]:
colunas_nomes = [
    'ID', 'DATA', 'HORA_MINUTO', 'MUNICIPIO', 'BAIRRO',
    'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO',
    'SEXO', 'IDADE', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO'
]


df_2025 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_nomes)

df_2024 = pd.read_csv('../data/samu_2024.csv', header=0, names=colunas_nomes)
df_2023 = pd.read_csv('../data/samu_2023.csv', header=0, names=colunas_nomes)

df_unificado = pd.concat([df_2025, df_2024, df_2023], ignore_index=True)

df_unificado['ID'] = df_unificado.index
df_unificado.set_index('ID', inplace=True)

df_unificado['DATA'] = df_unificado['DATA'].astype(str).str.split('T').str[0]
df_unificado['DATA'] = pd.to_datetime(df_unificado['DATA'], errors='coerce').dt.date

df_unificado['HORA_MINUTO'] = df_unificado['HORA_MINUTO'].astype(str).str.strip().str[:8]
df_unificado['HORA_MINUTO'] = pd.to_datetime(df_unificado['HORA_MINUTO'], format='%H:%M:%S', errors='coerce').dt.time
df_unificado['IDADE'] = pd.to_numeric(df_unificado['IDADE'], errors='coerce')


print(df_unificado[['DATA', 'HORA_MINUTO', 'IDADE']].info())
df_unificado.head()

  df_2025 = pd.read_csv('../data/samu_2025.csv', header=None, names=colunas_nomes)


<class 'pandas.core.frame.DataFrame'>
Index: 539519 entries, 0 to 539518
Data columns (total 3 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   DATA         539519 non-null  object 
 1   HORA_MINUTO  539519 non-null  object 
 2   IDADE        488544 non-null  float64
dtypes: float64(1), object(2)
memory usage: 16.5+ MB
None


Unnamed: 0_level_0,DATA,HORA_MINUTO,MUNICIPIO,BAIRRO,ENDERECO,ORIGEM_CHAMADO,TIPO,SUBTIPO,SEXO,IDADE,MOTIVO_FINALIZACAO,MOTIVO_DESFECHO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,2025-01-01,00:00:45,RECIFE,BOA VISTA,AV DA BOA VISTA,RESIDENCIAL,DROGAS,ALCOOLISMO,MASCULINO,25.0,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO
1,2025-01-01,00:08:03,POMBOS,ALTO DO FRADE,R SARDINHA,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO ENVOLVENDO MOTO,MASCULINO,22.0,,1. OCORRÊNCIA CONCLUÍDA COM ÊXITO
2,2025-01-01,00:08:35,PAULISTA,NOSSA SENHORA DO O,AV CLAUDIO JOSE GUEIROS LEIT NOSSA.SENHORA.DO.O,RESIDENCIAL,CAUSAS EXTERNAS,QUEDA DA PROPRIA ALTURA,FEMININO,45.0,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO
3,2025-01-01,00:17:44,JABOATAO DOS GUARARAPES,MARCOS FREIRE,RUA DOMINGO FERNANDES N,RESIDENCIAL,DROGAS,INTOXICACAO EXOGENA,FEMININO,46.0,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO
4,2025-01-01,00:19:24,IGARASSU,CRUZ DE REBOUCAS,R JOCA RODRIGUES,VIA PÚBLICA,GASTROINTESTINAL,DOR ABDOMINAL,MASCULINO,65.0,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO


## 3. Verificação de Tipos de Dados
Verificação pontual dos tipos de objetos nas colunas `DATA` e `HORA_MINUTO` para garantir que as conversões anteriores funcionaram como esperado.

In [3]:
print("Tipo real na coluna DATA:", type(df_unificado['DATA'].iloc[0]))

print("Tipo real na coluna HORA:", type(df_unificado['HORA_MINUTO'].iloc[0]))

Tipo real na coluna DATA: <class 'datetime.date'>
Tipo real na coluna HORA: <class 'datetime.time'>


## 4. Tratamento de Dados Faltantes: Idade
Preenchimento dos valores nulos na coluna `IDADE` utilizando a mediana dos dados. Após o preenchimento, a coluna é convertida para o tipo inteiro.

In [4]:
mediana_idade = df_unificado['IDADE'].median()

df_unificado['IDADE'].fillna(mediana_idade, inplace=True)
df_unificado['IDADE'] = df_unificado['IDADE'].astype(int)

qtd_nulos = df_unificado['IDADE'].isnull().sum()

print("Quantidade de valores nulos na coluna IDADE após preenchimento:", qtd_nulos)

Quantidade de valores nulos na coluna IDADE após preenchimento: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_unificado['IDADE'].fillna(mediana_idade, inplace=True)


## 5. Tratamento de Nulos: Motivo de Finalização
Substituição dos valores ausentes na coluna `MOTIVO_FINALIZACAO` pelo termo padronizado 'SEM FINALIZAÇÃO'.

In [5]:
df_unificado['MOTIVO_FINALIZACAO'] = df_unificado['MOTIVO_FINALIZACAO'].fillna('SEM FINALIZAÇÃO')

print("Quantidade de nulos após tratamento:", df_unificado['MOTIVO_FINALIZACAO'].isnull().sum())

df_unificado[['MOTIVO_FINALIZACAO']].info()

Quantidade de nulos após tratamento: 0
<class 'pandas.core.frame.DataFrame'>
Index: 539519 entries, 0 to 539518
Data columns (total 1 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   MOTIVO_FINALIZACAO  539519 non-null  object
dtypes: object(1)
memory usage: 8.2+ MB


## 6. Tratamento de Nulos: Endereço e Origem
Preenchimento de valores nulos nas colunas `ENDERECO` e `ORIGEM_CHAMADO` com o termo 'NÃO INFORMADO'.

In [6]:
df_unificado['ENDERECO'] = df_unificado['ENDERECO'].fillna('NÃO INFORMADO')

df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].fillna('NÃO INFORMADO')

print(df_unificado[['ENDERECO', 'ORIGEM_CHAMADO']].isnull().sum())

df_unificado.head()

ENDERECO          0
ORIGEM_CHAMADO    0
dtype: int64


Unnamed: 0_level_0,DATA,HORA_MINUTO,MUNICIPIO,BAIRRO,ENDERECO,ORIGEM_CHAMADO,TIPO,SUBTIPO,SEXO,IDADE,MOTIVO_FINALIZACAO,MOTIVO_DESFECHO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,2025-01-01,00:00:45,RECIFE,BOA VISTA,AV DA BOA VISTA,RESIDENCIAL,DROGAS,ALCOOLISMO,MASCULINO,25,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO
1,2025-01-01,00:08:03,POMBOS,ALTO DO FRADE,R SARDINHA,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO ENVOLVENDO MOTO,MASCULINO,22,SEM FINALIZAÇÃO,1. OCORRÊNCIA CONCLUÍDA COM ÊXITO
2,2025-01-01,00:08:35,PAULISTA,NOSSA SENHORA DO O,AV CLAUDIO JOSE GUEIROS LEIT NOSSA.SENHORA.DO.O,RESIDENCIAL,CAUSAS EXTERNAS,QUEDA DA PROPRIA ALTURA,FEMININO,45,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO
3,2025-01-01,00:17:44,JABOATAO DOS GUARARAPES,MARCOS FREIRE,RUA DOMINGO FERNANDES N,RESIDENCIAL,DROGAS,INTOXICACAO EXOGENA,FEMININO,46,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO
4,2025-01-01,00:19:24,IGARASSU,CRUZ DE REBOUCAS,R JOCA RODRIGUES,VIA PÚBLICA,GASTROINTESTINAL,DOR ABDOMINAL,MASCULINO,65,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO


## 7. Tratamento de Nulos: Demais Colunas Categóricas
Preenchimento massivo de valores nulos nas colunas restantes (`SEXO`, `SUBTIPO`, `TIPO`, `MUNICIPIO`, `BAIRRO`) com 'NÃO INFORMADO', garantindo que não restem campos vazios no dataset.

In [7]:
colunas_restantes = ['SEXO', 'SUBTIPO', 'TIPO', 'MUNICIPIO', 'BAIRRO']

df_unificado[colunas_restantes] = df_unificado[colunas_restantes].fillna('NÃO INFORMADO')

print("Contagem Final de Nulos:")
print(df_unificado.isnull().sum())

df_unificado.info()

Contagem Final de Nulos:
DATA                  0
HORA_MINUTO           0
MUNICIPIO             0
BAIRRO                0
ENDERECO              0
ORIGEM_CHAMADO        0
TIPO                  0
SUBTIPO               0
SEXO                  0
IDADE                 0
MOTIVO_FINALIZACAO    0
MOTIVO_DESFECHO       0
dtype: int64
<class 'pandas.core.frame.DataFrame'>
Index: 539519 entries, 0 to 539518
Data columns (total 12 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   DATA                539519 non-null  object
 1   HORA_MINUTO         539519 non-null  object
 2   MUNICIPIO           539519 non-null  object
 3   BAIRRO              539519 non-null  object
 4   ENDERECO            539519 non-null  object
 5   ORIGEM_CHAMADO      539519 non-null  object
 6   TIPO                539519 non-null  object
 7   SUBTIPO             539519 non-null  object
 8   SEXO                539519 non-null  object
 9   IDADE               5395

## 8. Padronização de Textos
Normalização das colunas de texto: conversão de todas as strings para letras maiúsculas e remoção de espaços em branco no início e fim (strip), facilitando agrupamentos futuros.

In [8]:
colunas_texto = ['MUNICIPIO', 'BAIRRO', 'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO', 'SEXO', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']

for col in colunas_texto:
    df_unificado[col] = df_unificado[col].astype(str).str.upper().str.strip()

## 9. Inspeção de Valores Únicos
Exibição dos valores únicos presentes em cada coluna de texto. Isso ajuda a identificar inconsistências de digitação (ex: 'Recife' vs 'RECIFE') que precisam de limpeza manual.

In [9]:
colunas_texto = ['MUNICIPIO', 'BAIRRO', 'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO', 'SEXO', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']

for col in colunas_texto:
    print(f"\nValores Únicos em {col}")
    valores = sorted(df_unificado[col].unique())
    print(valores)


Valores Únicos em MUNICIPIO
['ABREU E LIMA', 'AGUA PRETA', 'ALIANCA', 'AMARAJI', 'ARACOIABA', 'BARREIROS', 'BELEM DE MARIA', 'BOM JARDIM', 'BUENOS AIRES', 'CABO DE SANTO AGOSTINHO', 'CAMARAGIBE', 'CAMUTANGA', 'CARPINA', 'CASINHAS', 'CATENDE', 'CHA DE ALEGRIA', 'CHA GRANDE', 'CONDADO', 'CORTES', 'CUMARU', 'ESCADA', 'FEIRA NOVA', 'FERNANDO DE NORONHA', 'FERREIROS', 'GAMELEIRA', 'GLORIA DO GOITA', 'GOIANA', 'IGARASSU', 'ILHA DE ITAMARACA', 'IPOJUCA', 'ITAMBE', 'ITAPISSUMA', 'ITAQUITINGA', 'JABOATAO DOS GUARARAPES', 'JAQUEIRA', 'JOAO ALFREDO', 'JOAQUIM NABUCO', 'LAGOA DO CARRO', 'LAGOA DO ITAENGA', 'LAGOA DOS GATOS', 'LIMOEIRO', 'MACAPARANA', 'MACHADOS', 'MARAIAL', 'MORENO', 'NAZARE DA MATA', 'NÃO INFORMADO', 'OLINDA', 'OROBO', 'PALMARES', 'PASSIRA', 'PAUDALHO', 'PAULISTA', 'POMBOS', 'PRIMAVERA', 'QUIPAPA', 'RECIFE', 'RIBEIRAO', 'RIO FORMOSO', 'SALGADINHO', 'SAO BENEDITO DO SUL', 'SAO JOSE DA COROA GRANDE', 'SAO LOURENCO DA MATA', 'SAO VICENTE FERRER', 'SIRINHAEM', 'SURUBIM', 'TAMANDARE',

## 10. Limpeza Avançada: Origem do Chamado
Correção de valores inconsistentes ("sujos") identificados na inspeção anterior na coluna `ORIGEM_CHAMADO`. Substitui termos inválidos por 'NÃO INFORMADO' e padroniza abreviações de estabelecimentos.

In [10]:
valores_para_limpar = [
    '93999830', 'ANI/ALI','JOSELENE', 'JUSELITA', 
    'MARCILIA', 'R MA','RAYSSA', 'R  CELIA','JAGUARIB' ,
    'MONICA', 'AV NORTE', '00', 'MONIQUE', 'CARLOS', 'SANDRO',
    'EDVALDO', 'RECIFE', 'EDIMILSO', 'MARIA', 'MANOEL R', 'TEC ENF',
    'ANTONIO'
]

df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].replace(valores_para_limpar, 'NÃO INFORMADO')

df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].replace('ESTAB PR', 'ESTABELECIMENTO PRIVADO')
df_unificado['ORIGEM_CHAMADO'] = df_unificado['ORIGEM_CHAMADO'].replace('ESTAB PU', 'ESTABELECIMENTO PUBLICO')

## 11. Validação Pós-Limpeza
Verificação simples para confirmar se a quantidade de nulos na coluna `MOTIVO_FINALIZACAO` foi zerada conforme planejado.

In [11]:
nulos_finalizacao = df_unificado['MOTIVO_FINALIZACAO'].isnull().sum()
print("Quantidade de valores nulos na coluna MOTIVO_FINALIZACAO após todas as correções:", nulos_finalizacao)

Quantidade de valores nulos na coluna MOTIVO_FINALIZACAO após todas as correções: 0


## 12. Remoção de Linhas Duplicadas
Eliminação de registros duplicados considerando um subconjunto de colunas chave. Exibe a contagem de linhas antes e depois para controle de qualidade.

In [12]:
colunas_checagem = ['DATA', 'HORA_MINUTO', 'MUNICIPIO', 'BAIRRO', 
    'ENDERECO', 'ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO', 
    'SEXO', 'IDADE', 'MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']


qtd_antes = len(df_unificado)
df_unificado.drop_duplicates(subset=colunas_checagem, keep='first', inplace=True)
qtd_depois = len(df_unificado)

print(f"Linhas antes: {qtd_antes}")
print(f"Linhas depois: {qtd_depois}")

Linhas antes: 539519
Linhas depois: 507376


## 13. Engenharia de Atributos: Turno e Dia da Semana
Criação de novas colunas analíticas:
- `DIA_SEMANA`: Nome do dia em português.
- `TURNO`: Categorização do horário (Manhã, Tarde, Noite, Madrugada).

In [13]:
mapa_dias = {
    'Monday': 'SEGUNDA-FEIRA', 'Tuesday': 'TERCA-FEIRA', 'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA', 'Friday': 'SEXTA-FEIRA', 'Saturday': 'SABADO', 'Sunday': 'DOMINGO'
}

df_unificado['DATA'] = pd.to_datetime(df_unificado['DATA'])
df_unificado['DIA_SEMANA'] = df_unificado['DATA'].dt.day_name().map(mapa_dias)


def definir_turno(hora_minuto):
    try:
        hora = int(str(hora_minuto)[:2])
        
        if 6 <= hora < 12:
            return 'MANHA'
        elif 12 <= hora < 18:
            return 'TARDE'
        elif 18 <= hora <= 23:
            return 'NOITE'
        else:
            return 'MADRUGADA'
    except:
        return 'NAO INFORMADO'

df_unificado['TURNO'] = df_unificado['HORA_MINUTO'].apply(definir_turno)

print("Novas colunas geradas:")
df_unificado[['DATA', 'DIA_SEMANA', 'HORA_MINUTO', 'TURNO']].head()

Novas colunas geradas:


Unnamed: 0_level_0,DATA,DIA_SEMANA,HORA_MINUTO,TURNO
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2025-01-01,QUARTA-FEIRA,00:00:45,MADRUGADA
1,2025-01-01,QUARTA-FEIRA,00:08:03,MADRUGADA
2,2025-01-01,QUARTA-FEIRA,00:08:35,MADRUGADA
3,2025-01-01,QUARTA-FEIRA,00:17:44,MADRUGADA
4,2025-01-01,QUARTA-FEIRA,00:19:24,MADRUGADA


## 14. Engenharia de Atributos: Ano
Extração do ano da data da ocorrência para uma coluna dedicada `ANO_ORIGEM`.

In [14]:
df_unificado['ANO_ORIGEM'] = df_unificado['DATA'].dt.year.astype('Int64')

## 15. Visualização dos Dados Tratados
Exibição das primeiras linhas do dataframe final para conferência antes da carga no banco de dados.

In [15]:
df_unificado.head(10)

Unnamed: 0_level_0,DATA,HORA_MINUTO,MUNICIPIO,BAIRRO,ENDERECO,ORIGEM_CHAMADO,TIPO,SUBTIPO,SEXO,IDADE,MOTIVO_FINALIZACAO,MOTIVO_DESFECHO,DIA_SEMANA,TURNO,ANO_ORIGEM
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
0,2025-01-01,00:00:45,RECIFE,BOA VISTA,AV DA BOA VISTA,RESIDENCIAL,DROGAS,ALCOOLISMO,MASCULINO,25,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
1,2025-01-01,00:08:03,POMBOS,ALTO DO FRADE,R SARDINHA,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO ENVOLVENDO MOTO,MASCULINO,22,SEM FINALIZAÇÃO,1. OCORRÊNCIA CONCLUÍDA COM ÊXITO,QUARTA-FEIRA,MADRUGADA,2025
2,2025-01-01,00:08:35,PAULISTA,NOSSA SENHORA DO O,AV CLAUDIO JOSE GUEIROS LEIT NOSSA.SENHORA.DO.O,RESIDENCIAL,CAUSAS EXTERNAS,QUEDA DA PROPRIA ALTURA,FEMININO,45,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
3,2025-01-01,00:17:44,JABOATAO DOS GUARARAPES,MARCOS FREIRE,RUA DOMINGO FERNANDES N,RESIDENCIAL,DROGAS,INTOXICACAO EXOGENA,FEMININO,46,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
4,2025-01-01,00:19:24,IGARASSU,CRUZ DE REBOUCAS,R JOCA RODRIGUES,VIA PÚBLICA,GASTROINTESTINAL,DOR ABDOMINAL,MASCULINO,65,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
5,2025-01-01,00:20:55,ESCADA,ESCADA CENTRO,BR,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO COM CARROS,MASCULINO,57,REMOVIDO ANTES DO ATENDIMENTO POR PARTICULARES,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
6,2025-01-01,00:21:11,JABOATAO DOS GUARARAPES,PIEDADE,TRAV TERCEIRA DA RUA SUCUPIRA DO NORTE,VIA PÚBLICA,NEUROLOGICA,CONFUSAO MENTAL,MASCULINO,56,SEM FINALIZAÇÃO,1. OCORRÊNCIA CONCLUÍDA COM ÊXITO,QUARTA-FEIRA,MADRUGADA,2025
7,2025-01-01,00:22:49,SIRINHAEM,BARRA DE SIRINHAEM (DISTRITO),COND TOQUINHO,VIA PÚBLICA,GERAIS/OUTROS,OUTROS,MASCULINO,49,DESISTÊNCIA DA SOLICITAÇÃO,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025
9,2025-01-01,00:26:51,RECIFE,CORDEIRO,ESTRADA FORTE DO ARRAIAL BOM JESUS,VIA PÚBLICA,CAUSAS EXTERNAS,ACIDENTE DE TRANSITO ENVOLVENDO MOTO,NÃO INFORMADO,49,SEM FINALIZAÇÃO,3. SOLICITAÇÃO DUPLICADA,QUARTA-FEIRA,MADRUGADA,2025
10,2025-01-01,00:26:55,RECIFE,TORROES,AVENIDA ARRAIAL DO BOM JESUS,VIA PÚBLICA,CAUSAS EXTERNAS,OUTROS,MASCULINO,49,SOLICITAÇÃO DUPLICADA,SEM DESFECHO,QUARTA-FEIRA,MADRUGADA,2025


## 16. Carga no Data Warehouse (ETL)
Etapa final do processo:
1. Conecta ao banco PostgreSQL.
2. Limpa as tabelas existentes no esquema `dw_etl`.
3. Cria e carrega as tabelas dimensão (`dim_localidade`, `dim_ocorrencia`, `dim_situacao`, `dim_paciente`, `dim_tempo`).
4. Prepara a tabela fato (`fato_atendimentos`) realizando os *joins* necessários para obter as chaves estrangeiras (IDs).
5. Carrega a tabela fato no banco de dados.

In [16]:
# Carga final no data warehouse do etl no esquema dw_etl
import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text

# Configuracao da conexao
DB_STRING = "postgresql://postgres:admin123@localhost:5432/postgres"
engine = create_engine(DB_STRING)

print("Iniciando carga no esquema dw_etl...")

# Limpeza das tabelas do esquema dw_etl antes de carregar
with engine.connect() as conn:
    conn.execute(text("TRUNCATE TABLE dw_etl.fato_atendimentos CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_localidade CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_ocorrencia CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_situacao CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_paciente CASCADE;"))
    conn.execute(text("TRUNCATE TABLE dw_etl.dim_tempo CASCADE;"))
    conn.commit()

# Carga da dimensao localidade
print("Carregando Dimensão Localidade...")
dim_local = df_unificado[['MUNICIPIO', 'BAIRRO']].drop_duplicates().sort_values(['MUNICIPIO', 'BAIRRO']).reset_index(drop=True)
dim_local['id_local'] = dim_local.index + 1
# Renomeia para minusculo para bater com o banco
dim_local = dim_local.rename(columns={'MUNICIPIO': 'municipio', 'BAIRRO': 'bairro'})
dim_local.to_sql('dim_localidade', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao ocorrencia
print("Carregando Dimensão Ocorrência...")
dim_ocorrencia = df_unificado[['ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO']].drop_duplicates().sort_values(['TIPO', 'SUBTIPO']).reset_index(drop=True)
dim_ocorrencia['id_ocorrencia'] = dim_ocorrencia.index + 1
# Renomeia para minusculo
dim_ocorrencia = dim_ocorrencia.rename(columns={'ORIGEM_CHAMADO': 'origem_chamado', 'TIPO': 'tipo', 'SUBTIPO': 'subtipo'})
dim_ocorrencia.to_sql('dim_ocorrencia', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao situacao
print("Carregando Dimensão Situação...")
dim_situacao = df_unificado[['MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO']].drop_duplicates().reset_index(drop=True)
dim_situacao['id_situacao'] = dim_situacao.index + 1
# Renomeia para minusculo
dim_situacao = dim_situacao.rename(columns={'MOTIVO_FINALIZACAO': 'motivo_finalizacao', 'MOTIVO_DESFECHO': 'motivo_desfecho'})
dim_situacao.to_sql('dim_situacao', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao paciente
print("Carregando Dimensão Paciente...")
# Cria dataframe temporario
df_paciente_temp = df_unificado[['SEXO', 'IDADE']].copy()
bins = [-1, 12, 18, 59, 200]
labels = ['CRIANCA', 'ADOLESCENTE', 'ADULTO', 'IDOSO']
df_paciente_temp['faixa_etaria'] = pd.cut(df_paciente_temp['IDADE'], bins=bins, labels=labels).astype(str)

# Remove duplicatas
dim_paciente = df_paciente_temp[['SEXO', 'faixa_etaria']].drop_duplicates().sort_values(['SEXO']).reset_index(drop=True)
dim_paciente['id_paciente'] = dim_paciente.index + 1
# Renomeia para minusculo (SEXO virou sexo)
dim_paciente = dim_paciente.rename(columns={'SEXO': 'sexo'})
dim_paciente.to_sql('dim_paciente', engine, schema='dw_etl', if_exists='append', index=False)

# Carga da dimensao tempo
print("Carregando Dimensão Tempo...")
datas_unicas = pd.DataFrame({'data_completa': df_unificado['DATA'].unique()})
# Converte para datetime
datas_unicas['data_completa'] = pd.to_datetime(datas_unicas['data_completa'])

datas_unicas['ano'] = datas_unicas['data_completa'].dt.year
datas_unicas['mes'] = datas_unicas['data_completa'].dt.month
datas_unicas['dia'] = datas_unicas['data_completa'].dt.day
mapa_dias = {0:'SEGUNDA-FEIRA', 1:'TERCA-FEIRA', 2:'QUARTA-FEIRA', 3:'QUINTA-FEIRA', 4:'SEXTA-FEIRA', 5:'SABADO', 6:'DOMINGO'}
datas_unicas['dia_semana'] = datas_unicas['data_completa'].dt.dayofweek.map(mapa_dias)
datas_unicas['trimestre'] = datas_unicas['data_completa'].dt.quarter
datas_unicas['semestre'] = np.where(datas_unicas['mes'] <= 6, 1, 2)

dim_tempo = datas_unicas.sort_values('data_completa').reset_index(drop=True)
dim_tempo['id_tempo'] = dim_tempo.index + 1
# Converte para date
dim_tempo['data_completa'] = dim_tempo['data_completa'].dt.date
dim_tempo.to_sql('dim_tempo', engine, schema='dw_etl', if_exists='append', index=False)

# Montagem e carga da tabela fato
print("Montando e Carregando Tabela Fato...")
df_fato = df_unificado.copy()

# Recalcula faixa etaria na fato
df_fato['faixa_etaria'] = pd.cut(df_fato['IDADE'], bins=bins, labels=labels).astype(str)

# Garante datetime para o merge
df_fato['DATA'] = pd.to_datetime(df_fato['DATA'])

# Merges usando as colunas originais maiusculas do df_fato
df_fato = df_fato.merge(dim_local, left_on=['MUNICIPIO', 'BAIRRO'], right_on=['municipio', 'bairro'], how='left')
df_fato = df_fato.merge(dim_ocorrencia, left_on=['ORIGEM_CHAMADO', 'TIPO', 'SUBTIPO'], right_on=['origem_chamado', 'tipo', 'subtipo'], how='left')
df_fato = df_fato.merge(dim_situacao, left_on=['MOTIVO_FINALIZACAO', 'MOTIVO_DESFECHO'], right_on=['motivo_finalizacao', 'motivo_desfecho'], how='left')
df_fato = df_fato.merge(dim_paciente, left_on=['SEXO', 'faixa_etaria'], right_on=['sexo', 'faixa_etaria'], how='left')

# Merge com tempo
df_fato['data_join'] = df_fato['DATA'].dt.date
df_fato = df_fato.merge(dim_tempo, left_on='data_join', right_on='data_completa', how='left')

# Selecao das colunas finais
df_fato_final = pd.DataFrame()
df_fato_final['fk_local'] = df_fato['id_local']
df_fato_final['fk_ocorrencia'] = df_fato['id_ocorrencia']
df_fato_final['fk_situacao'] = df_fato['id_situacao']
df_fato_final['fk_paciente'] = df_fato['id_paciente']
df_fato_final['fk_tempo'] = df_fato['id_tempo']
df_fato_final['hora_exata'] = df_fato['HORA_MINUTO']
df_fato_final['idade_paciente'] = df_fato['IDADE']
df_fato_final['qtd_atendimentos'] = 1

# Carga em lotes
df_fato_final.to_sql('fato_atendimentos', engine, schema='dw_etl', if_exists='append', index=False, chunksize=2000)

print("Carga ETL concluída no esquema dw_etl!")

Iniciando carga no esquema dw_etl...
Carregando Dimensão Localidade...
Carregando Dimensão Ocorrência...
Carregando Dimensão Situação...
Carregando Dimensão Paciente...
Carregando Dimensão Tempo...
Montando e Carregando Tabela Fato...
Carga ETL concluída no esquema dw_etl!
