# Implementação 1: Toy Example

Esse notebook apresenta a primeira implementação do Toy Example proposto.
Sua proposta segue os seguintes objetivos:
* A implementação não seguirá padrões sugeridos nos campos das dimensões da IAR.
* Esse notebook servirá de checagem para análise da eficiência e corretude da checklist proposta pelo NIAR.

## Processamento dos dados

Os dados são de origem do Datasus, contendo informações das internações nos períodos de 2022 à novembro de 2025 (dados mais recentes quando feito esse Toy Example).

Devido ao tamanho dos dados brutos, não se encontram na página do Github. No entanto, a tabela final (após todo o pré processamento) se encontra em "Tabela_lag_final.zip". Apenas essa tabela é necessária para a execução do notebook. Para tal, descomprima o arquivo zip e coloque o arquivo "Tabela_lag_final.csv" (o único arquivo csv) dentro do diretório "SIH_Dados/".

O download dos dados foi feito por conexão ftp com o servidor disponibilizado pelo datasus: ftp.datasus.gov.br. Especificamente, os dados se encontram no diretório "/dissemin/publicos/SIHSUS/200801_/Dados/". Foram usados todos os arquivos que começam com "RD" e contém "22", "23", "24", "25", no quinto e sexto caractére (quando escrito esse notebook, exclui-se os dados de dezembro de 2025 e os dados de novembro de 2025 dos estados "AC" e "RR", pois não foram divulgados ainda).

A fim de evitar refazer grandes cálculos toda vez que esse notebook é executado, o processamento dos dados - filtragem de colunas de interesse e cálculo de novas colunas - foi feito previamente. No diretório SIH_Dados, encontram-se os scripts usados para cada etapa do processamento:
* dbc_dbf.py e dbf_csv.py: Transformam os arquivos de dados do formato dbc para dbf e dbf para csv, respectivamente.
* filtrar.py: Lê os arquivos csv, filtram as colunas (e o "target" de interesse, DIAG_PRIN = "J...") e salvam em novos csv.
* tabelacao_agregado.py: Lê os novos arquivos csv, e calcula os valores agregados dos dados, agrupando-os por mes/ano e hospital. A tabela resultante é salva em "Tabela_Agregada.csv".
* tabelacao_lag_final.py: Lê a tabelacao do passo anterior e calcula as variaveis "lag", usadas no modelo para predicao. A tabela, com todos os atributos que serão usados para o modelo final, é salva em um último csv: "Tabela_lag_Final.csv".

O intuito de separar cada processo em seu próprio script é devido a robustez contra a possibilidade de erros ou mudanças, permitindo que alterações sejam feitas sem a necessidade de recomeçar o processo do zero. Além disso, cada script demora vários minutos, alguns até passando de uma hora, para terminar. Juntar todos os scripts em um resultaria em um programa que terminaria após várias horas.

### Etapa 1: Inicialização
Import's usados, e leitura dos dados 

In [7]:
import pandas as pd
import numpy as np
import lightgbm as lgb
import sklearn as sk
import statsmodels.discrete.discrete_model as sm
from sklearn.metrics import mean_absolute_error, mean_squared_error


df = pd.read_csv("./SIH_Dados/Tabela_lag_Final.csv")

### Etapa 2: Limpagem e separação dos dados
Retirada de linhas com dados nulos e separação dos dados de treinamento, validação e teste.

In [8]:
df.dropna(inplace=True)


X_Train = df[(df.year >= 2022) & (df.year <= 2024)]
X_Train = X_Train[(X_Train.year < 2024) | (X_Train.month <= 6)].reset_index(drop=True)
Y_Train = X_Train["J_count"]
X_Train.drop(columns="J_count", inplace=True)

X_Valid = df[(df.year == 2024) & (df.month >= 7)].reset_index(drop=True)
Y_Valid = X_Valid["J_count"]
X_Valid.drop(columns="J_count", inplace=True)

X_Test = df[df.year == 2025].reset_index(drop=True)
Y_Test = X_Test["J_count"]
X_Test.drop(columns="J_count", inplace=True)


### Etapa 3: Modelo Base
Testes usando modelo de Regressão Binomial Negativa, implementada pelo statsmodels

In [9]:

# Retirada de colunas com valor único
# X_Train.drop(columns=[c for c in X_Train.columns if X_Train[c].nunique() == 1], inplace=True)

model = sm.NegativeBinomial(Y_Train, X_Train)
res = model.fit()
print(res.summary())

val_resul = model.predict(params=res.params, exog=X_Valid)
test_resul = model.predict(params=res.params, exog=X_Test)

print(val_resul)
print(test_resul)

LinAlgError: Singular matrix

### Etapa 4: Modelo LightGBM

Testes usando modelo com objetivo Poisson, implementada pelo lightgbm

In [None]:
seed = 778

lgb_train = lgb.Dataset(X_Train, Y_Train)
lgb_valid = lgb.Dataset(X_Valid, Y_Valid)



model = lgb.train(params={"objective": "poisson"}, train_set=lgb_train, valid_sets=lgb_valid, callbacks=[lgb.early_stopping(stopping_rounds=5)])

res_pred = model.predict(X_Test, num_iteration=model.best_iteration)
print(len(res_pred))

### Etapa 5: Métricas

Comparação dos resultados de cada modelo

In [None]:
df_resultados = X_Test[["month", "CNES"]]
df_resultados["year"] = 2025
df_resultados = df_resultados[["year", "month", "CNES"]]
df_resultados["Valor Real"] = Y_Test
df_resultados["Base results"] = test_resul
df_resultados["LightGBM results"] = res_pred

# TEMPORARIO ==============
test_resul = np.nan_to_num(test_resul, nan=0, copy=True)
print(test_resul)

base_mae = mean_absolute_error(y_true=Y_Test, y_pred=test_resul)
lgb_mae = mean_absolute_error(y_true=Y_Test, y_pred=res_pred)


base_rmse = mean_squared_error(y_true=Y_Test, y_pred=test_resul)
lgb_rmse = mean_squared_error(y_true=Y_Test, y_pred=res_pred)

def smape(y_true, y_pred):
    return 100 * np.mean(2 * np.abs(y_pred - y_true) / (np.abs(y_true) + np.abs(y_pred)))

base_smape = smape(y_true=Y_Test, y_pred=test_resul)
lgb_smape = smape(y_true=Y_Test, y_pred=res_pred)

print(df_resultados)
print("------------------------------ RESULTADOS GLOBAIS ------------------------------")
print("\t\t\t|\t\t\t\t|")
print("\tMetrica\t\t|\t\tBase\t\t|\tLightGBM")
print("------------------------+-------------------------------+-----------------------")
print("MAE\t\t\t|", base_mae, "\t\t|", lgb_mae)
print("\t\t\t|\t\t\t\t|")
print("RMSE\t\t\t|", base_rmse, "\t\t|", lgb_rmse)
print("\t\t\t|\t\t\t\t|")
print("SMAPE\t\t\t|", base_smape, "\t\t\t|", lgb_smape)
print("\t\t\t|\t\t\t\t|")

