In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report




In [7]:
df = pd.read_parquet('dataset_renomeado.parquet')


In [8]:

df = df[['ventilado_apache','tipo_estadia_uti', 'd1_frequencia_cardiaca_maxima',
         'd1_frequencia_cardiaca_minima', 'h1_frequencia_respiratoria_maxima',
         'd1_spO2_minimo','d1_spO2_maximo','d1_temperatura_minima','d1_temperatura_maxima',
         'h1_frequencia_respiratoria_minima',
          'morte_hospital']]
df = df.dropna()


one_hot_encoded = pd.get_dummies(df['tipo_estadia_uti'])
df = pd.concat([df, one_hot_encoded], axis=1)


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 84724 entries, 0 to 91712
Data columns (total 14 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   ventilado_apache                   84724 non-null  float64
 1   tipo_estadia_uti                   84724 non-null  object 
 2   d1_frequencia_cardiaca_maxima      84724 non-null  float64
 3   d1_frequencia_cardiaca_minima      84724 non-null  float64
 4   h1_frequencia_respiratoria_maxima  84724 non-null  float64
 5   d1_spO2_minimo                     84724 non-null  float64
 6   d1_spO2_maximo                     84724 non-null  float64
 7   d1_temperatura_minima              84724 non-null  float64
 8   d1_temperatura_maxima              84724 non-null  float64
 9   h1_frequencia_respiratoria_minima  84724 non-null  float64
 10  morte_hospital                     84724 non-null  int64  
 11  admit                              84724 non-null  uin

In [10]:
def categorizar_fc_maxima(fc):
    if fc < 60:
        return 'primeiras_24_horas_frequencia_cardiaca_maxima_muito_baixa'
    elif 60 <= fc < 70:
        return 'primeiras_24_horas_frequencia_cardiaca_maxima_baixa'
    elif 70 <= fc < 100:
        return 'primeiras_24_horas_frequencia_cardiaca_maxima_normal'
    elif 100 <= fc < 120:
        return 'primeiras_24_horas_frequencia_cardiaca_maxima_elevada'
    else:
        return 'primeiras_24_horas_frequencia_cardiaca_maxima_muito_elevada'

df['categoria_fc_maxima'] = df['d1_frequencia_cardiaca_maxima'].apply(categorizar_fc_maxima)

one_hot_encoded = pd.get_dummies(df['categoria_fc_maxima'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_fc_maxima', axis=1)

In [11]:
def categorizar_fr(fr):
    if fr < 12:
        return 'primeira_hora_frequencia_respiratoria_maxima_muito_baixa'
    elif 12 <= fr < 16:
        return 'primeira_hora_frequencia_respiratoria_maxima_baixa'
    elif 16 <= fr < 20:
        return 'primeira_hora_frequencia_respiratoria_maxima_normal'
    elif 20 <= fr < 24:
        return 'primeira_hora_frequencia_respiratoria_maxima_elevada'
    else:
        return 'primeira_hora_frequencia_respiratoria_maxima_muito elevada'

df['categoria_frequencia_respiratoria_maxima'] = df['h1_frequencia_respiratoria_maxima'].apply(categorizar_fr)

one_hot_encoded = pd.get_dummies(df['categoria_frequencia_respiratoria_maxima'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_frequencia_respiratoria_maxima', axis=1)



In [12]:
def categorizar_fr(fr):
    if fr < 12:
        return 'primeira_hora_frequencia_respiratoria_minima_muito_baixa'
    elif 12 <= fr < 16:
        return 'primeira_hora_frequencia_respiratoria_minima_baixa'
    elif 16 <= fr < 20:
        return 'primeira_hora_frequencia_respiratoria_minima_normal'
    elif 20 <= fr < 24:
        return 'primeira_hora_frequencia_respiratoria_minima_elevada'
    else:
        return 'primeira_hora_frequencia_respiratoria_minima_muito elevada'

df['categoria_frequencia_respiratoria_minima'] = df['h1_frequencia_respiratoria_minima'].apply(categorizar_fr)

one_hot_encoded = pd.get_dummies(df['categoria_frequencia_respiratoria_minima'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_frequencia_respiratoria_minima', axis=1)


In [13]:
df = df[~((df['d1_spO2_minimo'] <= 20))]

def categorize_saturacao(sat):
    if sat < 85:
        return 'saturacao_primieras_vinte_quatro_horas_minima_muito_baixa'
    elif sat < 90:
        return 'saturacao_primieras_vinte_quatro_horas_minima_baixa'
    elif sat < 95:
        return 'saturacao_primieras_vinte_quatro_horas_minima_moderada'
    elif sat < 100:
        return 'saturacao_primieras_vinte_quatro_horas_minima_boa'


df['categoria_d1_spO2_minimo'] = df['d1_spO2_minimo'].apply(categorizar_fr)

one_hot_encoded = pd.get_dummies(df['categoria_d1_spO2_minimo'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_d1_spO2_minimo', axis=1)

In [14]:
# apaga linhas com 
df = df[~((df['d1_spO2_maximo'] <= 20))]

def categorize_saturacao(sat):
    if sat < 85:
        return 'saturacao_primieras_vinte_quatro_horas_maxima_muito_baixa'
    elif sat < 90:
        return 'saturacao_primieras_vinte_quatro_horas_maxima_baixa'
    elif sat < 95:
        return 'saturacao_primieras_vinte_quatro_horas_maxima_moderada'
    elif sat < 100:
        return 'saturacao_primieras_vinte_quatro_horas_maxima_boa'


df['categoria_d1_spO2_maxima'] = df['d1_spO2_maximo'].apply(categorizar_fr)

one_hot_encoded = pd.get_dummies(df['categoria_d1_spO2_maxima'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_d1_spO2_maxima', axis=1)

In [15]:
def categorize_temperatura(temp):
    if temp < 35:
        return 'temperatura_minima_primieras_vinte_quatro_horas_hipotermia'
    if temp < 37:
        return 'temperatura_minima_primieras_vinte_quatro_horas_normal'
    if temp >= 37:
        return 'temperatura_minima_primieras_vinte_quatro_horas_febre'

df['categoria_d1_temperatura_minima'] = df['d1_temperatura_minima'].apply(categorize_temperatura)

one_hot_encoded = pd.get_dummies(df['categoria_d1_temperatura_minima'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_d1_temperatura_minima', axis=1)


In [16]:

def categorize_temperatura(temp_max):
    if temp_max < 35:
        return 'temperatura_minima_primieras_vinte_quatro_horas_hipotermia'
    if temp_max < 37:
        return 'temperatura_minima_primieras_vinte_quatro_horas_normal'
    if temp_max >= 37:
        return 'temperatura_minima_primieras_vinte_quatro_horas_febre'

df['categoria_d1_temperatura_minima'] = df['d1_temperatura_maxima'].apply(categorize_temperatura)

one_hot_encoded = pd.get_dummies(df['categoria_d1_temperatura_minima'])

df = pd.concat([df, one_hot_encoded], axis=1)

df = df.drop('categoria_d1_temperatura_minima', axis=1)


In [17]:
df = df.drop(['d1_frequencia_cardiaca_maxima',
       'd1_frequencia_cardiaca_minima', 'h1_frequencia_respiratoria_maxima',
       'd1_spO2_minimo','d1_spO2_maximo','d1_temperatura_minima','tipo_estadia_uti','h1_frequencia_respiratoria_minima'], axis=1)

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 84314 entries, 0 to 91712
Data columns (total 29 columns):
 #   Column                                                       Non-Null Count  Dtype  
---  ------                                                       --------------  -----  
 0   ventilado_apache                                             84314 non-null  float64
 1   d1_temperatura_maxima                                        84314 non-null  float64
 2   morte_hospital                                               84314 non-null  int64  
 3   admit                                                        84314 non-null  uint8  
 4   readmit                                                      84314 non-null  uint8  
 5   transfer                                                     84314 non-null  uint8  
 6   primeiras_24_horas_frequencia_cardiaca_maxima_baixa          84314 non-null  uint8  
 7   primeiras_24_horas_frequencia_cardiaca_maxima_elevada        84314 non-null 

In [29]:
from sklearn.ensemble import GradientBoostingClassifier
from imblearn.combine import SMOTEENN
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report


y = df['morte_hospital']
X = df.drop(['morte_hospital'], axis=1)

smoteenn = SMOTEENN(random_state=42)

X_resampled, y_resampled = smoteenn.fit_resample(X, y)

X_train, X_test, y_train, y_test = train_test_split(X_resampled, y_resampled, test_size=0.33, random_state=42)

clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)
clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Acurácia do modelo:", accuracy)


confusion = confusion_matrix(y_test, y_pred)
print("Matriz de Confusão:\n", confusion)


report = classification_report(y_test, y_pred)
print("Relatório de Classificação:\n", report)



Acurácia do modelo: 0.8984255481896991
Matriz de Confusão:
 [[19710   967]
 [ 2220  8479]]
Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.90      0.95      0.93     20677
           1       0.90      0.79      0.84     10699

    accuracy                           0.90     31376
   macro avg       0.90      0.87      0.88     31376
weighted avg       0.90      0.90      0.90     31376



In [28]:
feature_importances = clf.feature_importances_
print("Importância das Características:")
for feature, importance in zip(X.columns, feature_importances):
    print(f"{feature}: {importance:.4f}")


Importância das Características:
ventilado_apache: 0.4476
d1_temperatura_maxima: 0.3406
admit: 0.0028
readmit: 0.0024
transfer: 0.0050
primeiras_24_horas_frequencia_cardiaca_maxima_baixa: 0.0001
primeiras_24_horas_frequencia_cardiaca_maxima_elevada: 0.0013
primeiras_24_horas_frequencia_cardiaca_maxima_muito_baixa: 0.0002
primeiras_24_horas_frequencia_cardiaca_maxima_muito_elevada: 0.0273
primeiras_24_horas_frequencia_cardiaca_maxima_normal: 0.0182
primeira_hora_frequencia_respiratoria_maxima_baixa: 0.0037
primeira_hora_frequencia_respiratoria_maxima_elevada: 0.0022
primeira_hora_frequencia_respiratoria_maxima_muito elevada: 0.0132
primeira_hora_frequencia_respiratoria_maxima_muito_baixa: 0.0007
primeira_hora_frequencia_respiratoria_maxima_normal: 0.0001
primeira_hora_frequencia_respiratoria_minima_baixa: 0.0002
primeira_hora_frequencia_respiratoria_minima_elevada: 0.0027
primeira_hora_frequencia_respiratoria_minima_muito elevada: 0.0005
primeira_hora_frequencia_respiratoria_minima_muit