# Bibliotecas

In [196]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Importando os dados

#### https://www.kaggle.com/datasets/meirnizri/covid19-dataset

In [197]:
data = pd.read_csv('Covid Data.csv')

In [198]:
data.columns

Index(['USMER', 'MEDICAL_UNIT', 'SEX', 'PATIENT_TYPE', 'DATE_DIED', 'INTUBED',
       'PNEUMONIA', 'AGE', 'PREGNANT', 'DIABETES', 'COPD', 'ASTHMA', 'INMSUPR',
       'HIPERTENSION', 'OTHER_DISEASE', 'CARDIOVASCULAR', 'OBESITY',
       'RENAL_CHRONIC', 'TOBACCO', 'CLASIFFICATION_FINAL', 'ICU'],
      dtype='object')

In [199]:
data = data.rename(columns = {'CLASIFFICATION_FINAL': 'CLASSIFICATION_FINAL'})

In [200]:
data.head(6)

Unnamed: 0,USMER,MEDICAL_UNIT,SEX,PATIENT_TYPE,DATE_DIED,INTUBED,PNEUMONIA,AGE,PREGNANT,DIABETES,...,ASTHMA,INMSUPR,HIPERTENSION,OTHER_DISEASE,CARDIOVASCULAR,OBESITY,RENAL_CHRONIC,TOBACCO,CLASSIFICATION_FINAL,ICU
0,2,1,1,1,03/05/2020,97,1,65,2,2,...,2,2,1,2,2,2,2,2,3,97
1,2,1,2,1,03/06/2020,97,1,72,97,2,...,2,2,1,2,2,1,1,2,5,97
2,2,1,2,2,09/06/2020,1,2,55,97,1,...,2,2,2,2,2,2,2,2,3,2
3,2,1,1,1,12/06/2020,97,2,53,2,2,...,2,2,2,2,2,2,2,2,7,97
4,2,1,2,1,21/06/2020,97,2,68,97,1,...,2,2,1,2,2,2,2,2,3,97
5,2,1,1,2,9999-99-99,2,1,40,2,2,...,2,2,2,2,2,2,2,2,3,2


In [201]:
data.describe()

Unnamed: 0,USMER,MEDICAL_UNIT,SEX,PATIENT_TYPE,INTUBED,PNEUMONIA,AGE,PREGNANT,DIABETES,COPD,ASTHMA,INMSUPR,HIPERTENSION,OTHER_DISEASE,CARDIOVASCULAR,OBESITY,RENAL_CHRONIC,TOBACCO,CLASSIFICATION_FINAL,ICU
count,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0,1048575.0
mean,1.632194,8.980565,1.499259,1.190765,79.52288,3.346831,41.7941,49.76558,2.186404,2.260569,2.242626,2.298132,2.128989,2.435143,2.26181,2.125176,2.25718,2.214333,5.305653,79.55397
std,0.4822084,3.723278,0.4999997,0.3929041,36.86889,11.91288,16.90739,47.51073,5.424242,5.132258,5.114089,5.462843,5.236397,6.646676,5.19485,5.175445,5.135354,5.323097,1.881165,36.82307
min,1.0,1.0,1.0,1.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
25%,1.0,4.0,1.0,1.0,97.0,2.0,30.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,3.0,97.0
50%,2.0,12.0,1.0,1.0,97.0,2.0,40.0,97.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,6.0,97.0
75%,2.0,12.0,2.0,1.0,97.0,2.0,53.0,97.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,2.0,7.0,97.0
max,2.0,13.0,2.0,2.0,99.0,99.0,121.0,98.0,98.0,98.0,98.0,98.0,98.0,98.0,98.0,98.0,98.0,98.0,7.0,99.0


# Pré-Processamento

Os valores 97, 98 e 99 são dados faltantes, segundo a página do Kaggle de onde os dados foram retirados. Ainda, as features booleanas estão indicadas com 1 para 'Sim' e 2 para 'Não', e, se a DATE_DIED for '9999-99-99', a pessoa não faleceu. Outro fato é que valores maiores que 4 em 'CLASSIFICATION FINAL' indicam ou que o paciente não possui covid ou que o teste foi inconclusivo.

Vamos fazer as seguintes transformações com base nessas informações:

- Criar a coluna DIED para indicar se a pessoa morreu ou não com base na presença de data de óbito.

- Criar colunas de booleanos indicando se há ou não os valores de variáveis que possuem valores faltantes (casos em que há 97, 98 ou 99 na coluna, por exemplo).

- Para todas as linhas em que 'SEX' for 2 (homem), trocar 'PREGNANT' por 0.

- Trocar os valores 'mágicos' das colunas de booleanos para o valor mais comum na coluna.

- Tratamento da feature 'CLASSIFICATION_FINAL'.

- Scaling em todas as features e embaralhar os dados.

In [202]:
boolean_features = ['PNEUMONIA', 'PREGNANT', 'DIABETES', 'COPD', 'ASTHMA', 'INMSUPR', 'HIPERTENSION',
                   'CARDIOVASCULAR', 'RENAL_CHRONIC', 'OTHER_DISEASE', 'OBESITY', 'TOBACCO',
                   'INTUBED', 'ICU']

In [203]:
data[boolean_features].head()

Unnamed: 0,PNEUMONIA,PREGNANT,DIABETES,COPD,ASTHMA,INMSUPR,HIPERTENSION,CARDIOVASCULAR,RENAL_CHRONIC,OTHER_DISEASE,OBESITY,TOBACCO,INTUBED,ICU
0,1,2,2,2,2,2,1,2,2,2,2,2,97,97
1,1,97,2,2,2,2,1,2,1,2,1,2,97,97
2,2,97,1,2,2,2,2,2,2,2,2,2,1,2
3,2,2,2,2,2,2,2,2,2,2,2,2,97,97
4,2,97,1,2,2,2,1,2,2,2,2,2,97,97


#### Criar a coluna DIED para indicar se a pessoa morreu ou não com base na presença de data de falecimento

In [204]:
data1 = data.copy()
data1.loc[data1['DATE_DIED'] == '9999-99-99', 'DIED'] = 2
data1.loc[data1['DATE_DIED'] != '9999-99-99', 'DIED'] = 1

In [205]:
data1[['DATE_DIED', 'DIED']].head(6)

Unnamed: 0,DATE_DIED,DIED
0,03/05/2020,1.0
1,03/06/2020,1.0
2,09/06/2020,1.0
3,12/06/2020,1.0
4,21/06/2020,1.0
5,9999-99-99,2.0


In [206]:
label = 'DIED'

Retirando a coluna 'DATE_DIED':

In [207]:
data1.drop(columns = ['DATE_DIED'], inplace = True)

#### Criar colunas de booleanos indicando se há ou não os valores de variáveis que possuem valores faltantes (casos em que há valores diferentes de 1 ou 2)

In [208]:
not_boolean_features = list(set(data1.columns).difference(boolean_features))

In [209]:
len(boolean_features) + len(not_boolean_features) == len(data1.columns)

True

In [210]:
for feature in not_boolean_features:
    print(data1[feature].value_counts())

7    499250
3    381527
6    128133
5     26091
1      8601
4      3122
2      1851
Name: CLASSIFICATION_FINAL, dtype: int64
1    525064
2    523511
Name: SEX, dtype: int64
2    662903
1    385672
Name: USMER, dtype: int64
30     27010
31     25927
28     25313
29     25134
34     24872
       ...  
114        2
116        2
111        1
121        1
113        1
Name: AGE, Length: 121, dtype: int64
2.0    971633
1.0     76942
Name: DIED, dtype: int64
1    848544
2    200031
Name: PATIENT_TYPE, dtype: int64
12    602995
4     314405
6      40584
9      38116
3      19175
8      10399
10      7873
5       7244
11      5577
13       996
7        891
2        169
1        151
Name: MEDICAL_UNIT, dtype: int64


Com o resultado acima, vemos que somente as features booleanas possuem a característica de que valores entre 97 e 99 indicam valores faltantes. Assim, podemos realizar o processo de Imputation + criação de coluna booleana somente nas features booleanas. E de fato, é o que faz sentido: as características do paciente elencadas nas variáveis não booleanas deverão ser adquiridas na maioria das vezes, pois são de mais fácil conhecimento.

Logo, vamos fazer:

In [211]:
data2 = data1.copy()
for feature in boolean_features:
    data2.loc[data2[feature] < 3, f'is_{feature}_defined'] = 1
    data2.loc[data2[feature] >= 3, f'is_{feature}_defined'] = 2

In [212]:
data2.head()

Unnamed: 0,USMER,MEDICAL_UNIT,SEX,PATIENT_TYPE,INTUBED,PNEUMONIA,AGE,PREGNANT,DIABETES,COPD,...,is_ASTHMA_defined,is_INMSUPR_defined,is_HIPERTENSION_defined,is_CARDIOVASCULAR_defined,is_RENAL_CHRONIC_defined,is_OTHER_DISEASE_defined,is_OBESITY_defined,is_TOBACCO_defined,is_INTUBED_defined,is_ICU_defined
0,2,1,1,1,97,1,65,2,2,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0
1,2,1,2,1,97,1,72,97,2,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0
2,2,1,2,2,1,2,55,97,1,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
3,2,1,1,1,97,2,53,2,2,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0
4,2,1,2,1,97,2,68,97,1,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0


#### Para todas as linhas em que 'SEX' for 2 (homem), trocar 'PREGNANT' por 0

In [213]:
data2['PREGNANT'].value_counts()

97    523511
2     513179
1       8131
98      3754
Name: PREGNANT, dtype: int64

In [214]:
data2['SEX'].value_counts()

1    525064
2    523511
Name: SEX, dtype: int64

Note então que 97 indica 'PREGNANT' indefinido, que é o caso dos homens. Enquanto isso, 98 indica que não temos essa informação para as mulheres.

In [215]:
data3 = data2.copy()
data3.loc[data3['SEX'] == 2, 'PREGNANT'] = 0

In [216]:
data3['PREGNANT'].value_counts()

0     523511
2     513179
1       8131
98      3754
Name: PREGNANT, dtype: int64

#### Trocar os valores 'mágicos' das colunas de booleanos para o valor mais comum na coluna.

In [217]:
boolean_features

['PNEUMONIA',
 'PREGNANT',
 'DIABETES',
 'COPD',
 'ASTHMA',
 'INMSUPR',
 'HIPERTENSION',
 'CARDIOVASCULAR',
 'RENAL_CHRONIC',
 'OTHER_DISEASE',
 'OBESITY',
 'TOBACCO',
 'INTUBED',
 'ICU']

In [218]:
# Valor mais comum de cada coluna
data3[boolean_features].mode()

Unnamed: 0,PNEUMONIA,PREGNANT,DIABETES,COPD,ASTHMA,INMSUPR,HIPERTENSION,CARDIOVASCULAR,RENAL_CHRONIC,OTHER_DISEASE,OBESITY,TOBACCO,INTUBED,ICU
0,2,0,2,2,2,2,2,2,2,2,2,2,97,97


In [219]:
# Valor mais comum da colona PNEUMONIA
data3['PNEUMONIA'].mode()[0]

2

In [220]:
for feature in boolean_features:
    print(data3[feature].value_counts())

2     892534
1     140038
99     16003
Name: PNEUMONIA, dtype: int64
0     523511
2     513179
1       8131
98      3754
Name: PREGNANT, dtype: int64
2     920248
1     124989
98      3338
Name: DIABETES, dtype: int64
2     1030510
1       15062
98       3003
Name: COPD, dtype: int64
2     1014024
1       31572
98       2979
Name: ASTHMA, dtype: int64
2     1031001
1       14170
98       3404
Name: INMSUPR, dtype: int64
2     882742
1     162729
98      3104
Name: HIPERTENSION, dtype: int64
2     1024730
1       20769
98       3076
Name: CARDIOVASCULAR, dtype: int64
2     1026665
1       18904
98       3006
Name: RENAL_CHRONIC, dtype: int64
2     1015490
1       28040
98       5045
Name: OTHER_DISEASE, dtype: int64
2     885727
1     159816
98      3032
Name: OBESITY, dtype: int64
2     960979
1      84376
98      3220
Name: TOBACCO, dtype: int64
97    848544
2     159050
1      33656
99      7325
Name: INTUBED, dtype: int64
97    848544
2     175685
1      16858
99      7488
Name: ICU

In [221]:
data['INTUBED'].value_counts()

97    848544
2     159050
1      33656
99      7325
Name: INTUBED, dtype: int64

In [222]:
data['ICU'].value_counts()

97    848544
2     175685
1      16858
99      7488
Name: ICU, dtype: int64

Somente nas colunas 'INTUBED' e 'ICU', os valores desconhecidos preponderam sobre os conhecidos. Nesse sentido, vamos substituir os valores desconhecidos em todas as outras colunas pela moda, mas, nessas duas, vamos criar um novo valor para definir essa situação de valor desconhecido - no caso - o valor 3.

Nas outras colunas, trocamos os valores pela moda porque os valores desconhecidos são poucos em relação aos conhecidos. Assim, a correção da influência desses valores no modelo se dará pelas variáveis booleanas que criamos anteriormente, as quais indicam se o valor é conhecido ou não.

In [223]:
data4 = data3.copy()
for feature in boolean_features:
    most_common = data4[feature].mode()[0]
    data4.loc[data4[feature] >= 3, feature] = most_common

In [224]:
data4[boolean_features].head()

Unnamed: 0,PNEUMONIA,PREGNANT,DIABETES,COPD,ASTHMA,INMSUPR,HIPERTENSION,CARDIOVASCULAR,RENAL_CHRONIC,OTHER_DISEASE,OBESITY,TOBACCO,INTUBED,ICU
0,1,2,2,2,2,2,1,2,2,2,2,2,97,97
1,1,0,2,2,2,2,1,2,1,2,1,2,97,97
2,2,0,1,2,2,2,2,2,2,2,2,2,1,2
3,2,2,2,2,2,2,2,2,2,2,2,2,97,97
4,2,0,1,2,2,2,1,2,2,2,2,2,97,97


Agora para 'INTUBED' e 'ICU':

In [225]:
data5 = data4.copy()
more_nan_features = ['INTUBED', 'ICU']
for feature in more_nan_features:
    data5.loc[data5[feature] >= 3, feature] = 3

In [226]:
data5[boolean_features].head()

Unnamed: 0,PNEUMONIA,PREGNANT,DIABETES,COPD,ASTHMA,INMSUPR,HIPERTENSION,CARDIOVASCULAR,RENAL_CHRONIC,OTHER_DISEASE,OBESITY,TOBACCO,INTUBED,ICU
0,1,2,2,2,2,2,1,2,2,2,2,2,3,3
1,1,0,2,2,2,2,1,2,1,2,1,2,3,3
2,2,0,1,2,2,2,2,2,2,2,2,2,1,2
3,2,2,2,2,2,2,2,2,2,2,2,2,3,3
4,2,0,1,2,2,2,1,2,2,2,2,2,3,3


#### Tratamento da feature  'CLASSIFICATION_FINAL'

In [227]:
data5['CLASSIFICATION_FINAL'].value_counts()

7    499250
3    381527
6    128133
5     26091
1      8601
4      3122
2      1851
Name: CLASSIFICATION_FINAL, dtype: int64

Segundo a página do Kaggle: 'Values 1-3 mean that the patient was diagnosed with covid in different
degrees. 4 or higher means that the patient is not a carrier of covid or that the test is inconclusive'. Como não sabemos qual valor maior que 4 representa qual situação, isso atrapalhará nas conclusões do modelo, caso modifiquemos diretamente os valores, já que o paciente ter o teste inconclusivo é diferente de ser de fato não portador de covid. No entanto, sabemos que um paciente com CLASSIFICATION_FINAL = 3 possui um grau elevado da doença, influenciando na sua probabilidade de óbito. Então, devemos separar o grau da doença da classificação final que foi dada ao paciente.

Criaremos a coluna 'covid_degree'. Nela, para as pessoas efetivamente doentes, que consideraremos aquelas com valores de 1 a 3 em 'CLASSIFICATION_FINAL', os valores irão variar de 1 a 3, e para as outras o valor será 0 (consideramos então que todas as pessoas com testes inconclusivos estão saudáveis). Notemos da análise de mortes dessas pessoas, mostrada a seguir, que, de fato, a maior quantidade de pessoas com testes inconclusivos ou negativos para a doença não morreram, então não é um erro muito grande considerar os testes inconclusivos como testes negativos. 

In [228]:
data5[data5['CLASSIFICATION_FINAL'] >= 4]['DIED'].value_counts()

2.0    633890
1.0     22706
Name: DIED, dtype: int64

In [229]:
data6 = data5.copy()
data6.loc[data6['CLASSIFICATION_FINAL'] >= 4, 'covid_degree'] = 0
data6.loc[data6['CLASSIFICATION_FINAL'] < 4, 'covid_degree'] = data6['CLASSIFICATION_FINAL']

In [230]:
data6[data6['DIED'] == 2]['covid_degree'].value_counts()

0.0    633890
3.0    330097
1.0      7646
Name: covid_degree, dtype: int64

In [231]:
data6['covid_degree'].value_counts()

0.0    656596
3.0    381527
1.0      8601
2.0      1851
Name: covid_degree, dtype: int64

Por fim, eliminamos a coluna 'CLASSIFICATION_FINAL':

In [232]:
data6.drop('CLASSIFICATION_FINAL', axis = 1, inplace = True)

In [233]:
data6[data6['DIED'] == 2]['ASTHMA'].value_counts()

2    941541
1     30092
Name: ASTHMA, dtype: int64

In [234]:
data6.head()

Unnamed: 0,USMER,MEDICAL_UNIT,SEX,PATIENT_TYPE,INTUBED,PNEUMONIA,AGE,PREGNANT,DIABETES,COPD,...,is_INMSUPR_defined,is_HIPERTENSION_defined,is_CARDIOVASCULAR_defined,is_RENAL_CHRONIC_defined,is_OTHER_DISEASE_defined,is_OBESITY_defined,is_TOBACCO_defined,is_INTUBED_defined,is_ICU_defined,covid_degree
0,2,1,1,1,3,1,65,2,2,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0,3.0
1,2,1,2,1,3,1,72,0,2,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0,0.0
2,2,1,2,2,1,2,55,0,1,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,3.0
3,2,1,1,1,3,2,53,2,2,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0,0.0
4,2,1,2,1,3,2,68,0,1,2,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0,2.0,3.0


In [235]:
data6.corr()['DIED']

USMER                        0.112671
MEDICAL_UNIT                 0.149030
SEX                         -0.081383
PATIENT_TYPE                -0.515582
INTUBED                      0.588534
PNEUMONIA                    0.469278
AGE                         -0.320801
PREGNANT                     0.078313
DIABETES                     0.215516
COPD                         0.089624
ASTHMA                      -0.017907
INMSUPR                      0.049993
HIPERTENSION                 0.203231
OTHER_DISEASE                0.056416
CARDIOVASCULAR               0.076410
OBESITY                      0.056649
RENAL_CHRONIC                0.118744
TOBACCO                      0.005441
ICU                          0.507512
DIED                         1.000000
is_PNEUMONIA_defined         0.013135
is_PREGNANT_defined         -0.079860
is_DIABETES_defined         -0.031558
is_COPD_defined             -0.033580
is_ASTHMA_defined           -0.033355
is_INMSUPR_defined          -0.032483
is_HIPERTENS

#### Scaling em todas as features e embaralhar os dados

In [236]:
def z_scale(feature):
    std = feature.std()
    mean = feature.mean()
    return (feature - mean)/std

def scale(feature):
    minimum = min(feature)
    maximum = max(feature)
    return (feature - minimum)/(maximum - minimum)

In [237]:
def shuffle_data(data, random_state):
    rand = np.random.RandomState(random_state)
    return data.reindex(rand.permutation(data.index))

In [238]:
label = 'DIED'

In [239]:
features = list(set(data6.columns).difference({label}))

In [240]:
data7 = data6.copy()
# Scaling
for feature in features:
    data7[feature] = scale(data7[feature])
    
# Shuffling
data7 = shuffle_data(data7, 0)

# Separando os Dados e Criando o Modelo

## Importando as funções

In [298]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

In [299]:
X = data7[features]
y = data7[label]

In [300]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [301]:
model = LogisticRegression(random_state = 0, max_iter = 1000)

In [302]:
model.fit(X_train, y_train)

LogisticRegression(max_iter=1000, random_state=0)

#### Threshold = 0.5 (default)

In [304]:
init_y_pred = model.predict(X_test)
init_cnf_matrix = metrics.confusion_matrix(y_test, init_y_pred)
init_cnf_matrix

array([[  7675,   7777],
       [  3211, 191052]], dtype=int64)

In [305]:
print(metrics.classification_report(y_test, init_y_pred))

              precision    recall  f1-score   support

         1.0       0.71      0.50      0.58     15452
         2.0       0.96      0.98      0.97    194263

    accuracy                           0.95    209715
   macro avg       0.83      0.74      0.78    209715
weighted avg       0.94      0.95      0.94    209715



## Analisando a performance do modelo

In [246]:
model.predict_proba(X_test)

array([[8.11091313e-04, 9.99188909e-01],
       [1.41920539e-02, 9.85807946e-01],
       [5.90331588e-03, 9.94096684e-01],
       ...,
       [1.71370221e-03, 9.98286298e-01],
       [4.59920677e-03, 9.95400793e-01],
       [6.75926516e-03, 9.93240735e-01]])

In [306]:
def custom_predict(ml_model, X_data, threshold):
    probs = ml_model.predict_proba(X_data) 
    return (probs[:, 1] > threshold).astype(int) + 1 # Para corrigir o fato de estamos usando {1,2}.

In [248]:
y_pred = custom_predict(model, X_test, 0.81)
y_pred_proba = model.predict_proba(X_test)[:, 1]

In [249]:
cnf_matrix = metrics.confusion_matrix(y_test, y_pred)
cnf_matrix

array([[ 12337,   3115],
       [ 13190, 181073]], dtype=int64)

In [250]:
print(metrics.classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         1.0       0.48      0.80      0.60     15452
         2.0       0.98      0.93      0.96    194263

    accuracy                           0.92    209715
   macro avg       0.73      0.87      0.78    209715
weighted avg       0.95      0.92      0.93    209715



Nesse caso, aumentar o threshold aumenta o recall do positivo. Isso acontece porque o valor 1, que representa o positivo, é menor que o valor 2, que representa o negativo, gerando um resultado contrário ao esperado.

In [251]:
metrics.roc_auc_score(y_test, y_pred)

0.8652551645810982

Tratamos a label como sendo binária no conjunto {1, 2}, com 1 significando 'Sim' e 2 significando 'Não'. E se modificássemos a label para o caso padrão, em que 0 significa 'Não' e 1 'Sim'?

In [280]:
def custom_predict2(ml_model, X_data, threshold):
    probs = ml_model.predict_proba(X_data) 
    return (probs[:, 1] > threshold).astype(int)

In [274]:
data7['DIED'].head()

875680     2.0
1046906    2.0
646861     2.0
704385     2.0
798051     2.0
Name: DIED, dtype: float64

In [275]:
data8 = data7.copy()
data8.loc[data8['DIED'] == 2, 'DIED'] = 0

In [276]:
data8.corr()['DIED']

USMER                       -0.112671
MEDICAL_UNIT                -0.149030
SEX                          0.081383
PATIENT_TYPE                 0.515582
INTUBED                     -0.588534
PNEUMONIA                   -0.469278
AGE                          0.320801
PREGNANT                    -0.078313
DIABETES                    -0.215516
COPD                        -0.089624
ASTHMA                       0.017907
INMSUPR                     -0.049993
HIPERTENSION                -0.203231
OTHER_DISEASE               -0.056416
CARDIOVASCULAR              -0.076410
OBESITY                     -0.056649
RENAL_CHRONIC               -0.118744
TOBACCO                     -0.005441
ICU                         -0.507512
DIED                         1.000000
is_PNEUMONIA_defined        -0.013135
is_PREGNANT_defined          0.079860
is_DIABETES_defined          0.031558
is_COPD_defined              0.033580
is_ASTHMA_defined            0.033355
is_INMSUPR_defined           0.032483
is_HIPERTENS

Os sinais das correlações mudaram, mas será que o resultado do modelo muda?

In [256]:
X = data8[features]
y = data8[label]

In [257]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [258]:
model2 = LogisticRegression(random_state = 0, max_iter = 1000)

In [259]:
model2.fit(X_train, y_train)

LogisticRegression(max_iter=1000, random_state=0)

In [292]:
y_pred2 = custom_predict2(model2, X_test, 0.19) # 0.81 + 0.19 = 1.00

In [293]:
y_pred2

array([0, 0, 0, ..., 0, 0, 0])

In [294]:
cnf_matrix2 = metrics.confusion_matrix(y_test, y_pred2)
cnf_matrix2

array([[181073,  13190],
       [  3115,  12337]], dtype=int64)

In [295]:
print(metrics.classification_report(y_test, y_pred2))

              precision    recall  f1-score   support

         0.0       0.98      0.93      0.96    194263
         1.0       0.48      0.80      0.60     15452

    accuracy                           0.92    209715
   macro avg       0.73      0.87      0.78    209715
weighted avg       0.95      0.92      0.93    209715



In [297]:
metrics.roc_auc_score(y_test, y_pred2)

0.8652551645810981

O resultado final não muda! Isso acontece porque, depois da convergência do modelo, temos valores de pesos que se adaptam à forma como os dados são representados devido ao fato de estarmos sempre minimizando a mesma função, a log loss. Além disso, no caso de chamarmos o método 'predict' do modelo, a biblioteca sklearn já possui uma forma de corrigir o resultado da predição para diferentes valores binários de label que possamos colocar. No fim, o que importa são as probabilidades geradas pela função de ativação (sigmoid) no interior do modelo (que são as mesmas em ambos) e o significado de cada número ligado a uma classificação: no primeiro modelo, 1 significa 'Positivo' e 2 significa 'Negativo'; por sua vez, no segundo modelo, 0 significa 'Negativo' e 1 significa 'Positivo'.

#### Boas práticas

Em termos de boas práticas, é melhor utilizar a seguinte convenção para a label de um modelo de classificação como a Regressão Logística: 

- 0 significa 'Negativo' e 
- 1 significa 'Positivo'

Isso facilita o entendimento do código e das relações entre features e labels, além de facilitar a convergência  do modelo por parte da label. Nesse sentido, também é útil utilizar a mesma convenção para as features binárias.