*Regressão logística - fatores de risco do câncer de colo de útero.*

Importando as bibliotecas necessárias:

In [164]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import f1_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score

Lendo o arquivo csv:
(csv obtido do site https://archive.ics.uci.edu/ml/datasets/Cervical+cancer+%28Risk+Factors%29)

In [165]:
diretorio = 'risk_factors_cervical_cancer.csv' 
arquivo = pd.read_csv(diretorio)

Separando o arquivo em uma variável que recebe todas as colunas exceto a coluna "Biopsy":

In [166]:
coluna = "Biopsy"
arquivo_sem_biopsia = arquivo.loc[:, arquivo.columns != coluna]

Removendo os pontos de interrogação do arquivo:

In [167]:
arquivo_sem_biopsia = arquivo_sem_biopsia.drop(columns=['STDs: Time since first diagnosis', 'STDs: Time since last diagnosis'], axis=1)
arquivo_sem_biopsia = arquivo_sem_biopsia.replace('?', np.nan)
arquivo_sem_biopsia = arquivo_sem_biopsia.apply(pd.to_numeric)
for column in arquivo_sem_biopsia.columns:
    arquivo_sem_biopsia[column].fillna(arquivo_sem_biopsia[column].mode()[0], inplace=True)

Definindo os valores de x e de y:

In [168]:
y = arquivo['Biopsy'].values
x = arquivo_sem_biopsia.values.tolist()

Definindo os treinos e os testes:

In [169]:
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.2, random_state = 42)

Fazendo a regressão logística e definindo os valores de previsão do y em relação ao x teste:

In [170]:
regressor = LogisticRegression(max_iter=500000)
regressor.fit(x_treino,y_treino)
y_prev = regressor.predict(x_teste)

Obtendo a matriz de confusão, que possibilita distinguir e classificar os valores reais e previstos do modelo:

In [171]:
print(f"matriz de confusão: {confusion_matrix(y_teste, y_prev)}")
print("\nna linha 0 coluna 0 ([0][0]), encontram-se os valores dos verdadeiros negativos (VN).")
print("em [0][1] encontram-se os valores dos falsos positivos (FP).")
print("em [1][0] encontram-se os valores dos falsos negativos (FN).")
print("em [1][1] encontram-se os valores dos verdadeiros positivos (VP).")

matriz de confusão: [[157   4]
 [  4   7]]

na linha 0 coluna 0 ([0][0]), encontram-se os valores dos verdadeiros negativos (VN).
em [0][1] encontram-se os valores dos falsos positivos (FP).
em [1][0] encontram-se os valores dos falsos negativos (FN).
em [1][1] encontram-se os valores dos verdadeiros positivos (VP).


Agora, avaliando o modelo usando as seguintes métricas:

In [172]:
print(f"acurácia: {accuracy_score(y_teste, y_prev)}")
print("acurácia = VP+VN/(VN+FN+FP+VP)")
print(f"\nf1 score: {f1_score(y_teste, y_prev)}")
print("f1 score = 2 / (1 / precisão + 1 / recall)")
print(f"\nprecisão: {precision_score(y_teste, y_prev)}")
print("precisão = VP/(VP+FP)")
print(f"\nrecall: {recall_score(y_teste, y_prev)}")
print("recall = VP/(VP+FN)")

acurácia: 0.9534883720930233
acurácia = VP+VN/VN+FN+FP+VP

f1 score: 0.6363636363636364
f1 score = 2 / (1 / precisão + 1 / recall)

precisão: 0.6363636363636364
precisão = VP/VP+FP

recall: 0.6363636363636364
recall = VP/VP+FN


Estimando as probabilidades das previsões serem 0 (na primeira coluna) e de serem 1 (na segunda coluna):

In [173]:
y_prev = regressor.predict_proba(x_teste)

Definindo os valores do threshold:

In [174]:
t1 = 0.97
t2 = 0.98
t3 = 0.99
t4 = 0.90
t5 = 0.80

Fazendo uma nova previsão em relação às probabilidades do y_prev e do valor do threshold:

In [175]:
def previsao(y_prev, t1):
    c = []
    for x in range(len(y_prev)):
        if y_prev[x][0] >= t1:
            h = 0
        else:
            h = 1
        c.append(h)
    return c  

Obtendo a matriz de confusão e as métricas de avaliação quando o threshold é igual à 0.97:

In [176]:
y_prev2 = previsao(y_prev, t1)        
print(f"matriz de confusão: {confusion_matrix(y_teste, y_prev2)}")
print(f"acurácia: {accuracy_score(y_teste, y_prev2)}")
print(f"f1 score: {f1_score(y_teste, y_prev2)}")
print(f"precisão: {precision_score(y_teste, y_prev2)}")
print(f"recall: {recall_score(y_teste, y_prev2)}")

matriz de confusão: [[143  18]
 [  1  10]]
acurácia: 0.8895348837209303
f1 score: 0.5128205128205129
precisão: 0.35714285714285715
recall: 0.9090909090909091


Obtendo a matriz de confusão e as métricas de avaliação quando o threshold é igual à 0.98:

In [177]:
y_prev3 = previsao(y_prev, t2)        
print(f"matriz de confusão: {confusion_matrix(y_teste, y_prev3)}")
print(f"acurácia: {accuracy_score(y_teste, y_prev3)}")
print(f"f1 score: {f1_score(y_teste, y_prev3)}")
print(f"precisão: {precision_score(y_teste, y_prev3)}")
print(f"recall: {recall_score(y_teste, y_prev3)}")

matriz de confusão: [[130  31]
 [  1  10]]
acurácia: 0.813953488372093
f1 score: 0.38461538461538464
precisão: 0.24390243902439024
recall: 0.9090909090909091


Obtendo a matriz de confusão e as métricas de avaliação quando o threshold é igual à 0.99:

In [178]:
y_prev4 = previsao(y_prev, t3)        
print(f"matriz de confusão: {confusion_matrix(y_teste, y_prev4)}")
print(f"acurácia: {accuracy_score(y_teste, y_prev4)}")
print(f"f1 score: {f1_score(y_teste, y_prev4)}")
print(f"precisão: {precision_score(y_teste, y_prev4)}")
print(f"recall: {recall_score(y_teste, y_prev4)}")

matriz de confusão: [[ 51 110]
 [  1  10]]
acurácia: 0.3546511627906977
f1 score: 0.15267175572519082
precisão: 0.08333333333333333
recall: 0.9090909090909091


Obtendo a matriz de confusão e as métricas de avaliação quando o threshold é igual à 0.90:

In [179]:
y_prev5 = previsao(y_prev, t4)        
print(f"matriz de confusão: {confusion_matrix(y_teste, y_prev5)}")
print(f"acurácia: {accuracy_score(y_teste, y_prev5)}")
print(f"f1 score: {f1_score(y_teste, y_prev5)}")
print(f"precisão: {precision_score(y_teste, y_prev5)}")
print(f"recall: {recall_score(y_teste, y_prev5)}")

matriz de confusão: [[152   9]
 [  1  10]]
acurácia: 0.9418604651162791
f1 score: 0.6666666666666666
precisão: 0.5263157894736842
recall: 0.9090909090909091


Obtendo a matriz de confusão e as métricas de avaliação quando o threshold é igual à 0.80:

In [180]:
y_prev6 = previsao(y_prev, t5)        
print(f"matriz de confusão: {confusion_matrix(y_teste, y_prev6)}")
print(f"acurácia: {accuracy_score(y_teste, y_prev6)}")
print(f"f1 score: {f1_score(y_teste, y_prev6)}")
print(f"precisão: {precision_score(y_teste, y_prev6)}")
print(f"recall: {recall_score(y_teste, y_prev6)}")

matriz de confusão: [[153   8]
 [  2   9]]
acurácia: 0.9418604651162791
f1 score: 0.6428571428571428
precisão: 0.5294117647058824
recall: 0.8181818181818182
