# Regressão logística

Determinar se uma pessoa terá doença no coração num intervalo de dez anos, baseado no seu histórico médico, condições médicas atuais e comportamento

Dataset obtido no Kaggle (https://www.kaggle.com/amanajmera1/framingham-heart-study-dataset)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
dados = pd.read_csv('framingham.csv')

In [None]:
dados.head()

Informações:

male: 1 -> homem, 0 -> mulher (variável categórica)

age: idade (variável contínua)

educação: nível educacional (variável categórica)

currentSmoker: 1 -> fumante, 0 -> não fumante (variável categórica)

cigsPerDay: quantidade de cigarros por dia (variável contínua)

BPMeds: 1 -> paciente toma medicamente para pressão, 0- > não toma medicamento (variável categórica)

prevalentStroke: 1 -> paciente teve derrame, 0 -> não teve (variável categórica)

prevalentHyp: 1 -> hipertensor, 0 -> não hipertenso (variável categórica)

diabetes: 1 -> tem diabetes, 0 -> não tem (variável categórica)

totChol: colesterol total (variável contínua)

sysBP: pressão sanguínea sistólica (variável contínua)

diaBP: pressão sanguínea diastólica (variável contínua)

BMI: indice de massa corporal (variável contínua) 

heartRate: batimento cardíaco (variável contínua) 

glucose: glicose (variável contínua)

TenYearCHD: 1 -> terá problema, 0 -> não terá (variável categórica)

In [None]:
dados.info()

Observa-se ausência de valores em diversas variáveis

Verificando quantidade de valores do tipo NaN

In [None]:
dados.isna().sum()

Glicose é a variável com maior quantidade de valores ausentes. Em relação a quantidade total de valores, podemos remover todos estes casos.

In [None]:
dados = dados.dropna()

In [None]:
dados.isna().sum()

Verificando distribuição dos dados

In [None]:
fig = plt.figure(figsize = (15,20))
ax = fig.gca()
dados.hist(ax=ax);

Verificando a correlação entre as variáveis

In [None]:
correlacao = dados.corr()

In [None]:
sns.heatmap(correlacao)

O grau de escolaridade da pessoa não é um fator importante uma vez que depende do entendimento do médico

In [None]:
dados = dados.drop('education',axis=1)

Normalizando os dados de algumas colunas

In [None]:
colunas = ['age','cigsPerDay','totChol','sysBP','diaBP','BMI','heartRate','glucose']

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
normalizador = MinMaxScaler(feature_range=(0,1)) 

In [None]:
dados[colunas] = normalizador.fit_transform(dados[colunas])

In [None]:
dados.head()

Verificando se a amostra está balanceada

In [None]:
sns.countplot(x='TenYearCHD',data=dados)

Este gráfico nos diz que exitem muito menos casos de pessoas que poderão ter alguma doença no coração. Este fato nos diz que a amostra está totalmente desbalanceada.

Contagem de cada classe

In [None]:
contagem = dados['TenYearCHD'].value_counts()

In [None]:
print('Classe 0 = ',contagem[0])
print('Classe 1 = ',contagem[1])

Para balancear a amostra iremos selecionar aleatoriamente 557 casos da classe 0

In [None]:
dados_1 = dados[dados['TenYearCHD']==1]
dados_0 = dados[dados['TenYearCHD']==0]

In [None]:
dados_0_novo = dados_0.sample(n=contagem[1],random_state=42)

Concatenando ambos os casos

In [None]:
dados = pd.concat([dados_0_novo,dados_1])

Verificando novamente a contagem de cada caso

In [None]:
contagem = dados['TenYearCHD'].value_counts()
print('Classe 0 = ',contagem[0])
print('Classe 1 = ',contagem[1])

Determinando as variáveis X e Y

In [None]:
X = dados.drop('TenYearCHD',axis=1).values
Y = dados['TenYearCHD'].values

Separando em amostra de treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino,X_teste,Y_treino,Y_teste=train_test_split(X,Y,test_size=0.25,random_state=0)

Criando modelo de regressão logística

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
modelo = LogisticRegression()

In [None]:
modelo.fit(X_treino,Y_treino)

Realizando previsão na amostra de teste

In [None]:
Y_previsto = modelo.predict(X_teste)

Criando matriz de confusão

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
cm=confusion_matrix(Y_teste,Y_previsto)
cm

In [None]:
sns.heatmap(cm,annot=True, fmt="d")

Calculando as métricas do modelo

In [None]:
from sklearn.metrics import classification_report,f1_score,precision_score,average_precision_score,recall_score,accuracy_score

Relatório de classificação

In [None]:
cr = classification_report(Y_teste,Y_previsto,labels=[0,1])
print(cr)

F1-score

In [None]:
f1 = f1_score(Y_teste,Y_previsto)
print("F1 score = {:0.2f}%".format(f1*100))

Precision score

In [None]:
precisao = precision_score(Y_teste,Y_previsto)
print("Precision score = {:0.2f}%".format(precisao*100))

Average precision score

In [None]:
avg_precision = average_precision_score(Y_teste,Y_previsto)
print("Averaged Precision score = {:0.2f}%".format(avg_precision*100))

Recall score

In [None]:
rec = recall_score(Y_teste,Y_previsto)
print("Recall score = {:0.2f}%".format(rec*100))

Accuracy score

In [None]:
acc = accuracy_score(Y_teste,Y_previsto)
print("Accuracy score = {:0.2f}%".format(acc*100))

O modelo atual não apresentou uma boa precisão indicando que este não seja o melhor modelo para esta situação devendo ser modificado (e.g KNN, SVM, Decision Tree, Random Forest) ou que os parâmetros do modelo de regressão logística precisam ser ajustados.

# Curva ROC

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score

In [None]:
roc_score = roc_auc_score(Y_teste, Y_previsto)
print("ROC score = {:0.2f}%".format(roc_score*100))

In [None]:
roc_fpr, roc_tpr, _ = roc_curve(Y_teste, Y_previsto)

In [None]:
plt.plot(roc_fpr, roc_tpr, linestyle='--')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')

# Curva Precision-Recall

In [None]:
from sklearn.metrics import precision_recall_curve,auc

In [None]:
lr_precision, lr_recall, _ = precision_recall_curve(Y_teste, Y_previsto)
lr_auc = auc(lr_recall, lr_precision)

In [None]:
print("AUC score = {:0.2f}%".format(lr_auc*100))

In [None]:
plt.plot(lr_recall, lr_precision)
plt.xlabel('Recall')
plt.ylabel('Precision')