In [1]:
# Setting up matplot 
%matplotlib inline

# Import modules
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [2]:
# Set True to use a local path on your computer or get the file from my Github Repository
use_local = True
heart_disease_path = '/media/LexisNexis/IFES-Heart-Attack-Prediction/heart.csv'
heart_disease_url = 'https://raw.githubusercontent.com/objetovazio/IFES-Heart-Attack-Prediction/master/heart.csv'

In [3]:
# Loading heart disease dataset
heart_disease_ds = pd.read_csv(heart_disease_path) if use_local else pd.read_csv(heart_disease_url)


# Check file head
heart_disease_ds.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [4]:
# Load features on 'X' and Target on 'y'
X,y = heart_disease_ds.drop('target', axis=1), heart_disease_ds.target

In [5]:
# Set to use 30% of the original data to testing dataset
test_size=0.3

# Set a seed to get random data on the dataset (if you set a constant seed, it will always get the same random dataset)
random_state_seed=42

# Use the method train_test_spllit to split X and y in training dataset and testing dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=random_state_seed)

In [6]:
# Check generated shapes
print('X train dataset shape: ' + str(X_train.shape))
print('X test  dataset shape: ' + str(X_test.shape))
print('y train dataset shape: ' + str(y_train.shape))
print('y test  dataset shape: ' + str(y_test.shape))

X train dataset shape: (212, 13)
X test  dataset shape: (91, 13)
y train dataset shape: (212,)
y test  dataset shape: (91,)


In [7]:
# Starting with KNN
# Import KNeighborsClassifier from sklearn's neighbors module
from sklearn.neighbors import KNeighborsClassifier

In [8]:
n_neighbors = 9
knn_model = KNeighborsClassifier(n_neighbors=n_neighbors)

In [9]:
knn_model.fit(X_train, y_train)

KNeighborsClassifier(n_neighbors=9)

In [10]:
y_preds = knn_model.predict(X_test)
y_preds

array([0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1,
       0, 0, 0])

#### Accurácia
É o score

#### Matriz de Confusão
Cada linha representa uma classe real, e cada coluna representa uma classe prevista. A partir dela extraímos 4 conceitos, são eles os verdadeiros positivos, falsos positivos, verdadeiros negativos, falsos negativos.

#### Precisão
É uma fração em que no numerador contém os verdadeiros positivos, e no denominador temos todos os positivos previstos. Ou seja:
 
```formula
Precisão = VerdadeiroPositivo / (VerdadeiroPositivo + FalsoPositivo)
```

Ao observar a precisão, como exemplo, se tivermos um algoritmo que classifica se um conteúdo é recomendado para menores de idade. Nesse caso, deseja-se que esse algoritmo tenha uma alta precisão, ou seja, desejamos os verdadeiros positivos mas deseja-se diminuir ao máximo os Falsos Positivos. Pois é preferível que o algoritmo erre e diga que um conteúdo não é para menores, embora ele seja, do que ele diga que é para criança, mas que o conteúdo é impróprio. Ao diminuir ao máximo o falso positivo, o que aumenta muito o valor da precisão. 

#### Revocação 
É uma fração em que no numerador temos os verdadeiros positivos e no denominador temos todos os reais positivos.

```formula
Revocação = VerdadeiroPositivo / (VerdadeiroPositivo + FalsoNegativo)
```

Observar a revocação, neste caso, auxilia a buscar um número menor de falsos negativos. Falsos negativos apontariam que a pessoa não teria um ataque cardiaco, privando-a de um possível tratamento.

#### Pontuação F1
É uma média armônica entre a precisão e a revocação.

```formula
Pontuação F1 = 2 / ((1/precisão) + (1/revocação))
```

In [11]:
knn_model.score(X_train, y_train)

0.7216981132075472

In [12]:
knn_model.score(X_test, y_test)

0.6593406593406593

In [13]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_preds,))

              precision    recall  f1-score   support

           0       0.64      0.56      0.60        41
           1       0.67      0.74      0.70        50

    accuracy                           0.66        91
   macro avg       0.66      0.65      0.65        91
weighted avg       0.66      0.66      0.66        91



In [14]:
from sklearn.svm import SVC
lr = SVC()
lr.fit(X_train, y_train)
lr.score(X_test, y_test)

0.7032967032967034

In [15]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=40)
rf.fit(X_train, y_train)
rf.score(X_test, y_test)

0.8241758241758241

In [16]:
from sklearn.model_selection import KFold
kf = KFold(n_splits=5)
kf

KFold(n_splits=5, random_state=None, shuffle=False)

In [17]:
for train_index, test_index in kf.split([1,2,3,4,5,6,7,8,9]):
    print(train_index, test_index)

[2 3 4 5 6 7 8] [0 1]
[0 1 4 5 6 7 8] [2 3]
[0 1 2 3 6 7 8] [4 5]
[0 1 2 3 4 5 8] [6 7]
[0 1 2 3 4 5 6 7] [8]


In [18]:
def get_score(model, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    return model.score(X_test, y_test)

In [19]:
get_score(SVC(), X_train, X_test, y_train, y_test)

0.7032967032967034

In [20]:
from sklearn.model_selection import StratifiedKFold
folds = StratifiedKFold(n_splits=5)
folds

StratifiedKFold(n_splits=5, random_state=None, shuffle=False)

In [37]:
from sklearn.model_selection import cross_val_score    

In [40]:
cross_val_score(SVC(), X, y)

array([0.60655738, 0.60655738, 0.73770492, 0.68333333, 0.58333333])

In [41]:
cross_val_score(KNeighborsClassifier(n_neighbors=n_neighbors), X, y)

array([0.60655738, 0.6557377 , 0.60655738, 0.71666667, 0.58333333])