# Prevendo doença do coração

Objetivo: Tentando prever o output negativo ou positivo para doença do coração usando K-Nearest neighbours.



In [1]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn import preprocessing
import pandas as pd

## Analise exploratória

In [2]:
dados = pd.read_csv("./dados/heart.csv")

In [3]:
# formato da tabela
dados.shape

(303, 14)

## Preparando dados para o modelo

In [4]:
# conjunto para previsão (X)
dados_previsao = dados.iloc[:, 0:13]
dados_previsao

Unnamed: 0,age,sex,cp,trtbps,chol,fbs,restecg,thalachh,exng,oldpeak,slp,caa,thall
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3


In [5]:
# variavel dependente (y)
classe = dados.iloc[:, 13]
classe

0      1
1      1
2      1
3      1
4      1
      ..
298    0
299    0
300    0
301    0
302    0
Name: output, Length: 303, dtype: int64

In [6]:
# separação de teste e treino
X_treino, X_teste, y_treino, y_teste = train_test_split(dados_previsao, classe, test_size=.3, random_state=0)


## Treinando modelo 

In [7]:
# modelo usado
modelo_knn = KNeighborsClassifier(n_neighbors = 3)
modelo_knn.fit(X_treino, y_treino)

## Conferindo o modelo 

In [8]:
# previsoes do modelo
previsoes_do_modelo = modelo_knn.predict(X_teste)
previsoes_do_modelo

array([0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       1, 1, 1], dtype=int64)

In [9]:
# taxa de acerto
taxa_acerto = accuracy_score(y_teste, previsoes_do_modelo)
taxa_acerto

0.6703296703296703

In [10]:
# comparando as previsoes com os outputs reais 
matriz_de_confusao = confusion_matrix(y_teste, previsoes_do_modelo)
matriz_de_confusao

array([[27, 17],
       [13, 34]], dtype=int64)

## Melhorando performance
* preprocessando dados
* usando forest para selecionar os melhores atributos

In [11]:
# normalizando os dados
dados_normalizados = preprocessing.normalize(dados_previsao)
dados_normalizados

array([[0.19745405, 0.00313419, 0.00940257, ..., 0.        , 0.        ,
        0.00313419],
       [0.10874818, 0.00293914, 0.00587828, ..., 0.        , 0.        ,
        0.00587828],
       [0.1368249 , 0.        , 0.00333719, ..., 0.00667439, 0.        ,
        0.00667439],
       ...,
       [0.23671899, 0.00348116, 0.        , ..., 0.00348116, 0.00696232,
        0.01044348],
       [0.25352009, 0.00444772, 0.        , ..., 0.00444772, 0.00444772,
        0.01334316],
       [0.1749685 , 0.        , 0.00306962, ..., 0.00306962, 0.00306962,
        0.00613925]])

In [12]:
# refazendo o treino e o teste
X_treino_normalizado, X_teste_normalizado, y_treino_normalizado, y_teste_normalizado = train_test_split(dados_previsao, classe, test_size=.3, random_state=0)

In [13]:
# classificando os mais importantes
forest_selection = ExtraTreesClassifier()
forest_selection.fit(X_treino_normalizado, y_treino_normalizado)
escalas_de_importancia = forest_selection.feature_importances_
escalas_de_importancia

array([0.062005  , 0.07201549, 0.12006642, 0.06267996, 0.06266727,
       0.02156089, 0.0325414 , 0.08928368, 0.09685312, 0.08767019,
       0.06438099, 0.12933677, 0.09893882])

In [14]:
# selecionando os melhores atributos
X_treino_normalizado = X_treino_normalizado.iloc[:, [1,2,7,8,9,10,11,12]]
X_teste_normalizado = X_teste_normalizado.iloc[:, [1,2,7,8,9,10,11,12]]

In [15]:
# modelo usado
modelo_knn2 = KNeighborsClassifier(n_neighbors = 3)
modelo_knn2.fit(X_treino_normalizado, y_treino_normalizado)

In [18]:
# novas previsoes
previsoes_pos_normalizacao = modelo_knn2.predict(X_teste_normalizado)
previsoes_pos_normalizacao

array([0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0,
       0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       1, 0, 0], dtype=int64)

In [19]:

matriz_de_confusao2 = confusion_matrix(y_teste_normalizado, previsoes_pos_normalizacao)
matriz_de_confusao2

array([[30, 14],
       [11, 36]], dtype=int64)

In [20]:
taxa_acerto = accuracy_score(y_teste_normalizado, previsoes_pos_normalizacao)
taxa_acerto

0.7252747252747253

### Conclusão
ganho de 5% em relação ao modelo original usando normalização e seleção de atributos