# KNN

### **Abrindo os arquivos criados no Pre-Processamento**

In [1]:
# Importando a Biblioteca
import pickle

In [2]:
alvo           = pickle.load(open('heart.pkl',  'rb'))
previsores     = pickle.load(open('heart2.pkl', 'rb'))
previsores_esc = pickle.load(open('heart3.pkl', 'rb'))
previsores2    = pickle.load(open('heart4.pkl', 'rb'))
previsores3    = pickle.load(open('heart5.pkl', 'rb'))
previsores3_esc= pickle.load(open('heart6.pkl', 'rb'))

# RESUMO DO PRE-PROCESSAMENTO

**<font color='green'> alvo </font>** = variável que se pretende atingir (tem ou não doença cardíaca).

**<font color='green'> Previsores </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas manualmente, sem escalonar.

**<font color='green'> Previsores_esc </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas, escalonada.

**<font color='green'> Previsores2 </font>** = conjunto de variáveis previsoras com as variáveis categóricas transformadas em numéricas pelo labelencoder.

**<font color='green'> Previsores3 </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder, sem escalonar.

**<font color='green'> Previsores3_esc </font>** = conjunto de variáveis previsoras transformadas pelo labelencoder e onehotencoder escalonada.

## **BASE DE TREINO E TESTE**

In [3]:
# Importando a biblioteca
from sklearn.model_selection import train_test_split

**Parâmetros train_test_split:**   
- **arrays:** nomes dos atributos previsores e alvo.   
- **test_size:** tamanho em porcentagem dos dados de teste. default é none.   
- **train_size:** tamanho em porcentagem dos dados de treinamento.default é none.  
- **random_state:** nomeação de um estado aleatório.   
- **shuffle:** embaralhamento dos dados aleatórios. Associado com o random_state ocorre o mesmo embaralhamento sempre. Default é True.  
- **stratify:** Possibilidade de dividir os dados de forma estratificada. Default é None (nesse caso é mantido a proporção, isto é, se tem 30% de zeros e 70% de 1 no dataframe, na separação em treinamento e teste se manterá essa proporção).

In [4]:
# Separando teste e treino
x_treino, x_test, y_treino, y_test = train_test_split(previsores3_esc, alvo, test_size = 0.3, random_state=0)

In [5]:
# Shape de x
x_treino.shape, x_test.shape

((641, 20), (276, 20))

In [6]:
# Shape de y
y_treino.shape, y_test.shape

((641,), (276,))

# **APRENDIZAGEM BASEADA EM INSTÂNCIAS (KNN)**

**Biblioteca**:https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

In [7]:
# Import da biblioteca
from sklearn.neighbors import KNeighborsClassifier

In [8]:
# Classificador
knn = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p=1)
knn.fit(x_treino, y_treino)

In [9]:
# Criando previsoes
previsoes_knn = knn.predict(x_test)
previsoes_knn[:100]

array([1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0], dtype=int64)

In [10]:
# comparando com y_test
y_test[:100]

array([1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1,
       1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0], dtype=int64)

In [11]:
# Carregando a biblioteca de acuracia
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [12]:
# Acuracia
print(f'Acuracia teste: {accuracy_score(y_test, previsoes_knn)*100:.2f}%')

Acuracia teste: 84.06%


In [13]:
# Matrix de confusao
confusion_matrix(y_test, previsoes_knn)

array([[ 98,  23],
       [ 21, 134]], dtype=int64)

In [14]:
# Resultado
print(f'Resultado\n{classification_report(y_test, previsoes_knn)}')

Resultado
              precision    recall  f1-score   support

           0       0.82      0.81      0.82       121
           1       0.85      0.86      0.86       155

    accuracy                           0.84       276
   macro avg       0.84      0.84      0.84       276
weighted avg       0.84      0.84      0.84       276



**Analise dos dados de treino**

In [15]:
# Treino
previsoes_treino = knn.predict(x_treino)
previsoes_treino[:100]

array([1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1], dtype=int64)

In [16]:
# Acuracia
print(f'Acuracia Treino: {accuracy_score(y_treino, previsoes_treino)*100:.2f}')

Acuracia Treino: 88.92


In [17]:
# Matrix de confusao
confusion_matrix(y_treino, previsoes_treino)

array([[244,  45],
       [ 26, 326]], dtype=int64)

### Validacao Cruzada

In [18]:
# Import das bibliotecas
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [19]:
# Separando os dados em folds
kfold = KFold(n_splits = 30, shuffle=True, random_state=5)
kfold

KFold(n_splits=30, random_state=5, shuffle=True)

In [20]:
# Criando o Modelo
modelo = KNeighborsClassifier(n_neighbors=7, metric='minkowski', p=1)
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv = kfold)

# Utilizando a Media e o Desvio Padrao
print(f'Acuracia Media: {resultado.mean()*100:.2f}%')

Acuracia Media: 85.84%


In [21]:
# OBS: Com o KNN temos a importancia de escalona os dados