<img src="https://www.politecnicos.com.br/img/075.jpg" alt="Grupo Turing" height="420" width="420">

# Notebook KNN
Notebook do Grupo Turing usado para exemplificar na prática o uso do KNN.

Autor: Felipe Azank dos Santos


# O Problema
A diabetes é um dos grandes problemas da sociedade moderna, nosso objetivo é tentar prever, com base 
em 8 características, se uma determinada pessoa tem, ou terá diabetes.

## Primeiros passos: importar bibliotecas

In [1]:
#primeiro, trazemos as mais triviais para manipular qualquer modelo
import numpy as np
import pandas as pd 
import sklearn

#### Importando um separador entre base de treino e de teste 

In [2]:
from sklearn.model_selection import train_test_split

#### Importamos também uma ferramenta de Normalização, essencial para o modelo

In [2]:
from sklearn.preprocessing import StandardScaler

#### Enfim, importamos o modelo de classificação propriamente dito

In [3]:
from sklearn.neighbors import KNeighborsClassifier

Também trazemos algumas funções para testar nossa acurácia posteriormete

In [5]:
from sklearn.metrics import confusion_matrix #Matriz de Confusão, explicada no Turing Talk #11
from sklearn.metrics import f1_score #Métrica que considera tanto o recall quanto a precisão (também presente no TT-#11)
from sklearn.metrics import accuracy_score #Acerto Bruto 

## Mexendo com os dados
Após importar os mecanismos que usaremos, está na hora de trabalhar com nossos dados.
Primeiro, importamos o arquivo (que está na forma csv) utilizando a biblioteca Pandas

In [6]:
dataset=pd.read_csv('diabetes.csv')
dataset.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [7]:
len(dataset) #é importante perceber que, pelo fato do data-set ser considerado pequeno
             # podemos usar tranquilamente o algoritmo do KNN

768

### Data Cleaning
Agora, é de extrema importância limpar nosso data-set! Nesse caso, há diversas features que, por não terem sido informadas, ficaram com o valor zero, mesmo sendo impossível para um humano apresentar tal valor nessas características específicas (pressão sanguínea igual a zero, por exemplo). 
Nesse caso, iremos substituir esses "zeros" que não fazem sentido pela média das pessoas com os dados coletados, para não afetar nosso estudo. 

In [8]:
#Construímos uma lista com esses dados propriamente ditos
nao_zero=['Glucose','BloodPressure','SkinThickness','BMI','Insulin']


for A in nao_zero:
    dataset[A]=dataset[A].replace(0,np.NaN) #percorre cada feature na lista substituindo 0 por 'número não determinado'
    média=int(dataset[A].mean(skipna=True)) #define a média das colunas
    dataset[A]=dataset[A].replace(np.NaN,média) #substitui os dados não preenchidos pela méida

### Separando data-set em treino e teste


In [9]:
X=dataset.iloc[:,0:8] #todas as colunas, menos o diagnóstico 
y=dataset['Outcome'] #resultados que nós queremos (respostas)

X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0,test_size=0.2) #reservamos 20% dos dados para teste

# Normalizando

In [36]:
sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)
X_test=sc_X.transform(X_test)

## Agora aplicando o modelo em si 

In [17]:
np.sqrt(768*0.2) 
#Calculando a raiz da quantidade de data points na base de teste, e, escolhendo um ímpar próximo, temos que K=13

12.393546707863734

In [37]:
#definindo o modelo
classifier=KNeighborsClassifier(n_neighbors=13,p=2,metric='euclidean')
classifier.fit(X_train,y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='euclidean',
           metric_params=None, n_jobs=None, n_neighbors=13, p=2,
           weights='uniform')

### Prevendo os resultados da base de teste

In [38]:
y_previsão=classifier.predict(X_test)
y_previsão

array([1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1,
       0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=int64)

# Avaliando o Teste 

In [39]:
Matriz_de_Confusão=confusion_matrix(y_test,y_previsão)
print(Matriz_de_Confusão)

[[95 12]
 [16 31]]


In [40]:
f1_score(y_test,y_previsão)

0.6888888888888888

In [41]:
accuracy_score(y_test,y_previsão) #acerto bruto 

0.8181818181818182

## FIM