#**1. K-NEAREST NEIGHBORS**

The k-nearest neighbors model is based on a very simple idea: The predictions will consider only the information of the closest neighbors to the case we want to predict. For instance, in a problem of classification, if all closest neighbors are of red class, the new case will be predicted as being also of red class. In a regression problem, the prediction of a new case outcome variable will be the mean of the outcome variable of its closest neighbors.
We need first to define the number of neighbors to consider. This is a hyperparameter of the model, usually represented by k. Furthermore, we need to define a measure of distance, to determine the closest neighbors.
In spite of the simplicity of this model, its predictive performance is astonishingly quite competitive in many prediction problems.

#**2. DISTANCE MEASURE**

There are several distance measures, but the most popular is the Euclidean distance, as it is computationally cheap to calculate.

#**3. KNN IN CLASSIFICATION PROBLEMS**

To produce a prediction of a new data point, 𝑃 , KNN algorithm goes to find the 𝑘 closest points to 𝑃 in the dataset (these closest points are called neighbors), and uses the majority of class in the set of the neighbors as the prediction of the outcome variable corresponding to 𝑃 . Clearly, the number of neighbors to consider, 𝑘, must be set beforehand.

Example 3.1. KNN in Classification

Dataset: knn01_clas

In [None]:
import pandas as pd

Consider the following dataset, which corresponds to a classification problem, where the outcome variable can only assume A or B as values (there are only two classes, A and B; that is a binary classification problem):

In [None]:
df = pd.read_excel('/content/knn01_clas.xlsx')
df

Unnamed: 0,X1,X2,Y
0,1,4,B
1,6,2,B
2,5,3,A
3,3,1,A
4,2,9,B
5,1,2,A


Considering 𝑘 = 3, to determine the prediction of the outcome variable of a new data point, 𝑃 = (3, 5), by using KNN, we need to compute the Euclidean distances between the new data point and all data points of the dataset:

O ponto (3,5) não está no gráfico, é um novo ponto e nós queremos ver a que classe pertence.

In [None]:
(df['X1'].values-3)**2

array([4, 9, 4, 0, 1, 4])

In [None]:
(df['X2'].values-5)**2

array([ 1,  9,  4, 16, 16,  9])

Now, we need the square root (remember the euclidean distance formula).

In [None]:
import numpy as np

In [None]:
np.sqrt(((df['X1'].values-3)**2)+((df['X2'].values-5)**2))

array([2.23606798, 4.24264069, 2.82842712, 4.        , 4.12310563,
       3.60555128])

Now, to create a column with the calculated distance.

In [None]:
df['dist'] = np.sqrt(((df['X1'].values-3)**2)+((df['X2'].values-5)**2))
df

Unnamed: 0,X1,X2,Y,dist
0,1,4,B,2.236068
1,6,2,B,4.242641
2,5,3,A,2.828427
3,3,1,A,4.0
4,2,9,B,4.123106
5,1,2,A,3.605551


Now, we need to identify the 3 nearest neighbors. How we do this?

By sorting the dataframe.


In [None]:
df.sort_values('dist')

Unnamed: 0,X1,X2,Y,dist
0,1,4,B,2.236068
2,5,3,A,2.828427
5,1,2,A,3.605551
3,3,1,A,4.0
4,2,9,B,4.123106
1,6,2,B,4.242641


**RESULTS** 

The 3 neighbors of the new data point (𝑘 = 3) are the closest points to 𝑃 :
* Data point 0 (class B);
* Data point 2 (class A);
* Data point 5 (class A).

Since the 3 neighbors have class A as majoritary, the prediction for 𝑃 is class A.

When the chosen value for k is even, ties may occur. In case od ties, a class is randomly selected from the classes ofthe neighbors as the prediction.


#**4. KNN IN REGRESSION PROBLEMS**

Likewise in classification, to produce a prediction of a new data point, 𝑃 , KNN algorithm goes to find the 𝑘 closest points to 𝑃 in the dataset. The prediction is the mean of the outcome variable of the 𝑘-nearest neighbors. Again, the number of neighbors to consider, 𝑘, must be set beforehand.

Dataset: knn01_reg

Consider the following dataset, which corresponds
to a regression problem:

In [None]:
df2 = pd.read_excel('/content/knn01_reg.xlsx')
df2


Unnamed: 0,X1,X2,Y
0,1,4,8
1,6,2,5
2,5,3,7
3,3,1,10
4,2,9,3
5,1,2,6


Considering 𝑘 = 3, to determine the prediction of the outcome variable of a new data point, 𝑃 = (3, 5), by using KNN, we need to compute the Euclidean distances between the new data point and all data points of the dataset:

In [None]:
df2['dist'] = np.sqrt(((df['X1'].values-3)**2)+((df['X2'].values-5)**2))
df2

Unnamed: 0,X1,X2,Y,dist
0,1,4,8,2.236068
1,6,2,5,4.242641
2,5,3,7,2.828427
3,3,1,10,4.0
4,2,9,3,4.123106
5,1,2,6,3.605551


In [None]:
df2.sort_values('dist')

Unnamed: 0,X1,X2,Y,dist
0,1,4,8,2.236068
2,5,3,7,2.828427
5,1,2,6,3.605551
3,3,1,10,4.0
4,2,9,3,4.123106
1,6,2,5,4.242641


**RESULTS:**

The 3 neighbors of the new data point (𝑘 = 3) are the closest points to 𝑃 : 
* Data point 0 (Y=8);
* Data point 2 (Y=7);
* Data point 5 (Y=6).

The prediction for 𝑃 is the mean of 8, 7 and 6 = `(8+7+6)/2 = 7`

#**5. PYTHON IMPLEMENTATION OF THE EXAMPLES**

**CLASSIFICATION**

For classification, we need `KNeighborsClassifier` function:

In [None]:
from sklearn.neighbors import KNeighborsClassifier

We will use a pipeline as usual. Therefore, we need to load the respetive function:

In [None]:
from sklearn.pipeline import Pipeline

We can now run the model and get the wanted prediction:

In [None]:
df_c = pd.read_excel('/content/knn01_clas.xlsx')
df_c

Unnamed: 0,X1,X2,Y
0,1,4,B
1,6,2,B
2,5,3,A
3,3,1,A
4,2,9,B
5,1,2,A


Let's create a dataframe with the new point data:

In [None]:
X_new = pd.DataFrame({
    'X1': [3],
    'X2': [5]
})
X_new

Unnamed: 0,X1,X2
0,3,5


Split the dataset into two different dataframes:

* `X`, with all the independent variables;
* `y`, with only the dependent variable (no caso de ser um problema de classificação, esta variável contém classes).

In [None]:
X = df_c.drop(['Y'], axis=1)
y = df_c['Y']

We can now run the model and get the wanted prediction:

In [None]:
knn_model = KNeighborsClassifier(n_neighbors=3)

In [None]:
knn_model.fit(X, y)

knn_model.predict(X_new)


array(['A'], dtype=object)

Chegámos à mesma conclusão que no método sem ser pelo python.

In [None]:
#outra forma de fazer, seria pelos pipelines
pipe = Pipeline([
    ('knn', KNeighborsClassifier(n_neighbors=3))
])

pipe.fit(X, y)
pipe.predict(X_new)

array(['A'], dtype=object)

**NOTE:** seria mais pertinente fazer logo em pipeline, porque para o problema da regressão é mais fácil.

**REGRESSION**

For regression, we need `KNeighborsRegressor` function:

In [None]:
df_r = pd.read_excel('/content/knn01_reg.xlsx')
df_r

Unnamed: 0,X1,X2,Y
0,1,4,8
1,6,2,5
2,5,3,7
3,3,1,10
4,2,9,3
5,1,2,6


In [None]:
from sklearn.neighbors import KNeighborsRegressor

Dividir novamente o dataframe em dois, X2 e y2, para o python não assumir o dataframe do problema de classificação.

In [None]:
X2 = df_r.drop(['Y'], axis=1)
y2 = df_r['Y']

In [None]:
pipe2 = Pipeline([
    ('knn2', KNeighborsRegressor(n_neighbors=3))
])

pipe2.fit(X2, y2)
pipe2.predict(X_new)

array([7.])

Obtemos a mesma prediciton para o new data point (3,5) como quando calculamos sem ser pelo python.

#**BANK NOTES PROBLEM**

Dataset: data_banknote_authentication

https://archive.ics.uci.edu/ml/datasets/banknote+authentication 


In [None]:
df3 = pd.read_csv('/content/data_banknote_authentication.txt', header = None)
df3.columns = ['X1', 'X2', 'X3', 'X4', 'Y']
df3

Unnamed: 0,X1,X2,X3,X4,Y
0,3.62160,8.66610,-2.8073,-0.44699,0
1,4.54590,8.16740,-2.4586,-1.46210,0
2,3.86600,-2.63830,1.9242,0.10645,0
3,3.45660,9.52280,-4.0112,-3.59440,0
4,0.32924,-4.45520,4.5718,-0.98880,0
...,...,...,...,...,...
1367,0.40614,1.34920,-1.4501,-0.55949,1
1368,-1.38870,-4.87730,6.4774,0.34179,1
1369,-3.75030,-13.45860,17.5932,-2.77710,1
1370,-3.56370,-8.38270,12.3930,-1.28230,1


Separar em dois dataframes: X3 e y3.

In [None]:
X3 = df3.drop('Y', axis=1)
y3 = df3['Y']

Dividir em dois sets: train e test.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=45)

Vamos criar uma pipeline com apenas uma etapa para já: **scaling of data**: `StandardScaler`, que é um pré-processador usado para padronizar as features do conjunto de dados. A padronização envolve a remoção da média de cada feature e o redimensionamento para ter uma variância unitária. Isso é útil quando as features têm escalas diferentes e permite que os modelos de aprendizado de máquina tratem todas as features igualmente.

O nome 'scale' é apenas um rótulo que é atribuído ao objeto `StandardScaler` no pipeline e pode ser qualquer coisa.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = Pipeline([
    ('scale', StandardScaler())])

O seguinte código cria uma instância da classe `ColumnTransformer` que é usada para aplicar transformações diferentes a diferentes colunas do conjunto de dados. O `ColumnTransformer` é útil quando você tem um conjunto de dados com várias colunas e quer aplicar transformações diferentes a cada uma delas.

No nosso caso, o `ColumnTransformer` tem apenas uma etapa:

* A primeira etapa é especificada pelo rótulo 'scale_tr' e usa o pipeline definido anteriormente (scaler) para padronizar as colunas 'X1', 'X2', 'X3' e 'X4' do conjunto de dados.

- remainder='passthrough' informa ao ColumnTransformer para passar todas as colunas que não foram especificadas na primeira etapa sem aplicar transformação. Ou seja, as colunas que não foram mencionadas na primeira etapa ('X5', 'X6', etc.) serão mantidas no conjunto de dados sem alteração.


In [None]:
from sklearn.compose import ColumnTransformer

In [None]:
preprocessor = ColumnTransformer([
    ('scale_tr', scaler, ['X1', 'X2', 'X3', 'X4'])], # ou X.columns.to_list() uma vez que queremos todas as X
    remainder='passthrough')

O código seguinte cria uma instância da classe `Pipeline` que permite  combinar múltiplas etapas de pré-processamento e modelagem em um único objeto que pode ser facilmente treinado e testado.

Nestecaso, o `pipeline` é composto por duas etapas:

1. A primeira etapa é especificada pelo rótulo 'pre' e usa o preprocessor que você definiu anteriormente com o `ColumnTransformer`. Essa etapa realiza as transformações de pré-processamento que você especificou para as colunas de entrada.
2. A segunda etapa é especificada pelo rótulo 'knn' e usa um classificador K-NN com n_neighbors=3. Essa etapa treina um modelo de classificação K-NN nos dados pré-processados.

Depois de definir o pipeline, você pode usá-lo para **treinar o modelo em um conjunto de dados de treinamento** usando o método fit. Nesse caso, o conjunto de dados de treinamento é `X3_train` (que contém as colunas 'X1', 'X2', 'X3' e 'X4' após o pré-processamento) e `y3_train` (que contém as classes correspondentes para cada amostra).

Uma vez que o modelo é treinado, você pode usá-lo para fazer **previsões em um conjunto de dados de teste usando o método `predict`**.

In [None]:
pipe3 = Pipeline([
    ('pre', preprocessor),
    ('knn', KNeighborsClassifier(n_neighbors=3))])

pipe3.fit(X3_train, y3_train)


In [None]:
y3_pred = pipe3.predict(X3_train)
y3_pred

array([1, 1, 0, ..., 0, 0, 1])

GRID SEARCH


In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
hyperparameters ={ #new
    'n_neighbors': [2, 3, 5, 6, 8, 10] 
}

pipe3 = Pipeline([
    ('pre', preprocessor),
    ('grid', GridSearchCV(KNeighborsClassifier(), hyperparameters, cv=5))])

pipe3.fit(X3_train, y3_train)

In [None]:
pipe3.named_steps['grid'].best_params_

{'n_neighbors': 2}

In [None]:
y3_pred = pipe3.predict(X3_train)
y3_pred

array([1, 1, 0, ..., 0, 0, 1])

#**CONFUSION MATRIX**

Ferramenta utilizada para avaliar a qualidade de um modelo de classificação. A matriz mostra a contagem dos acertos e erros de previsão em cada classe.

We have predictions (0 and 1) and the true values will also be 0 and 1 (True and False).

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, recall_score

In [None]:
cm = confusion_matrix(y3_train, y3_pred, labels = [0,1])
cm

array([[591,   0],
       [  0, 506]])

In [None]:
y3_pred = pipe3.predict(X3_train)
accuracy_score(y3_train, y3_pred)

1.0

The model is very good, since the accuracy is almost 100%.

Let's make the predictions for the test set.

In [None]:
y3_pred = pipe3.predict(X3_test)
accuracy_score(y3_test, y3_pred)

1.0

No error in the test set.

RECALL SCORE