# KNN

Dans ce notebook, vous allez découvrir comment utiliser avec sklearn l'algorithme d'apprentissage le plus simple du machine learning. 

# Importation des packages

In [1]:
# Importation of the data for our classification example
from sklearn.datasets import load_breast_cancer

# Importation of the function to standardize the data
from sklearn.preprocessing import StandardScaler

# Importation of the knn for classification
from sklearn.neighbors import KNeighborsClassifier

# Importation of the train_test_split function which split randomly our data 
# into a train and test set
from sklearn.model_selection import train_test_split

# Importation of numpy to use of vectors, matrices, tensors.
import numpy as np 

# Importation of the performance metrics
from sklearn.metrics import accuracy_score, precision_recall_curve, f1_score, roc_auc_score, roc_curve, confusion_matrix

# Importation of the package for plot graphics
import matplotlib.pyplot as plt

# Importaton des données

In [2]:
# Data frame for ou regression example
breast_cancer = load_breast_cancer()
X_classif = breast_cancer.data[:, ]
y_classif = breast_cancer.target

Utilisez la fonction Sklearn *train_test_split* pour diviser votre ensemble de données en deux ensembles aléatoires.

Utilisez un état aléatoire de 123 et utilisez 10% de votre ensemble de données pour l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

In [3]:
# Use the function train_test_split to create your train and test set
X_train_classif, X_test_classif, y_train_classif, y_test_classif = train_test_split(X_classif, y_classif, test_size=0.1, random_state=123)

# Etape 1 : La standardisation des données

Pour l'utilisation d'un modèle linéaire, il est indispensable de passer par une étape de normalisation des données.

Cette étape permet de rendre le modèle interprétable mais aussi de faciliter la convergence du modèle.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

In [4]:
# Initialize the StandardScaler function
scaler = StandardScaler()

# Fit the StandardScaler on the trainig set
scaler.fit(X_train_classif)

# Standardization of the training set
X_train_classif_norm = scaler.transform(X_train_classif)

# Standardization of the validation set
X_test_classif_norm = scaler.transform(X_test_classif)

Test 

In [5]:
print('Mean of the training set : '+str(X_train_classif_norm.mean(axis=0)))
print('Standard deviation of the training set : '+str(X_train_classif_norm.std(axis=0)))

print('Mean of the testing set : '+str(X_test_classif_norm.mean(axis=0)))
print('Standard deviation of the testing set : '+str(X_test_classif_norm.std(axis=0)))

Mean of the training set : [-5.13911830e-16 -3.05745013e-16  8.53483950e-16  1.10003152e-15
  1.54650598e-15  7.12049777e-16 -3.42607887e-17  1.31622144e-16
 -4.95350289e-15  7.66292411e-15  1.53913340e-15  1.52915874e-15
  2.89265140e-16 -2.73435788e-16  1.46914815e-15  1.42854478e-15
  1.64798730e-17 -4.59701721e-16 -1.22119112e-15 -1.23165367e-16
  7.01695646e-16  3.83720833e-15 -9.50628465e-16  2.82326246e-16
  4.31078784e-15 -3.93619599e-16  2.29850861e-16  1.19966970e-16
 -4.12918397e-15  3.31635761e-15]
Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]
Mean of the testing set : [ 0.05124296 -0.18874973  0.03751984  0.03937833 -0.08482864 -0.18283252
 -0.07809671 -0.05164212 -0.19793932 -0.29018854  0.16691644 -0.05227523
  0.14396937  0.1740289   0.00614669 -0.25922462 -0.16597387 -0.12024983
 -0.11072004 -0.29499964  0.04435633 -0.07442118  0.0294974   0.01545994
 -0.02918828 -0.1089334  -0.0558

Résultats attendus :

Mean of the training set : [-5.13911830e-16 -3.05745013e-16  8.53483950e-16  1.10003152e-15
  1.54650598e-15  7.12049777e-16 -3.42607887e-17  1.31622144e-16
 -4.95350289e-15  7.66292411e-15  1.53913340e-15  1.52915874e-15
  2.89265140e-16 -2.73435788e-16  1.46914815e-15  1.42854478e-15
  1.64798730e-17 -4.59701721e-16 -1.22119112e-15 -1.23165367e-16
  7.01695646e-16  3.83720833e-15 -9.50628465e-16  2.82326246e-16
  4.31078784e-15 -3.93619599e-16  2.29850861e-16  1.19966970e-16
 -4.12918397e-15  3.31635761e-15]


Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


Mean of the testing set : [ 0.05124296 -0.18874973  0.03751984  0.03937833 -0.08482864 -0.18283252
 -0.07809671 -0.05164212 -0.19793932 -0.29018854  0.16691644 -0.05227523
  0.14396937  0.1740289   0.00614669 -0.25922462 -0.16597387 -0.12024983
 -0.11072004 -0.29499964  0.04435633 -0.07442118  0.0294974   0.01545994
 -0.02918828 -0.1089334  -0.05586924 -0.0412101  -0.06118219 -0.18438358]

 
Standard deviation of the testing set : [0.91480598 0.66909629 0.90978263 1.03432425 0.99367801 0.87525274
 0.90633893 0.90440753 0.71909467 0.84083134 1.57807166 0.87352948
 1.60204167 1.78225409 1.01625717 0.75721494 0.65688383 0.93341027
 0.99874551 0.56807441 0.84475039 0.80330342 0.84141439 0.89898207
 0.95859295 1.1139185  1.010088   0.95613581 1.03214445 1.24999311]

# Etape 2 : Initialisation du modèle

Pour la knn il y a un hyperparamètre principal à choisir c'est le nombre de voisins à visiter pour effectuer une prédiction *n_neighbors*.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html).

In [6]:
knn_classif = KNeighborsClassifier(n_neighbors=5)

# Etape 3 : L'entraînement du modèle 

Utilisez le modèle nommé *knn_classif* que vous venez d'initialiser et entraînez-le avec les données standardisées. 

Astuce : utilisez la fonction *fit*.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html).

In [8]:
knn_classif.fit(X_train_classif_norm, y_train_classif)

KNeighborsClassifier()

# Etape 4 : La validation du modèle

Votre modèle est maintenant entraîné, utilisez-le pour prédire l'ensemble d'entraînement et de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html).

In [9]:
y_train_prediction = knn_classif.predict(X_train_classif_norm)

y_test_prediction = knn_classif.predict(X_test_classif_norm)

Utilisez votre modèle pour prédire la probabilité de chaque observation.

In [10]:
y_train_prediction_proba = knn_classif.predict_proba(X_train_classif_norm)

y_test_prediction_proba = knn_classif.predict_proba(X_test_classif_norm)

Calculez l'accuracy pour l'ensemble d'entraînement et l'ensemble de test.

N'hésitez pas à utiliser la doc [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score).

In [11]:
acc_train = accuracy_score(y_train_prediction, y_train_classif)

acc_test = accuracy_score(y_test_prediction, y_test_classif)

print('Accuracy for the training set : '+str(acc_train))

print('Accuracy for the testing set : '+str(acc_test))

Accuracy for the training set : 0.97265625
Accuracy for the testing set : 0.9824561403508771


Calculez le score F1 pour l'ensemble d'entraînement et l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html).

In [12]:
f1_train = f1_score(y_train_prediction, y_train_classif)

f1_test = f1_score(y_test_prediction, y_test_classif)

print('f1 score for the training set : '+str(f1_train))

print('f1 score for the testing set : '+str(f1_test))

f1 score for the training set : 0.9787234042553192
f1 score for the testing set : 0.9850746268656716


Calculez l'AUC pour l'ensemble d'entraînement et l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html).

In [13]:
auc_train = roc_auc_score(y_train_prediction, y_train_classif)

auc_test = roc_auc_score(y_test_prediction, y_test_classif)

print('AUC for the training set : '+str(auc_train))

print('AUC for the testing set : '+str(auc_test))

AUC for the training set : 0.9764179506156226
AUC for the testing set : 0.9852941176470589


Calculez la matrice de confusion.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html). 

In [14]:
table_train = confusion_matrix(y_train_prediction, y_train_classif)

table_test = confusion_matrix(y_test_prediction, y_test_classif)

print('Confusion matrix for the training set : ')
print(table_train)

print('Confusion matrix for the testing set : ')
print(table_test)

Confusion matrix for the training set : 
[[176   2]
 [ 12 322]]
Confusion matrix for the testing set : 
[[23  0]
 [ 1 33]]


# KNN pour la régression

Maintenant passons au knn pour résoudre un problème de régression

# Importation des packages

In [15]:
# Importation of the data for our regression example
from sklearn.datasets import load_boston

# Importation of the function to standardize the data
from sklearn.preprocessing import StandardScaler

# Importation of the knn regressor algorithm
from sklearn.neighbors import KNeighborsRegressor

# Importation of the train_test_split function which split randomly our data 
# into a train and test set
from sklearn.model_selection import train_test_split

# Importation of the maplotlib package to create graphics
import matplotlib.pyplot as plt

# Importation of numpy to use of vectors, matrices, tensors.
import numpy as np 

# Importation of the performance metrics
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Importation of the package for plot graphics
import matplotlib.pyplot as plt

# Importation des données

In [16]:
# Data frame for ou regression example
boston = load_boston()
X_reg = boston.data[:, ]
y_reg = boston.target


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

Utilisez la fonction Sklearn *train_test_split* pour diviser votre ensemble de données en deux ensembles aléatoires.

Utilisez un état aléatoire de 123 et utilisez 10% de votre ensemble de données pour l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

In [17]:
# Use the function train_test_split to create your train and test set
X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.1, random_state=123)

# Etape 1 : Standardisation des données



Pour l'utilisation d'un modèle linéaire, il est indispensable de passer par une étape de normalisation des données.

Cette étape permet de rendre le modèle interprétable mais aussi de faciliter la convergence du modèle.

N'hésitez pas à utiliser le [doc](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

In [18]:
# Initialize the StandardScaler function
scaler = StandardScaler()

# Fit the StandardScaler on the trainig set
scaler.fit(X_train_reg)

# Standardization of the training set
X_train_reg_norm = scaler.transform(X_train_reg)

# Standardization of the validation set
X_test_reg_norm = scaler.transform(X_test_reg)

Test 

In [19]:
print('Mean of the training set : '+str(X_train_reg_norm.mean(axis=0)))
print('Standard deviation of the training set : '+str(X_train_reg_norm.std(axis=0)))

print('Mean of the testing set : '+str(X_test_reg_norm.mean(axis=0)))
print('Standard deviation of the testing set : '+str(X_test_reg_norm.std(axis=0)))

Mean of the training set : [-6.47223423e-17  1.68363492e-17  5.99764438e-16 -9.00378673e-17
 -5.52281054e-15 -4.49359719e-15 -7.98628563e-16 -9.09650865e-16
 -1.07362227e-17  3.31846882e-17  1.65064543e-14  1.13037022e-14
  1.83174599e-15]
Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
Mean of the testing set : [ 0.06747655  0.05717168 -0.14001179  0.41277236 -0.12235192  0.2219691
  0.05579181 -0.00310857 -0.03264025 -0.06104133 -0.06444473 -0.1090823
 -0.25945322]
Standard deviation of the testing set : [1.10921879 1.02009199 0.89698995 1.53927663 0.79001036 1.06378901
 0.93794752 0.87199757 1.00028353 0.98200915 1.08832968 1.10249559
 0.90211127]


Répones attendus :

Mean of the training set : [-6.47223423e-17  1.68363492e-17  5.99764438e-16 -9.00378673e-17
 -5.52281054e-15 -4.49359719e-15 -7.98628563e-16 -9.09650865e-16
 -1.07362227e-17  3.31846882e-17  1.65064543e-14  1.13037022e-14
  1.83174599e-15]

Standard deviation of the training set : [1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


Mean of the testing set : [ 0.06747655  0.05717168 -0.14001179  0.41277236 -0.12235192  0.2219691
  0.05579181 -0.00310857 -0.03264025 -0.06104133 -0.06444473 -0.1090823
 -0.25945322]

 
Standard deviation of the testing set : [1.10921879 1.02009199 0.89698995 1.53927663 0.79001036 1.06378901
 0.93794752 0.87199757 1.00028353 0.98200915 1.08832968 1.10249559
 0.90211127]

# Etape 2 : Initialisation du modèle

Pour la knn il y a un hyperparamètre principal à choisir c'est le nombre de voisins à visiter pour effectuer une prédiction *n_neighbors*.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html).

In [20]:
knn_reg = KNeighborsRegressor(7)

# Etape 3 : Entraînement du modèle

Utilisez le modèle nommé *knn_reg* que vous venez d'initialiser et entraînez-le avec les données standardisées. 

Astuce : utilisez la fonction *fit*.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html).

In [21]:
knn_reg.fit(X_train_reg_norm, y_train_reg)

KNeighborsRegressor(n_neighbors=7)

# Etape 4 : Validation du modèle

Votre modèle est maintenant entraîné, utilisez-le pour prédire le prix de l'appartement pour votre ensemble d'entraînement et de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html).

In [22]:
y_train_prediction = knn_reg.predict(X_train_reg_norm)

y_test_prediction = knn_reg.predict(X_test_reg_norm)

Calculez le MSE pour l'ensemble de formation et l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html).

In [24]:
mse_train = mean_squared_error(y_train_prediction, y_train_reg)

mse_test = mean_squared_error(y_test_prediction, y_test_reg)

print('MSE for the training set : '+str(mse_train))

print('MSE for the testing set : '+str(mse_test))

MSE for the training set : 13.999620991253643
MSE for the testing set : 49.39260104041617


Calculez la RMSE pour l'ensemble d'apprentissage et l'ensemble de test.

Il suffit de changer un paramètre à la fonction précédente.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn-metrics-mean-squared-error).

In [25]:
rmse_train = mean_squared_error(y_train_prediction, y_train_reg, squared=False)

rmse_test = mean_squared_error(y_test_prediction, y_test_reg, squared=False)


print('RMSE for the training set : '+str(rmse_train))

print('RMSE for the testing set : '+str(rmse_test))

RMSE for the training set : 3.7416067392570325
RMSE for the testing set : 7.027986983512147


Calculez le carré R pour l'ensemble de formation et l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html#sklearn.metrics.r2_score).

In [26]:
r2_train = r2_score(y_train_prediction, y_train_reg)

r2_test = r2_score(y_test_prediction, y_test_reg)

print('MAE for the training set : '+str(r2_train))

print('MAE for the testing set : '+str(r2_test))

MAE for the training set : 0.728248985296311
MAE for the testing set : 0.046336141241297035


Calculez le MAE pour l'ensemble d'apprentissage et l'ensemble de test.

N'hésitez pas à utiliser la [doc](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html#sklearn.metrics.mean_absolute_error).

In [27]:
mae_train = mean_absolute_error(y_train_prediction, y_train_reg)

mae_test = mean_absolute_error(y_test_prediction, y_test_reg)

print('MAE for the training set : '+str(mae_train))

print('MAE for the testing set : '+str(mae_test))

MAE for the training set : 2.3283830455259027
MAE for the testing set : 4.212044817927171
