# K-Nearest Neighbors



Inscrivez ici vos noms et prénoms

# 1. Régression linéaire

## 1.1 Exemple 1

In [None]:
import numpy as np

X = np.random.random((1000, 3))
Y = 3 * X[:, 0] - 2 * X[:, 1] + X[:, 2] + np.random.random(1000)

Construisez un modèle capable de prédire Y en fonction de X. On ne sera pas obligé de prendre en compte l'overfitting dans le cas présent.
Il est bien entendu interdit de rentrer les coefficients à la main

Utilisez :
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
# Ecrivez votre code ici


## 1.2 Exemple 2

In [None]:
import numpy as np

X = np.random.random((1000, 3))
Y = 4 * X[:, 0] ** 2 + X[:, 1] + X[:, 2] + np.random.random(1000)

Construisez un modèle capable de prédire Y en fonction de X. On ne sera pas obligé de prendre en compte l'overfitting dans le cas présent.
Important : une simple régression linéaire ne fonctionnera pas ici, il faudra utiliser un peu de feature engineering :

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

Utilisez :
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

In [None]:
# Ecrivez votre code ici


# 2. Régression logistique

In [None]:
import numpy as np

X = np.random.random((1000, 3))
Y = X[:, 0] + X[:, 1] + X[:, 2] + np.random.random(1000) > 2

Construisez un modèle capable de prédire Y en fonction de X. On ne sera pas obligé de prendre en compte l'overfitting dans le cas présent.

Utilisez :
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

## 3. Iris data set et K-Nearest Neighbors

Le set des Iris est un classique en machine learning, on a un petit jeu de données (150 éléments) avec 3 variétés d'Iris (Setosa, Versicolour, Virginica) et 4 "features" : largeur et longueur des pétales et des sépales.

On cherche à développer un classifieur qui soit capable de déterminer de quel type de fleur il s'agit

In [None]:
from sklearn import datasets
import numpy as np

iris = datasets.load_iris()

print('#' * 25)
print(iris.keys())
print('#' * 25)
print(iris['DESCR'])

In [None]:
# Code source: Gaël Varoquaux
# Modified for documentation by Jaques Grobler
# License: BSD 3 clause
# Source : https://scikit-learn.org/stable/auto_examples/datasets/plot_iris_dataset.html

import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn import datasets
from sklearn.decomposition import PCA

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features.
y = iris.target

x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5

plt.figure(2, figsize=(8, 6))
plt.clf()

# Plot the training points
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1,
            edgecolor='k')
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')

plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())

plt.show()

On sépare les données en jeu de donnée d'entrainement et de test.
A noter que suivant le cas, il peut être important de mélanger les données. Ici on privilégie la simplicité et le fait d'être sur que les 3 classes sont équitablement représentées dans les deux jeux de données.

In [None]:
training_data = np.concatenate((iris['data'][:40, :], iris['data'][50:90, :], iris['data'][100:140, :]), axis = 0)
training_target = np.concatenate((iris['target'][:40], iris['target'][50:90], iris['target'][100:140]), axis = 0)

test_data = np.concatenate((iris['data'][40:50, :], iris['data'][90:100, :], iris['data'][140:, :]), axis = 0)
test_target = np.concatenate((iris['target'][40:50], iris['target'][90:100], iris['target'][140:]), axis = 0)

On affiche les dimensions pour vérfier 

In [None]:
print(training_data.shape)
print(training_target.shape)
print(test_data.shape)
print(test_target.shape)

A vous de jouer ! Construisez un classifier en utilisant le training set, et tester le, en prédisant à partir des données de test_data.

Indiquez votre prédiction dans la variable prediction pour pouvoir vérifier le taux de bonne réponses.

In [None]:
prediction = np.array([0] * len(test_target))

In [None]:
print(f"Pourcentage of correct answer : {100*(prediction == test_target).mean()}")

## 4. K-NN et données générées

On travaille maintenant avec des données générées. Il n'y a pas de code à écrire ici, il s'agit de comprendre le code et d'analyser les résultats.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

def generate_data_set(nb_class, nb_features, nb_elements = 1000, test_ratio = 0.2, first_feature_scale = 1):
    """ La fonction generate_data_set prend en arguments 5 paramètres :
        - le nombre de classes
        - le nombre de features
        - le nombre d'éléments (défaut 1000)
        - le test_ratio, ie le nombre d'éléments à mettre dans le jeu de données de test
        - le first feature scale, un facteur d'échelle appliqué au premier feature
        
    La classe est entièrement déterminé par le premier feature.
    Les feature sont générés selon un loi uniforme entre 0 et 1
    
    Renvoit 4 éléments : train_data, train_y, test_data, test_y
    """
    
    all_data = np.random.random((nb_elements, nb_features))
    y = np.floor(all_data[:, 0] * nb_class).astype(np.int32)
    
    all_data[:, 0] *= first_feature_scale
    
    nb_train = int((1 - test_ratio) * nb_elements)
    
    return all_data[:nb_train, :], y[:nb_train], all_data[nb_train:, :], y[nb_train:]
    
train_data, train_y, test_data, test_y = generate_data_set(1000, 5)

print((train_data.shape, train_y.shape, test_data.shape, test_y.shape))

In [None]:
help(generate_data_set)

On commence par comparer les résultats de l'algorithme en faisant varier le nombre de features. A noter que les classes étant déterminées par le premier feature, les features suivant ne sont que du bruit.  

In [None]:
for i in range(2, 10):
    train_data, train_y, test_data, test_y = generate_data_set(10, i)
    nbrs = KNeighborsClassifier(n_neighbors=1).fit(train_data, train_y)
    print(sum(nbrs.predict(test_data) == test_y) / len(test_y))

Qu'observez-vous ? Comment l'expliquez-vous ?

In [None]:
## Ecrivez votre réponse ici

Maintenant on fait varier l'ordre de grandeur du premier feature. Cela peut être le cas sur un changement d'unité (par exemple pour de l'énergie, vous varier entre GWh, MWh et KWh)

In [None]:
for scale in (1e-3, 1, 1e3):
    print(f"### scale : {scale} ###")
    for i in range(2, 10):
        train_data, train_y, test_data, test_y = generate_data_set(10, i, first_feature_scale = scale)
        nbrs = KNeighborsClassifier(n_neighbors=1).fit(train_data, train_y)
        print(sum(nbrs.predict(test_data) == test_y) / len(test_y))

Qu'observez-vous ? Comment l'expliquez-vous ? Est-ce que cela paraît raisonnable ?

In [None]:
## Ecrivez votre réponse ici