# Introduction à l'apprentissage automatique @ Mines Nancy

# Examen 2024 - partie 2  (10 points)


<br>

Le Sloan Digital Sky Survey est un projet visant à cartographier l'univers. En 2018 est sortie la 14ème publicatons des données (_data release_) du projet.

Le fichier `DR14_clean` contient les informations suivantes pour 10000 astres:
1. _ra_: ascension droite
2. _dec_: déclinaison
3. à 7. _u_, _g_, _r_, _i_, _z_: réponse spectrale de l'astre observé dans cinq bandes de longueurs d'onde différentes
8. _class_: nature de l'astre (STAR, GALAXY, QUASAR OBJECT)

Ascension droite et déclinaison permettent de repérer l'astre dans le ciel.

L'objectif est de prédire la variable _class_ à partir des variables _u_, _g_, _r_, _i_, _z_.

Copiez le fichier dans votre dossier de travail et ouvrez-le dans Excel ou LibreOffice pour visualiser son contenu.

<br>

On commence par importer les bibliothèques utiles et charger les données. 

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing, metrics, model_selection, dummy, neural_network, svm, neighbors, naive_bayes, linear_model

%matplotlib inline 

# on charge les données en codant la classe par un entier (0: STAR, 1: GALAXY, 2: QSO)
conv={8: lambda x: 0 if x==b'STAR' else 1 if x==b"GALAXY" else 2}
data = np.loadtxt('DR14_clean.csv', delimiter=";", skiprows=1, usecols=(3,4,5,6,7,8), converters=conv)  

# les caractéristiques des observations:
X_data = data[:,:-1]
# l'étiquette à prédire:
Y_data = data[:,-1]

print("\nNombre d'observations : %d" %len(X_data))

print("\nNombre de caractéristiques par observation: %d " %X_data.shape[1])

print("\nLes cinq premières observations:")
print(X_data[:5,:])

print("\nLes étiquettes:")
print(Y_data) 

print("\ntailles de X_data et Y_data:")
print(X_data.shape)
print(Y_data.shape)

print("\neffectifs de chaque classe:")
print("note 0: %d " %np.sum(Y_data==0))
print("note 1: %d" %np.sum(Y_data==1))
print("note 2: %d " %np.sum(Y_data==2))

### Question préliminaire _(0.5pt)_

Que fait la normalisation (standardisation) des observations dans la cellule suivante ?

<font color=red>
Votre réponse:

</font>

La cellule suivante crée les bases d'apprentissage et de test, et normalise les observations.

In [None]:
X_train_a, X_test_a, y_train, y_test = model_selection.train_test_split(X_data, Y_data, test_size=0.2, random_state=1)

scaler = preprocessing.StandardScaler().fit(X_train_a)
X_train = scaler.transform(X_train_a)
X_test = scaler.transform(X_test_a)

print("nombre d'observations dans la base d'apprentissage: %d" %len(X_train))
print("nombre d'observations dans la base de test: %d" %len(X_test))

## Travail demandé

Nous cherchons à construire un classifieur capable de prédire la nature d'un astre (variable _class_). Différents classifieurs seront testés.

Pour chaque classifieur entraîné sur `X_train`, vous afficherez à chaque fois la __matrice de confusion__ et le __score de précision__ de la prédiction (_accuracy score_) sur la base test. 

### 0. Dummy classifier _(1pt)_

Faites une prédiction à l'aide du _dummy classifier_ de scikit-learn, décrit [ici dans la documentation](https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html). Vous utiliserez les paramètres par défaut. Décrivez brièvement ce que fait le _dummy classifier_ et expliquez la forme particulière que prend la matrice de confusion.

In [None]:
# votre code ici


<font color=red>

Votre réponse:

<font>

### 1. Classifieur de la régression logistique _(1pt)_

Vous utiliserez le modèle vu en cours, c'est à dire sans terme de régularisation (rappel: il faut passer l'argument `penalty=None`). Si vous avez une alerte sur la convergence, passez également l'argument `max_iter=2000`).

In [None]:
# votre code ici


###  2. Classifieur Gaussien naïf de Bayes _(1pt)_

In [None]:
# votre code ici


### 3. Un réseau de neurones artificiels _(1.5pt)_

Testez un réseau de neurones artificiels à deux couches cachées de 10 neurones chacune, au plus 500 itérations d'apprentissage, et fonction d'activation `logistic`. Vous utiliserez le solver `lbfgs`. Ne tenez pas compte de l'éventuelle alerte de convergence.

In [None]:
# votre code ici


### 4. Plus proches voisins _(1pt)_

Utilisez une validation croisée à 5 plis pour sélectionner un classifieur aux $K$ plus proches voisins, pour $K=1,3,5,7,9$.

Testez le classifieur sélectionné sur la base test.

In [None]:
# votre code pour la validation croisée ici:


In [None]:
# code pour le classifieur sélectionné par validation croisée:


### 5. Machines à vecteurs supports _(1.5pt)_

Testez les machines à vecteurs supports (SVM) à noyau linéaire et à noyau RBF:

- dans le cas `rbf`, vous fixerez l'hyperparamètre $C$ par validation croisée à 5 plis sur la base d'apprentissage en le cherchant dans l'ensemble défini par la variable `C_range=10**(np.arange(-4.,4.5,1))`. Vous garderez la valeur par défaut de l'hyperparamètre $\gamma$.
- dans le cas `linear`, vous utiliserez $C=1$ (valeur par défaut) et vous ne ferez pas de recherche de l'hyperparamètre (cela prend trop de temps).

In [None]:
# SVM linear (C=1): votre code ici


In [None]:
# SVM RBF: votre code de validation croisée ici


In [None]:
# SVM RBF sélectionnée: votre code ici


### 6. Conclusion _(1.5 pt)_

a. Quel(s) classifieur(s) sélectionnez-vous et pourquoi ? _(0.5pt)_

b. Que vous dit la matrice de confusion du ou des meilleur(s) classifieur(s) ? _(0.5pt)_

c. Quel est le pire classifieur (à part le _dummy classifier_) et pourquoi à votre avis ? _(0.5pt)_

<font color=red>

Votre réponse:

</font>

### 7. Rééquilibrage des classes _(1pt)_ 

__(question plus difficile à garder pour la fin)__

Que fait l'option `class_weight='balanced'` dans `SVC` ? (référez-vous à la documentation)

Faites une prédiction par machine à vecteurs supports à noyau RBF avec la valeur de l'hyperparamètre $C$ sélectionnée précédemment (ne refaites pas une sélection par validation croisée) en utilisant cette option. Quel est l'effet sur la matrice de confusion et pourquoi? 

In [None]:
# votre code ici


<font color=red>

__Répondez sur votre copie de la partie 1__


</font>