# Les reseaux de neurones
## I- Objectif

1.  Comprendre la structure d'un reseau de neurone
2.  Comprendre la mésure de selection d'attributs:
3.  Créer et entrainer un perceptron multicouche en utilisant Scikit-learn
4.  Utilisation des differentes metriques pour l'évaluation d'un modèle

## II- Introduction
Le perceptron multicouche est parmi les structures de réseaux de neurones les plus utilisés en classification. Ces structure ont été utilisé dans une multitude d’applications dans divers domaines. Il été aussi démontrer que ce type de réseaux de neurones est un approximateur universels grâce à leurs habilité d’approximer n’importe quelle fonction de n’importe quelle dimension et d’une précision arbitraire à condition de leurs présenter taux de données d’entrainement suffisant et adéquat et un bon choix de leurs structure.


### 1- Le modèle d'un neurone

Un model d’un neurone artificiel est montré dans la Figure ci dessous. Il se compose essentiellement d’un ensemble d’entrées $ x_{i} $ muni d’un poids $ w_{1i} $ pour chacune, une unité de calcule représentant le corps du neurone et une seul sortie. 
![image.png](attachment:image.png)
La taille du vecteur d’entré est souvent augmenté en ajoutant une autre entrée $ x_{0}= -1 $ de poids b. Cette entrée supplémentaire s’appel un biais. La sortie du neurone j est la somme des $ x_{i} $ pondérés par les $ w_{ji} $ qui alimente l’entré d’une fonction d’activation f  comme montre l’équation suivante:
$$ a=f(n)=f(W^{T}X-b)=f(\sum_{i=0}^{R}w_{ji}x_{i}) $$

Il existe plusieurs possibilités  pour le choix de la fonction d’activation. Le Tableau  suivant illustre un ensemble d’exemple des fonctions d’activation utilisables.
![image-2.png](attachment:image-2.png)
- La fonction seuil applique un seuil sur son entrée. Une entrée négative ne passe pas le seuil, dans ce cas la fonction retourne la valeur 0, alors qu’une entrée positive ou nulle, dépasse le seuil, et la fonction retourne 1. Le biais détermine l’emplacement du seuil où la fonction passe de 0 à 1. Dans le contexte des réseaux de neurones, cette fonction permet de prendre des décisions binaires.
- La fonction linéaire est très simple, elle affecte directement son entrée à sa sortie.
- La fonction d’activation tangente hyperbolique a la même forme que la fonction sigmoïde sauf que la fonction sigmoïde prend ses valeurs entre 0 et 1, alors que la tangente hyperbolique prend ses valeurs entre -1 et 1. Le paramètre β dans la fonction d’activation sigmoïde et la fonction d’activation tangente hyperbolique, détermine l’allure de ces deux fonctions en passant d’une fonction seuil pour β=1 à une fonction linéaire pour β=0.   
### 2- Le perceptron simple
Un perceptrone multicouche est un maillage de plusieurs neurones organisé en couches. Chaque couche contient S neurones connectés aux R entrées. On dit alors que la couche est totalement connectée. Un poids $ w_{ij} $ est associé à chacune des connexions. L’ensemble des poids d’une couche forme une matrice W de dimension S×R :
![image-4.png](attachment:image-4.png)
Dans cette matrice, le premier indice désigne le numéro de neurone sur la couche, alors que le deuxième indice désigne le numéro de l’entrée. Ainsi,  spécifie le poids de la connexion qui relie le neurone i à son entrée j. Si de plus on prend, $ n=[n_{1},n_{2},...,n_{S}]$, $ a=[a_{1},a_{2},...,a_{S}]$ et $ b=[b_{1},b_{2},...,b_{S}]$, alors nous obtiendrons une représentation simplifiée plus compacte illustrée à la figure.
![image-3.png](attachment:image-3.png)


### 3- Le perceptron multicouches

Pour construire un perceptron multicouches, il suffit de combiner plusieurs couches comme montre la figure. Dans le cas général $ S^{1}\neq S^{2} \neq S^{3}$  et chaque couche possède sa propre matrice de poids $ w^{k} $  où k est l’indice de la couche. Ainsi que ces vecteurs $a^{k}, b^{k} et n^{k} $.
En théorie, on peut enfiler autant de couche que l’on veut. Pour chaque couche (sauf celle d’entré et de sortie), on peut fixer un nombre quelconque de neurones. En pratique, il n’est pas souhaitable d’utiliser trop de neurones.
Les réseaux multicouches sont plus puissants que les réseaux simples à une seule couche. Avec une couche cachée muni d’une fonction d’activation sigmoïde, on peut entraîner un réseau à produire une approximation de la plupart des fonctions, avec une précision arbitraire. Sauf dans des cas précis, les réseaux de neurones artificiels exploitent plus qu’une couche cachée.
![image-5.png](attachment:image-5.png)


### 4- Entrainement d'un perceptron multicouches
Un perceptron multicouche est un réseau de neurone de type propagation vers l’avant (feed-forward). Ça signifie que l’information circule dans un seul sens, de l’entrée vers la sortie. Sons apprentissage est de type supervisé, par correction des erreurs. Le signal d’erreur est rétropropagé vers les entrées afin de mettre à jour les poids des neurones.
Pour déterminé les poids et le biais, on commence par leurs affecter  des valeurs aléatoire puis pour chaque exemple d’entré/sortie $ (x,d) $ on effectue la mise à jour suivante :
$$ W(t+1)=W(t)+\Delta W $$
$$ \Delta W= eX^{T}$$
$$  b(t+1)=b(t)+\Delta b $$
$$ \Delta b= -e $$
avec $ e=d-a $


## III- Applications
### 1. indians diabetes database
#### Q1. Chargement des données
1- Construire un Dataframe ***data*** contenant les données stoker dans le fichier ***diabetes.csv***  https://www.kaggle.com/uciml/pima-indians-diabetes-database

2- visualiser ce dataframe ainsi que les diferentes mesure sur ce dataframe

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [8]:
df = pd.read_csv('diabetes.csv')
df.head(5)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


#### Q2. Selection des caracteristiques
Créer les deux dataframes:
- X: le dataframe des entrée (4 colonnes parmit 8) 
- y: la sortie (outcome)

In [11]:
X = df[['Glucose', 'Insulin', 'BMI', 'Age']]
y = df.Outcome

#### Q3. Partitionner ces données en X_train, X_test, y_train, y_test

In [12]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)


#### Q4. Création, entrainement et évaluation du modèle
1. Utiliser le classifieur ***MLPClassifier*** du module ***sklearn.neural_network*** pour initialiser et entrainer trois perceptrons:
- avec une seule couche cachée de 8 neurones
- avec deux couches cachées de (8,16) neurones
- avec trois couches cachées.

2. Afficher la matrice de confusion de ce modèle
3. Calculer les trois metrics suivante:
>- Accuracy
>- Prcison
>- recall
>- F1 score

de ce modèle (voir l'article suivant: https://towardsdatascience.com/accuracy-precision-recall-or-f1-331fb37c5cb9)

In [18]:
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import confusion_matrix
clf = MLPClassifier(hidden_layer_sizes=(8, ), activation='logistic', alpha=1e-4,
                    solver='adam', tol=1e-4, random_state=1,
                    learning_rate_init=.1, verbose=True)

clf.fit(X, y)
y_pred = clf.predict(X_test)
confusion_matrix(y_test, y_pred)

Iteration 1, loss = 0.67180227
Iteration 2, loss = 0.64709027
Iteration 3, loss = 0.64586120
Iteration 4, loss = 0.64665831
Iteration 5, loss = 0.64760398
Iteration 6, loss = 0.64663063
Iteration 7, loss = 0.64791158
Iteration 8, loss = 0.64648075
Iteration 9, loss = 0.64807615
Iteration 10, loss = 0.64773090
Iteration 11, loss = 0.64717252
Iteration 12, loss = 0.64848782
Iteration 13, loss = 0.64719239
Iteration 14, loss = 0.64811074
Training loss did not improve more than tol=0.000100 for 10 consecutive epochs. Stopping.


array([[130,   0],
       [ 62,   0]], dtype=int64)

In [22]:
data = {
    'Glucose': 79,
    'Insulin': 31,
    'BMI': 0.4,
    'Age': 22
}

newdf = pd.DataFrame(data, columns=['Glucose', 'Insulin', 'BMI', 'Age'], index = [0])
newdf

Unnamed: 0,Glucose,Insulin,BMI,Age
0,79,31,0.4,22


In [27]:
p = np.array(newdf)
clf.predict(p)[0]

0

#### Q5. utilisation du modèle

Mr Rachid a fait un bilon et a obtenu les resu Après un bilon Mr

    Age: 22
    Glucose: 79
    BloodPressure: 69
    Insulin: 31
    BMI: 0.4

Mr Rachid a-t-il un diabéte?
Comparer le résultat avec celui obtenu avec un arbre de décision.


Documentation
https://towardsdatascience.com/visualizing-the-mlp-a-composition-of-transformations-dec1c62d4eea

### 2. MNIST database
La base de données MNIST (Modified National Institute of Standards and Technology database) de chiffres manuscrits se compose d'un ensemble de 60 000 exemples d'entrainement et d'un ensemble de test de 10 000 exemples. Il s'agit d'un sous-ensemble d'un ensemble plus large disponible auprès du NIST. De plus, les images en noir et blanc du NIST ont été normalisées en taille et centrées pour s'insérer dans un cadre de délimitation de 28x28 pixels.
#### Q1- Refaire les mémes étape pour construire un système de classification des chiffres manuscrits 