# Keras


## Introduction

**Keras** est une bibliothèque de « haut niveau » dédiée à l'apprentissage automatique. Elle peut envelopper des outils de plus « bas niveau », comme Tensorflow (Google) ou Theano, mais prévoit d'arrêter le support des “backends” multiples pour renforcer le lien avec Tensorflow.

Keras est principalement utile pour :

* Prototyper et créer des modèles, grâce à une API simple d'emploi
* Représenter des modèles denses, convolutifs et récurrents (ou leurs combinaisons)
* Exécuter les modèles sur les CPU ou les GPU indifféremment


C'est un outil qui est conçu pour être:

* intuitif : il s'adresse d'abord aux utilisateurs et privilégie une API simple, masquant partiellement la complexité des opérations de Tensorflow ;
* modulaire : un modèle est avant tout une séquence ou un graphe de modules autonomes configurables séparément ;
* extensible : il est relativement simple d'ajouter de nouvelles classes à Keras pour augmenter l'expressivité de Keras ;
* pythonique : tous les modèles sont directement écrits en Python, sans fichiers additionnels (ce qui reste un choix stratégique mais contestable).


## Installation

Utiliser Keras nécessite d'installer à la fois Tensorflow et Keras, puisque — au moins à l'heure actuelle — on peut choisir sa bibliothèque de support.


### Installation de Tensorflow

**Source** : [Installation de Tensorflow](https://www.tensorflow.org/install/pip)

L'installation se fait directement via `pip`:

```sh
pip install --user --upgrade tensorflow
```

Il peut être utile aussi d'installer des utilitaires :

```sh
# Lire et écrire des fichiers au format HDF5
# pour sauvegarder des modèles
pip install h5py

# Accès à la bibliothèque graphique graphviz
pip install graphviz-python
pip install pydot
```

### Intallation de Keras

De même pour Keras :

```sh
pip install --user keras
```

Par défaut, Keras est prévu pour fonctionner en association avec Tensorflow. Mais il est possible de changer la configuration, directement dans ce fichier :

```sh
more ~/.keras/keras.json
```


## Keras en 30 secondes

Développer un modèle est quelque chose qui est à la fois simple et complètement générique, comme le montre la séquence suivante.

```python
from keras.models import Sequential

# Déclaration  et initialisation du modèle
model = Sequential()

#Ajouter des couches
from keras.layers import Dense

model.add(Dense(units=64, activation='relu', input_dim=100))
model.add(Dense(units=10, activation='softmax'))

# Compiler le modèle
model.compile(loss='categorical_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])

# Entraînement du réseau
# x_train and y_train are Numpy arrays --just like in the Scikit-Learn API.
model.fit(x_train, y_train, epochs=5, batch_size=32)

# Entraînement alternatif progressif (lot par lot)
model.train_on_batch(x_batch, y_batch)

# Evaluation de l'apprentissage
loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128)

# Utilisation du modèle sur de nouveaux cas
classes = model.predict(x_test, batch_size=128)
```

En réalité, Keras sait manipuler deux types de modèles :

* **Sequential** : architecture simple qui est, comme son nom l'indique, une succession de couches ;
* **Model** : architecture qui permet de construire des réseaux sous forme de graphes avec des entrées et des sorties multiples, des embranchements, etc.


## Les objets de Keras

Keras étant une enveloppe de Tensorflow, son but étant avant tout de simplifier la manipulation :

* des **modèles**
* des **couches**
* des **options de traitement** (*preprocessing*)

Beaucoup d'autres opérations restent du domaine de Tensorflow, comme on peut le voir dans la documentation :

**Source** : [API de Tensorflow 2.0](https://www.tensorflow.org/api_docs/python/tf)


### Les modèles

Nous allons principalement nous intéresser ici aux modèles *séquentiels*, qui sont les plus simples à comprendre.


#### Sequential

Un modèle séquentiel est un objet `Sequential`

```
from keras.models import Sequential

# Déclaration  et initialisation du modèle
model = Sequential()
```

Que peut-on faire sur un modèle ?

* **add** : ajouter une couche (un objet de type `Layer`)
* **compile** : compiler le modèle, c'est-à-dire le rendre opérationnel
* **fit** : entraîner le modèle, mettre en correspondance des exemples et des *étiquettes* associées à ces exemples
* **evaluate** : évaluer la qualité de l'apprentissage sur un jeu de données de test
* **predict** : soumettre au modèle un cas nouveau et recevoir sa réponse
* **get_layer** : extraire les données d'une coche particulière

En plus de ces opérations les plus courantes, il en existe des variantes qui permettent des exécutions itératives.


### Les couches

Alors que les modèles sont des objets relativement simples, il existe maintenant une profusion de types de couches  très divers, qui se spécialisent souvent sur des cas d'utilisation précis (images, jeux, création de textes, classification, etc.)


#### Core
Tout d'abord, il existe un certain nombres de couches « *de base* », comme :

* **Input** : la couche d'entrée du réseau, qui admet les valeurs des exemples, ou *caractéristiques*
* **Dense** : le type de couche « *historique* »,où tous les neurones sont connectés et agit comme un sommateur
* **Flatten** : transforme une couche matricielle en couche vectorielle
* **Activation** : ajoute un seuil d'activation à la couche précédente
* **Dropout** : ajoute du bruit en mettant aléatoirement certaines entrées à 0
* **Reshape** : réordonne un tenseur (e.g. (3,4) --> (6,2))
* **Lambda** : transforme les données selon une fonction arbitraire


#### Convolution

Il existe ensuite toute une série de couches de **convolution** et de **pooling** qui sont utilisées en particulier pour les applications d'imagerie. Les principales :

* **Conv1D**, **Conv2D**, **Conv3D** : convolution sur différentes dimensions
* **MaxPool1D**, **MaxPool2D**, **AvgPool2D** : diverses méthodes de pooling

La **convolution** a pour effet de détecter des régularités dans les données, étant donné un certain espace. Dans une image en deux dimensions, elle pourra repérer des formes (contours, plages de couleurs, etc.)
Le **pooling** est un technique qui permet de diminuer la dimensionnalité des problèmes.


#### Récurrence

Les couches récurrentes ont comme propriétés d'être auto-connectées (sortie --> entrée) et donc d'agir comme une« *mémoire* » des états antérieurs. Elles peuvent être utilisées en particulier dans les problèmes séquentiels (textes, jeux, etc.)

* **SimpleRNN** : comme son nom l'indique
* **[GRU](https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be)** : Gated Recurrent Unit, un mécanisme qui paramètre 
* **LSTM** : Long-Term Short Memory, une technique qui permet d'améliorer la précision des couches récurrentes
* **ConvLSTM2D** : une couche LSTM qui opère des convolutions sur les données


#### Autres

* **Embedding** : Change la représentation des données d'entrée
* **Merge** : Ensemble de couches destinées à fusionner des tenseurs
* **BatchNormalization** : normalise le seuil d'activation de la couche précédente, pour éviter les dérives (et le sur-entraînement)
* **GaussianNoise**, **GaussionDropout** : Ajout de bruit aléatoire sur les valeurs de la couche précédente


### Options de traitement

Le *preprocessing* recense une série fonction pour traiter des séquences, des textes, des images, définir des métriques, etc.

Entre autres :

#### Visualisation

* **plot_model** : Affiche la structure du réseau de neurones
* la fonction d'apprentissage `fit` renvoie l'historique du processus. celui-ci peut être visualisé directement avec `pyplot`

#### Applications

Recense un ensemble de modèles pré-entraînés que l'on peut utiliser directement, comme :

* Xception
* ResNet
* MobileNet
* etc.

#### Activation

L'ensemble des fonctions d'activation, comme

* reLu
* tanh
* sigmoid
* softmax
* etc.

#### Métriques

Différentes fonctions couramment utilisées pour estimer la performance du réseau après apprentissage.

* accuracy
* categorical_accuracy
* cosine_proximity

L'utilisateur peut tout à fait définir ses propres métriques

#### Pré-traitement de données

On trouve beaucoup de fonctions pour mettre en forme des données issues :

* d'images (Keras peut importer directement les images dans le réseau, contrairement à Tensorflow)
* de textes, notamment pour faire la segmentation lexicale et engendrer des vecteurs one-hot
* de séquences, pour générer des n-grams sur des textes, ou découper une séquence en échantillons de même taille
