# **Le classique "chien ou chat" - CNN avec Keras**

Le but de cet exercice est la classification d'images d'animaux en chien ou en chat. Évidemment ça peut paraître assez stérile comme objectif dans la vraie vie mais sachez que les applications intéressantes et utiles de ces réseaux sont multiples notamment en médecine.  
Par exemple pour la reconnaissance de tumeur pulmonaire ou autre.  
Et ce qui est chouette, c'est que la seule différence sera dans les images pour l'entraînement et la strutucre du réseau éventuellement.

## **Les données**

Les données ne sont plus structurées en un seul et joli CSV à partir duquel on peut associer le label et les variables explicatives facilement pour chaque observation. Le problème est qu'il faut pouvoir associer à chaque image le bon label.

Une idée simple de solution est de structurer les données dans des dossiers (sous-dossiers) contenant les labels dans les noms par exemple :
1. séparer les échantillons d'entraînement et de test dans 2 dossiers différents
2. ensuite on appelle chaque image par un nom {label}_{numéro} genre chat_1, chat_2, chien_1, chien_2 etc...
3. pour finir on fait un petit script qui récupère le label dans le nom de l'image à chaque fois via une petite manip de string

On pourrait faire ça, ça marche, mais il y a une manière "toute cousue" qui fonctionne très bien dans Keras puisqu'on on y trouve des outils pour extraire les images facilement. La seule contrainte est de bien structurer le dossier de la manière suivante :

<img src="images/cnn_exo_arborescence.png">

**Question 1 :** le dossier dataset n'est pour l'instant pas organisé comme il devrait...à vous de le faire, comme vous voulez à la main, depuis le terminal, c'est vous qui choisissez mais vous devez obtenir la même arborescence que celle indiquée dans la photo ci-dessus ! Faire un screenshot (avec un élément qui vous identifie, ici c'est mon username) et l'afficher en réponse à cette question  
*ps1 :* le training_set contient toutes les images numérotées de 1 à 4000 et le test_set contient toutes celles de 4001 à 5000. Vous devez respecter cette répartition pour qu'on ait les mêmes échantillons.  
*ps2 :* le dossier single_prediction est pour la fin de l'exercice, il n'est pas nécessaire dans l'arborescence des dossiers d'image pour `Keras` mais créez-le de suite, ce sera fait.

## **Le réseau CNN**

Tout est dit. Ou presque.  
Vous devez construire et entraîner un réseau de neurones à convolution pour la catégorisation des images en chien/chat.  
Allez, je vous mets quelques pistes et même toutes les librairies nécessaires, c'est cadeau.

In [1]:
# Librairies
from keras.models import Sequential
from keras.layers import Conv2D
from keras.layers import MaxPooling2D
from keras.layers import Flatten
from keras.layers import Dense
from keras.preprocessing.image import ImageDataGenerator

#### **L'architecture**

Dans un premier temps construisez votre réseau étape par étape

#### **L'entraînement**

Là, c'est un peu plus complexe alors je vous donne les méthodes à utiliser, dans cet ordre :
1. `ImageDataGenerator`
2. `flow_from_directory`
3. `fit_generator` (méthode qui va être dépréciée, on peut utiliser directement `fit` qui supporte les générateurs)

Il va certainement vous falloir fouiller un peu là-dedans https://keras.io/api/preprocessing/image/ et en profiter pour découvrir le concept merveilleux de *Data Augmentation*.

## **Prédictions à partir de nouvelles images**

Prenez une jolie photo de votre chien ou de votre chat et utilisez votre modèle CNN pour prédire de quel animal il s'agit. Si vous n'avez ni chien ni chat, pas de panique, dans le dossier `single_prediction`, il y a ce qu'il faut et vous pouvez aussi tester d'autres images en allant en récupérer sur internet.

## **Amélioration de votre modèle**

Un petit *kaggle* maison : essayez d'améliorer l'accuracy de votre CNN
- Accuracy **entre 80% et 85%** sur le jeu de test, c'est **pas mal**
- Accuracy **entre 85% et 90%** sur le jeu de test, c'est **bien**
- Accuracy **supérieure à 90%**  sur le jeu de test, c'est **top**

Les règles du jeu :
- On garde bien sûr le même jeu d'entraînement
- Il est interdit de spécifier manuellement une seed

*Une indication utile :* laissez tomber la validation croisée dans un premier temps car en utilisant `fit_generator`, le modèle passe directement sur l'échantillon test pour valider le modèle. C'est faisable mais un peu plus compliqué...

Pour aller plus loin, on peut modifier le réseau et atteindre les 90% d'accuracy espérés de différentes manières en rendant le réseau un peu plus complexe : vous pouvez notamment ajouter une couche de convolution ou augmenter le nombre de neurones dans les couches. Le problème c'est que c'est un peu long de réentraîner à chaque fois tout le modèle pour tester les améliorations.

#### **Autre solution: le transfer learning**

Encore une fois on pourrait aller plus loin en complexifiant les couches de classification, en réentraînant éventuellement certaines couches cachées et en modifiant certains hyperparamètres mais là n'était pas l'objectif.