# Chapitre 6 - Différentes utilisations dumachine learning avec Python (4ème partie)

## 6.7 Le deep learning avec Keras

### 6.7.2 Principe d’un réseau de neurone et première utilisation avec Keras

Le package Keras que nous avons installé est basé sur une structure extrêmement
simple à mettre en oeuvre. On commence par définir le type de réseau utilisé. Dans
cet ouvrage, il s’agira de réseaux séquentiels.

Si nous prenons les données sur les télécommunications que nous avons utilisées
précédemment, nous pouvons simplement utiliser Keras pour créer un réseau de neurones assez évolué (on suppose ici que les données ont été préparées comme
dans la première partie de ce chapitre avec Scikit-Learn) :

In [1]:
import pandas as pd
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.layers import BatchNormalization, Activation




In [2]:
x=pd.read_csv("../data/x_telecom.csv",index_col=0)
y=pd.read_csv("../data/y_telecom.csv",index_col=0)

In [3]:
from sklearn.model_selection import train_test_split
# on sépare nos données en apprentissage/validation avec Scikit-Learn
x_train, x_test, y_train, y_test=train_test_split(x,y,test_size=0.2)

In [4]:
# on crée le modèle
model = Sequential()




In [5]:
# on ajoute des couches avec des fonctions d’activation
model.add(Dense(50, input_shape=(21,)))
model.add(Activation("relu"))
# cette couche permet de normaliser les données
model.add(BatchNormalization())
# cette couche va faire en sorte d’éviter l’overfitting
model.add(Dropout(0.1))
# on ajoute un autre groupe de couches
model.add(Dense(10))
model.add(Activation("relu"))
model.add(BatchNormalization())
model.add(Dropout(0.1))
# on ajoute la couche de sortie
model.add(Dense(1))
model.add(Activation('sigmoid'))


In [6]:
# on définit la fonction de perte et la fonction d’optiimsation
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=["accuracy"])




In [7]:
# on ajuste le modèle
model.fit(x_train, y_train, batch_size=100, epochs=100)

Epoch 1/100


Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 

<keras.src.callbacks.History at 0x19d83504dc0>

In [9]:
model.predict(x_test)



array([[4.33706027e-03],
       [1.62187126e-02],
       [9.12631601e-02],
       [4.55092901e-04],
       [1.81017127e-02],
       [1.22207697e-04],
       [1.89909950e-01],
       [7.61536896e-01],
       [1.21815037e-02],
       [2.01128814e-02],
       [7.30563945e-04],
       [1.05901714e-02],
       [1.23345843e-02],
       [5.88291907e-04],
       [5.94911516e-01],
       [1.01362318e-02],
       [2.16161590e-02],
       [4.70777135e-03],
       [6.69595078e-02],
       [7.35961080e-01],
       [1.75070413e-03],
       [1.51974216e-01],
       [2.91367550e-03],
       [7.95054659e-02],
       [9.83344042e-04],
       [2.79635860e-04],
       [9.98924136e-01],
       [2.77857780e-02],
       [2.64880800e-04],
       [1.38726672e-02],
       [5.53292874e-03],
       [1.76508294e-03],
       [2.04201955e-02],
       [2.16491311e-03],
       [6.28077378e-03],
       [3.69932997e-04],
       [1.19393202e-03],
       [1.37351733e-03],
       [2.49857176e-02],
       [1.00111333e-03],


In [11]:
# on calcule l’AUC pour les données de validation
from sklearn.metrics import roc_auc_score
print("AUC pour RN :", roc_auc_score(y_test,
                                     model.predict(x_test).reshape(-1)))

AUC pour RN : 0.9055933708197693


Les réseaux de neurones sont des méthodes extrêmement efficaces à condition
de bien les paramétrer ce qui peut s‘avérer très difficile.

### 6.7.3 Le deep learning et les réseaux de neurones à convolutions

On va maintenant travailler sur des images. On prendra les données fashion-mnist :

In [12]:
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, Activation, Flatten
from tensorflow.keras.layers import Conv2D, MaxPool2D
from tensorflow.keras.datasets import fashion_mnist

In [13]:
# récupération des données
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

# les données sont transformées pour passer sous un format d’image
# standard avec des valeurs entre 0 et 1
x_train = (x_train/255).reshape(x_train.shape[0], 28, 28,1)
x_test = (x_test/255).reshape(x_test.shape[0], 28, 28,1)

# passage à 10 colonnes pour y(une par modalité)
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

In [14]:
# construction du modèle
model = Sequential()
model.add(Conv2D(32, (3, 3), activation = 'relu', input_shape = (28,28,1)))
model.add(Conv2D(32, (3, 3), activation = 'relu'))
model.add(MaxPool2D(pool_size=(2,2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='softmax'))




In [15]:
# compilation du modèle
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [16]:
# ajustement du modèle
model.fit(x_train, y_train, batch_size=100, epochs=10, verbose=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x19d86c14f70>

In [17]:
# evaluation du modèle
score = model.evaluate(x_test, y_test, verbose=0)

Nous avons appliqué deux couches de convolutions à 32 neurones avec une taille
de fenêtre de 3 par 3. Puis une couche de pooling avec une réduction sur des fenêtres
de 2 par 2. Nous obtenons les résultats suivants :

In [18]:
# obtention de l’accuracy sur les données de validation
print("Pourcentage de bien classées :", score[1])

Pourcentage de bien classées : 0.9189000129699707


On voit qu’on est au-delà de 92 % bien classés sur l’échantillon de validation.
Dans notre cas, on a utilisé des images directement dans le package Keras.

Généralement, les images sont stockées dans des répertoires différents. Keras
possède de nombreux outils pour charger ces images, on peut par exemple utiliser
ImageDataGenerator :

In [19]:
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# on définit un générateur qui pourrait modifier nos images
# (dans ce cas on passe en float 0 à 1)
train_datagen = ImageDataGenerator(rescale=1./255)
test_datagen = ImageDataGenerator(rescale=1./255)

# on définit le dossier dans lequel se trouve les images
train_generator = train_datagen.flow_from_directory('../data/',target_size=(150, 150),
                                                    batch_size=32,class_mode='binary')
# on définit le dossier dans lequel se trouve les images
validation_generator = test_datagen.flow_from_directory('../data/',
                                                        target_size=(150, 150),
                                                        batch_size=32,
                                                        class_mode='binary')

Found 0 images belonging to 0 classes.
Found 0 images belonging to 0 classes.


Vous avez maintenant tous les outils pour vous lancer dans la construction de
réseaux de deep learning avec Python.

### 6.7.4 Aller plus loin : génération de features, transfer learning, RN, GAN …
On charge facilement un modèle avec :

In [20]:
from tensorflow.keras.applications.resnet50 import ResNet50
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.resnet50 import preprocess_input
from tensorflow.keras.applications.resnet50 import decode_predictions
import numpy as np

In [21]:
# on utilise le modèle ResNet50
model = ResNet50(weights='imagenet')

In [22]:
# on récupère une nouvelle image
img_path = '../data/elephant.png'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

In [23]:
# on applique le modèle
preds = model.predict(x)
print('Prédit (classe/ %):', decode_predictions(preds, top=1)[0])

Prédit (classe/ %): [('n02504458', 'African_elephant', 0.6474533)]


On obtient donc un résultat à partir du modèle chargé. On pourra utiliser ce modèle
et ses poids dans des couches intermédiaires de notre modèle.

Dans ce cas, on a chargé un modèle et on lui a fourni une photographie d’éléphant.
Le modèle considère que c’est un éléphant d’Afrique à 87%.

Nous avons effectué un panorama approfondi de l’utilisation de Python
pour faire du machine learning, du deep learning et du traitement des
données textuelles. Python ressort comme un langage adapté à toutes
ces approches et un outil indispensable pour le data scientist.