# CHPT IV - EVALUATION DES MODELES

Objectif : trois techniques pour évaluer les modèles afin d'optimiser leur trade off biais/variance
- avoir un modèles qui minimise/maximise un score
- sur les données de test
- sans les avoir vue au préalable

Trois techniques :
- simple hold-out validation = un training set splitté en training/validation et un test qu'on n'utilisera seulement avant la mise en production
- shuffle hold-out avec iteration = on shuffle les données d'entrainement : on splitte train/validation on calcul l'erreur et on recommence...
- KFOLD = dans le cas de petit jeux de données ou simplement dans le cas d'une variance forte dans le premier cas : on divise notre jeux de données en K partie de même taille, chaque partie sera prise comme jeux de données de validation et d'entrainement, les scores pourront alors être moyennée
- KFOLD + shuffle iteration = les deux dernière technique, très bien pour les petits jeux de données mais très couteux en temps de calcul...

## Préparation des données et du modèles sur les données imdb

array([0, 1, 1, ..., 0, 0, 0], dtype=int64)

In [29]:
from keras.datasets import imdb
from keras import models, layers
import numpy as np

#ouverture
(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)

#prépa des données train et test
def vectorize_data(data,dim=10000):
    results = np.zeros((len(data),dim))
    for i, word in enumerate(data):
        results[i,word] = 1
    return results

x_train = vectorize_data(train_data)
x_test = vectorize_data(test_data)

y_train = np.asarray(train_labels).astype(float)
y_test = np.asarray(test_labels).astype(float)

# réseaux de neurones

def build_model():
    model = models.Sequential()
    model.add(layers.Dense(16,activation = "relu",input_shape = (10000,)))
    model.add(layers.Dense(16,activation = "relu"))
    model.add(layers.Dense(1, activation = "sigmoid"))
    
    model.compile(optimizer = "rmsprop",
                  loss = "binary_crossentropy",
                  metrics = ["accuracy"])
    return model


## Simple hold-out validation

In [31]:
np.random.shuffle(x_train) # on mélange le jeux de données

p = 0.75
l = len(x_train)
size = round(p*l)

x_ent = x_train[:size]
y_ent = y_train[:size]

x_val = x_train[size:]
y_val = y_train[size:]

model = build_model()

model.fit(x_ent,
          y_ent,
          epochs=5,
          batch_size=512,
         validation_data=(x_val,y_val))

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x1cc811a64f0>