In [None]:
import numpy as np
import imageio
import os
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Création du test set

On sépare 20% de nos données pour créer un **test set** et un **training set** avec les 80% restants. On veut que les données soient réparties (autant de représentation de chaque illustration pour chacun des sets)

## Création du dataset
Création de **data** en chargeant toutes les images en une liste de numpy array et création de la liste **target** correspondante.

In [None]:
PATH_TO_RESOURCES = '../resources/train/'
NB_CLASSES = 57

In [None]:
X = []
y = []
for root, dirs, files in os.walk(PATH_TO_RESOURCES):
    for name in files:
        if name.endswith((".png")): # On s'intéresse à tous les fichiers PNG de nos dossiers
            file_path = os.path.join(root, name)
            dir_name = root.split(os.path.sep)[-1] # On extrait du path le nom de dossier du PNG lu qui correspond au nom de la classe
            im = imageio.imread(file_path)
            X.append(im)
            y.append(dir_name)

In [None]:
def display_repartition(y_train, y_test):
    
    train = [0] * NB_CLASSES
    test = [0] * NB_CLASSES
    n = 0
    
    # 
    for i in range (len(y_train)):
        train[int(y_train[i]) - 1]+=1
        n+=1
    for i in range (len(y_test)):
        test[int(y_test[i]) - 1]+=1
        n+=1
        
    for i in range (len(train)):
        nb_data = train[i] + test[i]
        train[i] = (train[i] / nb_data) * 100
        test[i] = (test[i] / nb_data) * 100
    x_axis = list(range(1, NB_CLASSES + 1))
    plt.plot(x_axis, train, label="Pourcentage de données dans le train set")
    plt.plot(x_axis, test, label="Pourcentage de données dans le test set")
    plt.title("Répartition des données des classes entre le train set et le test set en pourcentage")
    plt.xlabel("Id de la classe")
    plt.ylabel("Pourcentage de données")
    plt.legend()
    
    ax = plt.subplot(111)
    ax.legend(loc='center left', bbox_to_anchor=(1, 0.5))
    box = ax.get_position()
    
    plt.ylim(-5,105)
    plt.show()
    

**Répartition aléatoire du train set**
On constate que la répartition n'est pas très bonne : certaines classes ne sont pas représentée dans le test set alors que d'autres sont sous représentées dans le train set.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
display_repartition(y_train, y_test)

**Activation de stratify**
La répartition des données entre le train set et le test set est parfaite.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y,random_state=42)
display_repartition(y_train, y_test)