## Classification supervisée des images

Un réseau de neurones est-il en mesure de détecter les armures des tissages ?

In [None]:
import pandas as pd
import os
import shutil #copier fichier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

import random

In [None]:
from ultralytics import YOLO

In [None]:
cd ../../data

### Création du dataset --> Problème pour toutes les catégories le dataset est très déséquilibré

Cas des techniques : 
- Catégorie "fabric" --> dataset très très déséquilibré --> rééquilibrer en mettant plus de photos pour certaines techniques ?
- Catégorie "technique" --> trop précise
- Catégorie "structure" --> 36 possibilités

__Catégorie fabric__ : pour rééquilibrer le dataset on peut enlever les maquettes --> suppression de 2 balanced weave et de 156 warp faced cloth et créer des catégories plus grandes

In [None]:
with open("textile_clean.csv") as csv :
    df_textile = pd.read_csv(csv, sep="\t")
    
#Pour rééquilibrer le dataset : suppression des maquettes
for i in range(696):
    if df_textile.loc[i, "product"] == "Figure model":
        df_textile = df_textile.drop(i, axis=0)

In [None]:
#Fonction pour voir le nombre de textile et d'images par catégorie. But : vérifier l'équilibre du dataset.
def repartition_dataset(df, nom_colonne) :
    #Récupération du nombre d'éléments par classe
    colonne = df.loc[:,nom_colonne]
    df1 = pd.DataFrame(colonne.value_counts())

    #Récupération du nombre d'images associées à chaque classe
    count_image = []
    cats = list(df1.index)

    for cat in cats : 
        df_cat = df.loc[lambda df: df['fabric'] == cat]
        count = 0
        for elt in df_cat['image'] : 
            elt = elt.split(',')
            count += len(elt)
        count_image.append(count)

    df1['images'] = count_image
    
    return df1

In [None]:
repartition_dataset(df_textile, 'fabric')

#### Modification des catégories pour avoir un dataset plus équilibré

Passage de 22 catégories à 5. 

In [None]:
df_textile_yolo = df_textile.copy()

for i in df_textile_yolo[['fabric']].columns:
    df_textile_yolo[i].replace("Balanced weave, Weft-faced cloth","Mixed weave",inplace=True)
    df_textile_yolo[i].replace("Warp-faced cloth, Weft-faced cloth","Mixed weave",inplace=True)
    df_textile_yolo[i].replace("Balanced weave, Warp-faced cloth","Mixed weave",inplace=True)
    df_textile_yolo[i].replace("Balanced weave, Warp-faced cloth, Weft-faced cloth","Mixed weave",inplace=True)
    
    df_textile_yolo[i].replace("Transposed warp with multiple interlaced wefts, Warp-faced cloth","Warp-faced cloth",inplace=True)
    df_textile_yolo[i].replace("Plaiting, Warp-faced cloth","Warp-faced cloth",inplace=True)
    df_textile_yolo[i].replace("Crossed warp weave, Warp-faced cloth","Warp-faced cloth",inplace=True)
    df_textile_yolo[i].replace("Crossed warp weave","Warp-faced cloth",inplace=True) #?
    
    df_textile_yolo[i].replace("Plaiting, Weft-faced cloth","Weft-faced cloth",inplace=True)
    df_textile_yolo[i].replace("Twining, Weft-faced cloth","Weft-faced cloth",inplace=True)

    #D'Harcourt (1934) : catégorie qui reprend les fils entrelacés (et non deux couches perpendiculaires) : Tresses ou Nattes ? 
    #Mesh dans la base de données est catégorie fourre-tout (ILCA062 sont poupées avec tissage / certaines pièces sont tricots).
    df_textile_yolo[i].replace("Oblique interlacing","Mesh",inplace=True)
    df_textile_yolo[i].replace("Oblique interlacing, Tubular, Warp-faced cloth","Mesh",inplace=True)
    df_textile_yolo[i].replace("Oblique interlacing, Weft-faced cloth","Mesh",inplace=True)
    df_textile_yolo[i].replace("Oblique interlacing, Warp-faced cloth","Mesh",inplace=True)
    df_textile_yolo[i].replace("Twining","Mesh",inplace=True)
    df_textile_yolo[i].replace("Interknotting","Mesh",inplace=True)
    df_textile_yolo[i].replace("Tubular","Mesh",inplace=True)
    df_textile_yolo[i].replace("Transposed warp with multiple interlaced wefts","Mesh",inplace=True)
    

In [None]:
repartition_dataset(df_textile_yolo, 'fabric')

### Création d'un dataset qui classe les images selon leur armures

In [None]:
#Code qui répartit les images selon leur technique 

images_dir = "images/images_jpg" #images originales

#Création d'un dossier dataset_technique
dataset_dir = "dataset_technique/dataset"
os.makedirs(dataset_dir, exist_ok=True)

#Création de sous-dossiers avec les noms des techniques
folder_names = []
for elt in list(set(df_textile_yolo.loc[:, "fabric"])) : 
    elt = elt.replace(" ","")
    elt = elt.replace(",", "")
    elt = elt.replace("-", "")
    folder_names.append(elt)
folder_names

for original_folder in folder_names:
    path  = os.path.join(dataset_dir, original_folder) #concaténation chemin et nom du dossier
    os.makedirs(path, exist_ok=True)
    
#Répartition des images selon leurs techniques : deux cas --> warp faced cloth (1 image) / autre (plusieurs images)
#Parcourir le df, récupérer nom de la technique et noms images
for i in range(696) :
    try : #Pour ne pas prendre en compte les index qui ont sauté avec maquettes et les schémas .png
        folder_name = df_textile_yolo.loc[i, "fabric"]
        folder_name = folder_name.replace(" ","")
        folder_name = folder_name.replace(",", "")
        folder_name = folder_name.replace("-", "")
        #Ici si folder name = warpfacedcloth cas 1 image et sinon toutes les images

        images = df_textile_yolo.loc[i, "image"]
        images = images.replace("'", "").replace("[", "").replace("]", "").replace(" ", "").split(',')
        for img in images : 
            shutil.copy(os.path.join(images_dir, img), os.path.join(dataset_dir,folder_name))
    except :
            pass

### Téléchargement du modèle et visualisation de ses composantes

In [None]:
#Version YOLOv8
model = YOLO('yolov8n-cls')

In [None]:
#Version YOLOv8
model

## Premier entrainement avec dataset tel quel

Résultats enregistrés dans le dossier "data/runs/classify/train_50epoch".

### Partage des données train/test

In [None]:
dataset_dir = 'dataset_technique/dataset'
train_dir = 'dataset_technique/data/train'
val_dir = 'dataset_technique/data/val'

In [None]:
os.makedirs(train_dir, exist_ok=True)
os.makedirs(val_dir, exist_ok=True)

In [None]:
class_folders = [dir for dir in os.listdir(dataset_dir) if os.path.isdir(os.path.join(dataset_dir, dir))]
#On récupère la listes des noms des dossiers/classes

In [None]:
class_folders

### Entraînement des données

In [None]:
for original_folder in class_folders:
    old_path  = os.path.join(dataset_dir, original_folder) #concaténation chemin et nom du dossier
    new_folder_name = original_folder.split('-')[0]
    new_path = os.path.join(dataset_dir, new_folder_name) #creation nouveau chemin
    
    os.rename(old_path, new_path)

In [None]:
#Pour répartir les images d'entraînement et de validation dans des dossiers avec le bon nom
for class_folder in class_folders:
    class_path = os.path.join(dataset_dir, class_folder)
    images = [image for image in os.listdir(class_path) if os.path.isfile(os.path.join(class_path, image))]
    
    train_img, val_img = train_test_split(images, test_size=0.2, random_state=42)
    
    train_subfolder_path = os.path.join(train_dir, class_folder)
    val_subfolder_path = os.path.join(val_dir, class_folder)
    
    os.makedirs(train_subfolder_path, exist_ok=True)
    os.makedirs(val_subfolder_path, exist_ok=True)
    
    for img in train_img:
        shutil.copy(os.path.join(class_path, img), train_subfolder_path)
        
    for img in val_img:
        shutil.copy(os.path.join(class_path, img), val_subfolder_path)

In [None]:
###### Version pour YOLOv8
results = model.train(data='dataset_technique/data',
                      epochs=50,
                      batch=64,
                      dropout=0.1, 
                      seed = 42)
                     ,#device='mps') #Entrainement sur la puce Apple M2 (et M1) "Metal Performance Shaders"

#Bug. en utilisant MPS: error: 'mps.select' op failed to verify that all of {true_value, false_value, result} have same element type
    # note: see current operation: %17 = "mps.select"(%16, %15, %14) : (tensor<1xi1>, tensor<1xf16>, tensor<1xf32>) -> tensor<1xf16>
    #failed assertion 'expected a valid model URL' 
#Pas encore solutionné par Ultralytics : https://github.com/ultralytics/ultralytics/issues/7554 (issue du 13 janvier 2024).

In [None]:
#Visualisation des résultats du modèle = résultat
result = my_model('dataset_technique/data/val/Mixedweave/BML031_IMG_3428.jpg', visualize=True, save=True)
#En jaune on voir les zones maximisées par neurones (pooling = plus on avance dans les couches moins on a de pixels)
#Intéressant pour comprendre les choix de classification d'un réseau (couleur, motif, background...)

#### Validation externe avec dataset de l'année dernière qui contient différentes techniques

In [None]:
my_model = YOLO('runs/classify/train_50epoch/weights/best.pt')
dataset_val_out = 'dataset_technique/test_ext'
images = [image for image in os.listdir(dataset_val_out) if image.endswith('.jpg')]
for elt in images :
    result = my_model(os.path.join(dataset_val_out, elt), visualize=True, save=True)

## Deuxième entrainement avec dataset équilibré

Résultats enregistrés dans le dossier "data/runs/classify/train_eq_50epoch".

In [None]:
class_folders = [dir for dir in os.listdir(dataset_dir) if os.path.isdir(os.path.join(dataset_dir, dir))]
dict = {}
for elt in class_folders :
    count = 0
    dir = f"dataset_technique/dataset/{elt}"
    for path in os.listdir(dir):
        if os.path.isfile(os.path.join(dir, path)):
            count += 1
    dict[elt]=count
print(dict)

Le dataset n'est pas équilibré, les tissages dominante chaîne sont largement supérieurs au reste des textiles ce qui risque de biaiser l'entraînement. Nous pouvons essayer de créer un dataset équilibré : contenant 54 images de chaque catégorie.

In [None]:
train_dir2 = 'dataset_technique/data_eq/train'
val_dir2 = 'dataset_technique/data_eq/val'

In [None]:
os.makedirs(train_dir2, exist_ok=True)
os.makedirs(val_dir2, exist_ok=True)

In [None]:
for original_folder in class_folders:
    old_path  = os.path.join(dataset_dir, original_folder) #concaténation chemin et nom du dossier
    new_folder_name = original_folder.split('-')[0]
    new_path = os.path.join(dataset_dir, new_folder_name) #creation nouveau chemin
    
    os.rename(old_path, new_path)

In [None]:
#Pour répartir les images d'entraînement et de validation dans des dossiers avec le bon nom
for class_folder in class_folders:
    class_path = os.path.join(dataset_dir, class_folder)
    images = [image for image in random.sample(os.listdir(class_path), 54) if os.path.isfile(os.path.join(class_path, image))]
    #On ajoute random sample pour obtenir 54 images uniques aléatoirement dans les dossiers = équilibrage du dataset
    
    train_img, val_img = train_test_split(images, test_size=0.2, random_state=42)
    
    train_subfolder_path = os.path.join(train_dir2, class_folder)
    val_subfolder_path = os.path.join(val_dir2, class_folder)
    
    os.makedirs(train_subfolder_path, exist_ok=True)
    os.makedirs(val_subfolder_path, exist_ok=True)
    
    for img in train_img:
        shutil.copy(os.path.join(class_path, img), train_subfolder_path)
        
    for img in val_img:
        shutil.copy(os.path.join(class_path, img), val_subfolder_path)

In [None]:
#Version pour YOLOv8
results = model.train(data='dataset_technique/data_eq',
                      epochs=50,
                      batch=32,
                      dropout=0.1)
                     ,#device='mps') #Entrainement sur la puce Apple M2 (et M1) "Metal Performance Shaders"

#Bug. en utilisant MPS: error: 'mps.select' op failed to verify that all of {true_value, false_value, result} have same element type
    # note: see current operation: %17 = "mps.select"(%16, %15, %14) : (tensor<1xi1>, tensor<1xf16>, tensor<1xf32>) -> tensor<1xf16>
    #failed assertion 'expected a valid model URL' 
#Pas encore solutionné par Ultralytics : https://github.com/ultralytics/ultralytics/issues/7554 (issue du 13 janvier 2024).

#### Validation externe avec dataset de l'année dernière qui contient différentes techniques

In [None]:
my_model = YOLO('runs/classify/train_eq_50epoch/weights/best.pt')
dataset_val_out = 'dataset_technique/test_ext'
images = [image for image in os.listdir(dataset_val_out) if image.endswith('.jpg')]
for elt in images :
    result = my_model(os.path.join(dataset_val_out, elt), visualize=True, save=True)

## Troisième entrainement avec dataset augmenté et équilibré

Résultat enregistrés dans le dossier "data/runs/classify/train_eq_augment_50epoch".

In [None]:
dataset_dir2 = 'dataset_technique/dataset_augment'

In [None]:
train_dir3 = 'dataset_technique/data_augment/train'
val_dir3 = 'dataset_technique/data_augment/val'

In [None]:
os.makedirs(train_dir3, exist_ok=True)
os.makedirs(val_dir3, exist_ok=True)

In [None]:
class_folders = [dir for dir in os.listdir(dataset_dir2) if os.path.isdir(os.path.join(dataset_dir2, dir))]

In [None]:
class_folders = [dir for dir in os.listdir(dataset_dir2) if os.path.isdir(os.path.join(dataset_dir2, dir))]
dict = {}
for elt in class_folders :
    count = 0
    dir = f"dataset_technique/dataset_augment/{elt}"
    for path in os.listdir(dir):
        if os.path.isfile(os.path.join(dir, path)):
            count += 1
    dict[elt]=count
print(dict)

In [None]:
for original_folder in class_folders:
    old_path  = os.path.join(dataset_dir2, original_folder) #concaténation chemin et nom du dossier
    new_folder_name = original_folder.split('-')[0]
    new_path = os.path.join(dataset_dir2, new_folder_name) #creation nouveau chemin
    
    os.rename(old_path, new_path)

In [None]:
#Pour répartir les images d'entraînement et de validation dans des dossiers avec le bon nom
for class_folder in class_folders:
    class_path = os.path.join(dataset_dir2, class_folder)
    images = [image for image in random.sample(os.listdir(class_path),216) if os.path.isfile(os.path.join(class_path, image))]
    #On ajoute random sample pour obtenir 216 images uniques aléatoirement dans les dossiers = équilibrage du dataset
    
    train_img, val_img = train_test_split(images, test_size=0.2, random_state=42)
    
    train_subfolder_path = os.path.join(train_dir3, class_folder)
    val_subfolder_path = os.path.join(val_dir3, class_folder)
    
    os.makedirs(train_subfolder_path, exist_ok=True)
    os.makedirs(val_subfolder_path, exist_ok=True)
    
    for img in train_img:
        shutil.copy(os.path.join(class_path, img), train_subfolder_path)
        
    for img in val_img:
        shutil.copy(os.path.join(class_path, img), val_subfolder_path)

#172 en train / 44 en val

In [None]:
#Version pour YOLOv8
results = model.train(data='dataset_technique/data_augment',
                      epochs=50,
                      batch=32,
                      dropout=0.1)
                     ,#device='mps') #Entrainement sur la puce Apple M2 (et M1) "Metal Performance Shaders"

#Bug. en utilisant MPS: error: 'mps.select' op failed to verify that all of {true_value, false_value, result} have same element type
    # note: see current operation: %17 = "mps.select"(%16, %15, %14) : (tensor<1xi1>, tensor<1xf16>, tensor<1xf32>) -> tensor<1xf16>
    #failed assertion 'expected a valid model URL' 
#Pas encore solutionné par Ultralytics : https://github.com/ultralytics/ultralytics/issues/7554 (issue du 13 janvier 2024).

#### Validation externe avec dataset de l'année dernière qui contient différentes techniques

In [None]:
my_model = YOLO('runs/classify/train_eq_augment_50epoch/weights/best.pt')
dataset_val_out = '/Users/lise/memoire_tech/M2/data/dataset_technique/test_ext'
images = [image for image in os.listdir(dataset_val_out) if image.endswith('.jpg')]
for elt in images :
    result = my_model(os.path.join(dataset_val_out, elt), visualize=True, save=True)