# Preprocessing pour Xception

In [None]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
import shutil

In [None]:
# définition du repertoire de travail
data_dir = r"C:\Users\renamedadmin\Documents\Formation_Datascience\Projet_Datascientest_Champignons\Dossier_technique\02_Pieces_constitutives\Dataset\Binary_Classification\reduced_dataset\full"

# définition du nombre d'images par classe dans le dataset
size_dataset = 500
random = 3

## Création du dataframe réduit équilibré

### Création d'un dataframe associé au dataset initial

In [None]:
def get_filenames_from_subfolder(subfolder_path):
  # Obtenir une liste de noms de fichiers.
    filenames = os.listdir(subfolder_path)
  # Filtrer les dossiers.
    filenames = [filename for filename in filenames if os.path.isfile(os.path.join(subfolder_path, filename))]
    return filenames

subfolder_path = f"{data_dir}/edible"
filenames_edible = pd.Series(get_filenames_from_subfolder(subfolder_path))
subfolder_path = f"{data_dir}/inedible"
filenames_inedible = pd.Series(get_filenames_from_subfolder(subfolder_path))

df_edible = pd.DataFrame(columns = ['filename', 'label'])
df_inedible = pd.DataFrame(columns = ['filename', 'label'])
df_edible.filename = filenames_edible
df_inedible.filename = filenames_inedible
df_edible["label"] = df_edible["label"].fillna('edible')
df_inedible["label"] = df_inedible["label"].fillna('inedible')
print(df_edible.label.value_counts())
print(df_inedible.label.value_counts())

### Création d'un dataframe sous-échantillonné et équilibré sur les classes

In [None]:
df = pd.concat([df_edible.sample(size_dataset, random_state=random), df_inedible.sample(size_dataset, random_state=random)], ignore_index=True)
df.label.value_counts()

In [None]:
# Création des partitions train et test
df_train, df_test = train_test_split(df, test_size=0.2, random_state = random)

# création de listes d'images edible et inedible pour les partitions train et test
train_edible = df_train.filename[df_train.label == 'edible'].tolist()
train_inedible = df_train.filename[df_train.label == 'inedible'].tolist()
test_edible = df_test.filename[df_test.label == 'edible'].tolist()
test_inedible = df_test.filename[df_test.label == 'inedible'].tolist()


In [None]:
# Sauvegarde des dataframes créés
# pour le dataset complet non catégorisé
df_train.to_csv(f"{data_dir}/df_train.csv", index = False)
df_test.to_csv(f"{data_dir}/df_test.csv", index = False)


## Création de l'arborecence

In [None]:
# Création du dossier principal
os.mkdir(os.path.join(data_dir, 'reduced_dataset'))

# Création des deux sous-dossiers train, test
os.mkdir(os.path.join(data_dir, 'reduced_dataset', 'train'))
os.mkdir(os.path.join(data_dir, 'reduced_dataset', 'test'))

# Création des deux sous-dossiers edible et inedible dans train et test
os.mkdir(os.path.join(data_dir, 'reduced_dataset', 'train', 'edible'))
os.mkdir(os.path.join(data_dir, 'reduced_dataset', 'test', 'edible'))
os.mkdir(os.path.join(data_dir, 'reduced_dataset', 'train', 'inedible'))
os.mkdir(os.path.join(data_dir, 'reduced_dataset', 'test', 'inedible'))

### copie des images dans les différents dossiers 

In [None]:
# copie des images pour la partie train edible
# itération sur les noms d'images
for image_name in train_edible :    
    # trouver l'image dans le dossier d'origine
    original_image_path = os.path.join(f"{data_dir}/edible", image_name)
    # copie de l'image dans le dossier de destination
    new_image_path = os.path.join(f"{data_dir}/reduced_dataset/train/edible", image_name)
    if os.path.exists(original_image_path):
        shutil.copy(original_image_path, new_image_path)

# copie des images pour la partie train inedible
# itération sur les noms d'images
for image_name in train_inedible :    
    # trouver l'image dans le dossier d'origine
    original_image_path = os.path.join(f"{data_dir}/inedible", image_name)
    # copie de l'image dans le dossier de destination
    new_image_path = os.path.join(f"{data_dir}/reduced_dataset/train/inedible", image_name)
    if os.path.exists(original_image_path):
        shutil.copy(original_image_path, new_image_path)

# copie des images pour la partie test edible
# itération sur les noms d'images
for image_name in test_edible :    
    # trouver l'image dans le dossier d'origine
    original_image_path = os.path.join(f"{data_dir}/edible", image_name)
    # copie de l'image dans le dossier de destination
    new_image_path = os.path.join(f"{data_dir}/reduced_dataset/test/edible", image_name)
    if os.path.exists(original_image_path):
        shutil.copy(original_image_path, new_image_path)

# copie des images pour la partie test inedible
# itération sur les noms d'images
for image_name in test_inedible :    
    # trouver l'image dans le dossier d'origine
    original_image_path = os.path.join(f"{data_dir}/inedible", image_name)
    # copie de l'image dans le dossier de destination
    new_image_path = os.path.join(f"{data_dir}/reduced_dataset/test/inedible", image_name)
    if os.path.exists(original_image_path):
        shutil.copy(original_image_path, new_image_path)