In [None]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
import shutil
from tqdm import tqdm

# Données d'entrées 

#dossier contenant les tuiles 
LAME_DIR_F="/"
LABEL_DIR_F="/"

# dossier contenant les labels
LAME_DIR_G="/"
LABEL_DIR_G="/"

# Dossier Test
TEST_DIR="/Test/"

if not os.path.exists(TEST_DIR):
    os.makedirs(TEST_DIR)
    
# Dossier Train
TRAIN_DIR="/Train/"

if not os.path.exists(TRAIN_DIR):
    os.makedirs(TRAIN_DIR)
    os.makedirs(TRAIN_DIR+"image/")
    os.makedirs(TRAIN_DIR+"label/")

# Dossier Valid
VALID_DIR="/Valid/"

if not os.path.exists(VALID_DIR):
    os.makedirs(VALID_DIR)
    os.makedirs(VALID_DIR+"image/")
    os.makedirs(VALID_DIR+"label/")


In [None]:
# Création séparation 10% TEST et 90% entrainement 

lame_f = os.listdir(LAME_DIR_F)
df_f = pd.DataFrame({"Nom des Lames": lame_f})
Train_f, Test_f= train_test_split(df_f, test_size=0.1, random_state=10)
print(Train_f.shape)
print(Test_f.shape)

lame_g = os.listdir(LAME_DIR_G)
df_g = pd.DataFrame({"Nom des Lames": lame_g})
Train_g, Test_g= train_test_split(df_g, test_size=0.2, random_state=10)
print(Train_g.shape)
print(Test_g.shape)

Train=pd.concat([Train_f,Train_g],axis=0)
Test=pd.concat([Test_f,Test_g],axis=0)

print(Train.shape)
print(Test.shape)

In [None]:
# Copie données pour former partie test
for dossier in tqdm(Test["Nom des Lames"]):
    if os.path.isdir(LAME_DIR_F+dossier):
        
        shutil.copytree(LAME_DIR_F+dossier, TEST_DIR+dossier+'/image')
        shutil.copytree(LABEL_DIR_F+dossier, TEST_DIR+dossier+'/label')
    elif os.path.isdir(LAME_DIR_G+dossier):
        
        shutil.copytree(LAME_DIR_G+dossier, TEST_DIR+dossier+'/image')
        shutil.copytree(LABEL_DIR_G+dossier, TEST_DIR+dossier+'/label')
    else : 
        print("ERREUR ",dossier,"non trouvé")

In [None]:
# Créé dataset avec tuiles et non lames afin de pouvoir les mélanger 
df_Train=[]
for lame in tqdm(Train["Nom des Lames"]):
    if os.path.isdir(LAME_DIR_F+lame):
        tile=os.listdir(LAME_DIR_F+lame)
        df_Train.extend(tile)
    elif os.path.isdir(LAME_DIR_G+lame):
        tile=os.listdir(LAME_DIR_G+lame)
        df_Train.extend(tile)
    else : 
        print("ERREUR ",lame,"non trouvé")

df = pd.DataFrame({'Tile': df_Train})
print(df.shape)


In [None]:
# Séparation des données en 80% Train et 20% Valid

df_train,df_valid= train_test_split(df, test_size=0.2, random_state=42)

print(df_train.shape)
print(df_valid.shape)

In [None]:
# Enregistrement des tuiles dans Train
for fichier in tqdm(df_train["Tile"]):
    
    f=fichier.split(" ")
    if os.path.isdir(LAME_DIR_F+f[0]):
        
        shutil.copy(LAME_DIR_F+f[0]+"/"+fichier, TRAIN_DIR+"image/"+fichier)
        p=fichier.split(".")
        shutil.copy(LABEL_DIR_F+f[0]+"/"+p[0]+".png", TRAIN_DIR+"label/"+p[0]+".png")
    elif os.path.isdir(LAME_DIR_G+f[0]):
        
        shutil.copy(LAME_DIR_G+f[0]+"/"+fichier, TRAIN_DIR+"image/"+fichier)
        p=fichier.split(".")
        shutil.copy(LABEL_DIR_G+f[0]+"/"+p[0]+".png", TRAIN_DIR+"label/"+p[0]+".png")
    else : 
        print("ERREUR ",fichier,"non trouvé")


In [None]:
# Enregistrement des tuiles dans Valid 

for fichier in tqdm(df_valid["Tile"]):
    
    f=fichier.split(" ")
    if os.path.isdir(LAME_DIR_F+f[0]):
        
        shutil.copy(LAME_DIR_F+f[0]+"/"+fichier, VALID_DIR+"image/"+fichier)
        p=fichier.split(".")
        shutil.copy(LABEL_DIR_F+f[0]+"/"+p[0]+".png", VALID_DIR+"label/"+p[0]+".png")
    elif os.path.isdir(LAME_DIR_G+f[0]):
        
        shutil.copy(LAME_DIR_G+f[0]+"/"+fichier, VALID_DIR+"image/"+fichier)
        p=fichier.split(".")
        shutil.copy(LABEL_DIR_G+f[0]+"/"+p[0]+".png", VALID_DIR+"label/"+p[0]+".png")
    else : 
        print("ERREUR ",fichier,"non trouvé")