# Divide your data into train, val and test sets

Select the file *.txt* that contains all the images and its corresponding classes. Now we want to split our images into training, validation and testing files, so that the different volume classes are well distributed (e.g. if the dataset is highly imbalanced the images are not randomly separated).

In [None]:
import sqlite3
from enum import Enum
from datetime import datetime
import os
import hashlib
import multiprocessing
from multiprocessing import Pool
import pandas as pd
from fast_ml.model_development import train_valid_test_split
from sklearn.model_selection import train_test_split
from skimage import io

from collections import Counter
import random as r

In [None]:
#Funcion para separar en bins
def get_bin(true_values):
    
    grams = [100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375]
    bins = [87.5, 112.5, 137.5, 162.5, 187.5, 212.5, 237.5, 262.5, 287.5, 312.5, 337.5, 362.5, 387.5]
    result = list()
    if type(true_values) == list:
        for e in true_values:
            l = len(bins)
            index = 0
            for i in range(l):
                try:
                    if bins[i] < float(e) and bins[i+1] > float(e):
                        index = i
                        result.append(grams[index])
                        break
                except:
                    print("Error:", e)
                    
    elif type(true_values) == str:
        l = len(bins)
        index = 0
        for i in range(l):
            try:
                if bins[i] < float(true_values) and bins[i+1] > float(true_values):
                    index = i
                    result = grams[index]
                    break
            except:
                print("Error:", true_values)
    else:
        for e in true_values:
            l = len(bins)
            index = 0
            for i in range(l):
                try:
                    if bins[i] < float(e) and bins[i+1] > float(e):
                        index = i
                        result.append(grams[index])
                        break
                except:
                    print("Error:", e)
        
    
    return result

In [None]:
# funcion que genera el chisero dataset.txt con las carpetas de imagenes y un dataframe con path y bin_size
def generate_dataset_file(fruitDirectory):

    # VALUES(date, user, picture, hash, location, idfruta, idvariedad, tamaño, luz, plano, angulo, plato, superficie);
    with open('../data/dataset_files/dataset.txt', 'w') as fw: #Escribo en fichero dataset
        df = pd.DataFrame(columns=['path', 'clase'])
        for variety in os.listdir(fruitDirectory): # Para cada variedad
            varietyDirectory = fruitDirectory + variety + "/"
            print(varietyDirectory)
            variety = varietyDirectory.split("/")[3]
            for sizeDirectory in os.listdir(varietyDirectory): # Para cada peso
                tamaño=sizeDirectory
                sizeDirectory = varietyDirectory + sizeDirectory + "/"

                df = df.append(pd.DataFrame([[sizeDirectory,float(get_bin(tamaño.replace(",","."))),variety]],
                                            columns=['path', 'clase', 'variety']), ignore_index=True)
        
                string = str(sizeDirectory) + '*' + str(tamaño.replace(",","."))+'\n'
                fw.write(string)
                
    fw.close()

    return df

In [None]:
#Funcion lectura fichero dataset, devuelve path, peso y variedad
def read_file_label_variety(splits_dir, im_dir, split_name='dataset'):
    """
    Load the data arrays from the [train/val/test].txt files.
    Lines of txt files have the following format:
    'absolute_path_to_image'*'image_label_number_in_mL'

    Parameters
    ----------
    im_dir : str
        Absolute path to the image folder.
    split_name : str
        Name of the data split to load

    Returns
    -------
    X : Numpy array of strs
        First colunm: Contains 'absolute_path_to_file' to images.
    y : Numpy array of int32
        Image label number
    v : Numpy array of int32
        Image variety
    """
    if '{}.txt'.format(split_name) not in os.listdir(splits_dir):
        raise ValueError("Invalid value for the split_name parameter: there is no `{}.txt` file in the `{}` "
                         "directory.".format(split_name, splits_dir))

    # Loading splits
    print("Loading {} data...".format(split_name))
    split = np.genfromtxt(os.path.join(splits_dir, '{}.txt'.format(split_name)), dtype='str', delimiter='*') ### previously: delimiter=' '
    X = np.array([os.path.join(im_dir, i) for i in split[:, 0]])
    v = np.array([i.split("/")[3] for i in split[:, 0]])
    
    # Leer Peso
    if len(split.shape) == 2:
        y = split[:, 1].astype(np.float32)
    else: # maybe test file has not labels
        y = None
        

        
    return X, y, v
    

In [None]:
#Funcion para escribir lista de carpetas en fichero
#Escribo en el fichero el path y tamaño extraido del path
def write_file(writefile, X):
    
    print("Writing "+ writefile)
    with open('../data/dataset_files/'+writefile, 'w') as fw: #Escribo en fichero Train
        for i in range(len(X)):
            directory= X[i]
            tamaño = directory.split('/')[-2].replace(',','.')
            for filename in os.listdir(directory): 
                #print(filename)
                f = os.path.join(directory, filename)
                #checking if it is a file
                if not os.path.isfile(f):
                    raise Exception("File Not found: " + str(f))

                try:
                    
                    _ = io.imread(f)
                    string = str(f) + '*' + str(tamaño)+'\n'
                    fw.write(string)
                    
                except Exception as e:
                    print("write_file function error:",f)
        fw.close()

In [None]:
#Funcion para escribir DataFram de carpetas en fichero
#Escribo en el fichero el path y tamaño extraido del path
def write_file_df(writefile, df):
   
    # ESCRIBIR EN FICHERO
    print("Writing "+ writefile)
    with open('../data/dataset_files/'+writefile, 'w') as fw: #Escribo en fichero Train
        for i in range(len(df.path)):
            directory= df.path.iloc[i]
            tamaño = directory.split('/')[-2].replace(',','.')

            #print(directory, tamaño)
            for filename in os.listdir(directory): #falla? añadir:  +"/" 
                #print(filename)
                f = os.path.join(directory, filename)
                #checking if it is a file
                if not os.path.isfile(f):
                    raise Exception("File Not found: " + str(f))

                try:

                    _ = io.imread(f)
                    string = str(f) + '*' + str(tamaño)+'\n'
                    fw.write(string)

                except Exception as e:
                    print(f)

        fw.close()
            

In [None]:
#Funcion para Balancear un Dataframe repitiendo elementos
import random as rand
def balance_df(df):
     # Obtendo la clase mas repbresentada (Peso más representado)
    class_most_common_name = Counter(df.clase).most_common()[0][0]
    class_most_common_value = Counter(df.clase).most_common()[0][1]
    
    # Como esa clase puede estar desbalanceada (por variedad), obtengo la frecuencia de la variedad más representada.
    freq_variety_top = Counter(df.loc[df.clase == class_most_common_name].variety).most_common()[0][1]
    #print("freq_variety_top",freq_variety_top)
    # El numero de carpetas por clase sera freq_variety_top x 3variedades
    total_freq_for_balanced_class = freq_variety_top * 3
    
    # Creo una copia del df, donde añadiré carpetas repetidas, con el objetivo de balancear las clases.
    df_repetidas = df.copy()
    #print("df_repetidas:\n", df_repetidas)
    
    #TODO: seria añadir lineas con carpetas repetidas antes de empezar a escribir. Y despues escribir
    #Para cada clase (que cuenta con ciertas carpetas), repito carpetas hasta llegar al total_freq_for_balanced_class
    for clase, lenght in Counter(df.clase).most_common(): #Para clase
        repetir_rand = total_freq_for_balanced_class - lenght
        print("###Clase: ",clase,"###")
        print("lenght:", lenght, "rand:",repetir_rand)
        print("DF INICIAL: ",Counter(df_repetidas.loc[df_repetidas.clase == clase].variety).most_common())
        #print(Counter(df_repetidas.loc[df_repetidas.clase == clase].variety).most_common())
        for j in range(repetir_rand): #TODO: EJECUTA RARO
            ## TODO: Se necesita ejecutar tantas veces como repeticiones necesarias
            # En cada ejecucion se mira la variedad menos representada y se selecciona aleatoriamente
            #una carpeta de esta manzana, se añade al df y se repite proceso

            # Miramos la variedad menos representada, teniendo en cuenta las repeticiones
            less_common_variety = Counter(df_repetidas.loc[df_repetidas.clase == clase].variety).most_common()[-1][0]
            
            # Obtenemos la lista con las frutas a repetir, sin las repeticiones ya añadidas
            df_less_common = df[(df.clase == clase) & (df.variety == str(less_common_variety))].path.tolist()
            
            # Seleccioamos aleatoriamente una manzana para repetir todas sus imagenes
            choosen = rand.choice(df_less_common)
            row = {'path': choosen, 'clase': clase, 'variety': less_common_variety}
            df_repetidas=df_repetidas.append(row, ignore_index=True) #TODO: HAY QUE AÑADIR AL DF_REPETIDAS LA ELEGIDA. REPETIR
            #print("repetidas:\n", df_repetidas)
            #print(less_common_variety
            #rand.sample(df.path, k=repetir_rand) # TODO: RANDOM?? tener en cuenta la variedad
        
        print("DF RESULTADO: ",Counter(df_repetidas.loc[df_repetidas.clase == clase].variety).most_common())
        print("TAMAÑO FINAL: ",total_freq_for_balanced_class)
        print("###########")
        
    print("tamaño df_repetidas:", len(df_repetidas))
    print(Counter(df_repetidas.clase).most_common())
    print(Counter(df_repetidas.variety).most_common())
    #print(df_repetidas)
    
    return df_repetidas
    

In [None]:
#FUNCION genera valiable grupo para stratificacion
def gen_groups_data(variedad, bim):
    
    groups = []
    for v, b in zip(variedad, bim):
        groups.append(str(v)+"_"+str(b))
        
    return groups

In [None]:
#FUNCION retorna valiable grupo con control de errores
def get_groups_variable(y,v):
    #Obtengo el bin al que pertenece cada manzana
    bins = get_bin(y)
    for i in range(len(bins)): #Hay pocas manzanas superiores a 300g por lo que se combinan dentro del bin 300g
        if bins[i] >= 300:
            bins[i] = 275
        elif bins[i] < 125: #Hay pocas manzanas inferiores a 125g por lo que se combinan dentro del bin 125g
            bins[i] = 125
            
    #Genero la variable grupo, esta varible se compone de la variedad y el bin (Fuji_125, Golden_175...)
    groups = gen_groups_data(v,bins)
    
    '''
    #Arreglo grupos con menos de 3 elementos, como hay muchas fuji 200 y 275,
    #selecciono las mas cercanas a 225 y 250 y las añado a este grupo
    index1 = groups.index('Fuji_225')-1 # Al estar ordenadas la fuji_200 mas cercana tiene index fuji_225 -1
    index2 = groups.index('Fuji_275')
    print(y[index1], groups[index1])
    print(y[index2], groups[index2])
    groups[index1] = 'Fuji_225'
    groups[index2] = 'Fuji_250'
    '''
    
    return groups

# Divide your data into train, test, validation sets

Importante!! A la hora de Dividir los datos en sets con la funcion Train_test_split es necesario que en cada grupo **collections.Counter(groups)** haya al menos 3 elementos. En caso de haya algun grupo con 2 elementos podría retornar error, dependiendo de la division realizada por train_test_split


In [None]:
# Estratificamos datos y escribimos en fichero
import numpy as np
from sklearn.model_selection import StratifiedKFold
from imgclas import paths
import os
import collections

def gen_data(dataset_dir):

    #Genero dataset.txt
    generate_dataset_file(dataset_dir)
    
    X, y, v= read_file_label_variety(splits_dir="/srv/image-classification-tf/data/dataset_files",
                                            im_dir=paths.get_images_dir())
    #print(type(y))
    groups = get_groups_variable(y,v)
    print(collections.Counter(groups))
    
    #Dristribuir en train, test, val
    X_val, X_2, y_val, y_2 = train_test_split(X, y, test_size=0.90, random_state=1, stratify=groups)
    
    #Recalculo variable groups para X_2
    v = np.array([i.split("/")[3] for i in X_2])
    groups = get_groups_variable(y_2,v)
    print(collections.Counter(groups))
    
    X_train, X_test, y_train, y_test = train_test_split(X_2, y_2, test_size=0.18, random_state=1, stratify=groups)
    
    #Train
    write_file('train.txt',X_train)
    #val
    write_file('val.txt', X_val)
    #Test
    write_file('test.txt', X_test)
    

In [None]:
gen_data('/storage/MANZANA/')

# Divide your data into train, test sets for CrossValidation

Objetivo: Crear una funcion que generé los ficheros Train.txt/test.txt para cada fold

In [None]:
import numpy as np
from sklearn.model_selection import StratifiedKFold
from imgclas import paths
import os
import collections

def gen_data_CV(dataset_dir, n_splits): #TODO: añadir variable balanced == False _> if true Balanced_df
    #Genero dataset.txt
    generate_dataset_file(dataset_dir)
    
    X, y, v= read_file_label_variety(splits_dir="/srv/image-classification-tf/data/dataset_files",
                                            im_dir=paths.get_images_dir())
    #print(type(y))
    #Obtengo el bin al que pertenece cada manzana
    bins = get_bin(y)
    for i in range(len(bins)): #Hay pocas manzanas superiores a 300g por lo que se combinan dentro del bin 300g
        if bins[i] > 300:
            bins[i] = 300
        elif bins[i] < 125: #Hay pocas manzanas inferiores a 125g por lo que se combinan dentro del bin 125g
            bins[i] = 125
            
    #Genero la variable grupo, esta varible se compone de la variedad y el bin (Fuji_125, Golden_175...)
    groups = gen_groups_data(v,bins)
    print(collections.Counter(groups))
    
    Stratified_kfold = StratifiedKFold(n_splits=n_splits)

    Stratified_kfold.get_n_splits(X, groups)

    for i, (train_index, test_index) in enumerate(Stratified_kfold.split(X, groups)):
        fold = f"Fold-{i}"
        print(f'########{fold}#########')
        print(f"  Train: length={len(train_index)} index={train_index}")
        print(f"  Test:  length={len(test_index)} index={test_index}")

        try:
            os.path.isdir(f"/srv/image-classification-tf/data/dataset_files/{fold}")
            os.mkdir(f"/srv/image-classification-tf/data/dataset_files/{fold}")
        except Exception as e:
            print("Directory Exists")
        
        #GENERO DATAFRAME TRAIN para balancearlo
        df_train = pd.DataFrame(columns=['path', 'clase', 'variety'])
        for e, peso, variedad in zip(X[train_index],y[train_index],v[train_index]):
            clase = float(get_bin(str(peso).replace(",",".")))
            if clase > 300:
                clase = 300
            elif clase < 125:
                clase = 125
            
            df_train = df_train.append(pd.DataFrame([[e,clase,variedad]],
                                        columns=['path', 'clase', 'variety']), ignore_index=True)
        
        # Escribo datos Train Balanceado
        write_file_df(f'{fold}/train.txt',balance_df(df_train))
        #write_file(f'{fold}/train.txt', X[train_index].tolist())
        
        # Escribo datos Test
        write_file(f'{fold}/test.txt', X[test_index].tolist())
            
            
        #print(train_index, test_index)
        #print(f"  Train: index={train_index}, data={X[train_index]}, y={y[train_index]}")
        #print(f"  Test:  index={test_index}, data={y[test_index]}")


In [None]:
gen_data_CV('/storage/MANZANA/', 1)