In [23]:
import os
import pandas as pd
import numpy as np
import shutil

In [5]:
labels = pd.read_csv('labels.csv')
labels

Unnamed: 0,id,breed
0,000bec180eb18c7604dcecc8fe0dba07,boston_bull
1,001513dfcb2ffafc82cccf4d8bbaba97,dingo
2,001cdf01b096e06d78e9e5112d419397,pekinese
3,00214f311d5d2247d5dfe4fe24b2303d,bluetick
4,0021f9ceb3235effd7fcde7f7538ed62,golden_retriever
...,...,...
10412,o6,No detectado
10413,o7,No detectado
10414,o8,No detectado
10415,o9,No detectado


## Train Test split

In [7]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(labels['id'], labels['breed'], test_size=0.2, random_state=13)

In [15]:
print('Se utilizarán %i datos de entrenamiento'%len(X_train))
print('Se utilizarán %i datos de prueba'%len(X_test))

Se utilizarán 8333 datos de entrenamiento
Se utilizarán 2084 datos de prueba


In [28]:
df_train = pd.concat([X_train, y_train], axis = 1)
df_test = pd.concat([X_test, y_test], axis = 1)

## Organizacion de carpetas

In [49]:
train_path = 'train/'
test_path = 'test/'
original_path = 'features_resized/'

In [61]:
def copy_img(row, original, new):
    """
    Funcion que copia la imagen desde el path original hacia el new, el nombre de
    la imagen y su clase se deben encontrar en la fila de el dataset. Esta funcion
    esta hecha para ser usada en la funcion de pandas 'apply'.
    """
    new_path = new + row.iloc[1] + '/' + row.iloc[0] + '.jpg'
    original_path = original + row.iloc[0] + '.jpg'
    shutil.copy(original_path, new_path)
    

In [62]:
def organize_folders(df, new_path, original_path):
    """
    Funcion que organiza las carpetas e imagenes como Image Data Generator lo requiere,
    en resumen, dentro de la carpeta new_path crea carpetas de cada clase, y dentro le agrega
    las imagenes que corresponden a esta clase. Original path es la carpeta donde se encuentran las imagenes surtidas.
    
    df = dataframe donde se encuentran los nombres de las imagenes y su respectiva clase, EN ESE ORDEN.
    new_path = carpeta donde se crearán las nuevas carpetas de clases con sus respectivas imagenes
    original_path = carpeta donde se encuentran todas las imagenes surtidas
    
    """
    
    classes = df.iloc[:,1].unique().tolist()
    for class_ in classes:
        # se crea la carpeta de la clase
        path_class = new_path + class_
        os.makedirs(path_class)
        df_class = df[df.iloc[:,1] == class_]
        df_class.apply(copy_img, args = (original_path,new_path),axis = 1)
        
    return None
    

In [63]:
# Train folder
organize_folders(df_train, train_path, original_path)

In [64]:
# Test folder
organize_folders(df_test, test_path, original_path)

Unnamed: 0,id,breed
3593,595222dc2b2a5c31cf281f2491e168ae,rottweiler
5925,95b04ef45b853922685ba6d257fc2f0c,japanese_spaniel
10366,ca5,No detectado
10298,cat.3267,gato
8973,e146cabda18bbb2cb402dece1a7dd4ef,bernese_mountain_dog
...,...,...
7393,b905b9008e830033dedadbda5102f409,cocker_spaniel
3514,578fed8e31c96406eaa447ae3ff604ba,dingo
9223,e7ab74acdc860dfb93271901da085ffd,gordon_setter
6599,a5e12305354299b560665bffbd811f8d,scottish_deerhound
