# Data Wrangling

## Importación de librerias y definición de rutas

In [49]:
import os
import shutil
import random
from imutils import paths
from sklearn.model_selection import train_test_split
import numpy as np

original_dataset_dir = '../Data/Raw Data'
base_dir = '../Data/Clean Data'

train_path = os.path.join(base_dir, 'train')
test_path = os.path.join(base_dir, 'test')
validation_path = os.path.join(base_dir, 'validation')

In [50]:
# Creamos los directorios train, test y validation en el directorio Clean Data
os.makedirs(train_path, exist_ok=True)
os.makedirs(test_path, exist_ok=True)
os.makedirs(validation_path, exist_ok=True)

## Creación de arreglo con las rutas actuales

In [51]:
def reorganizar(path): 
  return path, path.split(os.path.sep)[-2]

In [52]:
data = np.array(list(map(reorganizar, paths.list_images(original_dataset_dir))))

## División de datos
Se separan las imágenes en tres directorios: `train` (70% de las imágenes), `validation` (20%) y `test`(10%).

Esto para tener las imágenes separadas para el posterior entrenamiento y evaluación.

La separación se hace estratificando las imágenes de acuerdo a la letra a la que pertenecen para tener un balance en las clases a la hora de entrenar.

In [53]:
data_train, data_test = train_test_split(data, test_size=0.30, random_state=42, stratify=data[:, 1])
data_validation, data_test = train_test_split(data_test, test_size=0.3333, random_state=42, stratify=data_test[:, 1])

Se puede ver que hay la misma cantidad para cada letra en cada uno de los datasets

In [54]:
np.unique(data_train[:, 1], return_counts=True)

(array(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'l', 'm', 'n', 'o',
        'p', 'r', 's', 't', 'u', 'v', 'w', 'y'], dtype='<U57'),
 array([210, 210, 210, 210, 210, 210, 210, 210, 210, 210, 210, 210, 210,
        210, 210, 210, 210, 210, 210, 210, 210], dtype=int64))

In [55]:
np.unique(data_validation[:, 1], return_counts=True)

(array(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'l', 'm', 'n', 'o',
        'p', 'r', 's', 't', 'u', 'v', 'w', 'y'], dtype='<U57'),
 array([60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60, 60,
        60, 60, 60, 60], dtype=int64))

In [56]:
np.unique(data_test[:, 1], return_counts=True)

(array(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'l', 'm', 'n', 'o',
        'p', 'r', 's', 't', 'u', 'v', 'w', 'y'], dtype='<U57'),
 array([30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30, 30,
        30, 30, 30, 30], dtype=int64))

## Exportación de las imágenes al directorio correspondiente
Se crean los directorios para cada letra dentro de cada directorio: `train`, `validation` y `test`.

In [69]:
for letra in np.unique(data[:, 1]):
    os.makedirs(os.path.join(train_path, letra), exist_ok=True)
    os.makedirs(os.path.join(test_path, letra), exist_ok=True)
    os.makedirs(os.path.join(validation_path, letra), exist_ok=True)

La siguiente función copia la imagen de su ruta original a la ruta correspondiente.

In [70]:
def map_img(data, path_dir):
    for img in data:
        dst = os.path.join(path_dir, *img[0].split(os.path.sep)[-2:])
        shutil.copy(img[0], dst)

Esta función se utiliza para copiar las imágenes a los directorios `train`, `validation` y `test`.

In [71]:
map_img(data_train, train_path)

In [72]:
map_img(data_test, test_path)

In [73]:
map_img(data_validation, validation_path)