# CNN desde cero
### Balanceo de los datos

El segundo notebook tiene como objetivo hacer un balanceo de datos mediante el data augmentation. El aumento de imágenes se realizará para los esquistocitos incorporados en el directorio de entrenamiento. De esta manera el número de imágenes de igualará y se podrá trabajar con clases equitativas.

Las imágenes aumentadas se copiarán en un nuevo directorio "preview" y no directamente en la carpeta de esquistocitos. El motivo es para tener estas nuevas imágenes separadas por si se necesitan en algún momento y no integrarlas directamente con las demás.

In [2]:
# Balanceo de imágenes rescaladas
# Solo es necesario aumentar 2200 imágenes de esquistocitos en training
from keras.preprocessing.image import ImageDataGenerator, array_to_img, img_to_array, load_img
import os
import shutil

dir_preview = 'preview'
os.mkdir(dir_preview)

Se realiza el aumento de las imágenes reescaladas con ImageDataGenerator de Keras, comanda que realiza varias transformaciones a las imágenes. 

In [94]:
import matplotlib.pyplot as plt
from keras.preprocessing import image

datagen1 = ImageDataGenerator(
    rotation_range=60,
    vertical_flip=True,
    width_shift_range=0.2)

mypath = 'dataset_resized/train/1_esquistocitos'

onlyfiles = [f for f in os.listdir(mypath)]

nfiles = 3000-837 #2163 imágenes para augmentar
n = 0

for x in onlyfiles:
    filename = x
    two_words = filename.split('.')
    no_ext = two_words[0]
    complete = os.path.join(mypath, x)
    img = load_img(complete)
    x = img_to_array(img)
    x = x.reshape((1,) + x.shape)
    
    i = 0
    for batch in datagen1.flow(x, batch_size=1, save_to_dir='preview',
                             save_prefix=no_ext, save_format='jpg'):
        i += 1
        n += 1
        if n == nfiles:
            break
        
        if i > 2:
            break
            
    if n == nfiles:
        break



In [10]:
dir_preview = 'preview'
print('Imágenes del primer conjunto aumentado:',len(os.listdir(dir_preview)))

Imágenes del primer conjunto aumentado: 2163


Ahora ya se tienen las 3000 imágenes requeridas: 837 originales reescaladas más 2163 aumentadas.

Se llaman los directorios ya creados en el notebook anterior.

In [7]:
# Se llaman los directorios ya creados en el notebook de organización de los datos

dataset_resized = 'dataset_resized'
train_dir = os.path.join(dataset_resized, 'train')
validation_dir = os.path.join(dataset_resized, 'validation')
test_dir = os.path.join(dataset_resized, 'test')

train_esq_dir = os.path.join(train_dir, '1_esquistocitos')
train_noesq_dir = os.path.join(train_dir, '0_no_esquistocitos')

validation_esq_dir = os.path.join(validation_dir, '1_esquistocitos')
validation_noesq_dir = os.path.join(validation_dir, '0_no_esquistocitos')

test_esq_dir = os.path.join(test_dir, '1_esquistocitos')
test_noesq_dir = os.path.join(test_dir, '0_no_esquistocitos')

Se crea un nuevo directorio de entrenamiento con los dos subdirectorios. Luego, se copian las 837 imágenes originales y las 2163 aumentadas en la carpeta de esquistocitos, y las 3000 imágenes en la otra carpeta.

In [8]:
# Creando carpeta de train 2 con las imágenes originales y las augmentadas

# Directory for the training2 split
train_dir_2 = os.path.join(dataset_resized, 'train2')
os.mkdir(train_dir_2)

# Directory with training2 esquistocitos/no_esquistocitos pictures
train_esq_dir_2 = os.path.join(train_dir_2, '1_esquistocitos')
os.mkdir(train_esq_dir_2)
train_noesq_dir_2 = os.path.join(train_dir_2, '0_no_esquistocitos')
os.mkdir(train_noesq_dir_2)

In [100]:
# Copying esquistocitos pictures to directory
original_dataset_res_esq = 'RBC_recort_reesc/ESQUISTOS'
pict_res_esq = len(os.listdir(original_dataset_res_esq))

for i in range (pict_res_esq):
    if i < 837:
        source = os.path.join(original_dataset_res_esq, (os.listdir(original_dataset_res_esq))[i])
        destination = os.path.join(train_esq_dir_2, (os.listdir(original_dataset_res_esq))[i])
        shutil.copyfile(source, destination)

# Copying esquistocitos augmented pictures to directory
dir_preview = 'preview'
pict_augmented = len(os.listdir(dir_preview))
for i in range (pict_augmented):
    source = os.path.join(dir_preview, (os.listdir(dir_preview))[i])
    destination = os.path.join(train_esq_dir_2, (os.listdir(dir_preview))[i])
    shutil.copyfile(source, destination)

# Copying no esquistocitos pictures in directories
original_dataset_res_noesq = 'RBC_recort_reesc/NORM'
pict_res_noesq = len(os.listdir(original_dataset_res_noesq))

for i in range (pict_res_noesq):
    if i < 3000:
        source = os.path.join(original_dataset_res_noesq, (os.listdir(original_dataset_res_noesq))[i])
        destination = os.path.join(train_noesq_dir_2, (os.listdir(original_dataset_res_noesq))[i])
        shutil.copyfile(source, destination)

In [11]:
# Contar cuántas imágenes hay en cada directorio después del aumentado
print ('Imágenes de esquistocitos para training2:', len(os.listdir(train_esq_dir_2)))
print ('Imágenes de no esquistocitos para training2:', len(os.listdir(train_noesq_dir_2)))

print ('Imágenes de esquistocitos para validation:', len(os.listdir(validation_esq_dir)))
print ('Imágenes de no esquistocitos para validation:', len(os.listdir(validation_noesq_dir)))

print ('Imágenes de esquistocitos para testing:', len(os.listdir(test_esq_dir)))
print ('Imágenes de no esquistocitos para testing:', len(os.listdir(test_noesq_dir)))


Imágenes de esquistocitos para training2: 3000
Imágenes de no esquistocitos para training2: 3000
Imágenes de esquistocitos para validation: 200
Imágenes de no esquistocitos para validation: 200
Imágenes de esquistocitos para testing: 700
Imágenes de no esquistocitos para testing: 700


Después del balanceo de datos, el número de imágenes de cada directorio está equilibrado:
- 6000 para training
- 400 para validación
- 1400 para testing