## La relevancia del Deep Learning para pocos datos

A veces escuchamos que el deep learning solo funciona cuando hay disponibles muchos datos. Esto es cierto en parte: una caracteristica fundamental del **deep learning** es que puede encontrar caracteristicas interesantes en los datos de entrenamiento por si mismo, sin que necesite ninguna ingenieria de caracteristicas manual, pero eso solo puede conseguirse cuando hay muchos datos de entrenamiento. Esto en en general es cierto cuando las muestras de entrada tienen muchas dimensiones, como las imagenes.

Pero lo que constituye muchas muestras es relativo, relativo segun la profundidad de la red o el tamaño. Por ejemplo no es posible entrenar una convnet para resolver un problema complejo con solo unas decenas de muestras, pero algunos cientos pueden ser suficientes si el modelo esta regularizado y si la tarea es sencilla.

Puesto que las convnets aprenden caracteristicas locales con invariancia traslacional, tiene una gran eficiencia de datos en problemas perceptuales. Entrenar una convnet desde 0 en un conjunto de imagenes muy pequeño seguira generando resultados razonables pese a la relativa falta de datos, sin necesidad de que se utilice una ingenieria de caracteristicas.

Ademas los modelos de deep learning tienen por naturaleza una gran capacidad para cambiar de finalidad: podriamos tomar un modelo de clasificacion de imagenes entrenado con un conjunto de datos a gran escala y reutilizarlo en problemas diferentes con solo algunos cambios menores.
Esto es lo que vamos a hacer en este cuaderno.
Primero empezaremos con la descarga de los datos 

In [1]:
import keras
import os, shutil

### Descargar los datos

El conjunto de datos Dogs vs. Cats no se incluye en keras. Kaggle lo puso a disposicion en 2013, cuando las convnets no eran populares.

Puede descargarlo aqui: https://www.kaggle.com/c/dogs-vs-cats/data

Las imagenes son en color , de resolucion media y formato JPEG.

Como era de esperar la competicion de 2013 la ganaron participantes que usaron convnets. Obtuvieron una exactitud del 95%. 
La idea de este notebook va ser acercarnos a esa valor pero usando solo el 10% de los datos que estan disponibles.

El conjunto de datos contiene 25.000 imagenes de perros y gatos (12.500 de cada clase)
Luego de descargarlo y descomprimirlo vamos a crear un nuevo conjunto de datos con 3 subconjuntos: un conjunto de entrenamiento con 1000 muestras de cada clase, un conjunto de validacion con 500 muestras de cada clase y un conjunto de prueba con 500 muestras de cada clase.

#### 1.1 Copiar imagenes en directorios de entrenamiento, validacion y prueba

In [2]:
cd

C:\Users\joaqu


In [16]:
# Ruta a directorio donde descomprimi el dataset original
original_dataset_dir1='C:/Users/joaqu/Downloads/dogs-vs-cats/train'


In [6]:
#directorio donde guardo el dataset mas chico
base_dir='C:/Users/joaqu/Downloads/dogs-vs-cats-small'
os.makedirs(base_dir) #creo directorio

In [7]:
#Creo directorios con carpeta train , validation y test
train_dir= os.path.join(base_dir,'train')
os.mkdir(train_dir)
validation_dir= os.path.join(base_dir,'validation')
os.mkdir(validation_dir)
test_dir= os.path.join(base_dir,'test')
os.mkdir(test_dir)

In [8]:
#creo carptetas dentro de cada directorio para luego guardar imagenes de gatos
train_cat_dir=os.path.join(train_dir,'cats')
os.makedirs(train_cat_dir)

validation_cat_dir=os.path.join(validation_dir,'cats')
os.makedirs(validation_cat_dir)

test_cat_dir=os.path.join(test_dir,'cats')
os.makedirs(test_cat_dir)




In [9]:
#creo carptetas dentro de cada directorio para luego guardar imagenes de perros
train_dog_dir=os.path.join(train_dir,'dogs')
os.makedirs(train_dog_dir)

validation_dog_dir=os.path.join(validation_dir,'dogs')
os.makedirs(validation_dog_dir)

test_dog_dir=os.path.join(test_dir,'dogs')
os.makedirs(test_dog_dir)

Viendo el dataset observo que las imagenes empiezan con el nombre de la clase luego un '.' , el numero y el formato. Por ejemplo
la primer imagen de gatos es cat.0.jpg. 
Por eso a continuacion creo una lista con los nombres de las primeras 1000 imagenes de gatos.

In [10]:
fnames= ['cat.{}.jpg'.format(i) for i in range(1000)]  

#### Mover las imagenes de entrenamiento de cats de la carpeta original_dataset_dir1 a la carpeta train_cat_dir

Recorro la lista de nombres de imagenes  fnames y en cada iteracion creo la variable src y le asigno la union de la ruta original y el nombre de la imagen actual.
A la variable dst le asigno la union de la ruta train_cat_dir y el nombre de la imagen actual.
Luego copio la imagen de src al directorio creado.


In [13]:
for fname in fnames:
    src=os.path.join(original_dataset_dir1,fname)
    dst=os.path.join(train_cat_dir,fname)
    shutil.copyfile(src,dst)

#### Mover las imagenes de validacion de cats de la carpeta original_dataset_dir1 a la carpeta validation_cat_dir

Recorro la lista de nombres de imagenes  fnames desde la posicion 1000 a 1499 y en cada iteracion creo la variable src y le asigno la union de la ruta original y el nombre de la imagen actual.
A la variable dst le asigno la union de la ruta train_cat_dir y el nombre de la imagen actual.
Luego copio la imagen de src al directorio creado.



In [14]:
fnames= ['cat.{}.jpg'.format(i) for i in range(1000,1500)] 
for fname in fnames:
    src=os.path.join(original_dataset_dir1,fname)
    dst=os.path.join(validation_cat_dir,fname)
    shutil.copyfile(src,dst)

#### Mover las imagenes de test de cats de la carpeta original_dataset_dir2 a la carpeta test_cat_dir

Recorro la lista de nombres de imagenes  fnames desde la posicion 0 a 500 y en cada iteracion creo la variable src y le asigno la union de la ruta original y el nombre de la imagen actual.
A la variable dst le asigno la union de la ruta train_cat_dir y el nombre de la imagen actual.
Luego copio la imagen de src al directorio creado.


In [17]:
fnames= ['cat.{}.jpg'.format(i) for i in range(1500,2000)] 
for fname in fnames:
    src=os.path.join(original_dataset_dir1,fname)
    dst=os.path.join(test_cat_dir,fname)
    shutil.copyfile(src,dst)

Hacemos lo mismo con las imagenes de perros

In [19]:
fnames= ['dog.{}.jpg'.format(i) for i in range(1000)] 
for fname in fnames:
    src=os.path.join(original_dataset_dir1,fname)
    dst=os.path.join(train_dog_dir,fname)
    shutil.copyfile(src,dst)

In [None]:
fnames= ['dog.{}.jpg'.format(i) for i in range(1000,1500)] 
for fname in fnames:
    src=os.path.join(original_dataset_dir1,fname)
    dst=os.path.join(validation_dog_dir,fname)
    shutil.copyfile(src,dst)

In [21]:
fnames= ['dog.{}.jpg'.format(i) for i in range(1500,2000)] 
for fname in fnames:
    src=os.path.join(original_dataset_dir1,fname)
    dst=os.path.join(test_dog_dir,fname)
    shutil.copyfile(src,dst)

In [22]:
#comprobamos la cantidad de imagenes en cada directorio

print('total training cat images:',len(os.listdir(train_cat_dir)))
print('total training dog images:',len(os.listdir(train_dog_dir)))
print('total validation cat images:',len(os.listdir(validation_cat_dir)))
print('total validation dog images:',len(os.listdir(validation_dog_dir)))
print('total test cat images:',len(os.listdir(test_cat_dir)))
print('total test dog images:',len(os.listdir(test_dog_dir)))


total training cat images: 1000
total training dog images: 1000
total validation cat images: 500
total validation dog images: 500
total test cat images: 500
total test dog images: 500


Tenemos 2000 imagenes de entrenamiento, 1000 de validacion y 1000 de prueba. Cada division contiene el mismo numero de muestras de cada clase: se trata de un problema de clasificacion binaria equilibrada, lo que significa que la exactitud de la clasificacion sera una medida de la clasificacion adecuada!!!!!