# Entrenador de Gatos y Perros
Alan Badillo Salas (badillo.soft@hotmail.com)

Este mini-proyecto tiene la intención de crear una red neuronal de tipo CNN, para aprender a determinar si una imagen corresponde a un gato o a un perro.

Para más información sobre las redes CNN visita: https://medium.freecodecamp.org/an-intuitive-guide-to-convolutional-neural-networks-260c2de0a050

Lo primero que debemos hacer es descargar el archivo zip que contiene 10,000 imágenes de gatos y perros en una resolución de 32x32 pixeles a color. Cada imagen tiene como nombre su identificador. El archivo de imágenes lo puede descargar de http://badillosoft.com/train_cat_dog.zip.

Una vez descargado el archivo debemos descomprimirlo y todas las imágenes se encontrarán la carpeta `train_cat_dog`.

## Importaciones

In [33]:
from keras.models import Sequential
from keras.preprocessing.image import ImageDataGenerator
from keras.layers import Conv2D, MaxPooling2D, Flatten, Activation, Dense, Dropout, BatchNormalization
from keras import optimizers, regularizers
import numpy as np
import pandas as pd

print("Se han importado las librerías necesarias para el análisis")

Se han importado las librerías necesarias para el análisis


Primero hay que cargar el `DataFrame` con los id's de las imágenes y sus etiquetas para utilizarlos en el proceso de aprendizaje.

In [34]:
train_cat_dog = pd.read_csv("http://badillosoft.com/train_cat_dog.csv")

print(train_cat_dog.info())
print(train_cat_dog.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
Unnamed: 0    10000 non-null int64
id            10000 non-null int64
label         10000 non-null object
dtypes: int64(2), object(1)
memory usage: 234.4+ KB
None
   Unnamed: 0  id label
0           9  10   cat
1          17  18   cat
2          21  22   cat
3          26  27   cat
4          27  28   dog


Definimos un generador de datos para que tome el `DataFrame` de pandas que contiene los id's de las imágenes y sus etiquetas (`train_cat_dog`). Observa que el generador de datos define que el 20% de ellos serán utilizados para la validación.

In [35]:
datagen = ImageDataGenerator(rescale=1./255., validation_split=0.2)

print(datagen)

<keras.preprocessing.image.ImageDataGenerator object at 0x11a600510>


Creamos el generador de entrenamiento, esto se refiere a un generador que va a cargar las imágenes desde nuestra carpeta basado en el `DataFrame` (`train_cat_dog`) para proveer el `x_train` y el `y_train`.

In [36]:
train_generator = datagen.flow_from_dataframe(
    dataframe=train_cat_dog,           # Dataframe de pandas con los id's de las imágnes y las etiquetas
    directory="./train_cat_dog",       # La ruta a la carpeta que contiene las imágenes de entrenamiento
    x_col="id",                        # La columna del dataframe para formar x_train, y_train
    y_col="label",                     # La columna del dataframe para formar x_test, y_test
    has_ext=False,                     # Indica si la columna x ya tiene la extensión de la imagen
    subset="training",                 # Indica el tipo de generador (training o validation)
    batch_size=32,                     # Indica el tamaño del bloque para las épocas
    seed=42,                           # Indica la semilla aleatoria
    shuffle=True,                      # Indica si las imágenes se cargarán aleatoriamente
    class_mode="categorical",          # Indica el tipo de aprendizaje (en este caso categoríco)
    target_size=(32, 32)               # Indica la resolución de las imágenes
)

Found 8000 images belonging to 2 classes.


De forma similar vamos a crear un generador de imágenes para las validaciones, esto creará los `x_test` y los `y_test`.

In [37]:
test_generator = datagen.flow_from_dataframe(
    dataframe=train_cat_dog,           # Dataframe de pandas con los id's de las imágnes y las etiquetas
    directory="./train_cat_dog",       # La ruta a la carpeta que contiene las imágenes de entrenamiento
    x_col="id",                        # La columna del dataframe para formar x_train, y_train
    y_col="label",                     # La columna del dataframe para formar x_test, y_test
    has_ext=False,                     # Indica si la columna x ya tiene la extensión de la imagen
    subset="validation",               # Indica el tipo de generador (training o validation)
    batch_size=32,                     # Indica el tamaño del bloque para las épocas
    seed=42,                           # Indica la semilla aleatoria
    shuffle=True,                      # Indica si las imágenes se cargarán aleatoriamente
    class_mode="categorical",          # Indica el tipo de aprendizaje (en este caso categoríco)
    target_size=(32, 32)               # Indica la resolución de las imágenes
)

Found 2000 images belonging to 2 classes.


Con los generadores anteriores, ya podemos alimentar nuestra red CNN. Por lo que, primero debemos crear la CNN como sigue.

In [38]:
model = Sequential()

# Capas Convolutivas (El filtro/kernel)
model.add(Conv2D(32, (3, 3), padding="same", input_shape=(32, 32, 3)))
model.add(Activation("relu"))

#model.add(Conv2D(32, (3, 3)))
#model.add(Activation("relu"))

# Capas Pooling (El reductor)
model.add(MaxPooling2D(pool_size=(2, 2)))

# Capa Dropout (La pérdida)
#model.add(Dropout(0.25))

#model.add(Conv2D(64, (3, 3), padding='same'))
#model.add(Activation('relu'))

#model.add(Conv2D(64, (3, 3)))
#model.add(Activation('relu'))

#model.add(MaxPooling2D(pool_size=(2, 2)))

#model.add(Dropout(0.25))

# Capa Flatten (El aplanador)
model.add(Flatten())

# Capas de Clasificación (El aprendizaje)
model.add(Dense(2, activation="softmax"))

model.compile(optimizer="adam", loss="categorical_crossentropy", metrics=["accuracy"])

print(model.summary())

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_9 (Conv2D)            (None, 32, 32, 32)        896       
_________________________________________________________________
activation_9 (Activation)    (None, 32, 32, 32)        0         
_________________________________________________________________
max_pooling2d_6 (MaxPooling2 (None, 16, 16, 32)        0         
_________________________________________________________________
flatten_5 (Flatten)          (None, 8192)              0         
_________________________________________________________________
dense_5 (Dense)              (None, 2)                 16386     
Total params: 17,282
Trainable params: 17,282
Non-trainable params: 0
_________________________________________________________________
None


Ya que tenemos el modelo, podemos entrenarlo con los generadores `train_generator` y `test_generator`.

In [39]:
# Calculamos los tamaños de salto para los kernels
STEP_TRAIN = train_generator.n // train_generator.batch_size
STEP_TEST = test_generator.n // test_generator.batch_size

model.fit_generator(
    generator=train_generator,      # Indica quién genera las imágenes de entranamiento
    steps_per_epoch=STEP_TRAIN,     # Indica cuántos pasos se realizarán por época
    validation_data=test_generator, # Indica el generador de imágenes para la validación
    validation_steps=STEP_TEST,     # Indica cuántos pasos se realizarán para la validación
    epochs=10                       # Indica las épocas de entrenamiento
)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x129467810>

Ahora la red CNN ya está entrenada, por lo que medimos su desempeño con las imágenes de validación (`test_generator`)

In [40]:
metrics = model.evaluate_generator(generator=test_generator, steps=STEP_TEST)

print(metrics)

[0.569965748282952, 0.7149390243902439]


## Probar el clasificador con imágenes reales

Hasta aquí ya hemos entrenado nuestro modelo para aprender a reconocer imágenes de gatos y perros, por lo que podemos ahora descargar una imagen desde internet, reducirla a una resolución de `32x32` pixeles y evaluarla en el modelo.

In [74]:
from PIL import Image
import requests
# Python 2
from StringIO import StringIO

# Gato
#url = "https://www.readersdigest.ca/wp-content/uploads/sites/14/2011/01/4-ways-cheer-up-depressed-cat.jpg"
# Perro
#url = "https://img.huffingtonpost.com/asset/5b7fdeab1900001d035028dc.jpeg?cache=sixpwrbb1s&ops=1910_1000"
# Gato
#url = "https://newsline.com/wp-content/uploads/2018/08/22698/636124053572235005-101816orange-cat-thinkstock.jpg"
# Perro
url = "https://www.guidedogs.org/wp-content/uploads/2018/01/Mobile.jpg"

# Python 2
response = requests.get(url)
# Python 3
# response = request.get(url, stream=True)

# Python 2
im = Image.open(StringIO(response.content))
# Python 3
# im = Image.open(response.raw)

print(im)

<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=2880x3840 at 0x129441890>


Ahora hay que reducir la imagen a `32x32` pixeles.

In [75]:
im = im.resize((32, 32), Image.NEAREST)

print(im)

<PIL.Image.Image image mode=RGB size=32x32 at 0x129747E10>


Ahora necesitamos convertir la imagen en un arreglo de números `(32, 32, 3)` y convertirlo a una matriz para que se pueda hacer la predicción. Recordemos que `model.predict` espera una matriz de muestras para hacer la predicción en todas las muestras (no podemos manderle sólo un ejemplo para la predicción).

In [76]:
im_array = np.asarray(im)

x_test = np.array([im_array]) # np.array([im1, im2, im3, ...])

print(x_test)

[[[[ 98 108  39]
   [106 112  42]
   [ 84  88  29]
   ...
   [176 159  79]
   [167 158  79]
   [165 153  81]]

  [[135 139  52]
   [145 151  55]
   [135 141  33]
   ...
   [149 151  85]
   [138 146  86]
   [126 129  74]]

  [[162 158  59]
   [154 157  54]
   [154 155  53]
   ...
   [ 94 113  57]
   [104 117  64]
   [108 114  66]]

  ...

  [[ 56  74  24]
   [ 26  31   1]
   [ 36  47   4]
   ...
   [160 161 165]
   [105 104 109]
   [ 18  23   1]]

  [[ 55  78  26]
   [ 49  64  21]
   [ 52  61  18]
   ...
   [136 129 136]
   [ 90  89  95]
   [ 37  43   5]]

  [[ 53  70  16]
   [ 38  50  26]
   [ 33  55  19]
   ...
   [  8  20   0]
   [ 27  36   7]
   [  1   8   1]]]]


Ahora ya podemos hacer la predicción sobre `x_test`. El resultado nos va a indicar un vector con la probabilidad de que pertenezca a las distintas clases.

In [77]:
predict = model.predict(x_test)

print(predict)

[[0. 1.]]


En este caso tenemos dos clases y nos está indicando que tiene una probabilidad `0` de pertenecer a la primer clase y una probabilidad de `1` de pertenecer a la segunda clase. Para ver las clases hacemos.

In [78]:
print(train_generator.class_indices)

{'dog': 1, 'cat': 0}


Ahora vamos a tomar las clases y los resultados de la predicción para que imprima que combine los scores.

In [79]:
class_indices = train_generator.class_indices
for label in class_indices:
    for score in predict:
        index = class_indices[label]
        print("{}: {}".format(label, score[index]))

dog: 1.0
cat: 0.0


## Exponer una interfaz web y servicios web (API-REST)

Finalmente podemos generar mediante flask un servidor que reciba la url de una imagen y nos diga si es perro o si es gato. Así como proveer una página web con una caja y botón que nos diga sobre una url si es gato o si es perro.