# Deep Learning para visión por computadora

*Computer vision* (o visión por computadora) es uno de los primeros y mayores éxitos en la historia del deep learning. Cada dia interactúamos con modelos de visión profunda, como Google Photos, Youtube, filtros de video en aplicaciones, etc. 

Este tópico llevó al surgimiento del deep learning entre 2011 y 2015. Un tipo de modelo de deep learning conocido como *redes neuronales convolucionales* (*convolutional neural networks, CNN)* comenzó a obtener resultados muy buenos en competencias de clasificación de imágenes. 

En esta ocasión, estudiaremos a detalle las redes neuronales convolucionales, abreviadas *convnets*, que son el tipo de modelo de aprendizaje profundo más utilizado universalmente en las aplicaciones de visión por computadora. Aprenderemos a uitilizar convnets para resolver problemas de clasificación de imágenes, en particular aquellas que involucren utilizar datasets pequeños, que resulta el caso más común.

## Redes neuronales artificiales convolucionales (CNNs, Convnets)

Para tener una idea clara acerca de qué son estos modelos y por qué han sido tan exitosos, primero echemos un vistazo a un ejemplo sencillo: el clasificador de dígitos del MNIST. 


El siguiente código muestra cómo se ve una convent básica. Se forma apilando varias capas de `Conv2D` y `MaxPooling2D`. Veremos qué son y cómo se utilizan.

Primero, importamos `Keras` de `Tensorflow` y el módulo `layers` para tener acceso a las capas de convolución y de pooling.

In [1]:
from tensorflow import keras
from tensorflow.keras import layers

Definimos la forma que tendrán las entradas, recordemos que la base de datos MNIST contiene imágenes de 28x28 pixeles en escala de grises.

In [2]:
inputs = keras.Input(shape = (28, 28, 1))

In [3]:
x = layers.Conv2D(filters = 32, kernel_size = 3, activation = "relu")(inputs)

x = layers.MaxPooling2D(pool_size=2)(x)

x = layers.Conv2D(filters = 64, kernel_size = 3, activation = "relu")(x)

x = layers.MaxPooling2D(pool_size = 2)(x)

x = layers.Conv2D(128, 3, activation = 'relu')(x)

x = layers.Flatten()(x)

outputs = layers.Dense(10, activation = 'softmax')(x)

model = keras.Model(inputs = inputs, outputs = outputs)

In [4]:
model.summary()

In [5]:
from tensorflow.keras.datasets import mnist

(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
[1m11490434/11490434[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 0us/step


In [6]:
train_images = train_images.reshape((60000, 28, 28, 1))

train_images = train_images.astype("float32") / 255

test_images = test_images.reshape((10000, 28, 28, 1))

test_images = test_images.astype("float32") / 255



In [7]:
model.compile(optimizer="rmsprop",
              loss = "sparse_categorical_crossentropy",
              metrics = ["accuracy"])

In [8]:
model.fit(train_images, train_labels, epochs = 15, batch_size=100)

Epoch 1/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 14ms/step - accuracy: 0.8606 - loss: 0.4404
Epoch 2/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 14ms/step - accuracy: 0.9830 - loss: 0.0554
Epoch 3/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 19ms/step - accuracy: 0.9902 - loss: 0.0330
Epoch 4/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 19ms/step - accuracy: 0.9921 - loss: 0.0255
Epoch 5/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 19ms/step - accuracy: 0.9944 - loss: 0.0180
Epoch 6/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 19ms/step - accuracy: 0.9959 - loss: 0.0130
Epoch 7/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 19ms/step - accuracy: 0.9960 - loss: 0.0140
Epoch 8/15
[1m600/600[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 19ms/step - accuracy: 0.9970 - loss: 0.0093
Epoch 9/15
[1m600/600[0m

<keras.src.callbacks.history.History at 0x2d1627957c0>

In [9]:
test_loss, test_acc = model.evaluate(test_images, test_labels)

print(f"Test accuracy: {test_acc:.3f}")

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 3ms/step - accuracy: 0.9911 - loss: 0.0521
Test accuracy: 0.994
