## Resumen

### Introducción

En este codelab, se aprenderá a cómo construir y entrenar una red neuronal que reconozca los dígitos escritos a mano. En el camino, a medida que mejora su red neuronal para lograr el 99% de precisión, también descubrirá las herramientas de la profesión que los profesionales del Deep learning utilizan para entrenar sus modelos de manera eficiente.

Este codelab utiliza el conjunto de datos MNIST, una colección de 60,000 dígitos etiquetados que han mantenido ocupadas generaciones de PhD durante casi dos décadas. Resolverás el problema con menos de 100 líneas de código Python y TensorFlow.

Lo que aprenderás

   
* Qué es una red neuronal y cómo entrenarla
* Cómo construir una red neuronal básica de 1 capa con TensorFlow
* Cómo agregar más capas
* Consejos y trucos de entrenamiento: overfitting, dropout, learning rate decay …
* Cómo solucionar problemas de redes neuronales profunda
* Cómo construir redes convolucionales


Lo que necesitarás

   
* Python 2 o 3 (se recomienda Python 3
* Tensor Flow
* Matplotlib (biblioteca de visualización de Python)


### Preparación: Intalación de Tensor Flow y obtención del código de muestra

Instala el software necesario en tu computadora: Python, TensorFlow y Matplotlib. Clonamos el repositorio de Github:

```git clone https://github.com/GoogleCloudPlatform/tensorflow-without-a-phd.git
cd tensorflow-without-a-phd/tensorflow-mnist-tutorial
```

![](tf1.png)

El código de muestra para este tutorial se encuentra en la carpeta `tensorflow-mnist-tutorial`. La carpeta contiene múltiples archivos. El único en el que trabajará es `mnist_1.0_softmax.py`. Otros archivos son soluciones o código de soporte para cargar los datos y visualizar los resultados.

Cuando se ejecuta el script de python inicial, se ve  una visualización en tiempo real del proceso de entrenamiento:

![](tf2.png)

Al ejecutar el programa se obtiene:

![](tf3.png)

## Entrenar una red neuronal

Primero veremos una red neuronal que está siendo entrenada.  Nuestra red neuronal toma los dígitos escritos a mano y los clasifica, es decir, si los reconoce como un 0, un 1, un 2 y así sucesivamente hasta un 9. Lo hace en función de las variables internas ("pesos" y "sesgos") que necesitan tener un valor correcto para que la clasificación funcione bien. Este "valor correcto" se aprende a través de un proceso de entrenamiento. Lo que necesita saber por ahora es que el ciclo de entrenamiento se ve así:

```
Dígitos de entrenamiento => actualizaciones de pesos y sesgos => mejor reconocimiento (bucle)
```

Repasemos los seis paneles de la visualización uno por uno para ver qué se necesita para entrenar una red neuronal.

![](tf4.png)

Aquí se puede ver los dígitos de entrenamiento alimentados en el ciclo  de entrenamiento, 100 a la vez. También se observa si la red neuronal, en su estado actual de entrenamiento, los ha reconocido (fondo blanco) o los ha clasificado erróneamente (fondo rojo con la etiqueta correcta en letra pequeña en el lado izquierdo y una  etiqueta erróneamente calculada a la derecha de cada dígito )

Hay 50,000 dígitos de entrenamiento en este conjunto de datos. Suministramos 100 de ellos en el ciclo de entrenamiento en cada iteración, por lo que el sistema habrá visto todos los dígitos de entrenamiento una vez después de 500 iteraciones. Llamamos a esto una "epoch".

![](tf5.png)

Para probar la calidad del reconocimiento en condiciones reales, debemos usar dígitos que el sistema NO haya visto durante el entrenamiento. De lo contrario, podría aprender todos los dígitos del entrenamiento de memoria y aún fallar al reconocer un nuevo  "8" que se pueda  de escribir. 

El conjunto de datos MNIST contiene 10.000 dígitos de prueba. Aquí puede ver alrededor de 1000 de ellos con todos los mal reconocidos ordenados en la parte superior (sobre un fondo rojo). La escala de la izquierda le da una idea aproximada de la precisión del clasificador (% de dígitos de prueba correctamente reconocidos).

![](tf6.png)

Para desarrollar el entrenamiento, definiremos una función de pérdida, es decir, un valor que representa qué tan mal el sistema reconoce los dígitos y trata de minimizarlo. Lo que se ve aquí es que la pérdida disminuye tanto en el entrenamiento como en los datos de prueba a medida que avanza el entrenamiento : eso es bueno. Significa que la red neuronal está aprendiendo. El eje X representa iteraciones a través del ciclo de aprendizaje.

![](tf7.png)

La precisión es simplemente el % de dígitos correctamente reconocidos. Esto se calcula tanto en el entrenamiento como en el conjunto de prueba. Se vera que crece si el entrenamiento va bien.

Los dos últimos gráficos representan la dispersión de todos los valores tomados por las variables internas, es decir, los pesos y los sesgos a medida que avanza el entrenamiento. Aquí se  puede ver, por ejemplo, que los sesgos comenzaron inicialmente en 0 y terminaron tomando valores repartidos aproximadamente de manera uniforme entre -1.5 y 1.5. Estos gráficos pueden ser útiles si el sistema no converge bien. 

![](tf8.png)

**Respuestas**: Los pesos (weigth) son parámetros numéricos que determinan con qué intensidad cada una de las neuronas afecta a la otra. Para una neurona típica, si las entradas son $x_1, x_2$ y $x_3$, los pesos  que se les aplicarán se denominan $w_1, w_2$ y $w_3$. Luego la salida es:
$$
y = f(x) = \sum_{i=1}^{n} X_iW_i
$$

donde `i` varía desde  1 al número  de entradas.

El sesgo(bias) es como la intersección agregada en una ecuación lineal. Es un parámetro adicional que se utiliza para ajustar la salida junto con la suma ponderada de las entradas a la neurona.
El procesamiento realizado por una neurona se denota así:

```
salida = suma (peso * entradas) + sesgo
```


## Red neuronal de una capa

Los dígitos escritos en el conjunto de datos MNIST son imágenes de escala de grises de 28x28 píxeles. El enfoque más simple para clasificarlos es usar los 28x28 = 784 píxeles como entradas para una red neuronal de 1 capa.

![](tf9.png)

Cada "neurona" en una red neuronal hace una suma ponderada de todas sus entradas, agrega una constante llamada "sesgo" y luego alimenta el resultado a través de alguna función de activación no lineal.

Aquí diseñamos una red neuronal de 1 capa con 10 neuronas de salida, ya que queremos clasificar los dígitos en 10 clases (0 a 9).

Para un problema de clasificación, una función de activación que funciona bien es **softmax**. La aplicación de softmax en un vector se realiza tomando el exponencial de cada elemento y luego normalizando el vector (usando cualquier norma, como la longitud euclidiana de un vector).

![](tf10.png)

¿Por qué se llama softmax? La exponencial es una función que aumenta abruptamente . Aumentará las diferencias entre los elementos del vector. También produce rápidamente grandes valores. Luego, a medida que se  normaliza el vector, el elemento más grande, que domina la norma, se normalizará a un valor cercano a 1, mientras que todos los otros elementos terminarán divididos por un valor grande y se normalizarán a algo cercano a 0. El vector resultante muestra claramente cuál fue su elemento más grande, el "máximo", pero conserva el orden relativo original de sus valores, de ahí lo de  "soft".

A continuación, resumiremos el comportamiento de esta capa única de neuronas en una fórmula simple utilizando una multiplicación de matriz. Hagámoslo directamente para un "mini-lote" de 100 imágenes como entrada, produciendo 100 predicciones (vectores de 10 elementos) como salida.

![](tf11.gif)

Usando la primera columna de pesos en la matriz de pesos W, calculamos la suma de pesos de todos los píxeles de la primera imagen. Esta suma corresponde a la primera neurona. Usando la segunda columna de pesos, hacemos lo mismo para la segunda neurona y así sucesivamente hasta la décima neurona. Entonces podemos repetir la operación para las 99 imágenes restantes. Si llamamos a X la matriz que contiene nuestras 100 imágenes, todas las sumas ponderadas de nuestras 10 neuronas, calculadas en 100 imágenes son simplemente X.W (multiplicación de la matriz).

Cada neurona ahora debe agregar su sesgo (una constante). Como tenemos 10 neuronas, tenemos 10 constantes de polarización. Llamaremos a este vector de 10 valores b. Debe agregarse a cada línea de la matriz calculada previamente. Usando un poco de magia llamada "broadcasting" escribiremos esto con un signo más simple.

"Broadcasting" es un truco estándar utilizado en Python y numpy. Extiende cómo funcionan las operaciones normales en matrices con dimensiones incompatibles. "Broadcasting" significa  que "si está agregando dos matrices pero no puede hacerlo porque sus dimensiones no son compatibles, intenta replicar la de menor dimensión  tanto como sea necesario para que funcione".

Finalmente aplicamos la función de activación de softmax y obtenemos la fórmula que describe una red neuronal de 1 capa, aplicada a 100 imágenes:

![](tf11.png)

## Gradiente de descenso

Ahora que nuestra red neuronal produce predicciones a partir de imágenes de entrada, necesitamos medir qué tan buenas son, es decir, la distancia entre lo que la red nos dice y lo que sabemos que es verdad. Se ha de señalar que tenemos etiquetas verdaderas para todas las imágenes en este conjunto de datos.

Cualquier distancia funcionaría, la distancia euclidiana ordinaria es buena, pero para los problemas de clasificación una distancia, llamada "entropía cruzada" es más eficiente.

![](tf12.png)

La codificación "one-hot" significa que se representa la etiqueta "6" usando un vector de 10 valores, de todos ceros pero el 6to valor con un valor de 1. Es útil aquí porque el formato es muy similar a cómo nuestra red neuronal genera predicciones, también como un vector de 10 valores.

"Entrenar" a la red neuronal en realidad significa usar imágenes y etiquetas de entrenamiento para ajustar los pesos y los sesgos a fin de minimizar la función de pérdida de entropía cruzada. Así es como funciona.

La entropía cruzada es una función de los pesos, los sesgos, los píxeles de la imagen de entrenamiento y su etiqueta conocida.

Si calculamos las derivadas parciales de la entropía cruzada con relación a todos los pesos y todos los sesgos obtenemos un "gradiente", calculado para una imagen, etiqueta y valor presente de pesos y sesgos dados. Hay que recordar que tenemos 7850 pesos y sesgos, por lo que calcular el gradiente suena como un montón de trabajo. Afortunadamente, TensorFlow lo hará por nosotros.

La propiedad matemática de un gradiente es que señala en qué dirección te tienes que mover para incrementar el valor de de una función lo más rápido posible. Como queremos ir donde la entropía cruzada es baja, vamos en la dirección opuesta. Actualizamos los pesos y los sesgos por una fracción del gradiente y hacemos lo mismo otra vez usando el siguiente lote de imágenes de entrenamiento. Con suerte, esto nos lleva al fondo del pozo donde la entropía cruzada es mínima.

![](tf13.png)

En esta imagen, la entropía cruzada se representa como una función de 2 pesos. En realidad, hay muchos más. El algoritmo de descenso de gradiente sigue el camino de descenso más pronunciado hacia un mínimo local. Las imágenes de entrenamiento se cambian en cada iteración para que converger  hacia un mínimo local que funcione para todas las imágenes.

"Tasa de aprendizaje": no puede actualizar sus pesos y sesgos por toda la longitud del gradiente en cada iteración. Para llegar al final, se deben realizar pasos  pequeños, es decir, usar solo una fracción del gradiente, llamada  "tasa de aprendizaje".

Para resumir, así es como se ve el ciclo de entrenamiento:

```
Dígitos y etiquetas de entrenamiento => función de pérdida => gradiente => descenso más pronunciado => actualizamos pesos y sesgos => repetir con el siguiente mini-lote de imágenes y etiquetas de entrenamiento

```


¿Por qué trabajar con "mini-lotes" de 100 imágenes y etiquetas?

Definitivamente  se puede calcular el gradiente en una sola imagen de ejemplo y actualizar los pesos y los sesgos inmediatamente ("descenso de gradiente estocástico" ). Hacerlo en 100 ejemplos da un gradiente que representa mejor las restricciones impuestas por diferentes imágenes de ejemplo y por lo tanto, es probable que converja hacia la solución más rápidamente. Sin embargo, el tamaño del mini-lote es un parámetro ajustable. 

Hay otra razón más técnica: trabajar con lotes también significa trabajar con matrices más grandes y estas suelen ser más fáciles de optimizar en GPU.

## Código para red neuronal de una capa

In [2]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
warnings.filterwarnings("ignore")
import tensorflow as tf
from tensorflow.contrib.learn.python.learn.datasets.mnist import read_data_sets


NUM_ITERS=5000
LOTES=100

tf.set_random_seed(0)

mnist = read_data_sets("MNISTdata", one_hot=True, reshape=False, validation_size=0)
X = tf.placeholder(tf.float32, [None, 28, 28, 1])
Y_ = tf.placeholder(tf.float32, [None, 10])
W = tf.Variable(tf.truncated_normal([784, 10],stddev=0.1))
b = tf.Variable(tf.zeros([10]))


XX = tf.reshape(X, [-1, 784])

# Definimos el modelo
Y = tf.nn.softmax(tf.matmul(XX, W) + b)


Extracting MNISTdata\train-images-idx3-ubyte.gz
Extracting MNISTdata\train-labels-idx1-ubyte.gz
Extracting MNISTdata\t10k-images-idx3-ubyte.gz
Extracting MNISTdata\t10k-labels-idx1-ubyte.gz


Sabemos que cada imagen en MNIST es de un dígito escrito a mano entre cero y nueve. Entonces, solo hay diez cosas posibles que una imagen determinada puede ser. Queremos poder mirar una imagen y dar las probabilidades de que sea un  dígito. 
Si desea asignar probabilidades a un objeto siendo una de varias cosas diferentes, softmax es adecuado para este problema, ya que  softmax nos da una lista de valores entre 0 y 1 que suman 1.

In [3]:
# Utilizamos la entropia cruzada

entropia_cruzada = -tf.reduce_mean(Y_ * tf.log(Y)) * 1000.0

In [4]:
prediccion_correcta = tf.equal(tf.argmax(Y, 1), tf.argmax(Y_, 1))
prediccion = tf.reduce_mean(tf.cast(prediccion_correcta, tf.float32))

Debido a que TensorFlow conoce el gráfico completo de los cálculos, puede utilizar automáticamente el algoritmo de retropropagación para determinar de manera eficiente cómo afectan sus variables a la pérdida que le pide que minimice. Luego se puede aplicar un algoritmo de optimización para modificar las variables y reducir la pérdida.

In [5]:
paso_entrenamiento = tf.train.GradientDescentOptimizer(0.003).minimize(entropia_cruzada)


En este caso, le pedimos a TensorFlow que minimice `entropia cruzada` usando el algoritmo de descenso de gradiente con una tasa de aprendizaje de 0.003. El descenso de gradiente es un procedimiento simple, donde TensorFlow simplemente cambia cada variable un poco en la dirección que reduce el costo. 

Lo que hace TensorFlow  es agregar nuevas operaciones al grafo que implementa la retropropagación y el descenso del gradiente. Luego devuelve una sola operación que, cuando se ejecuta, da un paso de entrenamiento de descenso de gradiente, ajustando ligeramente las variables para reducir la pérdida.

In [6]:
# Lancemos el modelo utilizando InteractiveSession:

sess = tf.InteractiveSession()

In [7]:
tf.global_variables_initializer().run()

In [8]:
for i in range(NUM_ITERS + 1):
    lote_X, lote_Y = mnist.train.next_batch(LOTES)
    sess.run(paso_entrenamiento, feed_dict={X: lote_X, Y_:lote_Y})

Para evaluar el modelo, primero hay que  predecir la etiqueta correcta. `tf.argmax` es una función que  proporciona el índice de la entrada más alta en un tensor a lo largo de algún eje. Por ejemplo, `tf.argmax(Y, 1)` es la etiqueta que el modelo propuesto predice que es más probable para cada entrada, mientras que `tf.argmax (y_, 1)` es la etiqueta correcta. Podemos usar `tf.equal` para verificar si nuestra predicción coincide con la verdadera.


In [9]:
prediccion_correcta = tf.equal(tf.argmax(Y,1), tf.argmax(Y_,1))


Eso nos da una lista de booleanos. Para determinar qué fracción es la correcta, seleccionamos los números de coma flotante y luego tomamos la media. Por ejemplo, `[True, False, True, True]` se convertiría en `[1,0,1,1]` que se convertiría en 0.75.

In [10]:
prediccion = tf.reduce_mean(tf.cast(prediccion_correcta, tf.float32))


Finalmente, calculamos precisión de nuestros datos de  prueba.

In [11]:
print(sess.run(prediccion, feed_dict={X: mnist.test.images, Y_: mnist.test.labels}))


0.9232
