# TensorFlow

> Ejemplos adaptados del libro **Introduction to Deep Learning** (Eugene Charniak, MIT Press, 2018)

Usamos la biblioteca TensorFlow, para lo cual hemos de instalarla previamente. En una instalación de Python de 64 bits, ejecutamos el siguiente comando:

`pip3 install --upgrade tensorflow` 

Si disponemos de GPU en nuestro ordenador, podemos aprovecharla instalando la versión de TensorFlow con soporte para GPU:

`pip3 install --upgrade tensorflow-gpu`

Posiblemente, también tendremos que actualizar las bibliotecas de Microsoft Visual C++ (https://www.microsoft.com/en-us/download/details.aspx?id=53587) y, obviamente, instalar las bibliotecas correspondientes de NVIDIA para nuestra GPU (p.ej. cuDNN v6.0 para TensorFlow 1.3.0, https://developer.nvidia.com/rdp/cudnn-download).

Cuando tenemos todo en orden, ya podemos utilizar TensorFlow desde Python:

In [1]:
import tensorflow as tf

Empezamos con un simple (e inútil) "Hola mundo":

In [2]:
x = tf.constant("Hello World")
sess = tf.Session()
print(sess.run(x))
sess.close()

b'Hello World'


La salida que obtenemos con la ejecución de lo anterior será una cadena `b'Hello World'`. Si es así, ya podemos empezar a trabajar con TensorFlow en nuestro ordenador...

## Grafos de cómputo

TensorFlow nos proporciona un API mediante el que definimos el cálculo que deseamos realizar (y la posibilidad de ejecutarlo, ya sea en nuestra CPU o, si disponemos de ella, en nuestra GPU). Por ejemplo, el siguiente fragmento nos permite especificar el grafo de cómputo necesario para sumar dos números:

In [3]:
x = tf.constant(2.0)
z = tf.placeholder(tf.float32)
sess= tf.Session()
comp=tf.add(x,z)

Cambiando el valor de `z` podemos ir realizando distintas sumas...

In [4]:
print(sess.run(comp,feed_dict={z:3.0})) # Suma 2+3
print(sess.run(comp,feed_dict={z:16.0})) # Suma 2+16

print(sess.run(x)) # Muestra el valor de x (2.0)

5.0
18.0
2.0


Para ejecutar nuestro grafo de cómputo siempre tenemos que darle algún valor a las variables que intervienen en él. Si no lo hacemos, se produce un error en tiempo de ejecución:

In [5]:
print(sess.run(comp))

InvalidArgumentError: You must feed a value for placeholder tensor 'Placeholder' with dtype float
	 [[Node: Placeholder = Placeholder[dtype=DT_FLOAT, shape=<unknown>, _device="/job:localhost/replica:0/task:0/gpu:0"]()]]
	 [[Node: Add/_7 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_8_Add", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"]()]]

Caused by op 'Placeholder', defined at:
  File "c:\python\python363-64\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "c:\python\python363-64\lib\runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "c:\python\python363-64\lib\site-packages\ipykernel_launcher.py", line 16, in <module>
    app.launch_new_instance()
  File "c:\python\python363-64\lib\site-packages\traitlets\config\application.py", line 658, in launch_instance
    app.start()
  File "c:\python\python363-64\lib\site-packages\ipykernel\kernelapp.py", line 477, in start
    ioloop.IOLoop.instance().start()
  File "c:\python\python363-64\lib\site-packages\zmq\eventloop\ioloop.py", line 177, in start
    super(ZMQIOLoop, self).start()
  File "c:\python\python363-64\lib\site-packages\tornado\ioloop.py", line 888, in start
    handler_func(fd_obj, events)
  File "c:\python\python363-64\lib\site-packages\tornado\stack_context.py", line 277, in null_wrapper
    return fn(*args, **kwargs)
  File "c:\python\python363-64\lib\site-packages\zmq\eventloop\zmqstream.py", line 440, in _handle_events
    self._handle_recv()
  File "c:\python\python363-64\lib\site-packages\zmq\eventloop\zmqstream.py", line 472, in _handle_recv
    self._run_callback(callback, msg)
  File "c:\python\python363-64\lib\site-packages\zmq\eventloop\zmqstream.py", line 414, in _run_callback
    callback(*args, **kwargs)
  File "c:\python\python363-64\lib\site-packages\tornado\stack_context.py", line 277, in null_wrapper
    return fn(*args, **kwargs)
  File "c:\python\python363-64\lib\site-packages\ipykernel\kernelbase.py", line 283, in dispatcher
    return self.dispatch_shell(stream, msg)
  File "c:\python\python363-64\lib\site-packages\ipykernel\kernelbase.py", line 235, in dispatch_shell
    handler(stream, idents, msg)
  File "c:\python\python363-64\lib\site-packages\ipykernel\kernelbase.py", line 399, in execute_request
    user_expressions, allow_stdin)
  File "c:\python\python363-64\lib\site-packages\ipykernel\ipkernel.py", line 196, in do_execute
    res = shell.run_cell(code, store_history=store_history, silent=silent)
  File "c:\python\python363-64\lib\site-packages\ipykernel\zmqshell.py", line 533, in run_cell
    return super(ZMQInteractiveShell, self).run_cell(*args, **kwargs)
  File "c:\python\python363-64\lib\site-packages\IPython\core\interactiveshell.py", line 2728, in run_cell
    interactivity=interactivity, compiler=compiler, result=result)
  File "c:\python\python363-64\lib\site-packages\IPython\core\interactiveshell.py", line 2850, in run_ast_nodes
    if self.run_code(code, result):
  File "c:\python\python363-64\lib\site-packages\IPython\core\interactiveshell.py", line 2910, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-3-c934ffe2e914>", line 2, in <module>
    z = tf.placeholder(tf.float32)
  File "c:\python\python363-64\lib\site-packages\tensorflow\python\ops\array_ops.py", line 1548, in placeholder
    return gen_array_ops._placeholder(dtype=dtype, shape=shape, name=name)
  File "c:\python\python363-64\lib\site-packages\tensorflow\python\ops\gen_array_ops.py", line 2094, in _placeholder
    name=name)
  File "c:\python\python363-64\lib\site-packages\tensorflow\python\framework\op_def_library.py", line 767, in apply_op
    op_def=op_def)
  File "c:\python\python363-64\lib\site-packages\tensorflow\python\framework\ops.py", line 2630, in create_op
    original_op=self._default_original_op, op_def=op_def)
  File "c:\python\python363-64\lib\site-packages\tensorflow\python\framework\ops.py", line 1204, in __init__
    self._traceback = self._graph._extract_stack()  # pylint: disable=protected-access

InvalidArgumentError (see above for traceback): You must feed a value for placeholder tensor 'Placeholder' with dtype float
	 [[Node: Placeholder = Placeholder[dtype=DT_FLOAT, shape=<unknown>, _device="/job:localhost/replica:0/task:0/gpu:0"]()]]
	 [[Node: Add/_7 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_8_Add", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"]()]]


En el extenso mensaje de error podemos ver que nuestro grafo de cómputo incluía una variable (placeholder) a la que no hemos dado un valor, lo que genera un error de tipo `InvalidArgumentError`. Buceando un poco en el volcado de pila incluido en el mensaje de error, podemos encontrar la línea en la que se define el elemento del grafo de cómputo causante del error `z = tf.placeholder(tf.float32)`. Al llamar al método `run` hemos de indicar un valor para el parámetro `z` de nuestro grafo de cómputo.

In [6]:
sess.close()

TensorFlow se llama así porque los tensores (arrays multidimensionales) son su estructura de datos básica y se basa en la definición del flujo de datos (data flow) del grafo de cómputo que describe el cálculo que deseamos realizar.

Los valores escalares son tensores de cero dimensiones, los vectores tienen una dimensión, las matrices tienen dos dimensiones y, en general, los tensores pueden ser arrays multidimensionales de n dimensiones. Si deseamos crear un tensor, hemos de especificar sus dimensiones, p.ej. una matriz de 28x28:

In [7]:
img=tf.placeholder(tf.float32,shape=[28,28])

Cuando creamos una red neuronal, aparte de las entradas que deseamos procesar (definida como un `placeholder`) también necesitaremos los parámetros de la red, para los que utilizaremos variables de TensorFlow (TensorFlow llama `Variable`s a los parámetros de un grafo de cómputo). Como queremos que esos parámetros tengan inicialmente un valor, primero creamos los tensores correspondientes, les damos los valores que queramos y, por último, los convertimos en una `Variable` de TensorFlow:

In [10]:
bt = tf.random_normal([10], stddev=.1)
b = tf.Variable(bt)

W = tf.Variable(tf.random_normal([784,10],stddev=.1))

sess=tf.Session()
sess.run(tf.global_variables_initializer())

print(sess.run(b))

sess.close()

[-0.21292622 -0.03805812  0.18321925  0.01711052 -0.03555509 -0.03651926
  0.08914804 -0.01352216  0.0483956   0.00181377]


Antes de poder utilizar las variables en una sesión de TensorFlow tenemos que inicializarlas en la sesión que hemos creado (con la llamada a `global_variables_initializer`).

Ya estamos en condiciones de empezar a hacer algo más útil...

## Nuestra primera red neuronal en TensorFlow

Para nuestros experimentos con TensorFlow, recurrimos al conjunto de datos MNIST:

In [41]:
# Conjunto de datos MNIST

from tensorflow.examples.tutorials.mnist import input_data

print("Leyendo el conjunto de datos...")
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

Leyendo el conjunto de datos...
Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


Aquí definimos, entrenamos y evaluamos nuestra primera red neuronal:

In [79]:
# Definición del grafo de cómputo

batchSz=100

W = tf.Variable(tf.random_normal([784, 10],stddev=.1))
b = tf.Variable(tf.random_normal([10],stddev=.1))

img = tf.placeholder(tf.float32, [batchSz,784])
ans = tf.placeholder(tf.float32, [batchSz, 10])

prbs = tf.nn.softmax(tf.matmul(img, W) + b)

# Función de coste para entrenar la red
xEnt = tf.reduce_mean(-tf.reduce_sum(ans * tf.log(prbs), reduction_indices=[1]))

# Algoritmo de entrenamiento de la red
train = tf.train.GradientDescentOptimizer(0.5).minimize(xEnt)

# Evalluación de la precisión de la red
numCorrect= tf.equal(tf.argmax(prbs,1), tf.argmax(ans,1))
accuracy = tf.reduce_mean(tf.cast(numCorrect, tf.float32))


# Sesión de TensorFlow
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# Entrenamiento de la red (1000 minilotes de 100 ejemplos)
print("Entrenando la red neuronal...")
for i in range(1000):
    imgs, anss = mnist.train.next_batch(batchSz)
    sess.run(train, feed_dict={img: imgs, ans: anss})

# Estimación de la precisión de la red sobre el conjunto de prueba [test]
sumAcc=0
for i in range(100):
    imgs, anss= mnist.test.next_batch(batchSz)
    sumAcc+=sess.run(accuracy, feed_dict={img: imgs, ans: anss})
print("Precisión sobre el conjunto de prueba: {0:.2f}%".format(sumAcc))

sess.close()

Entrenando la red neuronal...
Precisión sobre el conjunto de prueba: 91.58%


Tras sólo unos segundos, obtenemos una precisión superior al 90% en MNIST (cercano al 92%). No está nada mal para nuestro primer intento...

# Implementación de una red neuronal multicapa en TensorFlow

Mediante el siguiente fragmento creamos la estructura de nuestra red, con una primera capa de unidades ReLU (neuronales lineales rectificadas) y una capa de salida de tipo softmax (para problemas de clasificación como MNIST):

In [81]:
batchSz=100

img = tf.placeholder(tf.float32, [batchSz,784])
ans = tf.placeholder(tf.float32, [batchSz, 10])

U = tf.Variable(tf.random_normal([784,784], stddev=.1))
bU = tf.Variable(tf.random_normal([784], stddev=.1))
L1Output = tf.matmul(img,U)+bU
L1Output = tf.nn.relu(L1Output)

V = tf.Variable(tf.random_normal([784,10], stddev=.1))
prbs = tf.nn.softmax(tf.matmul(L1Output,V))

Para entrenar la red y evaluar su rendimiento sobre el conjunto de prueba nos vale el mismo código del ejemplo anterior:

In [82]:
# Función de coste para entrenar la red
xEnt = tf.reduce_mean(-tf.reduce_sum(ans * tf.log(prbs), reduction_indices=[1]))

# Algoritmo de entrenamiento de la red
train = tf.train.GradientDescentOptimizer(0.2).minimize(xEnt)

# Evalluación de la precisión de la red
numCorrect= tf.equal(tf.argmax(prbs,1), tf.argmax(ans,1))
accuracy = tf.reduce_mean(tf.cast(numCorrect, tf.float32))


# Sesión de TensorFlow
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# Entrenamiento de la red (1000 minilotes de 100 ejemplos)
print("Entrenando la red neuronal...")
for i in range(1000):
    imgs, anss = mnist.train.next_batch(batchSz)
    sess.run(train, feed_dict={img: imgs, ans: anss})

# Estimación de la precisión de la red sobre el conjunto de prueba [test]
sumAcc=0
for i in range(100):
    imgs, anss= mnist.test.next_batch(batchSz)
    sumAcc+=sess.run(accuracy, feed_dict={img: imgs, ans: anss})
print("Precisión sobre el conjunto de prueba: {0:.2f}%".format(sumAcc))

sess.close()

Entrenando la red neuronal...
Precisión sobre el conjunto de prueba: 96.39%


Con sólo una capa de neuronas ocultas, la precisión de nuestra red neuronal se acerca ya al 97% :-)

NOTA: Si eliminamos el componente no lineal que hemos introducido en la capa oculta de la red (la función de activación `relu`), la precisión de nuestra red volvería al 92% del ejemplo anterior.

## Monitorización del entrenamiento de la red en TensorFlow

Mostrar la precisión de la red conforme avanza su entrenamiento es una buena práctica (p.ej. para comprobar si el algoritmo de optimización en que se basa el entrenamiento de la red converge o no). Para ello, sólo tenemos que introducir una pequeña modificación en el bucle de entrenamiento. Donde antes ponía

`sess.run(train, feed_dict={img: imgs, ans: anss})`

ahora pondremos

`acc,_ = sess.run([accuracy,train], feed_dict={img: imgs, ans: anss})`

Aquí tenemos el bucle modificado, con un `print` periódico adicional para mostrar la precisión de la red sobre el minilote de entrenamiento:

In [83]:
# Sesión de TensorFlow
sess = tf.Session()
sess.run(tf.global_variables_initializer())

# Entrenamiento de la red (1000 minilotes de 100 ejemplos)
print("Entrenando la red neuronal...")
for i in range(1000):
    imgs, anss = mnist.train.next_batch(batchSz)
    acc,_ = sess.run([accuracy,train], feed_dict={img: imgs, ans: anss})
    if i % 100 == 0:
        print("Precisión sobre el minilote de entrenamiento: {0:.2f}%".format(100*acc))

# Estimación de la precisión de la red sobre el conjunto de prueba [test]
sumAcc=0
for i in range(100):
    imgs, anss= mnist.test.next_batch(batchSz)
    sumAcc+=sess.run(accuracy, feed_dict={img: imgs, ans: anss})
print("Precisión sobre el conjunto de prueba: {0:.2f}%".format(sumAcc))

sess.close()

Entrenando la red neuronal...
Precisión sobre el minilote de entrenamiento: 9.00%
Precisión sobre el minilote de entrenamiento: 88.00%
Precisión sobre el minilote de entrenamiento: 93.00%
Precisión sobre el minilote de entrenamiento: 97.00%
Precisión sobre el minilote de entrenamiento: 97.00%
Precisión sobre el minilote de entrenamiento: 94.00%
Precisión sobre el minilote de entrenamiento: 94.00%
Precisión sobre el minilote de entrenamiento: 93.00%
Precisión sobre el minilote de entrenamiento: 89.00%
Precisión sobre el minilote de entrenamiento: 99.00%
Precisión sobre el conjunto de prueba: 96.40%


En la práctica, no obstante, estaremos más interesados en la evolución del error sobre un conjunto de validación independiente que nos ayude a determinar cuándo finalizar el entrenamiento de la red neuronal (usando una técnica conocida como **early stopping** o _parada temprana_).