# Minimización de una función con TensorFlow

Este cuaderno pretende ilustrar las capacidades de **diferenciación automática** de TensorFlow, que son las que han permitido expresar modelos complejos de redes neuronales profundas con relativamente pocas líneas de código.

In [19]:
import tensorflow as tf
import numpy as np

tf.__version__

'1.15.0'

## Función *banana* de Rosenbrock

La función banana se utiliza como *benchmark* en algoritmos de optimización numérica, por la forma tan peculiar de sus curvas de nivel. En este ejemplo, vamos a ilustrar cómo podemos utilizar el algoritmo de optimización denominado Adam para optimizar la función: 
$$ f(x,y) = (1-x)^2 + 100(y-x^2)^2 $$ 

![Banana function](https://upload.wikimedia.org/wikipedia/commons/thumb/3/32/Rosenbrock_function.svg/600px-Rosenbrock_function.svg.png)

Ahora vamos a definir la en TensorFlow, quien se encargará de construir el gráfico de computación y nos permitirá obtener sus gradientes a través de **diferenciación automática**. 

In [47]:
tf.reset_default_graph()
# Creamos las variables de la función
x = tf.Variable(tf.random.normal(shape = (1,), seed = 212))
y = tf.Variable(tf.random.normal(shape = (1,), seed = 213))
x, y

(<tf.Variable 'Variable:0' shape=(1,) dtype=float32_ref>,
 <tf.Variable 'Variable_1:0' shape=(1,) dtype=float32_ref>)

In [48]:
# Definición de la función
f = (1-x)**2 + 100*(y-x**2)**2
f

<tf.Tensor 'add:0' shape=(1,) dtype=float32>

In [50]:
# Evaluamos la función en su mínimo global
with tf.Session() as sess:
    minimo_global = sess.run(f, feed_dict={x:(1,), y:(1,)})

print('El mínimo global es %0.2f' % minimo_global)

El mínimo global es 0.00


## Optimización con gradiente en descenso (*gradient descent*)

En este enlace podemos conocer un poco mejor por qué se utiliza esta técnica de optimización en problemas de aprendizaje automático: [Descenso por gradiente (Gradient descent)](https://turing.iimas.unam.mx/~ivanvladimir/posts/gradient_descent/)

Ahora vamos a crear un "nodo optimizador" que implemente el algoritmo Adam. En TensorFlow, utilizar crear y configurar el optimizador es **una** línea de código.

In [37]:
optimizer = tf.train.AdamOptimizer(learning_rate=0.05).minimize(f)
optimizer

<tf.Operation 'Adam_3' type=NoOp>

In [38]:
init = tf.global_variables_initializer()

with tf.Session() as sess:
    # Inicializar las variables
    sess.run(init)
    
    # Ejecutar un paso del optimizador en cada iteración
    for i in range(2500):
        _, f_value = sess.run([optimizer, f])
        # Obtener los valores de las variables
        x_value, y_value = sess.run([x, y])
        if i % 100 == 0:
            print("%i\t(%0.2f, %0.2f):\t%0.4f" % (i, x_value, y_value, f_value))

0	(0.64, -0.40):	84.3156
100	(0.15, 0.02):	0.7284
200	(0.34, 0.12):	0.4322
300	(0.49, 0.24):	0.2571
400	(0.61, 0.36):	0.1570
500	(0.69, 0.47):	0.0974
600	(0.75, 0.57):	0.0607
700	(0.81, 0.65):	0.0377
800	(0.85, 0.72):	0.0233
900	(0.88, 0.78):	0.0142
1000	(0.91, 0.82):	0.0085
1100	(0.93, 0.86):	0.0050
1200	(0.95, 0.90):	0.0028
1300	(0.96, 0.92):	0.0016
1400	(0.97, 0.94):	0.0008
1500	(0.98, 0.96):	0.0004
1600	(0.99, 0.97):	0.0002
1700	(0.99, 0.98):	0.0001
1800	(0.99, 0.99):	0.0000
1900	(1.00, 0.99):	0.0000
2000	(1.00, 0.99):	0.0000
2100	(1.00, 1.00):	0.0000
2200	(1.00, 1.00):	0.0000
2300	(1.00, 1.00):	0.0000
2400	(1.00, 1.00):	0.0000


Ahora obtenemos los resultados del proceso de optimización, almacenados en `x_value` y `y_value`:

In [51]:
x_value

array([0.99977016], dtype=float32)

In [52]:
y_value

array([0.9995397], dtype=float32)