# <center>Extremos de una función</center>

> Conocimientos necesarios:
- [Derivadas](https://github.com/mondeja/fullstack/blob/master/backend/src/001-matematicas/analisis/funciones/derivadas.ipynb)

Los **máximos** y **mínimos** de una función, conocidos colectivamente como extremos de una función, son los valores más grandes (máximos) o más pequeños (mínimos), que toma una función en un punto situado ya sea dentro de una región en particular de la curva (extremo local) o en el dominio de la función en su totalidad (extremo global o absoluto).

![Máximos y mínimos de una función](https://s20.postimg.org/njxqfh4i5/max_min_function.jpg)

## Cálculo del mínimo y el máximo

> Para una parábola ćoncava (abierta hacia arriba), calcular sus máximos es un problema, pues tenderán a infinito y viceversa para las convexas.

### Programáticamente
Podemos usar la función [`fmin()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.fmin.html) de Scipy para calcular el mínimo. Si queremos calcular el máximo simplemente lo calculamos para la inversa de la función.

In [1]:
# =======================    Mínimo    ==========================

import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import fmin  # Función para calcular el mínimo de una función

# Función
f = lambda x: x**2 + 10*x -50

# Rangos
x = np.linspace(-100, 101, 200)
y = f(x)  # Función f(x)

# Mínimos relativos
x0 = -10  # Empezando desde x=-10
xmin0 = fmin(f, x0)

x1 = 5  # Empezando desde x = 5
xmin1 = fmin(f, x1)
print(f(xmin1))

# --------------------------------------

# Instanciamos figura
fig, ax = plt.subplots(figsize=(16, 8))
plt.xlim(-40, 40)
plt.ylim(-200, 200)

# Pinta la gráfica
ax.plot(x, y)
# Pinta el mínimo encontrado empezando desde x0
ax.plot(xmin0, f(xmin0), 'ro')
# Pinta el mínimo encontrado empezando desde x1
ax.plot(x1, f(x1), 'ro')


# Líneas de ejes 0
ax.axhline(y=0, color='k')
ax.axvline(x=0, color='k')

plt.grid()
plt.show()

Optimization terminated successfully.
         Current function value: -75.000000
         Iterations: 19
         Function evaluations: 38
Optimization terminated successfully.
         Current function value: -75.000000
         Iterations: 22
         Function evaluations: 44
[-75.]


<matplotlib.figure.Figure at 0x7f13b1324eb8>

Como puedes observar, el método anterior opera resolviendo muchas veces la función para distintos valores de $x$ en su búsqueda del mínimo valor de $y$. Algo parecido sería la siguiente implementación:

In [68]:
def minimo(f, args=(), x_inicial=1, variacion=1):
    x = x_inicial
    y_inicial = f(x, *args)
    
    n_iteracion = 1
    
    while(math.fabs(variacion) > 0.00001):
        y_siguiente = f(x+variacion, *args)
        if (y_siguiente > y_inicial):  # Si no disminuye, cambia de dirección a un paso menor
            variacion *= -1
            variacion /= 10  # Podrían unirse y hacer la operación /= -10 
        else:
            y_inicial = y_siguiente  # Disminuye
            x += variacion
            print("x: %f\ty_inicial = %f" % (x, y_inicial))
        n_iteracion += 1
        
    print("Número de iteraciones necesarias: %d" % n_iteracion)
    return x

    
# Función
f = lambda x: x**2 + 10*x -50

# Lo calculamos con una variación 1
print(minimo(f))

print("\n======================================\n")

# Lo calculamos con una varación 10
print(minimo(f, variacion=10))  # Menos iteraciones necesarias y más preciso

x: 0.900000	y_inicial = -40.190000
x: 0.800000	y_inicial = -41.360000
x: 0.700000	y_inicial = -42.510000
x: 0.600000	y_inicial = -43.640000
x: 0.500000	y_inicial = -44.750000
x: 0.400000	y_inicial = -45.840000
x: 0.300000	y_inicial = -46.910000
x: 0.200000	y_inicial = -47.960000
x: 0.100000	y_inicial = -48.990000
x: 0.000000	y_inicial = -50.000000
x: -0.100000	y_inicial = -50.990000
x: -0.200000	y_inicial = -51.960000
x: -0.300000	y_inicial = -52.910000
x: -0.400000	y_inicial = -53.840000
x: -0.500000	y_inicial = -54.750000
x: -0.600000	y_inicial = -55.640000
x: -0.700000	y_inicial = -56.510000
x: -0.800000	y_inicial = -57.360000
x: -0.900000	y_inicial = -58.190000
x: -1.000000	y_inicial = -59.000000
x: -1.100000	y_inicial = -59.790000
x: -1.200000	y_inicial = -60.560000
x: -1.300000	y_inicial = -61.310000
x: -1.400000	y_inicial = -62.040000
x: -1.500000	y_inicial = -62.750000
x: -1.600000	y_inicial = -63.440000
x: -1.700000	y_inicial = -64.110000
x: -1.800000	y_inicial = -64.760000
x:

Esta implementación sólo calcula mínimos locales y está bastante limitada ya que debemos controlar la variación en $x$ de antemano.

Si tenemos funciones simples (con una incógnita) podemos optar por resolverlas con los pasos a mano usando Sympy o con una implementación controlada en C porque será más eficiente. 

### A mano
Para hallar los máximos o mínimos de una función $f(x) = x^2 + 10x -50$:

1. La derivamos: $f'(x) = 2x + 10$
2. La igualamos a 0 y resolvemos $x$: $$0 = 2x + 10$$ $$-2x = 10$$ $$-x = \frac{10}{2}$$ $$x = -5$$
3. Ahora tenemos el valor de $x$ con el que obtenemos el mínimo de $y$ en la función: $$f(-5) = (-5)^2 + 10 \cdot -5 - 50 = -75$$

> En este caso obtenemos el mínimo, pero si hubiéramos tenido la ecuación $f(x) = -x^2 + 10x -50$ hubiéramos obtenido el máximo ya que la parábola hubiera sido convexa.

___________________________________________________

## Descenso por gradiente
La implementación de búsqueda de mínimos anterior en Python mostraba como encontrar el mínimo de una función modificando el valor de $x$ ya sea yendo hacia la izquierda (disminuyendo) o hacia la derecha (aumentando).

Podemos usar la pendiente de la tangente en el punto inicial de $(x, y)$ de la función para saber si tenemos que disminuir o aumentar. Si la pendiente es positiva tendremos que disminuir y viceversa, como se muestra en la siguiente imagen:

![Pendientes descenso gradiente](https://s20.postimg.org/f9dt0fwjx/pendientes_descenso_gradiente.png)

Entonces tendríamos la expresión: $$x_{nuevo} = x_{anterior} + −y′$$

Observa que la nueva $x$ sería la anterior más la inversa de la derivada de $y$ debido a que si la pendiente es positiva disminuimos y si es negativa aumentamos: siempre vamos en contra del valor de la pendiente, por eso la inversión.

_____________________________________________

Veamos un ejemplo:

$$y = 5x^2 − 7x − 13$$
$$y' = 10x - 7$$

Como $x$ inicia en 1, luego: $$x_{nuevo} = 1 - (10x - 7)$$
                             $$x_{nuevo} = 2$$
                             
Si calculamos los 20 primeros valores de X para la tabla:

In [98]:
from scipy.misc import derivative

# Dada la función
f = lambda x: 5*x**2 - 7*x - 13

x_anterior = 1

for _ in range(10):
    x = x_anterior
    y = f(x)
    print("\t\tx = %17f \t\ty = %25f " % (x_anterior, y))
    x_anterior = x_anterior - derivative(f, x_anterior)

		x =          1.000000 		y =                -15.000000 
		x =         -2.000000 		y =                 21.000000 
		x =         25.000000 		y =               2937.000000 
		x =       -218.000000 		y =             239133.000000 
		x =       1969.000000 		y =           19371009.000000 
		x =     -17714.000000 		y =         1569052965.000000 
		x =     159433.000000 		y =       127093291401.000000 
		x =   -1434890.000000 		y =     10294556604717.000000 
		x =   12914017.000000 		y =    833859084983313.000000 
		x = -116226146.000000 		y =  67542585883649584.000000 


El valor de X se dispara, se vuelve progresivamente extremo hacía la izquierda o derecha. Sucede algo parecido a la siguiente animación: 

![Descenso por gradiente divergente](https://s20.postimg.org/jg7u7entp/diverging_gradient_descent.gif)


Para arreglarlo, se agrega una constante a la expresión, quedando así:
$$x_{nuevo} = x_{anterior} + \alpha \cdot −y′$$
donde $\alpha$ es una constante muy pequeña. Con esto nos aseguramos que los números no se disparan. 

> La constante debe ser lo suficientemente pequeña para que no suceda el comportamiento de la animación anterior, en la cual la constante es 0.05, pero no lo suficiente para la escala de la curva en la gráfica.

In [105]:
alpha = 0.05

x_anterior = 1

for _ in range(25):
    x = x_anterior
    y = f(x)
    print("\t\t\tx = %f\t\ty = %f " % (x, y))
    # Redondeamos porque el método de scipy no es completamente fino
    x_anterior = x_anterior - alpha * derivative(f, x_anterior)

			x = 1.000000		y = -15.000000 
			x = 0.850000		y = -15.337500 
			x = 0.775000		y = -15.421875 
			x = 0.737500		y = -15.442969 
			x = 0.718750		y = -15.448242 
			x = 0.709375		y = -15.449561 
			x = 0.704688		y = -15.449890 
			x = 0.702344		y = -15.449973 
			x = 0.701172		y = -15.449993 
			x = 0.700586		y = -15.449998 
			x = 0.700293		y = -15.450000 
			x = 0.700146		y = -15.450000 
			x = 0.700073		y = -15.450000 
			x = 0.700037		y = -15.450000 
			x = 0.700018		y = -15.450000 
			x = 0.700009		y = -15.450000 
			x = 0.700005		y = -15.450000 
			x = 0.700002		y = -15.450000 
			x = 0.700001		y = -15.450000 
			x = 0.700001		y = -15.450000 
			x = 0.700000		y = -15.450000 
			x = 0.700000		y = -15.450000 
			x = 0.700000		y = -15.450000 
			x = 0.700000		y = -15.450000 
			x = 0.700000		y = -15.450000 


Este método se le conoce como el descenso del gradiente y se expresa así:
$$x_{nuevo} = x_{anterior} − \alpha \cdot f′(x_{anterior})$$

#### Formalmente:
$$x_{n+1} = x_n − \alpha \cdot f′(x_n)$$

#### Representación gráfica:

![Descenso por gradiente](https://s20.postimg.org/6miz5cu8t/descent_gradient_animation.gif)

> Fuentes:
- [Redes neuronales parte 1 - Rafael Alberto Moreno Parra](https://openlibra.com/es/book/redes-neuronales-parte-1)
- https://glowingpython.blogspot.com.es/2011/04/how-to-find-minimum-of-function-using.html
- https://www.cs.toronto.edu/~frossard/post/linear_regression/

