<div align="center">
    <span style="font-size:30px">
        <strong>
            <!-- Símbolo de Python -->
            <img
                src="https://cdn3.emoji.gg/emojis/1887_python.png"
                style="margin-bottom:-5px"
                width="30px" 
                height="30px"
            >
            <!-- Título -->
            Python para Geólogos
            <!-- Versión -->
            <img 
                src="https://img.shields.io/github/release/kevinalexandr19/manual-python-geologia.svg?style=flat&label=&color=blue"
                style="margin-bottom:-2px" 
                width="40px"
            >
        </strong>
    </span>
    <br>
    <span>
        <!-- Github del proyecto -->
        <a href="https://github.com/kevinalexandr19/manual-python-geologia" target="_blank">
            <img src="https://img.shields.io/github/stars/kevinalexandr19/manual-python-geologia.svg?style=social&label=Github Repo">
        </a>
        &nbsp;&nbsp;
        <!-- Licencia -->
        <img src="https://img.shields.io/github/license/kevinalexandr19/manual-python-geologia.svg?color=forestgreen">
        &nbsp;&nbsp;
        <!-- Release date -->
        <img src="https://img.shields.io/github/release-date/kevinalexandr19/manual-python-geologia?color=gold">
    </span>
    <br>
    <span>
        <!-- Perfil de LinkedIn -->
        <a target="_blank" href="https://www.linkedin.com/in/kevin-alexander-gomez/">
            <img src="https://img.shields.io/badge/-Kevin Alexander Gomez-5eba00?style=social&logo=linkedin">
        </a>
        &nbsp;&nbsp;
        <!-- Perfil de Github -->
        <a target="_blank" href="https://github.com/kevinalexandr19">
            <img src="https://img.shields.io/github/followers/kevinalexandr19.svg?style=social&label=kevinalexandr19&maxAge=2592000">
        </a>
    </span>
    <br>
</div>

***

<span style="color:lightgreen; font-size:25px">**PG200 - Fundamentos de Machine Learning**</span>

Bienvenido al curso!!!

Vamos a revisar las bases del <span style="color:gold">aprendizaje automático</span> y su aplicación en Geología. <br>
Es necesario que tengas un conocimiento previo en programación con Python, álgebra lineal, estadística y geología.


<span style="color:gold; font-size:20px">**Descenso del Gradiente** </span>
***

1. [¿En qué consiste el Descenso del Gradiente?](#parte-1)
2. [Ejemplos de optimización](#parte-2)
3. [Optimización de parámetros en modelos lineales](#parte-3)
4. [En conclusión...](#parte-4)

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**¿En qué consiste el Descenso del Gradiente?**</span>
***

El descenso del gradiente (Gradient Descent) es un algoritmo de optimización fundamentalmente utilizado en Machine Learning para minimizar una función de coste. Su objetivo es <span style="color:#43c6ac">encontrar los valores de los parámetros del modelo que minimicen esta función</span>, lo cual se traduce en mejorar la precisión y el rendimiento del modelo.

> El descenso del gradiente se basa en la idea de ajustar iterativamente los parámetros del modelo en la dirección opuesta al gradiente de la función de coste con respecto a esos parámetros. El gradiente indica la dirección de la pendiente más pronunciada de la función de coste, y al moverse en la dirección opuesta, el algoritmo busca el mínimo de la función.

Los pasos para ejecutar el algoritmo de Descenso del Gradiente son:

1. <span style="color:#43c6ac">Inicialización</span>: los parámetros del modelo se inicializan, generalmente con valores aleatorios.

2. <span style="color:#43c6ac">Cálculo del gradiente</span>: para cada iteración, se calcula el gradiente de la función de coste con respecto a los parámetros del modelo. Este gradiente se basa en la derivada parcial de la función de coste.

3. <span style="color:#43c6ac">Actualización de parámetros</span>: los parámetros del modelo se actualizan restando el producto del gradiente y una tasa de aprendizaje ($\alpha$):
    <br>
    <center>
        $ \Large \theta = \theta - \alpha \cdot \nabla J(\theta) $
    </center>
    
    > Donde:
    > - $\theta$ son los parámetros del modelo.
    > - $\alpha$ es la tasa de aprendizaje, un hiperparámetro que determina el tamaño del paso de ajuste.
    > - $\nabla J(\theta)$ es el gradiente de la función de coste $J(\theta)$. 

4. <span style="color:#43c6ac">Repetición</span>: los pasos 2 y 3 se repiten hasta que el algoritmo converge, es decir, hasta que las actualizaciones de los parámetros son lo suficientemente pequeñas o se alcanza un número máximo de iteraciones.

Existen diferentes versiones del algoritmo, entre las más populares están:

- <span style="color:lightgreen">Batch Gradient Descent:</span> <br>
  Utiliza todo el conjunto de datos para calcular el gradiente. Es preciso pero puede ser muy lento y computacionalmente costoso para grandes       conjuntos de datos.

- <span style="color:lightgreen">Stochastic Gradient Descent (SGD):</span> <br>
  Actualiza los parámetros para cada ejemplo de entrenamiento individual. Es mucho más rápido y puede converger más rápidamente, pero puede ser menos preciso debido a la alta varianza en las actualizaciones.

- <span style="color:lightgreen">Mini-batch Gradient Descent:</span> <br>
  Combina los enfoques anteriores, usando pequeños lotes de datos (mini-batches) para calcular el gradiente en cada iteración. Ofrece un buen balance entre velocidad y precisión.

- <span style="color:lightgreen">Adam (Adaptive Moment Estimation):</span> <br>
  Mejora significativamente el algoritmo de Descenso de Gradiente con medias móviles de primer y segundo orden de los gradientes y correcciones de sesgo. Estas mejoras permiten tener tasas de aprendizaje adaptativas y una convergencia más rápida y estable, especialmente en el entrenamiento de modelos complejos como las redes neuronales profundas.

***

<a id="parte-1"></a>

### <span style="color:lightgreen">**Ejemplos de optimización** </span>
***

<span style="color:gold">**Función cuadrática** </span>

Vamos a implementar el algoritmo de Descenso del Gradiente para la función $\space y=x^{2}$:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import ipywidgets as widgets

Usaremos una visualización interactiva para controlar el proceso:

> El parámetro `iteration` controla qué iteración del proceso queremos ver. <br>
> El parámetro `learning_rate` controla la tase de aprendizaje del algoritmo.

In [None]:
# Función que ilustra el proceso de Gradient Descent
def gradient_descent_plot(iteration=0, learning_rate=0.01):
    # Posición inicial de la gradiente
    current_pos = (90, y_function(90))

    # Cálculo del gradiente final (Descenso del Gradiente)
    if iteration:
        for _ in range(iteration):
            new_x = current_pos[0] - (learning_rate * y_derivative(current_pos[0]))
            new_y = y_function(new_x)
            current_pos = (new_x, new_y)        
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(5, 5))
    
    # Figura de líneas
    ax.plot(x, y)
    ax.scatter(current_pos[0], current_pos[1], color="red")

    # Grilla
    ax.grid(lw=0.5, alpha=0.5, c="k", ls="--")
    ax.set_axisbelow(True)

    # Texto
    ax.set_title("Gradient Descent")
    ax.set_xlabel("$x$")
    ax.set_ylabel("$x^{2}$")
    
    # Mostrar el gradiente y el learning rate
    print("-------------------------------------")
    print(f"X: {current_pos[0]:.2f}, Y: {current_pos[1]:.2f}")
    print(f"Tasa de aprendizaje: {learning_rate}")
    print(f"Gradiente: {y_derivative(current_pos[0]):.8f}")
    
    # Mostrar la figura
    plt.show()

widgets.interact(gradient_descent_plot, iteration=(0, 1000, 1),
                 learning_rate=[10**i for i in range(-5, 1, 1)]);

Podemos observar que, al utilizar tasas de aprendizaje muy bajas, el algoritmo desciende muy lentamente, incluso después de muchas iteraciones. En contraste, <span style="color:#43c6ac">con tasas de aprendizaje altas, el algoritmo puede converger más rápidamente al óptimo local de la función de coste</span>. 

Sin embargo, es importante tener en cuenta que <span style="color:#43c6ac">una tasa de aprendizaje excesivamente alta puede impedir que el algoritmo converja al óptimo local</span>, ya que descenderá demasiado rápido y se desplazará a lugares aleatorios en la superficie de la función de coste.

***
<span style="color:gold">**Función trigonométrica** </span>

También vamos a probar el algoritmo de Descenso del Gradiente en la función $\space y=sen(x)$:

In [None]:
# Función a optimizar (función de coste)
def y_function(x):
    return np.sin(x)

# Derivada de la función (gradiente)
def y_derivative(x):
    return np.cos(x)

# Espacio lineal de x
x = np.arange(0, 10, 0.1)

# Espacio lineal de y
y = y_function(x)

In [None]:
def gradient_descent_plot(iteration=0, learning_rate=0.01):
    # Posición inicial de la gradiente
    current_pos = (3, y_function(3))

    # Cálculo del gradiente final (Descenso del Gradiente)
    for _ in range(iteration):
        new_x = current_pos[0] - (learning_rate * y_derivative(current_pos[0]))
        new_y = y_function(new_x)
        current_pos = (new_x, new_y)
    
    # Figura principal
    fig, ax = plt.subplots(figsize=(5, 5))
    
    # Figura de líneas
    ax.plot(x, y)
    ax.scatter(current_pos[0], current_pos[1], color="red")

    # Grilla
    ax.grid(lw=0.5, alpha=0.5, c="k", ls="--")
    ax.set_axisbelow(True)
    
    # Mostrar el gradiente y el learning rate
    print("-------------------------------------")
    print(f"X: {current_pos[0]:.2f}, Y: {current_pos[1]:.2f}")
    print(f"Tasa de aprendizaje: {learning_rate}")
    print(f"Gradiente: {y_derivative(current_pos[0]):.8f}")

    # Texto
    ax.set_title("Gradient Descent")
    ax.set_xlabel("$x$")
    ax.set_ylabel("$sen(x)$")
    
    # Mostrar la figura
    plt.show()

widgets.interact(gradient_descent_plot, iteration=(0, 1000, 1), learning_rate=[10**i for i in range(-4, 2, 1)]);

Al aplicar el descenso del gradiente a una función trigonométrica, obtenemos resultados consistentes con los observados en la función cuadrática: las tasas de aprendizaje bajas resultaron en una convergencia lenta, mientras que las tasas altas permitieron una convergencia rápida, aunque con el riesgo de no alcanzar el óptimo debido a saltos aleatorios en la superficie de la función de coste.

***

<a id="parte-3"></a>

### <span style="color:lightgreen">**Optimización de parámetros en modelos lineales** </span>
***

Exploraremos cómo se puede utilizar el algoritmo de Descenso del Gradiente para optimizar los parámetros $w$ y $b$ de un modelo lineal de la forma $\space y = wx + b$. 

Este proceso es fundamental para ajustar el modelo de modo que se minimice la función de coste, permitiendo así que las predicciones sean lo más precisas posible. A través de iteraciones sucesivas, ajustaremos estos parámetros para encontrar los valores óptimos que mejor se adapten a los datos de entrenamiento, demostrando la eficacia del descenso del gradiente en la optimización de modelos lineales.

El objetivo es encontrar la relación lineal entre una variable independiente $x$ y una variable dependiente $y$. Un modelo lineal simple se define como:

<center>
    $ \Large y(x) = wx + b $
</center>

> Donde:
> - $w$ es el coeficiente que representa la pendiente de la recta
> - $b$ es la intersección con el eje Y

Para ajustar el modelo a los datos, <span style="color:#43c6ac">necesitamos minimizar la función de pérdida (loss)</span>, que en este caso es el error cuadrático medio (MSE). La función de pérdida se define como:

<center>
    $ \Large \text{loss} = \frac{1}{N} \sum_{i=1}^{N} (y_i - y(x_i))^2 $
</center>

> Donde 
> - $N$ es el número de muestras
> - $y_i$  es el valor real de la variable dependiente
> - $y(x_i)$ es el valor predicho por el modelo para la muestra $i$

Para minimizar esta función de pérdida, utilizamos el algoritmo de Descenso del Gradiente. Calculamos los gradientes de la función de pérdida con respecto a los parámetros $w$ y $b$, y actualizamos estos parámetros iterativamente en la dirección opuesta al gradiente. Las actualizaciones de los parámetros se realizan según las siguientes fórmulas:

<center>
    $ \Large w = w - \alpha \frac{\partial \text{loss}}{\partial w} $
</center>

<br>

<center>
    $ \Large b = b - \alpha \frac{\partial \text{loss}}{\partial b} $
</center>

> Donde:
> - $\alpha\,$ es la <span style="color:gold">tasa de aprendizaje</span>, un hiperparámetro que controla el tamaño del paso de actualización.

Este proceso <span style="color:#43c6ac">se repite hasta que la función de pérdida se minimiza y el modelo se ajusta adecuadamente a los datos </span>.

Empezaremos definiendo los datos de entrada `x` e `y`, así como los parámetros  `w` y `b`, que inicialmente pueden tomar cualquier valor.

> Generaremos datos sintéticos correspondientes a una función $\space y = 2x + c$.

In [None]:
# Datos de entrada
x = np.random.randn(25)
y = (2 * x) + np.random.rand() # Función y = 2x + c

In [None]:
plt.scatter(x, y)

Implementaremos una función `descend` que utiliza el algoritmo de descenso del gradiente para optimizar los parámetros $w$ y $b$ de un modelo lineal. Esta función recibe como entrada los datos `x` e `y`, los parámetros iniciales `w` y `b`, y la tasa de aprendizaje. 

Dentro de la función, se calculan las derivadas parciales de la función de pérdida con respecto a $w$ y $b$ a través de un bucle que recorre los datos de entrada. Luego, se actualizan los valores de estos parámetros restando el producto de la tasa de aprendizaje y el promedio de las derivadas parciales. La función devuelve dichos parámetros optimizados.

In [None]:
# Algoritmo de Descenso del Gradiente
def descend(x, y, w, b, learning_rate):
    dldw = 0.0
    dldb = 0.0
    N = x.shape[0]

    # Actualizar las derivadas de la función de pérdida con respecto a w y b
    for xi, yi in zip(x, y):
        dldw += -2 * (xi * (yi - ((w * xi) + b)))
        dldb += -2 * (yi - ((w * xi) + b))

    # Actualizar los valores de w y b
    w -= learning_rate * (1 / N) * dldw
    b -= learning_rate * (1 / N) * dldb

    return w, b

Ahora, vamos a graficar los puntos usando una visualización interactiva:

In [None]:
def linear_model_plot(iteration=0, learning_rate=0.01):
    # Parámetros iniciales
    w, b = 0., 0.
    loss = np.sum(y ** 2, axis=0) / x.shape[0]
   
    # Realizar ajustes de manera iterativa
    for epoch in range(iteration):
        epoch += 1
        w, b = descend(x, y, w, b, learning_rate) # Actualizar w y b
        yhat = w * x + b
        loss = np.sum((y - yhat) ** 2, axis=0) / x.shape[0]
        
    # Figura principal
    fig, ax = plt.subplots(figsize=(5, 5))

    # Espacio lineal para la predicción de Y
    _x = np.arange(x.min(), x.max(), 0.1)
    _y = (w * _x) + b
    
    # Diagrama de dispersión
    ax.plot(_x, _y, c="red")
    ax.scatter(x, y, c="blue", s=10)
    
    # Texto
    ax.set_title(f"Modelo lineal\nw: {w:.4f},  b: {b:.4f},  loss: {loss:.4f}")
    ax.set_xlabel("X")
    ax.set_ylabel("Y")

    # Grilla
    ax.grid(lw=0.5, alpha=0.5, c="k", ls="--")
    ax.set_axisbelow(True)
    
    # Mostrar la figura
    plt.show()

widgets.interact(linear_model_plot, iteration=(0, 500, 1), learning_rate=[0.001, 0.01, 0.1]);

Este gráfico ilustra de manera eficiente cómo el algoritmo de Descenso del Gradiente ajusta los parámetros `w` y `b` a lo largo de múltiples iteraciones. Inicialmente, los parámetros pueden no estar bien ajustados, pero <span style="color:#43c6ac">a medida que el algoritmo progresa, estos se actualizan continuamente en la dirección que minimiza la función de pérdida</span>. 

El resultado final es un modelo lineal que se ajusta de manera óptima a los datos de entrada, logrando predicciones precisas y reduciendo el error al mínimo posible. Este proceso visualiza la convergencia hacia los valores óptimos de `w` y `b`, demostrando la efectividad del Descenso del Gradiente en la optimización de modelos lineales.

***

<a id="parte-4"></a>

### <span style="color:lightgreen">**En conclusión...** </span>
***

El algoritmo de Descenso del Gradiente es una herramienta fundamental en el campo del aprendizaje automático y la optimización. Su capacidad para ajustar los parámetros del modelo de manera iterativa y eficiente lo convierte en una opción preferida para entrenar modelos lineales y no lineales. A través de la minimización de la función de pérdida, el algoritmo busca el mejor ajuste posible para los datos, mejorando continuamente la precisión de las predicciones a medida que se optimizan los parámetros. Su flexibilidad y simplicidad lo hacen aplicable a una amplia gama de problemas y tipos de datos.

<span style="color:#43c6ac">Una de las principales ventajas del descenso del gradiente es su adaptabilidad.</span> Existen múltiples variantes, como el descenso del gradiente estocástico (SGD) o el algoritmo Adam, que mejoran la velocidad de convergencia y la estabilidad del proceso de optimización. Estas variantes permiten a los practicantes ajustar y personalizar el algoritmo para que se adapte mejor a sus necesidades específicas y a las características del problema que están resolviendo. Además, la elección adecuada de la tasa de aprendizaje y la correcta implementación del algoritmo pueden marcar una gran diferencia en la eficiencia y el éxito del entrenamiento del modelo.

Sin embargo, el descenso del gradiente también presenta desafíos, como la posibilidad de quedar atrapado en mínimos locales o la necesidad de un ajuste cuidadoso de la tasa de aprendizaje para evitar problemas de convergencia. A pesar de estos desafíos, su implementación y comprensión son esenciales para cualquier profesional en el campo del aprendizaje automático y la inteligencia artificial.

***