# üßÆ Laboratorio M√©todo del Gradiente

[![Open in Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/boiro9/OptimizacionIA/main?filepath=Laboratorio_MetodoGradiente.ipynb)

En esta pr√°ctica vamos a implementar en Python el m√©todo del **gradiente** y m√©todo del **gradiente estoc√°stico**. Lo aplicaremos a distintos problemas analizando su comportamiento en funci√≥n de distintos par√°metros que definen el algoritmo, principalmente analizando el efecto del **tama√±o del paso**. Adem√°s, lo adaptaremos para resolver un ajuste de **regresi√≥n lineal**.


# üöÄ  Instalaci√≥n de paquetes:

Los requerimientos para poder ejecutar este jupyter son los siguientes:

In [1]:
# Instalar numpy, plotly, pandas y sklearn
!pip install numpy plotly pandas scikit-learn

# 1. M√©todo del gradiente

Supongamos que queremos aplicar el **m√©todo del gradiente** para minimizar la siguiente funci√≥n:
$$
\min_{x}f(x)=x^{2}
$$

Implementemos el m√©todo del gradiente para este caso:

- **Inicializaci√≥n.** Elegir $\varepsilon >0$. Elegir un punto inicial $\pmb{x}^1$. Definir $t=1$.
- **Paso 1.**  
    -  Si $||\nabla f(\pmb{x}^t)||<\varepsilon$, **stop**. Devolvemos $\pmb{x}^t$.
    -  En otro caso, definir $\pmb{d}^t=-\nabla f(\pmb{x}^t)$ y tama√±o del paso $\lambda^t$:
		$$\pmb{x}^{t+1}=\pmb{x}^t+\lambda^t\pmb{d}^t$$
		Reemplazar $t$ por $t+1$. Repetir el **Paso 1**.b

Notemos que, para este ejemplo concreto tenemos que:
- $x\in \mathbb{R}$
- $\nabla f(x) = 2x$

In [2]:
import numpy as np

def metodo_gradiente(xini,paso,n_iter=50,eps=1e-06):

    xiter = [xini]
    xold = xini
    for it in range(n_iter):
        gradf = 2*xold
        if np.abs(gradf)<= eps:
            print('Convergencia alcanzada en iter: ',it)
            break
        d = -gradf
        xnew = xold + paso*d
        xiter.append(xnew)
        xold = xnew

    if it == n_iter - 1:
        print(f'Advertencia: Se alcanz√≥ el n√∫mero m√°ximo de iteraciones ({n_iter}) sin convergencia.')
    
    return xiter

Aplicamos el m√©todo del gradiente considerando como punto inicial $x^{1}=10$ y los siguientes valores de tama√±o del paso:   

- $\lambda=0.005$
- $\lambda=0.2$
- $\lambda=0.8$. 

In [3]:
xsol1 = metodo_gradiente(xini=10,paso=0.005,n_iter=50,eps=1e-06)

Advertencia: Se alcanz√≥ el n√∫mero m√°ximo de iteraciones (50) sin convergencia.


In [4]:
xsol2 = metodo_gradiente(xini=10,paso=0.2,n_iter=50,eps=1e-06)

Convergencia alcanzada en iter:  33


In [5]:
xsol3 = metodo_gradiente(xini=10,paso=0.8,n_iter=50,eps=1e-06)

Convergencia alcanzada en iter:  33


Representamos los resultados usando **plotly**:

In [6]:
import plotly.graph_objects as go
import plotly.io as pio
pio.renderers.default = 'iframe_connected'

x = np.linspace(-10,10,100)

# Create traces
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=x**2,
                        mode='lines',
                        name=r'f(x)=$x^2$',
                        line=dict(color="yellow")))

fig.add_trace(go.Scatter(x=xsol1, y=[x**2 for x in xsol1],
                        mode='lines+markers',
                        marker=dict(symbol="arrow-up",angleref="previous"),
                        name=r'$\lambda=0.005$'))

fig.add_trace(go.Scatter(x=xsol2, y=[x**2 for x in xsol2],
                        mode='lines+markers',
                        marker=dict(symbol="arrow-up",angleref="previous"),
                        name=r'$\lambda=0.2$'))

fig.add_trace(go.Scatter(x=xsol3, y=[x**2 for x in xsol3],
                        mode='lines+markers',
                        marker=dict(symbol="arrow-up",angleref="previous"),
                        name=r'$\lambda=0.8$'))

fig.show()

## **Ejercicios**: 
- **Ejercicio 1**: prueba a ejecutar la funci√≥n con otros valores de $\lambda$ (argumento `paso` de la funci√≥n) y ver c√≥mo var√≠a el comportamiento represent√°ndolo gr√°ficamente. Trata de encontrar un valor del paso que converja antes  a la soluci√≥n.

- **Ejercicio 2**: Aplica el m√©todo del gradiente a la siguiente funci√≥n:

$$
\min_{x_1, x_2}f(x)=(3-x_1)^{2} + 7(x_2-x_1^{2})^{2}
$$

Ejecuta el algoritmo considerando: $(x_1^{0},x_2^{0})=(10,1)$, $\lambda^{t}=0.08$, $\epsilon=10^{-6}$ y n√∫mero m√°ximo de iteraciones 1000. Representa la evoluci√≥n del algoritmo y analiza lo que sucede.

- **Ejercicio 3**: ¬øC√≥mo var√≠an los resultados si calculamos $\lambda$ con line search?

# 2. Aplicaci√≥n del M√©todo del Gradiente a Regresi√≥n Lineal

Supongamos que tenemos un conjunto de datos de entrenamiento: $(\pmb{x}^1,y_{1}),\ldots,(\pmb{x}^n,y_{n})$, donde $\pmb{x}^i\in \mathbb{R}^{m}$ e $y_{i}\in \mathbb{R}$, $i=1,\ldots,n$

Entonces, se quiere llevar a cabo un ajuste linear de la forma:
$$
Y = \pmb{w}^{T} \pmb{x}+b
$$

La idea es tratar de encontrar los par√°metros $\pmb{w}$ y $b$ √≥ptimos que minimicen el siguiente error:
$$
E(\pmb{w},b)=\frac{1}{n}\sum_{i=1}^{n}\frac{1}{2}(y_{i}-f(\pmb{x}^i))^{2}
$$

Las derivadas con respecto a cada par√°metro quedar√≠an:
$$
\frac{\partial E(\pmb{w},b)}{\partial \pmb{w_j}}=\frac{1}{n}\sum_{i=1}^{n}(f(\pmb{x}^i)-y_{i})x^{i}_{j}, \, j=1,\ldots,m 
$$
$$
\frac{\partial E(\pmb{w},b)}{\partial b}=\frac{1}{n}\sum_{i=1}^{n}(f(\pmb{x}^i)-y_{i}), \, j=1,\ldots,m 
$$

Por lo tanto, en cada actualizaci√≥n del m√©todo del gradiente tendr√≠amos:
$$
\pmb{w_j}^{t+1} =  \pmb{w_j}^{t}-\lambda^{t} \frac{1}{n}\sum_{i=1}^{n}(f(\pmb{x}^i)-y_{i})x^{i}_{j}, \, j=1,\ldots,m
$$
$$
b^{t+1} =  b^{t}-\lambda^{t} \frac{1}{n}\sum_{i=1}^{n}(f(\pmb{x}^i)-y_{i})x^{i}_{j}
$$

Supongamos que tenemos el siguiente conjunto de datos

In [7]:
# Making the imports
import numpy as np
import pandas as pd
import plotly.graph_objects as go
import plotly.io as pio
pio.renderers.default = 'iframe_connected'

# Leemos los datos:
data = pd.read_csv('gd_data.csv', header=None)
X = data.iloc[:, 0]
Y = data.iloc[:, 1]

# Representamos un diagrama de dispersi√≥n:
fig = go.Figure()
fig.add_trace(go.Scatter(x=X, y=Y,
                        mode='markers',
                        name='Points',
                        line=dict(color="blue")))
fig.show()

Implementamos el m√©todo del gradiente para este caso espec√≠fico de **regresi√≥n lineal**

In [8]:
def metodo_gradiente_regresion(X,Y,w0,b0,paso,n_iter=50,eps=1e-06):
    """
    Calcula los par√°metros (w, b) de una regresi√≥n lineal simple 
    (y = wx + b) usando el m√©todo de descenso de gradiente.
    """
    # Aseguramos que X e Y sean arrays de NumPy para operaciones vectorizadas
    X = np.array(X)
    Y = np.array(Y)
    
    n = len(X)
    w = w0
    b = b0
    for i in range(n_iter):
        Ypred = w*X + b                # El valor predicho por el modelo actual
        error = Ypred - Y              # Error residual 
        gradw = (2/n)*np.sum(error*X)  # Gradiente con respecto w
        gradb = (2/n)*np.sum(error)    # Gradiente con respecto a b
        if (np.abs(gradw))<= eps and (np.abs(gradb)<=eps):
            print('Convergencia alcanzada en iter: ',i)
            break
        # Actualizamos    
        w = w-paso*gradw
        b = b-paso*gradb

    if i == n_iter - 1:
        print(f'Advertencia: Se alcanz√≥ el n√∫mero m√°ximo de iteraciones ({n_iter}) sin convergencia.')
    
    return (w,b)

Llevamos a cabo el ajuste para los datos anteriores

In [9]:
(w,b)=metodo_gradiente_regresion(X,Y,w0=0,b0=0,paso=0.0001,n_iter=1000,eps=1e-06)
# Valores de los par√°metros obtenidos:
print(f"\nResultados finales m√©todo del Gradiente:")
print(f"w (pendiente) = {w:.4f}")
print(f"b (intercepto) = {b:.4f}")

Advertencia: Se alcanz√≥ el n√∫mero m√°ximo de iteraciones (1000) sin convergencia.

Resultados finales m√©todo del Gradiente:
w (pendiente) = 1.4777
b (intercepto) = 0.0889


In [10]:
# Hacemos las predicciones:
Y_pred = w*X + b

In [11]:
# Puntos para representar la recta ajustada:
xplot = np.array([np.min(X),np.max(X)])
yplot = w*xplot + b

# Representamos recta ajustada con GD
fig.add_trace(go.Scatter(x=xplot, y=yplot,
                        mode='lines',
                        name='GD',
                        line=dict(color="red")))
fig.show()

### Ajustamos la recta de regresi√≥n lineal de forma exacta (usando sklearn)

In [12]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
data = pd.read_csv('gd_data.csv', header=None)
X = data.iloc[:, 0].values.reshape(-1, 1) # values converts it into a numpy array
Y = data.iloc[:, 1].values.reshape(-1, 1) # -1 means that calculate the dimension of rows, but have 1 column
linear_regressor = LinearRegression()
sol = linear_regressor.fit(X, Y)
Y_pred = linear_regressor.predict(X)

In [13]:
# Valores de los par√°metros obtenidos con SKLEARN:
print(f"\nResultados finales m√©todo del Gradiente:")
print(f"w (pendiente) = {sol.coef_.item():.4f}")
print(f"b (intercepto) = {sol.intercept_.item():.4f}")


Resultados finales m√©todo del Gradiente:
w (pendiente) = 1.3224
b (intercepto) = 7.9910


In [14]:
# Representamos recta ajustada con GD
xplot = np.array([np.min(X),np.max(X)])
yplot = sol.intercept_[0] + sol.coef_[0]*xplot

fig.add_trace(go.Scatter(x=xplot, y=yplot,
                        mode='lines',
                        name='Exact',
                        line=dict(color="green")))
fig.show()

<div style="border:1px solid #f0ad4e; padding:10px; border-radius:5px; background-color:#fcf8e3;">
<strong>‚ö†Ô∏è Advertencia: Los resultados obtenidos no coinciden </strong>  <br> 
</div>
  
- Notemos que el m√©todo del gradiente no hab√≠a convergido.  
- ¬øC√≥mo podemos mejorar su comportamiento?
    - Utilizar un paso m√°s peque√±o o m√°s iteraciones.
    - **Normalizando los datos**

- **Ejercicio 4**: Calcula los par√°metros empleando el m√©todo del gradiente con los datos normalizados e incluye el resultado en el gr√°fico anterior. **Nota**: emplea un `paso=0.01`.


In [15]:
# Leemos los datos:
data = pd.read_csv('gd_data.csv', header=None)
X = data.iloc[:, 0]
Y = data.iloc[:, 1]

# Normalizaci√≥n de los datos
mean_X = np.mean(X)
std_X = np.std(X)

mean_Y = np.mean(Y)
std_Y = np.std(Y)

X_norm = (X - mean_X) / std_X
Y_norm = (Y - mean_Y) / std_Y


## 2.1 M√©todo de gradiente estoc√°stico

El **m√©todo del gradiente estoc√°stico**, en vez de tomar la suma sobre toda la poblaci√≥n, considera una submuestra **$S^{t}\subset \{1,\ldots,n\}$**. Luego:
$$
\pmb{w}^{t+1} = \pmb{w}^{t}-\lambda^{t}\dfrac{1}{|S^{t}|}\sum_{i\in S^{t}}\nabla Q_{i}(\pmb{w}^{t})
$$

### **Ejercicios**

- **Ejercicio 5**: Modifica la funci√≥n "metodo_gradiente_regresion" con los cambios necesarios para implementar el **m√©todo del gradiente estoc√°stico**. NOTA: ahora la funci√≥n tendr√° un nuevo argumento de entrada ''tam_muestra'' que denotar√° el tama√±o de las muestras que se quiere considerar.

- **Ejercicio 6**: Ejecuta el gradiente estoc√°stico sobre los datos 'gd_data.csv' considerando tama√±o de muestra 50. Compara la recta de regresi√≥n obtenida con las obtenidas previamente.