<a href="https://colab.research.google.com/github/financieras/math_for_ai/blob/main/estadistica/regresion_lineal_descenso_gradiente.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Gradient Descent: How a Linear Regression Model Learns to Fit Data**

---

## 1. Introducci√≥n: ¬øQu√© problema queremos resolver?

En el coraz√≥n del Machine Learning y la Ciencia de Datos se encuentra una tarea fundamental: la **predicci√≥n**. Queremos usar datos que ya tenemos para hacer estimaciones inteligentes sobre datos que a√∫n no hemos visto.

Empecemos con un ejemplo cl√°sico y sencillo: **predecir el precio de una vivienda bas√°ndonos en su tama√±o.**

Imagina que tenemos un conjunto de datos de casas. Para cada casa, conocemos su tama√±o en metros cuadrados (nuestra variable $x$) y el precio final por el que se vendi√≥ (nuestra variable $y$). Si visualizamos estos datos en un gr√°fico, probablemente veremos una "nube de puntos" que tiende a ir hacia arriba: a m√°s metros cuadrados, mayor es el precio.



Nuestro objetivo es trazar **una l√≠nea recta** que represente de la mejor forma posible la tendencia de esos puntos. Esta l√≠nea ser√° nuestro "modelo" de Regresi√≥n Lineal. ¬øPor qu√©? Porque una vez que tengamos esa l√≠nea, si alguien nos da un nuevo tama√±o ($x$) de una casa que no estaba en nuestros datos, podremos "consultar" la l√≠nea para estimar su precio ($y$).

### La Ecuaci√≥n de Nuestro Modelo

Como recordar√°s de tus clases de matem√°ticas, la ecuaci√≥n de una l√≠nea recta es $y = b + mx$. En Machine Learning, usamos una notaci√≥n ligeramente diferente pero que significa exactamente lo mismo:

$$\hat{y} = w_0 + w_1 x$$

Vamos a analizar estos t√©rminos, ya que los usaremos durante todo el art√≠culo:

* **$x$**: Es nuestra variable de entrada (el *feature*), en este caso, el tama√±o de la casa.
* **$\hat{y}$** (se pronuncia "y-sombrero" o "y-gorro"): Es la **predicci√≥n** de nuestro modelo (el precio estimado). La distinguimos de la $y$ real (el precio de venta verdadero).
* **$w_0$**: Es el **sesgo** (del ingl√©s *bias*). Es la altura de la ordenada en el origen ($b$). Es el precio base que tendr√≠a nuestra predicci√≥n $\hat{y}$ si $x$ fuera 0.
* **$w_1$**: Es el **peso** (del ingl√©s *weight*). Es el equivalente a la pendiente ($m$). Nos dice cu√°nto cambia $\hat{y}$ (precio) por cada unidad que aumenta $x$ (metro cuadrado).

**Objetivo:** Encontrar $ w_0 $ y $ w_1 $ que nos den la recta que mejor se ajuste a la nube de puntos.

La pregunta clave que da origen a todo lo que sigue es: De todas las rectas posibles, ¬øc√≥mo encontramos la que **"mejor se ajusta"** a los datos? ¬øQu√© significa "la mejor"?

Para responder a esto, necesitamos una forma de medir qu√© tan "equivocada" est√° nuestra l√≠nea. Necesitamos cuantificar el error. Y a esa medida la llamaremos nuestra **Funci√≥n de Costes**.

---

## 2. üéØ Midiendo el Error: La Funci√≥n de Costes

En el apartado anterior, nos quedamos con una pregunta clave: ¬øc√≥mo definimos la "mejor" l√≠nea?

Intuitivamente, la mejor l√≠nea ser√° aquella que est√© **lo m√°s cerca posible de todos los puntos de datos** al mismo tiempo. Necesitamos una forma de cuantificar esta "cercan√≠a" total.

### El Residuo: El Error de un Solo Punto

Primero, veamos el error para un solo punto. Digamos que tenemos una casa (nuestro punto $i$-√©simo) que mide $x_i$ metros cuadrados y se vendi√≥ por un precio real $y_i$.

Si nuestra l√≠nea (definida por $w_0$ y $w_1$) predice un precio $\hat{y}_i$ para esa casa, el error para *ese punto* es simplemente la diferencia vertical entre el valor real y el valor predicho.

$$\text{Error}_i = e_i = y_i - \hat{y}_i$$

A esta diferencia la llamamos **"residuo"**.
* Si el punto real est√° por encima de la l√≠nea ($y_i > \hat{y}_i$), el residuo $e_i$ es positivo.
* Si el punto real est√° por debajo de la l√≠nea ($y_i < \hat{y}_i$), el residuo $e_i$ es negativo.

### Agregando el Error: El Error Cuadr√°tico Medio (MSE)

Ahora, ¬øc√≥mo combinamos los residuos de *todos* nuestros puntos ($m$ puntos en total) en una sola m√©trica?

El primer impulso ser√≠a simplemente sumarlos. Pero esto es una mala idea: un residuo de +1000 y otro de -1000 se cancelar√≠an mutuamente, haciendo parecer que nuestro modelo no tiene error, ¬°cuando en realidad est√° fallando estrepitosamente en ambos puntos!

Para solucionar esto, hacemos dos cosas:

1.  **Elevamos cada residuo al cuadrado:** $e_i^2 = (y_i - \hat{y}_i)^2$.
    * Esto convierte todos los errores en n√∫meros positivos (ej. $(-100)^2 = 10000$ y $(+100)^2 = 10000$). ¬°Se acabaron las cancelaciones!
    * Adem√°s, **penaliza los errores grandes mucho m√°s** que los peque√±os. Un error de 10 se convierte en 100, pero un error de 2 solo se convierte en 4. Esto fuerza al modelo a evitar predicciones muy alejadas de la realidad.

2.  **Calculamos la media:** Sumamos todos estos errores al cuadrado y los dividimos por el n√∫mero de puntos ($m$). Esto nos da el **Error Cuadr√°tico Medio** (o *Mean Squared Error, MSE*).

Esta m√©trica es nuestra **Funci√≥n de Costes**, que com√∫nmente se denota como $J$.

$$J(w_0, w_1) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2$$

Si sustituimos $\hat{y}_i$ por la ecuaci√≥n de nuestra l√≠nea, $(w_0 + w_1 x_i)$, obtenemos la f√≥rmula completa:

$$J(w_0, w_1) = \frac{1}{m} \sum_{i=1}^{m} (y_i - (w_0 + w_1 x_i))^2$$

> **Nota t√©cnica:** En muchos libros ver√°s esta f√≥rmula con un $\frac{1}{2m}$ en lugar de $\frac{1}{m}$. (Ej. $J = \frac{1}{2m} \sum...$). Este $\frac{1}{2}$ se a√±ade por pura conveniencia matem√°tica: al derivar $(y - \hat{y})^2$ obtenemos $2(y - \hat{y})$, y el factor $\frac{1}{2}$ cancela ese 2, simplificando las ecuaciones del gradiente. Esto no cambia d√≥nde est√° el m√≠nimo de la funci√≥n.


### Nuestro Nuevo Objetivo

¬°Este es el punto clave! F√≠jate en $J(w_0, w_1)$. Nuestros datos ($x$ e $y$) son fijos. Por lo tanto, el coste $J$ **no es una funci√≥n de $x$**, sino una funci√≥n de nuestros par√°metros $w_0$ y $w_1$.

* Diferentes valores de $w_0$ y $w_1$ (diferentes l√≠neas) nos dar√°n un coste $J$ diferente.
* Una l√≠nea mala tendr√° un coste $J$ muy alto.
* Una l√≠nea buena tendr√° un coste $J$ muy bajo.

Si imaginamos todos los posibles valores de $w_0$ y $w_1$ y el coste $J$ que producen, obtendr√≠amos una superficie en 3D con forma de "cuenco" o valle.



Nuestro problema de "encontrar la mejor l√≠nea" se ha transformado en un problema de optimizaci√≥n mucho m√°s claro:

**Encontrar los valores de $w_0$ y $w_1$ que nos sit√∫en en el punto m√°s bajo (el m√≠nimo) de este cuenco.**

¬øY c√≥mo encontramos ese punto m√≠nimo? No lo haremos probando todas las combinaciones al azar. Usaremos un algoritmo inteligente llamado **Descenso del Gradiente**.

---

## 3. üìâ El Algoritmo: Descenso del Gradiente (Gradient Descent)

Ahora que sabemos que nuestro objetivo es minimizar la Funci√≥n de Costes $J(w_0, w_1)$, necesitamos un m√©todo sistem√°tico para alcanzar ese m√≠nimo global. Aqu√≠ es donde entra en juego el **Descenso del Gradiente**.

El Descenso del Gradiente es un **algoritmo de optimizaci√≥n iterativo** que se utiliza para encontrar los valores de los par√°metros $(w_0, w_1)$ que minimizan una funci√≥n (nuestra funci√≥n de costes).

### La Analog√≠a de la Monta√±a ‚õ∞Ô∏è

La forma m√°s intuitiva de entender el Descenso del Gradiente es a trav√©s de una analog√≠a.

Imagina que est√°s en la cima de una monta√±a, con los ojos vendados, y tu objetivo es llegar al valle (el punto m√°s bajo).

1.  **Tu Posici√≥n:** Tu posici√≥n actual en la monta√±a corresponde a los valores actuales de tus par√°metros **$(w_0, w_1)$**.
2.  **El Objetivo:** El valle corresponde al **m√≠nimo global** de la funci√≥n de costes $J$.

Como est√°s vendado, no puedes ver el valle, pero puedes sentir el suelo bajo tus pies. ¬øC√≥mo te mueves de manera eficiente?

* **Paso 1: Siente la Pendiente:** Tientas el suelo a tu alrededor para determinar la direcci√≥n en la que la pendiente es **m√°s pronunciada hacia abajo**. Esta direcci√≥n de m√°ximo descenso es el **gradiente**.
* **Paso 2: Da un Paso:** Una vez que conoces la direcci√≥n, das un paso. El tama√±o de ese paso est√° determinado por la **tasa de aprendizaje**.
* **Paso 3: Repite:** Repites este proceso (sentir la pendiente y dar un paso) hasta que llegas a un punto donde ya no puedes bajar m√°s.

El Descenso del Gradiente hace exactamente esto, pero en el mundo de las matem√°ticas:

### El Descenso del Gradiente en ML

El algoritmo comienza con unos valores **iniciales aleatorios** para nuestros par√°metros $w_0$ y $w_1$ (est√°s en alg√∫n punto aleatorio de la monta√±a). Luego, repite un ciclo de actualizaci√≥n hasta la **convergencia**:

#### 1. Calcular el Gradiente (La Direcci√≥n)

El gradiente es una herramienta del c√°lculo (un vector de derivadas parciales) que nos dice exactamente cu√°l es la **pendiente** de la funci√≥n de costes $J$ en nuestra posici√≥n actual $(w_0, w_1)$.

* Si la pendiente es positiva, significa que estamos a la izquierda del m√≠nimo y debemos reducir el valor de $w$.
* Si la pendiente es negativa, estamos a la derecha y debemos aumentar el valor de $w$.

Matem√°ticamente, el gradiente apunta siempre hacia la **m√°xima subida**. Por lo tanto, si queremos *descender* (minimizar el coste), debemos movernos en la **direcci√≥n opuesta** al gradiente. Esto explica el signo negativo que introduciremos.

#### 2. La Actualizaci√≥n de los Par√°metros (El Paso)

En cada iteraci√≥n, actualizamos **simult√°neamente** $w_0$ y $w_1$ usando la siguiente regla:

$$\text{Nuevo } w_j = \text{Antiguo } w_j - (\text{Tasa de Aprendizaje } \times \text{ Gradiente})$$

Donde $w_j$ representa cualquiera de nuestros par√°metros ($w_0$ o $w_1$).

El signo de resta es lo que garantiza el "descenso": estamos movi√©ndonos en contra de la direcci√≥n de la pendiente.

Los detalles de c√≥mo se calcula el gradiente y c√≥mo se elige la tasa de aprendizaje son cruciales y se explican a continuaci√≥n.

---

## 4. üß© Las Piezas Clave del Algoritmo

El Descenso del Gradiente es simple, pero su eficacia reside en la correcta aplicaci√≥n de dos componentes esenciales: el **Gradiente** (la direcci√≥n de la pendiente) y la **Tasa de Aprendizaje** (el tama√±o del paso).

### A. El Gradiente: La Direcci√≥n de M√°ximo Descenso

Necesitamos calcular la pendiente de la funci√≥n de costes $J(w_0, w_1)$ en nuestra posici√≥n actual. Esto se logra calculando las **derivadas parciales** de $J$ con respecto a cada par√°metro ($w_0$ y $w_1$).

El resultado de estas derivadas nos dice cu√°nto cambiar√≠a el coste $J$ si modific√°ramos ligeramente un par√°metro, manteniendo el otro fijo.

### El Gradiente

El gradiente es un vector que apunta en la direcci√≥n de m√°ximo crecimiento. Se calcula con las derivadas parciales de la funci√≥n de costes con respecto a cada par√°metro.

Derivando $J(w_0, w_1) = \frac{1}{2m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2$ con respecto a cada par√°metro, obtenemos inicialmente un t√©rmino negativo: $-\frac{1}{m}\sum(y_i - \hat{y}_i)$.

Para simplificar la notaci√≥n y eliminar el signo negativo, **reordenamos algebraicamente** la resta:
$$-(y_i - \hat{y}_i) = (\hat{y}_i - y_i)$$

Esto nos da las siguientes f√≥rmulas del gradiente:

1.  **Gradiente con respecto a $w_0$ (el sesgo):**
    $$\frac{\partial J}{\partial w_0} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i)$$
    
    *Esta derivada es la media de los errores de predicci√≥n.*

2.  **Gradiente con respecto a $w_1$ (el peso/pendiente):**
    $$\frac{\partial J}{\partial w_1} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i) \cdot x_i$$
    
    *Esta derivada pondera los errores por el valor de $x_i$.*

---

### B. La Tasa de Aprendizaje ($\alpha$): El Tama√±o del Paso

La **tasa de aprendizaje** ($\alpha$) es un **hiperpar√°metro** fundamental que controla la magnitud de los pasos que damos en la direcci√≥n del gradiente.

#### La Regla de Actualizaci√≥n

Con la direcci√≥n del gradiente y el tama√±o del paso $\alpha$, definimos la regla de actualizaci√≥n. Esta se aplica repetidamente durante un n√∫mero predefinido de iteraciones (**√©pocas**):

Repetir (Iteraciones/√âpocas) {

$$w_0 := w_0 - \alpha \frac{\partial J}{\partial w_0}$$
$$w_1 := w_1 - \alpha \frac{\partial J}{\partial w_1}$$

}

#### El Impacto Cr√≠tico de $\alpha$

Elegir la $\alpha$ correcta es un acto de equilibrio:

| Si $\alpha$ es... | Consecuencia... |
| :--- | :--- |
| **Demasiado Peque√±a** | Convergencia **extremadamente lenta**. Se necesitan miles de √©pocas. |
| **Correcta** | Convergencia eficiente, acerc√°ndose al m√≠nimo en un n√∫mero razonable de pasos. |
| **Demasiado Grande** | **Divergencia** u **oscilaci√≥n**. El modelo salta de un lado a otro, o se aleja del m√≠nimo, haciendo que el coste $J$ aumente. |

El impacto de $\alpha$ es particularmente sensible cuando las caracter√≠sticas de entrada tienen rangos de valores muy diferentes. De hecho, esta sensibilidad extrema es la raz√≥n principal por la que la **normalizaci√≥n de caracter√≠sticas** es un paso obligatorio en la pr√°ctica, ya que permite usar un $\alpha$ m√°s grande sin riesgo de divergencia.

---

### C. Nota sobre el C√°lculo Simult√°neo

Es vital entender que, dentro de cada paso (cada √©poca), las actualizaciones de $w_0$ y $w_1$ deben realizarse **simult√°neamente**.

Esto significa que primero se deben calcular *ambas* derivadas (gradientes) utilizando los valores de $w_0$ y $w_1$ de la *iteraci√≥n anterior*. Una vez que se tienen los dos gradientes, se actualizan ambos par√°metros a sus nuevos valores. Si se actualizara $w_0$ y luego se usara el *nuevo* $w_0$ para calcular la derivada de $w_1$, se introducir√≠a un sesgo en el algoritmo que podr√≠a llevar a resultados incorrectos.

## 5\. üë®‚Äçüíª Manos a la Obra: Implementaci√≥n "Manual" con Python y NumPy

Pasamos de la teor√≠a a la pr√°ctica programando el algoritmo de **Regresi√≥n Lineal con Descenso de Gradiente (Gradient Descent)** desde cero. Usaremos las librer√≠as NumPy para las operaciones matriciales eficientes y Matplotlib para la visualizaci√≥n.

-----

### 5.1. Importaci√≥n y Preparaci√≥n de Datos

Comenzamos importando las librer√≠as necesarias y creando un conjunto de datos de ejemplo. Utilizaremos una relaci√≥n lineal simple a la que a√±adiremos un poco de "ruido" aleatorio para simular datos reales.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Crear datos de ejemplo
np.random.seed(42) # Fijar semilla para reproducibilidad

# Variable independiente X (caracter√≠stica)
X = 2 * np.random.rand(100, 1) # 100 valores entre 0 y 2

# Variable dependiente y (objetivo)
# Relaci√≥n real: y = 4 + 3 * X + ruido
y = 4 + 3 * X + np.random.randn(100, 1) * 1.5 # El ruido es esencial
y = y.ravel()  # Aplanamos 'y' a un vector 1D de forma (100,)

print("Dimensiones de los datos")
print(f"Forma de X: {X.shape}, y: {y.shape}\n")

# Visualizar
plt.figure(figsize=(8, 6))
plt.scatter(X, y, alpha=0.7, label='Datos reales')
plt.xlabel('Tama√±o (normalizado)')
plt.ylabel('Precio')
plt.title('Datos de Entrenamiento')
plt.legend()
plt.grid(True)
plt.show()

-----

### 5.2. Escalamiento de Caracter√≠sticas (Estandarizaci√≥n)

**Importante:** Antes de iniciar el Descenso de Gradiente, es **crucial** realizar el **Escalado de Caracter√≠sticas** (*Feature Scaling*).

#### üí° ¬øPor qu√© es crucial el Escalado?

El Descenso de Gradiente funciona mejor cuando las caracter√≠sticas de entrada (las columnas de $X$) est√°n en una escala similar. Si una caracter√≠stica tiene valores mucho mayores que otra, la funci√≥n de costes ($J(w)$) se vuelve muy asim√©trica (una "elipse" alargada).

  * **Funci√≥n de Costes Asim√©trica:** Esto hace que las derivadas (el gradiente) sean desproporcionadamente grandes en la direcci√≥n de la caracter√≠stica con mayor escala.
  * **Convergencia Lenta o Divergencia:** El algoritmo tendr√° que dar "pasos" muy peque√±os en ciertas direcciones, haciendo que la convergencia sea **extremadamente lenta** o, en el peor de los casos, **diverja**.

La **Estandarizaci√≥n** (o *Z-score normalization*) transforma los datos para que tengan una media ($\mu$) de 0 y una desviaci√≥n est√°ndar ($\sigma$) de 1, haciendo que el valle de costes sea m√°s sim√©trico y permitiendo una convergencia m√°s r√°pida y estable.

$$X_{\text{estandarizado}} = X' = \frac{X - \mu}{\sigma}$$

#### üîÑ El Problema: Pesos en el Espacio Estandarizado
- Al estandarizar $X \to X' = \frac{X - \mu}{\sigma}$, el modelo ajusta:
  $$
  \hat{y} = w_0' + w_1' \cdot X'
  $$
- Pero **$w_0'$ y $w_1'$ est√°n en el espacio estandarizado**, no en el original.

#### ‚úÖ Soluci√≥n (obligatoria): Desnormalizaci√≥n de los Pesos
Posteriormente debemos **transformar los pesos al espacio original**:

$$
w_1 = \frac{w_1'}{\sigma}, \quad w_0 = w_0' - w_1' \cdot \frac{\mu}{\sigma}
$$

O, sustituyendo la primera en la segunda:

$$w_0 = w_0' - w_1 \cdot \mu$$

### C√≥digo para la estandarizaci√≥n
Estandarizamos $X$ y luego crearemos la matriz aumentada `X_b` a√±adiendo una columna de unos para el t√©rmino de sesgo $w_0$.

In [None]:
# Calcular media y desviaci√≥n est√°ndar
mu = X.mean()
sigma = X.std()

print(f"Media (Œº): {mu:.4f}")
print(f"Desviaci√≥n est√°ndar (œÉ): {sigma:.4f}")
print()

# Estandarizar: X' = (X - Œº) / œÉ
X_scaled = (X - mu) / sigma

# A√±adir columna de 1s para w0 (el sesgo)
# np.c_ concatena arrays por columnas
X_b = np.c_[np.ones((100, 1)), X_scaled]

# Mostramos las 5 primeras filas de la matriz
X_b[:5] # Columna 0: bias (1s), Columna 1: X escalado

Media (Œº): 0.9404
Desviaci√≥n est√°ndar (œÉ): 0.5920



array([[ 1.        , -0.32311215],
       [ 1.        ,  1.62343393],
       [ 1.        ,  0.88450935],
       [ 1.        ,  0.43404902],
       [ 1.        , -1.06136481]])

> El bias (`w0`) no se escala porque representa el valor predicho cuando todas las caracter√≠sticas son cero; a√±adir una columna de unos despu√©s del escalado mantiene su interpretaci√≥n original.

-----

### 5.3. Implementaci√≥n del Descenso de Gradiente

Ahora implementamos el n√∫cleo del algoritmo, siguiendo la f√≥rmula del Descenso de Gradiente.

**F√≥rmulas Clave (Vectorial):**

1.  **Predicci√≥n:** $\hat{\mathbf{y}} = \mathbf{X} \mathbf{w}$
2.  **Funci√≥n de Coste (MSE/2):** $J(\mathbf{w}) = \frac{1}{2m} \sum_{i=1}^{m} (\hat{y}_i - y_i)^2$
3.  **Regla de Actualizaci√≥n:** $\mathbf{w} := \mathbf{w} - \alpha \cdot \frac{1}{m} \cdot \mathbf{X}^{\text{T}} \cdot (\hat{\mathbf{y}} - \mathbf{y})$

In [None]:
# Hiperpar√°metros
learning_rate = 0.01    # alpha (tasa de aprendizaje)
epochs = 1000           # n√∫mero de iteraciones
m = len(X)              # n√∫mero de ejemplos de entrenamiento
tol = 1e-5              # criterio de parada (early stopping)
prev_cost = np.inf      # coste anterior (inicial infinito)

# Inicializaci√≥n
w = np.zeros(2)         # w[0] = w0 (bias), w[1] = w1 (pendiente)
cost_history = []
w0_history = []
w1_history = []

# Bucle de entrenamiento (las epochs)
for epoch in range(epochs):
    # Predicciones: ≈∑ = X_b @ w  (X_b tiene columna de 1s)
    y_pred = X_b @ w        # shape: (m,) porque w es 1D

    # Error
    errors = y_pred - y     # El error es (≈∑ - y). shape: (m, 1)

    # Gradiente: (1/m) * X_transpuesta * Errores
    gradients = (1/m) * X_b.T @ errors      # shape: (2,)

    # Actualizaci√≥n simult√°nea de par√°metros: w := w - alpha * gradiente
    w = w - learning_rate * gradients

    # Coste de cada paso (MSE/2)
    cost = (1/(2*m)) * np.sum(errors**2)
    cost_history.append(cost)

    # Guardar par√°metros
    w0_history.append(w[0])
    w1_history.append(w[1])

    # Early stopping
    # si la mejora en el coste es menor a la tolerancia, se detiene el entrenamiento
    if prev_cost - cost < tol:
        print(f"Convergencia alcanzada en la √©poca {epoch}")
        break
    prev_cost = cost

# Pesos √≥ptimos (en espacio estandarizado)
w_optimal = w.copy()  # buena pr√°ctica: no modificar w despu√©s del bucle

# --- REVERTIR LA ESTANDARIZACI√ìN (Desnormalizaci√≥n) ---
# Par√°metros estandarizados
w0_prime = w_optimal[0]   # intercepto en espacio escalado
w1_prime = w_optimal[1]   # pendiente en espacio escalado

# 1. Pendiente Original: w1 = w1' / sigma
w1_original = w1_prime / sigma

# 2. Intercepto Original: w0 = w0' - w1_original * mu
w0_original = w0_prime - w1_original * mu

print(f"w0' (estandarizado): {w0_prime:.6f}")
print(f"w1' (estandarizado): {w1_prime:.6f}")
print("\n--- Par√°metros √ìptimos en el espacio de datos ORIGINAL ---")
# La relaci√≥n real es y = 4 + 3 * X + ruido
print(f"w0 (Intercepto original): {w0_original:.4f} (~4.0)")
print(f"w1 (Pendiente original): {w1_original:.4f} (~3.0)")

Convergencia alcanzada en la √©poca 539
w0' (estandarizado): 6.789489
w1' (estandarizado): 1.564942

--- Par√°metros √ìptimos en el espacio de datos ORIGINAL ---
w0 (Intercepto original): 4.3036 (~4.0)
w1 (Pendiente original): 2.6435 (~3.0)


-----

## 5.4. Interpretaci√≥n Correcta: Revertir la Estandarizaci√≥n

Los par√°metros $w_0'$ y $w_1'$ que ha encontrado nuestro algoritmo son √≥ptimos, pero solo son v√°lidos para la versi√≥n **estandarizada** de la caracter√≠stica $X$. Si los compar√°ramos directamente con la relaci√≥n real de nuestros datos ($y = 4 + 3x$), ver√≠amos una gran diferencia ($w_1' \approx 1.5$ en lugar de $3$), lo que err√≥neamente sugerir√≠a que el modelo ha fallado.

Esto no es un error, sino una consecuencia necesaria del escalado para lograr una convergencia eficiente. Para **interpretar** correctamente los resultados, debemos transformar los pesos de vuelta al espacio de datos original.

La transformaci√≥n utiliza la media ($\mu$) y la desviaci√≥n est√°ndar ($\sigma$) que calculamos previamente:

$$w_1 = \frac{w_1'}{\sigma}$$

$$w_0 = w_0' - w1 \cdot \mu$$

Al aplicar esta transformaci√≥n, vemos que el modelo ha convergido a los valores correctos de $w_0$ y $w_1$, verificando que el Descenso del Gradiente funcion√≥ con √©xito para descubrir la relaci√≥n subyacente de nuestros datos.

-----

### 5.5. Visualizaci√≥n de Resultados

Para finalizar, ploteamos el historial de costes para confirmar que el algoritmo converge correctamente y visualizamos la l√≠nea de regresi√≥n final sobre los datos originales.

#### 5.5.1. Gr√°fico del Historial de Costes

El coste debe disminuir dr√°sticamente al inicio y luego aplanarse, indicando la convergencia.

In [None]:
plt.figure(figsize=(10, 5))
plt.plot(cost_history, 'b.-', markersize=4)
plt.title('Historial de Costes (con Early Stopping)')
plt.xlabel('√âpoca')
plt.ylabel('Funci√≥n de Coste J(w)')
plt.grid(True)
plt.show()

# --- MENSAJE DE EARLY STOPPING ---
if len(cost_history) < epochs:
    print(f"\nEarly stopping activado: no fueron necesarias las {epochs} √©pocas. ")
    print(f"Convergencia alcanzada en {len(cost_history)} √©pocas.")
else:
    print(f"\nSe completaron las {epochs} √©pocas sin activar early stopping.")

#### 5.5.2. Gr√°fico de la Regresi√≥n Lineal

Para plotear la l√≠nea de regresi√≥n, debemos usar los valores originales de $X$ (sin estandarizar) y aplicarles la misma estandarizaci√≥n antes de multiplicarlos por los $w$ √≥ptimos.

In [None]:
# Crear un rango de X para dibujar la l√≠nea
X_plot = np.array([[0], [2]])

# 1. Estandarizar X_plot de la misma forma que los datos de entrenamiento
X_plot_scaled = (X_plot - mu) / sigma

# 2. A√±adir el sesgo (columna de unos)
X_plot_b = np.c_[np.ones((2, 1)), X_plot_scaled]

# 3. Calcular las predicciones con los pesos (w) √≥ptimos
# Usamos w_optimal que son los pesos estandarizados
y_predict = X_plot_b @ w_optimal

# Plotear los datos originales y la l√≠nea de regresi√≥n
plt.figure(figsize=(10, 6))
plt.plot(X, y, 'o', label='Datos originales')
plt.plot(X_plot, y_predict, 'r-', label='Recta de Regresi√≥n')
plt.title('Regresi√≥n Lineal con Descenso de Gradiente')
plt.xlabel('X (Caracter√≠stica Original)')
plt.ylabel('y (Objetivo)')
plt.legend()
plt.grid(True)
plt.show()

De esta forma, hemos implementado el Descenso de Gradiente de forma manual, mostrando c√≥mo el algoritmo itera para encontrar los par√°metros $w_0$ y $w_1$ que minimizan la funci√≥n de costes y definen la l√≠nea de mejor ajuste.

## 6\. ‚ö° La V√≠a R√°pida: Implementaci√≥n con Scikit-Learn

Tras haber programado la **Regresi√≥n Lineal con Descenso de Gradiente** manualmente, el objetivo de esta secci√≥n es mostrar c√≥mo se realiza esta tarea en un **entorno profesional** utilizando la librer√≠a est√°ndar de *machine learning* en Python: **Scikit-Learn (sklearn)**.

El modelo que utilizaremos es `sklearn.linear_model.SGDRegressor`.

-----

### 6.1. ¬øPor qu√© `SGDRegressor`?

Mientras que en el apartado anterior implementamos el **Descenso de Gradiente por Lotes (*Batch Gradient Descent*)**, Scikit-Learn ofrece una variante mucho m√°s com√∫n y eficiente para datos grandes: el **Descenso de Gradiente Estoc√°stico (*Stochastic Gradient Descent - SGD*)**.

#### Concepto Clave: SGD

El SGD es una variante del Descenso de Gradiente donde, en lugar de calcular el gradiente usando **todos** los ejemplos de entrenamiento (*batch* completo) en cada paso, el algoritmo:

1.  Calcula el gradiente usando **un solo ejemplo** de entrenamiento seleccionado al azar (o un peque√±o subconjunto llamado *mini-batch*).
2.  Actualiza los par√°metros $w$ inmediatamente.

Esta aproximaci√≥n hace que el proceso sea **mucho m√°s r√°pido** en *datasets* con millones de datos, aunque el camino hacia el m√≠nimo de la funci√≥n de costes es m√°s ruidoso y aleatorio. Para la regresi√≥n lineal, el `SGDRegressor` es la herramienta est√°ndar cuando se desea aplicar el Descenso de Gradiente.

### Variantes del Descenso del Gradiente

Existen diversas variantes del Descenso del Gradiente, adaptadas a diferentes tama√±os de datos y necesidades computacionales:

**1. Batch Gradient Descent (por lotes)**
- Como el que implementamos manualmente.
- Calcula el gradiente usando **todo el conjunto de datos** en cada iteraci√≥n.
- **Ventaja:** Direcci√≥n precisa hacia el m√≠nimo.
- **Desventaja:** Lento y requiere mucha memoria para datasets grandes.

**2. Stochastic Gradient Descent (SGD)**
- Actualiza los par√°metros con **un solo ejemplo aleatorio** por iteraci√≥n.
- **Ventaja:** Mucho m√°s r√°pido.
- **Desventaja:** Trayectoria m√°s "ruidosa" y zigzagueante hacia el m√≠nimo.

**3. Mini-Batch Gradient Descent**
- Equilibra ambos enfoques al usar **peque√±os subconjuntos (mini-batches)** de datos.
- **Ventaja:** Combina velocidad y estabilidad.
- **Nota:** Esta es la variante m√°s com√∫n en *deep learning* y se puede configurar en `SGDRegressor` con el par√°metro `batch_size`.

-----

### 6.2. Implementaci√≥n con Scikit-Learn

A diferencia de la implementaci√≥n manual, Scikit-Learn requiere que el escalado de caracter√≠sticas y el modelo se manejen como objetos separados.

#### 6.2.1. Preparaci√≥n y Escalado de Datos

**Nota Importante:** Usaremos los datos originales $X$ e $y$ del apartado 5 para el proceso de escalado.

In [None]:
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler
import numpy as np

# Datos originales (asumimos que X e y son los del apartado 5)
# X (100, 1), y (100, 1)

# 1. Ajustar la forma de 'y' si es necesario (Scikit-Learn prefiere (n_samples,))
y_flat = y.ravel()

# 2. Crear y ajustar el StandardScaler
# El escalador calcular√° la media y la desviaci√≥n est√°ndar de X y la almacenar√°
scaler = StandardScaler()
X_scaled_skl = scaler.fit_transform(X)
X_scaled_skl[:5]

array([[-0.32311215],
       [ 1.62343393],
       [ 0.88450935],
       [ 0.43404902],
       [-1.06136481]])

#### 6.2.2. Entrenamiento del Modelo `SGDRegressor`

Instanciamos y entrenamos el modelo. Es crucial especificar los hiperpar√°metros que controlan el proceso de optimizaci√≥n:

* `loss='squared_error'`: Indica que queremos minimizar el Error Cuadr√°tico Medio (MSE), la funci√≥n de costes adecuada para la regresi√≥n lineal.
* `eta0`: La tasa de aprendizaje inicial ($\alpha$), que determina el tama√±o de los pasos.
* `max_iter`: El n√∫mero de √©pocas o pasadas completas a trav√©s del conjunto de datos.
* `learning_rate='constant'` (por defecto): Mantiene `eta0` constante durante todo el entrenamiento. Otras opciones incluyen `'optimal'`, `'invscaling'` y `'adaptive'`.

Una vez finalizado el entrenamiento, desnormalizamos los pesos encontrados (`coef_` e `intercept_`) usando la media y desviaci√≥n est√°ndar almacenadas previamente en el objeto `scaler`.

In [None]:
# 3. Crear una instancia de SGDRegressor
sgd_reg = SGDRegressor(
    loss='squared_error',
    eta0=0.01,         # Learning rate (alpha)
    max_iter=1000,     # N√∫mero de √©pocas
    tol=1e-5,          # Criterio de parada
    random_state=42    # Para obtener resultados reproducibles
)

# 4. Entrenar el modelo con los datos escalados
sgd_reg.fit(X_scaled_skl, y_flat)

# 5. Mostrar los par√°metros encontrados

# Pesos estandarizados (w')
w_0_prime_skl = sgd_reg.intercept_[0]
w_1_prime_skl = sgd_reg.coef_[0]

# --- REVERTIR LA ESTANDARIZACI√ìN (Desnormalizaci√≥n) ---
# Usamos las propiedades almacenadas por el scaler: .mean_ y .scale_
mu_skl = scaler.mean_[0]
sigma_skl = scaler.scale_[0]

# 1. Pendiente Original: w1 = w1' / sigma
w1_original_skl = w_1_prime_skl / sigma_skl

# 2. Intercepto Original: w0 = w0' - w1_original * mu
w0_original_skl = w_0_prime_skl - w1_original_skl * mu_skl


print("\n--- Par√°metros √ìptimos encontrados por SGDRegressor (ESTANDARIZADOS) ---")
print(f"w0' (Intercepto estandarizado): {w_0_prime_skl:.4f}")
print(f"w1' (Pendiente estandarizada): {w_1_prime_skl:.4f}")
print("\n--- Par√°metros √ìptimos en el espacio de datos ORIGINAL ---")
# La relaci√≥n real era y = 4 + 3 * X + ruido
print(f"w0 (Intercepto original): {w0_original_skl:.4f} (~4.0)")
print(f"w1 (Pendiente original): {w1_original_skl:.4f} (~3.0)")


--- Par√°metros √ìptimos encontrados por SGDRegressor (ESTANDARIZADOS) ---
w0' (Intercepto estandarizado): 6.8214
w1' (Pendiente estandarizada): 1.5721

--- Par√°metros √ìptimos en el espacio de datos ORIGINAL ---
w0 (Intercepto original): 4.3242 (~4.0)
w1 (Pendiente original): 2.6555 (~3.0)


-----

### 6.3. Comparaci√≥n de Resultados

Comparamos los resultados de la implementaci√≥n manual (Descenso de Gradiente por Lotes) y la implementaci√≥n profesional de Scikit-Learn (Descenso de Gradiente Estoc√°stico) **despu√©s de revertir la estandarizaci√≥n**.

| Par√°metro (Original) | Manual (Batch GD) | Scikit-Learn (SGDRegressor) | Realidad Subyacente ($y=4+3x$) |
| :---: | :---: | :---: | :---: |
| $w_0$ (Intercepto) | $4.30 $ | $4.32 $ | **$4$** |
| $w_1$ (Pendiente) | $2.64$ | $2.66 $ | **$3$** |

Los resultados son pr√°cticamente **iguales** y ambos se aproximan con √©xito a los par√°metros reales de $4$ y $3$ de nuestros datos generados.  

Las peque√±as **discrepancias entre las estimaciones y los valores reales** (4 y 3) se deben al ruido aleatorio que introdujimos al generar el conjunto de datos. Esto demuestra que la Regresi√≥n Lineal ha encontrado la l√≠nea de mejor ajuste para los datos observados.

> **Experimento:** Puedes ver otros valores ligeramente diferentes variando la semilla de los n√∫meros aleatorios (por ejemplo, usando `random_state=44` en lugar de `42`).

Esto permite verificar dos puntos fundamentales:

1.  **Validaci√≥n de la teor√≠a:** Nuestra implementaci√≥n manual funcion√≥ correctamente.
2.  **Eficiencia de la herramienta:** El `SGDRegressor` nos permite obtener los mismos resultados √≥ptimos con una fracci√≥n del c√≥digo, benefici√°ndonos de la optimizaci√≥n y robustez de una librer√≠a profesional.

> **Nota:** Scikit-Learn tambi√©n ofrece `LinearRegression`, que permite calcular los par√°metros por el **m√©todo de M√≠nimos Cuadrados Ordinarios (OLS)** mediante una soluci√≥n anal√≠tica directa, en lugar del Descenso del Gradiente iterativo. Este m√©todo es m√°s r√°pido para datasets peque√±os o medianos (hasta decenas de miles de filas), pero no escala bien a millones de datos debido a la complejidad computacional de la inversi√≥n de matrices. Para aprendizaje online o datasets muy grandes, `SGDRegressor` es la opci√≥n preferida.

---

## 7\. üöÄ Generalizando: De la Recta al Hiperplano (Regresi√≥n M√∫ltiple)

Hasta ahora, hemos utilizado la Regresi√≥n Lineal Simple (una sola variable $x$) como herramienta did√°ctica. Sin embargo, en el mundo real, los problemas tienen m√∫ltiples factores o **caracter√≠sticas** ($x_1, x_2, \dots, x_n$).

### La Ecuaci√≥n se Convierte en un Hiperplano

Cuando a√±adimos m√°s caracter√≠sticas, la ecuaci√≥n del modelo se extiende:
$$\hat{y} = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n$$

  * Si tuvi√©ramos solo dos caracter√≠sticas ($x_1$ y $x_2$), la l√≠nea de mejor ajuste se convertir√≠a en un **plano** en un espacio tridimensional.
  * Con tres o m√°s caracter√≠sticas, esta superficie se denomina **hiperplano** (un plano en un espacio de $n$ dimensiones).

### La Ventaja de la Notaci√≥n Matricial

La gran ventaja de haber utilizado la **notaci√≥n matricial** desde el principio es que la complejidad del Descenso del Gradiente **no aumenta** al a√±adir variables.

Nuestras f√≥rmulas clave de optimizaci√≥n (para la predicci√≥n y el gradiente) son exactamente las mismas:

| Concepto | F√≥rmula Matricial (General) |
| :--- | :--- |
| **Predicci√≥n** | $\hat{\mathbf{y}} = \mathbf{X} \mathbf{w}$ |
| **C√°lculo del Gradiente** | $\mathbf{g} = \frac{1}{m} \mathbf{X}^{\text{T}} (\hat{\mathbf{y}} - \mathbf{y})$ |

El c√≥digo de entrenamiento solo necesita que la matriz $\mathbf{X}$ tenga m√°s columnas y el vector de pesos $\mathbf{w}$ tenga m√°s filas. El proceso de c√°lculo se mantiene id√©ntico.

-----

### 7.1. Caso con Dos Variables Independientes ($x_1, x_2$)

Utilizamos `SGDRegressor` para encontrar los tres par√°metros ($w_0, w_1, w_2$) de un modelo basado en la relaci√≥n real $\mathbf{y = 4 + 3x_1 + 5x_2 + ruido}$.

In [None]:
import numpy as np
from sklearn.linear_model import SGDRegressor
from sklearn.preprocessing import StandardScaler

# 1. Generaci√≥n de Datos con dos variables
W_REAL = np.array([4, 3, 5])
np.random.seed(42)

# Ambos con el mismo rango para mejor visualizaci√≥n posterior
X1 = 2 * np.random.rand(1000, 1)  # X1: rango [0, 2]
X2 = 2 * np.random.rand(1000, 1)  # X2: rango [0, 2]
X_multi = np.hstack([X1, X2])

# Misma relaci√≥n real: y = 4 + 3*X1 + 5*X2 + ruido
y_multi = W_REAL[0] + W_REAL[1] * X1 + W_REAL[2] * X2 + np.random.randn(1000, 1) * 2
y_flat = y_multi.ravel()

# 2. Escalado. Estas dos variables tienen la misma escala pero
# sigue siendo necesario por si usamos m√°s variables despu√©s
scaler = StandardScaler()
X_scaled_multi = scaler.fit_transform(X_multi)

# 3. Entrenamiento con SGD
sgd_reg = SGDRegressor(
    loss='squared_error',
    eta0=0.01,
    max_iter=1000,
    tol=1e-5,
    random_state=42
)

sgd_reg.fit(X_scaled_multi, y_flat)

# 4. Desnormalizaci√≥n (Para obtener w0, w1, w2 originales)
w_0_prime = sgd_reg.intercept_[0]
w_1_prime, w_2_prime = sgd_reg.coef_

mu, sigma = scaler.mean_, scaler.scale_

w1_original = w_1_prime / sigma[0]
w2_original = w_2_prime / sigma[1]
w0_original = w_0_prime - (w1_original * mu[0]) - (w2_original * mu[1])

print("\n--- Resultados con Regresi√≥n M√∫ltiple (2 Variables) ---")
print(f"w0 (Intercepto): {w0_original:.3f} (Real: {W_REAL[0]})")
print(f"w1 (Peso X1): {w1_original:.3f} (Real: {W_REAL[1]})")
print(f"w2 (Peso X2): {w2_original:.3f} (Real: {W_REAL[2]})")


--- Resultados con Regresi√≥n M√∫ltiple (2 Variables) ---
w0 (Intercepto): 4.039 (Real: 4)
w1 (Peso X1): 2.967 (Real: 3)
w2 (Peso X2): 5.014 (Real: 5)


Esta prueba final confirma que el **Descenso del Gradiente** es una herramienta escalable que funciona de manera an√°loga para encontrar los par√°metros √≥ptimos de un hiperplano, resolviendo problemas de *Regresi√≥n M√∫ltiple*.

-----

### 7.2. Visualizaci√≥n: El Plano de Regresi√≥n (3D)

Ahora, el c√≥digo corregido para la visualizaci√≥n del plano. Se muestra que el algoritmo ha encontrado el plano √≥ptimo que minimiza el error cuadr√°tico medio en el espacio 3D.

In [None]:
# --- Visualizaci√≥n 3D ---
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.lines import Line2D
import numpy as np

# 1. Malla m√°s fina
x1_surf = np.linspace(X1.min(), X1.max(), 40)
x2_surf = np.linspace(X2.min(), X2.max(), 40)
x1_surf, x2_surf = np.meshgrid(x1_surf, x2_surf)

# Plano con par√°metros originales
Z = w0_original + w1_original * x1_surf + w2_original * x2_surf

# 2. Figura grande
fig = plt.figure(figsize=(14, 10))
ax = fig.add_subplot(111, projection='3d')

# --- Puntos: grandes y con borde blanco para resaltar ---
ax.scatter(X1, X2, y_multi,
           c='navy', marker='o', s=40, alpha=0.8,
           edgecolors='white', linewidth=0.5, depthshade=True)

# --- Plano: color suave, opaco y con bordes ---
ax.plot_surface(x1_surf, x2_surf, Z,
                color='crimson', alpha=0.50,
                linewidth=0.5, edgecolor='darkred', antialiased=True)

# Etiquetas con salto de l√≠nea para evitar solapamiento
ax.set_xlabel('\n$X_1$ (Caract. 1)', fontsize=13, linespacing=1.5)
ax.set_ylabel('\n$X_2$ (Caract. 2)', fontsize=13, linespacing=1.5)
ax.set_zlabel('\nPrecio ($Y$)', fontsize=13, linespacing=1.5)
ax.set_title('Regresi√≥n Lineal M√∫ltiple: Plano Ajustado\n', fontsize=16, pad=40)

# √ÅNGULO de visi√≥n: plano visible desde arriba y lateral
ax.view_init(elev=32, azim=65)

# Grid suave
ax.grid(True, alpha=0.3)
ax.set_facecolor('white')

# --- LEYENDA FUERA DEL GR√ÅFICO ---
point_proxy = Line2D([0], [0], linestyle="none", marker='o',
                     color='navy', markerfacecolor='navy',
                     markeredgecolor='white', markersize=10)
plane_proxy = Line2D([0], [0], linestyle="-", color='crimson', linewidth=6)

legend = fig.legend([point_proxy, plane_proxy],
                    ['Datos de entrenamiento', 'Plano de Regresi√≥n'],
                    loc='upper right',
                    bbox_to_anchor=(0.88, 0.88),
                    frameon=True, fancybox=True, shadow=True, fontsize=12)

legend.get_frame().set_facecolor('white')
legend.get_frame().set_edgecolor('black')

plt.tight_layout()
plt.show()

## 8. üéØ Conclusi√≥n: ¬øQu√© Hemos Aprendido?

A lo largo de este art√≠culo, hemos desglosado la **Regresi√≥n Lineal** desde sus cimientos matem√°ticos hasta su implementaci√≥n pr√°ctica, comprendiendo que es mucho m√°s que una simple l√≠nea de mejor ajuste. Los conceptos que hemos cubierto forman la base de la optimizaci√≥n en casi todo el campo del *Machine Learning*.

---

### Resumen de Puntos Clave

* **Objetivo de la Regresi√≥n Lineal:** La meta fundamental de la Regresi√≥n Lineal es encontrar los par√°metros ($w_0$ y $w_1$) que definen la recta que mejor se ajusta a los datos.
* **La Funci√≥n de Costes (MSE):** Para determinar qu√© tan "buena" es una recta, utilizamos una m√©trica de error, conocida com√∫nmente como el **Error Cuadr√°tico Medio (MSE)** o $J(w)$. El verdadero objetivo del modelo es **minimizar** el valor de esta funci√≥n.
* **El Algoritmo de Optimizaci√≥n: Descenso de Gradiente:** El **Descenso de Gradiente (*Gradient Descent*)** es el algoritmo que nos permite alcanzar ese m√≠nimo. Podemos visualizarlo como un proceso iterativo en el que "caminamos" por la superficie de la funci√≥n de costes.
    * **El Gradiente es la Br√∫jula:** El gradiente (las derivadas parciales) indica la **direcci√≥n de m√°ximo ascenso** en la funci√≥n de costes. Puesto que queremos *minimizar* el coste, nuestro paso va en la direcci√≥n **opuesta** al gradiente.
    * **La Tasa de Aprendizaje ($\alpha$) es el Tama√±o del Paso:** La **tasa de aprendizaje** determina la magnitud de cada paso. Si es muy grande, corremos el riesgo de "saltar" el m√≠nimo; si es muy peque√±a, la convergencia ser√° extremadamente lenta.
* **El Escalado es Crucial, la Desnormalizaci√≥n es Obligatoria:** El **Escalado de Caracter√≠sticas** (Estandarizaci√≥n) es crucial para la **estabilidad y rapidez** del Descenso del Gradiente. Sin embargo, para la **interpretaci√≥n** correcta de los pesos finales ($w_0$ y $w_1$) en el contexto de los datos originales, es **obligatorio revertir** la estandarizaci√≥n de los par√°metros.
* **Implementaciones (Manual vs. Scikit-Learn):** Hemos comprobado que, si bien es posible y educativo programar el algoritmo desde cero con NumPy (Batch Gradient Descent), en un entorno profesional se utiliza `SGDRegressor` de Scikit-Learn (Descenso Estoc√°stico), que ofrece la misma precisi√≥n con mayor eficiencia y rapidez en grandes vol√∫menes de datos.

---

### La Base de todo el *Machine Learning*

El concepto de **Descenso de Gradiente** no se limita a la Regresi√≥n Lineal. La idea de definir una funci√≥n de costes, calcular su gradiente y ajustar par√°metros de forma iterativa es el **motor de optimizaci√≥n** de la inmensa mayor√≠a de los modelos de *Machine Learning* modernos, incluyendo:

* **Regresi√≥n Log√≠stica.**
* **M√°quinas de Soporte Vectorial (SVM).**
* Y, de manera m√°s notable, el **Entrenamiento de Redes Neuronales Profundas**, donde la t√©cnica central es una aplicaci√≥n sofisticada del Descenso de Gradiente llamada **Retropropagaci√≥n (*Backpropagation*)**.

Entender el Descenso de Gradiente es, por lo tanto, entender **c√≥mo aprende una m√°quina**.