
# Fundamentos Esenciales de Machine Learning

Este notebook está diseñado para comprender conceptos esenciales en Machine Learning. Nos enfocaremos en tres temas fundamentales:

1. **Gradiente Descendente**
2. **Sobreajuste (Overfitting)**
3. **Complejidad del Modelo y Trade-off (Bias-Variance Trade-off)**

---

Estos conceptos son clave para entender cómo aprenden los modelos y cómo podemos optimizar su rendimiento en problemas reales.



## 1. Gradiente Descendente

El **gradiente descendente** es un algoritmo de optimización usado para minimizar funciones de costo. En el contexto de ML, se utiliza para minimizar el error entre las predicciones del modelo y los valores reales.

### ¿Cómo funciona?

1. Calcula la derivada (gradiente) de la función de pérdida.
2. Da un paso en dirección opuesta al gradiente.
3. Repite hasta llegar a un mínimo (idealmente global).

### Fórmula:
\[
\theta := \theta - \alpha \cdot \frac{\partial J(\theta)}{\partial \theta}
\]

Donde:
- \( \theta \): parámetros del modelo
- \( \alpha \): tasa de aprendizaje (learning rate)
- \( J(\theta) \): función de pérdida



In [None]:

# Simulación simple de gradiente descendente para minimizar y = x^2
x = 10
learning_rate = 0.1
history = []

for _ in range(20):
    grad = 2 * x
    x = x - learning_rate * grad
    history.append(x)

import matplotlib.pyplot as plt
plt.plot(history, marker='o')
plt.title('Convergencia del Gradiente Descendente')
plt.xlabel('Iteración')
plt.ylabel('Valor de x')
plt.grid(True)
plt.show()



## 2. Sobreajuste (Overfitting)

El **sobreajuste** ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo ruido o patrones irrelevantes, perdiendo capacidad de generalización.

### Señales de sobreajuste:
- Muy bajo error en entrenamiento.
- Alto error en validación/test.

### Comparación:

|                | Entrenamiento | Test |
|----------------|----------------|------|
| Modelo ideal   | Bajo error     | Bajo error |
| Sobreajustado  | Muy bajo error | Alto error |

### Ejemplo visual:
- Un modelo muy complejo se ajusta a todos los puntos.
- Un modelo simple captura la tendencia general.



In [None]:

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error

# Datos de ejemplo
np.random.seed(0)
X = np.sort(5 * np.random.rand(20, 1), axis=0)
y = np.sin(X).ravel() + np.random.normal(0, 0.2, X.shape[0])

# Modelos con diferente complejidad
degrees = [1, 15]

plt.figure(figsize=(10, 4))
for i, deg in enumerate(degrees):
    model = make_pipeline(PolynomialFeatures(deg), LinearRegression())
    model.fit(X, y)
    y_pred = model.predict(X)

    plt.subplot(1, 2, i+1)
    plt.scatter(X, y, color='black')
    plt.plot(X, y_pred, color='blue', label=f"Grado {deg}")
    plt.title(f"Modelo de grado {deg}")
    plt.legend()

plt.tight_layout()
plt.show()



## 3. Complejidad del Modelo y Trade-off

Existe un equilibrio entre **bias (sesgo)** y **varianza** al diseñar un modelo:

- **Modelo muy simple (subajuste)**: alto bias, baja varianza.
- **Modelo muy complejo (sobreajuste)**: bajo bias, alta varianza.

Este equilibrio se llama **trade-off bias-varianza**.

### Gráfico típico:

- El error total se compone de bias², varianza y ruido.
- Hay un punto óptimo de complejidad donde el error es mínimo.

### ¿Qué hacer?
- Usar validación cruzada para elegir la complejidad ideal.
- Regularizar los modelos (L1, L2).
- Tener más datos para estabilizar modelos complejos.


In [None]:

# Simulación del trade-off
complexity = np.arange(1, 20)
bias = (1 / complexity)
variance = np.log(complexity) / 5
error_total = bias**2 + variance

plt.plot(complexity, bias**2, label='Bias²')
plt.plot(complexity, variance, label='Varianza')
plt.plot(complexity, error_total, label='Error Total')
plt.xlabel('Complejidad del Modelo')
plt.ylabel('Error')
plt.title('Trade-off Bias-Varianza')
plt.legend()
plt.grid(True)
plt.show()



## Ejercicio Final

1. Implementa un modelo de regresión polinomial de grado 3 sobre los datos de ejemplo y grafica los resultados.
2. Ajusta el tamaño del `learning_rate` en el ejemplo de gradiente descendente y observa los cambios.
3. ¿Qué pasa si el modelo polinomial tiene grado 50? ¿Hay sobreajuste?

¡Explora, experimenta y observa los resultados!
