# Análisis de Métodos de Regresión en Inteligencia Artificial

## Introducción

Este documento de investigación aborda tres aspectos fundamentales en el análisis de datos y la creación de modelos predictivos en inteligencia artificial:
1. Tipos de ajustes de curvas en conjuntos de datos: lineal, polinomial y el problema del sobreajuste (overfitting)
2. La regresión lineal y el método de mínimos cuadrados
3. El algoritmo de descenso de gradiente (Gradient Descent)

Estos conceptos son pilares en el aprendizaje automático y el análisis de datos, siendo herramientas esenciales para modelar relaciones entre variables y hacer predicciones basadas en datos.

## Configuración del entorno

Primero, importaremos las bibliotecas necesarias para nuestro análisis:

```python
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import cm
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error
from mpl_toolkits.mplot3d import Axes3D
import seaborn as sns

# Configuración para mejorar la visualización de gráficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 14
np.random.seed(42)  # Para reproducibilidad
```

## 1. Tipos de "rectas" en una gráfica de conjunto de datos

Cuando se ajustan modelos a datos, existen diferentes enfoques para modelar la relación entre variables. Veremos tres tipos principales:

### 1.1 Regresión Lineal

La regresión lineal es el método más simple que intenta ajustar una línea recta a los datos:

```python
# Generamos datos con una relación lineal y algo de ruido
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = 2 * X.ravel() + 1 + np.random.randn(100) * 1.5

# Creamos el modelo y lo ajustamos
model_linear = LinearRegression()
model_linear.fit(X, y)

# Predicciones del modelo
y_pred_linear = model_linear.predict(X)

# Visualización
plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', alpha=0.6, label='Datos')
plt.plot(X, y_pred_linear, color='red', linewidth=2, label=f'Modelo Lineal: y = {model_linear.coef_[0]:.2f}x + {model_linear.intercept_:.2f}')
plt.title('Regresión Lineal')
plt.xlabel('Variable independiente (X)')
plt.ylabel('Variable dependiente (y)')
plt.legend()
plt.grid(True)
plt.show()
```

La regresión lineal modela relaciones de la forma:

$$y = \beta_0 + \beta_1 x + \epsilon$$

Donde:
- $\beta_0$ es la intersección con el eje y (ordenada al origen)
- $\beta_1$ es la pendiente de la recta
- $\epsilon$ representa el error o ruido aleatorio

### 1.2 Regresión Polinomial

Cuando los datos presentan una relación no lineal, podemos utilizar polinomios de mayor grado:

```python
# Generamos datos con una relación cuadrática
X_poly_data = np.linspace(0, 10, 100).reshape(-1, 1)
y_poly_data = 1 + 0.5 * X_poly_data.ravel() + 0.3 * X_poly_data.ravel()**2 + np.random.randn(100) * 2

# Creamos características polinomiales
poly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X_poly_data)

# Ajustamos el modelo lineal a las características polinomiales
model_poly = LinearRegression()
model_poly.fit(X_poly, y_poly_data)

# Predicciones del modelo
y_pred_poly = model_poly.predict(X_poly)

# Visualización
plt.figure(figsize=(10, 6))
plt.scatter(X_poly_data, y_poly_data, color='blue', alpha=0.6, label='Datos')
plt.plot(X_poly_data, y_pred_poly, color='green', linewidth=2, label='Modelo Polinomial (grado 2)')
plt.title('Regresión Polinomial')
plt.xlabel('Variable independiente (X)')
plt.ylabel('Variable dependiente (y)')
plt.legend()
plt.grid(True)
plt.show()
```

La regresión polinomial permite modelar relaciones más complejas:

$$y = \beta_0 + \beta_1 x + \beta_2 x^2 + ... + \beta_n x^n + \epsilon$$

### 1.3 El problema del Sobreajuste (Overfitting)

El sobreajuste ocurre cuando un modelo es demasiado complejo y se ajusta al ruido en los datos en lugar de capturar la tendencia subyacente:

```python
# Generamos pocos datos con una relación simple
X_overfit = np.linspace(0, 10, 15).reshape(-1, 1)
y_overfit = 3 + 0.5 * X_overfit.ravel() + np.random.randn(15) * 1.5

# Creamos modelos de diferentes complejidades
grados = [1, 3, 15]
plt.figure(figsize=(15, 5))

for i, grado in enumerate(grados):
    # Generamos características polinomiales
    poly_features = PolynomialFeatures(degree=grado, include_bias=False)
    X_poly = poly_features.fit_transform(X_overfit)
    
    # Ajustamos el modelo
    model = LinearRegression()
    model.fit(X_poly, y_overfit)
    
    # Puntos para trazar la curva de predicción
    X_test = np.linspace(0, 10, 100).reshape(-1, 1)
    X_test_poly = poly_features.transform(X_test)
    y_pred = model.predict(X_test_poly)
    
    # Cálculo del error cuadrático medio
    X_overfit_poly = poly_features.transform(X_overfit)
    y_train_pred = model.predict(X_overfit_poly)
    mse = mean_squared_error(y_overfit, y_train_pred)
    
    # Visualización
    plt.subplot(1, 3, i+1)
    plt.scatter(X_overfit, y_overfit, color='blue', alpha=0.6, label='Datos de entrenamiento')
    plt.plot(X_test, y_pred, color='red', linewidth=2, label=f'Polinomio grado {grado}')
    plt.title(f'Grado {grado}, MSE: {mse:.2f}')
    plt.xlabel('X')
    plt.ylabel('y')
    plt.ylim(-5, 15)
    plt.legend()
    plt.grid(True)

plt.tight_layout()
plt.show()
```

Observaciones importantes sobre el sobreajuste:
- Un modelo con grado bajo puede subajustar los datos (alto sesgo)
- Un modelo con grado alto puede sobreajustar los datos (alta varianza)
- El modelo óptimo encuentra un equilibrio entre sesgo y varianza

## 2. Regresión Lineal y el Método de Mínimos Cuadrados

El método de mínimos cuadrados busca encontrar los parámetros del modelo que minimicen la suma de los cuadrados de las diferencias entre las predicciones y los valores reales.

### 2.1 Derivación matemática

Para un modelo lineal $y = \beta_0 + \beta_1 x$, buscamos minimizar:

$$J(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2$$

La solución analítica es:

$$\beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}$$

$$\beta_0 = \bar{y} - \beta_1 \bar{x}$$

Donde:
- $\bar{x}$ y $\bar{y}$ son las medias de $x$ e $y$

Implementemos el método de mínimos cuadrados manualmente:

```python
# Generamos algunos datos de ejemplo
X_simple = np.linspace(0, 10, 50).reshape(-1, 1)
y_simple = 2 * X_simple.ravel() + 1 + np.random.randn(50) * 1.5

# Implementación manual del método de mínimos cuadrados
def minimos_cuadrados(x, y):
    # Convertimos a arrays unidimensionales
    x = x.ravel()
    y = y.ravel()
    
    # Calculamos medias
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    
    # Calculamos la pendiente (beta_1)
    numerador = np.sum((x - x_mean) * (y - y_mean))
    denominador = np.sum((x - x_mean) ** 2)
    beta_1 = numerador / denominador
    
    # Calculamos la intersección (beta_0)
    beta_0 = y_mean - beta_1 * x_mean
    
    return beta_0, beta_1

# Calculamos los coeficientes
beta_0, beta_1 = minimos_cuadrados(X_simple, y_simple)
print(f"Coeficientes calculados manualmente: β₀ = {beta_0:.4f}, β₁ = {beta_1:.4f}")

# Comparamos con sklearn
model = LinearRegression()
model.fit(X_simple, y_simple)
print(f"Coeficientes con sklearn: β₀ = {model.intercept_:.4f}, β₁ = {model.coef_[0]:.4f}")

# Visualización de los resultados
plt.figure(figsize=(10, 6))
plt.scatter(X_simple, y_simple, color='blue', alpha=0.6, label='Datos')
plt.plot(X_simple, beta_0 + beta_1 * X_simple.ravel(), 'r-', linewidth=2, 
         label=f'Manual: y = {beta_1:.2f}x + {beta_0:.2f}')
plt.plot(X_simple, model.predict(X_simple), 'g--', linewidth=2, 
         label=f'Sklearn: y = {model.coef_[0]:.2f}x + {model.intercept_:.2f}')
plt.title('Método de Mínimos Cuadrados')
plt.xlabel('Variable independiente (X)')
plt.ylabel('Variable dependiente (y)')
plt.legend()
plt.grid(True)
plt.show()
```

### 2.2 Visualización de la función de costo

Para entender mejor la optimización, visualizaremos la función de costo en el espacio de parámetros:

```python
# Función para calcular el error cuadrático medio
def calcular_mse(X, y, beta_0, beta_1):
    y_pred = beta_0 + beta_1 * X.ravel()
    return np.mean((y - y_pred) ** 2)

# Creamos una malla de valores para beta_0 y beta_1
beta_0_range = np.linspace(beta_0 - 2, beta_0 + 2, 100)
beta_1_range = np.linspace(beta_1 - 2, beta_1 + 2, 100)
B0, B1 = np.meshgrid(beta_0_range, beta_1_range)

# Calculamos el MSE para cada combinación de parámetros
Z = np.zeros_like(B0)
for i in range(len(beta_0_range)):
    for j in range(len(beta_1_range)):
        Z[j, i] = calcular_mse(X_simple, y_simple, B0[j, i], B1[j, i])

# Visualización en 3D
fig = plt.figure(figsize=(15, 10))

# Gráfico 3D
ax1 = fig.add_subplot(121, projection='3d')
surf = ax1.plot_surface(B0, B1, Z, cmap=cm.coolwarm, alpha=0.8)
ax1.set_xlabel('β₀ (Intersección)')
ax1.set_ylabel('β₁ (Pendiente)')
ax1.set_zlabel('Error Cuadrático Medio')
ax1.set_title('Superficie de la función de costo')
fig.colorbar(surf, shrink=0.5, aspect=10, ax=ax1)

# Gráfico de contorno
ax2 = fig.add_subplot(122)
contour = ax2.contour(B0, B1, Z, 20, cmap=cm.coolwarm)
ax2.scatter(beta_0, beta_1, color='red', marker='*', s=200, label='Mínimo (Solución)')
ax2.set_xlabel('β₀ (Intersección)')
ax2.set_ylabel('β₁ (Pendiente)')
ax2.set_title('Contorno de la función de costo')
plt.colorbar(contour, ax=ax2)
ax2.legend()

plt.tight_layout()
plt.show()
```

## 3. Algoritmo de Descenso de Gradiente (Gradient Descent)

El descenso de gradiente es un algoritmo de optimización que busca el mínimo de una función de costo ajustando iterativamente los parámetros en la dirección opuesta al gradiente.

### 3.1 Implementación del algoritmo

```python
def gradient_descent(X, y, learning_rate=0.01, n_iterations=1000, tolerance=1e-6):
    # Añadimos una columna de unos para el intercepto
    X_b = np.c_[np.ones((X.shape[0], 1)), X]
    
    # Inicializamos los parámetros
    theta = np.random.randn(2, 1)
    
    # Historial de parámetros y costos
    theta_history = [theta.copy()]
    cost_history = []
    
    m = len(y)
    
    for iteration in range(n_iterations):
        # Predicciones actuales
        y_pred = X_b.dot(theta)
        
        # Cálculo del error
        error = y_pred - y.reshape(-1, 1)
        
        # Cálculo del gradiente
        gradients = 2/m * X_b.T.dot(error)
        
        # Actualización de parámetros
        theta_new = theta - learning_rate * gradients
        
        # Calculamos el costo actual
        cost = np.mean(error ** 2)
        cost_history.append(cost)
        
        # Guardamos los parámetros
        theta_history.append(theta_new.copy())
        
        # Verificamos la convergencia
        if np.linalg.norm(theta_new - theta) < tolerance:
            print(f"Convergencia alcanzada en la iteración {iteration}")
            break
            
        theta = theta_new
    
    return theta, np.array(theta_history), np.array(cost_history)

# Aplicamos el algoritmo a nuestros datos
X_gd = X_simple.copy()
y_gd = y_simple.copy()

# Ejecutamos el descenso de gradiente
theta_final, theta_history, cost_history = gradient_descent(X_gd, y_gd, learning_rate=0.01, n_iterations=2000)

# Extracción de parámetros
beta_0_gd = theta_final[0, 0]
beta_1_gd = theta_final[1, 0]

print(f"Resultados del descenso de gradiente: β₀ = {beta_0_gd:.4f}, β₁ = {beta_1_gd:.4f}")
print(f"Resultados con mínimos cuadrados: β₀ = {beta_0:.4f}, β₁ = {beta_1:.4f}")
```

### 3.2 Visualización del proceso de convergencia

```python
# Graficamos la convergencia del costo
plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.plot(cost_history, 'b-')
plt.title('Evolución de la función de costo')
plt.xlabel('Iteraciones')
plt.ylabel('Error Cuadrático Medio')
plt.grid(True)

plt.subplot(1, 2, 2)
plt.plot(cost_history, 'b-')
plt.title('Evolución de la función de costo (escala logarítmica)')
plt.xlabel('Iteraciones')
plt.ylabel('Error Cuadrático Medio')
plt.yscale('log')
plt.grid(True)

plt.tight_layout()
plt.show()

# Visualizamos la trayectoria de los parámetros en el contorno de la función de costo
plt.figure(figsize=(10, 8))
plt.contour(B0, B1, Z, 30, cmap=cm.coolwarm)
plt.plot(theta_history[:, 0, 0], theta_history[:, 1, 0], 'r.-', linewidth=1, markersize=3)
plt.plot(theta_history[0, 0, 0], theta_history[0, 1, 0], 'go', markersize=8, label='Inicio')
plt.plot(theta_history[-1, 0, 0], theta_history[-1, 1, 0], 'r*', markersize=12, label='Final')
plt.plot(beta_0, beta_1, 'b*', markersize=12, label='Solución analítica')
plt.xlabel('β₀ (Intersección)')
plt.ylabel('β₁ (Pendiente)')
plt.title('Trayectoria del descenso de gradiente')
plt.legend()
plt.grid(True)
plt.show()
```

### 3.3 Comparación con la solución analítica

Veamos cómo el descenso de gradiente se compara con la solución analítica:

```python
# Comparamos visualmente las predicciones
plt.figure(figsize=(10, 6))
plt.scatter(X_gd, y_gd, color='blue', alpha=0.6, label='Datos')
plt.plot(X_gd, beta_0_gd + beta_1_gd * X_gd.ravel(), 'r-', linewidth=2, 
         label=f'Desc. Gradiente: y = {beta_1_gd:.2f}x + {beta_0_gd:.2f}')
plt.plot(X_gd, beta_0 + beta_1 * X_gd.ravel(), 'g--', linewidth=2, 
         label=f'Mín. Cuadrados: y = {beta_1:.2f}x + {beta_0:.2f}')
plt.title('Comparación de métodos')
plt.xlabel('Variable independiente (X)')
plt.ylabel('Variable dependiente (y)')
plt.legend()
plt.grid(True)
plt.show()
```

### 3.4 Efecto de la tasa de aprendizaje

La tasa de aprendizaje (learning rate) es un hiperparámetro crucial en el descenso de gradiente:

```python
# Probamos diferentes tasas de aprendizaje
learning_rates = [0.001, 0.01, 0.1, 0.5]
plt.figure(figsize=(14, 10))

for i, lr in enumerate(learning_rates):
    # Ejecutamos el algoritmo
    theta, theta_history, cost_history = gradient_descent(X_gd, y_gd, learning_rate=lr, n_iterations=50)
    
    # Graficamos la trayectoria
    plt.subplot(2, 2, i+1)
    plt.contour(B0, B1, Z, 30, cmap=cm.coolwarm)
    plt.plot(theta_history[:, 0, 0], theta_history[:, 1, 0], 'r.-', linewidth=1, markersize=3)
    plt.plot(theta_history[0, 0, 0], theta_history[0, 1, 0], 'go', markersize=8, label='Inicio')
    plt.plot(theta_history[-1, 0, 0], theta_history[-1, 1, 0], 'r*', markersize=12, label='Final')
    plt.plot(beta_0, beta_1, 'b*', markersize=12, label='Solución analítica')
    plt.title(f'Tasa de aprendizaje = {lr}')
    plt.xlabel('β₀')
    plt.ylabel('β₁')
    
    if i == 0:
        plt.legend()

plt.tight_layout()
plt.show()
```

## Conclusiones

En este documento hemos explorado:

1. **Tipos de ajustes**:
   - La regresión lineal es útil para modelar relaciones lineales simples
   - La regresión polinomial puede capturar patrones no lineales
   - El sobreajuste ocurre cuando el modelo es demasiado complejo para los datos disponibles

2. **Método de mínimos cuadrados**:
   - Proporciona una solución analítica para problemas de regresión lineal
   - Minimiza la suma de errores cuadráticos entre predicciones y valores reales

3. **Descenso de gradiente**:
   - Es un algoritmo iterativo que busca el mínimo de la función de costo
   - La tasa de aprendizaje influye significativamente en la convergencia
   - Puede aplicarse a problemas donde no existe una solución analítica directa

Estos conceptos son fundamentales en el aprendizaje automático y forman la base para algoritmos más complejos como las redes neuronales.

## Referencias

American Psychological Association. (2020). Publication manual of the American Psychological Association (7th ed.).

Bishop, C. M. (2006). Pattern recognition and machine learning. Springer.

Géron, A. (2019). Hands-on machine learning with Scikit-Learn, Keras, and TensorFlow: Concepts, tools, and techniques to build intelligent systems. O'Reilly Media, Inc.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: Data mining, inference, and prediction. Springer Science & Business Media.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning: With applications in R. Springer.

Murphy, K. P. (2012). Machine learning: A probabilistic perspective. MIT Press.