# Métodos de optimización

Existen diferentes metodos de optimizacion para estimar los parámetros o coeficientes de los diferentes modelos de aprendizaje de maquina. Cada uno tiene ventajas y desventajas

## Mínimos Cuadrados Ordinarios

El método de mínimos cuadrados ordinarios (OLS, por sus siglas en inglés) es una técnica estadística ampliamente utilizada para estimar los parámetros de un modelo de regresión lineal. El objetivo principal de OLS es encontrar la línea que mejor se ajuste a un conjunto de datos, minimizando la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos por el modelo.

#### Ecuación del Modelo

Para un modelo de regresión lineal simple, la ecuación es:

$ y = \beta_0 + \beta_1 x + \epsilon $

donde:
- $y$ es la variable dependiente.
- $x$ es la variable independiente.
- $\beta_0$ es la intersección con el eje $y$ (constante o término independiente).
- $\beta_1$ es la pendiente de la línea de regresión.
- $\epsilon$ es el término de error.

#### Objetivo de OLS

El objetivo de OLS es estimar los parámetros $\beta_0$ y $\beta_1$ que minimicen la suma de los cuadrados de los residuos (errores), definidos como las diferencias entre los valores observados ($y_i$) y los valores predichos ($\hat{y_i}$) por el modelo:

$ \text{Suma de Cuadrados de los Errores (SSE)} = \sum_{i=1}^{n} (y_i - \hat{y_i})^2 $

donde:
- $n$ es el número de observaciones.
- $y_i$ son los valores observados.
- $\hat{y_i} = \beta_0 + \beta_1 x_i$ son los valores predichos.

#### Proceso de Estimación

Los parámetros $\beta_0$ y $\beta_1$ se estiman resolviendo las siguientes ecuaciones normales:

$ \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} $

$ \beta_0 = \bar{y} - \beta_1 \bar{x} $

donde:
- $\bar{x}$ es el valor promedio de $x$.
- $\bar{y}$ es el valor promedio de $y$.

#### Interpretación de los Parámetros

- **$\beta_0$ (intersección):** Representa el valor esperado de $y$ cuando $x$ es 0.
- **$\beta_1$ (pendiente):** Indica el cambio esperado en $y$ por cada unidad adicional de $x$.

#### Suposiciones de OLS

Para que las estimaciones obtenidas mediante OLS sean válidas, deben cumplirse ciertas suposiciones:
1. **Linealidad:** La relación entre la variable dependiente y la variable independiente es lineal.
2. **Independencia:** Las observaciones son independientes entre sí.
3. **Homoscedasticidad:** La variabilidad de los errores es constante a lo largo de todos los valores de la variable independiente.
4. **Normalidad de los Errores:** Los errores de la regresión son distribuidos normalmente.
5. **No Multicolinealidad (para regresión múltiple):** Las variables independientes no están altamente correlacionadas entre sí.

#### Ventajas de OLS

- **Simplicidad:** Es fácil de entender e implementar.
- **Interpretabilidad:** Los parámetros tienen una interpretación clara.
- **Eficiencia:** Si las suposiciones se cumplen, OLS produce estimadores que son insesgados y eficientes (con la menor varianza posible).

#### Limitaciones de OLS

- **Sensibilidad a Valores Atípicos:** Los outliers pueden tener un gran impacto en los estimadores.
- **Suposiciones Estrictas:** Las suposiciones deben cumplirse para que los resultados sean válidos.
- **No Captura Relaciones No Lineales:** OLS solo es adecuado para relaciones lineales.

#### Ejemplo de Aplicación en Python

A continuación, se muestra cómo implementar el método OLS en Python usando la librería `statsmodels`:


In [None]:
import numpy as np
import statsmodels.api as sm

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 5, 4, 5])

# Agregar una constante (intersección)
X = sm.add_constant(X)

# Ajustar el modelo OLS
model = sm.OLS(y, X).fit()

# Resumen del modelo
print(model.summary())

## Gradiente Descendente

#### Descripción
El gradiente descendente es un algoritmo iterativo utilizado para minimizar funciones de costo. Es particularmente útil en machine learning para encontrar los parámetros óptimos del modelo.

#### Ecuación / Metodología de Estimación
1. **Inicialización:** Asignar valores iniciales a los parámetros $\theta$.
2. **Cálculo del Gradiente:** Calcular el gradiente de la función de costo $J(\theta)$ con respecto a cada parámetro.
   $\nabla J(\theta) = \left[ \frac{\partial J(\theta)}{\partial \theta_1}, \frac{\partial J(\theta)}{\partial \theta_2}, \ldots, \frac{\partial J(\theta)}{\partial \theta_n} \right]$
3. **Actualización de Parámetros:** Actualizar los parámetros en la dirección del gradiente negativo.
   $\theta := \theta - \alpha \nabla J(\theta)$
   donde $\alpha$ es la tasa de aprendizaje.

#### Interpretación de Parámetros
- Los parámetros $\theta$ representan los coeficientes que definen el modelo. La actualización iterativa ajusta estos coeficientes para minimizar la función de costo.

#### Suposiciones
1. La función de costo es diferenciable.
2. La tasa de aprendizaje es adecuadamente escogida para garantizar la convergencia.


In [None]:
import numpy as np

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5])
y = np.array([1, 3, 2, 3, 5])

# Inicialización
theta = 0
alpha = 0.01  # Tasa de aprendizaje
iterations = 1000

# Función de costo
def cost_function(X, y, theta):
    m = len(y)
    predictions = X * theta
    return (1 / (2 * m)) * np.sum((predictions - y) ** 2)

# Gradiente descendente
for _ in range(iterations):
    gradient = (1 / len(y)) * np.sum(X * (X * theta - y))
    theta -= alpha * gradient

print(f"Parámetro optimizado: {theta}")
print(f"Costo final: {cost_function(X, y, theta)}")


## Gradiente Descendente Estocástico (SGD)

#### Descripción
El gradiente descendente estocástico es una variante del gradiente descendente que actualiza los parámetros del modelo después de cada muestra individual.

#### Ecuación / Metodología de Estimación
1. **Inicialización:** Asignar valores iniciales a los parámetros $\theta$.
2. **Iteración sobre los Datos:** Para cada muestra $i$ en el conjunto de datos:
   $\theta := \theta - \alpha \nabla J(\theta; x^{(i)}, y^{(i)})$
   donde $\nabla J(\theta; x^{(i)}, y^{(i)})$ es el gradiente de la función de costo para la muestra $i$.

#### Interpretación de Parámetros
- Los parámetros $\theta$ se ajustan después de cada muestra, lo que puede conducir a convergencia más rápida en grandes conjuntos de datos.

#### Suposiciones
1. Las observaciones son independientes.
2. La función de costo es diferenciable.



In [None]:
import numpy as np

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5])
y = np.array([1, 3, 2, 3, 5])

# Inicialización
theta = 0
alpha = 0.01  # Tasa de aprendizaje
epochs = 1000

# Gradiente descendente estocástico
for epoch in range(epochs):
    for i in range(len(y)):
        gradient = X[i] * (X[i] * theta - y[i])
        theta -= alpha * gradient

print(f"Parámetro optimizado: {theta}")


## Regularización (Ridge y Lasso)

#### Descripción
La regularización agrega un término de penalización a la función de costo para evitar el sobreajuste y mejorar la generalización del modelo.

#### Ecuación / Metodología de Estimación
- **Ridge Regression (L2 Regularization):**
  $\text{Costo} = \sum_{i=1}^{n} (y_i - \hat{y_i})^2 + \lambda \sum_{j=1}^{p} \beta_j^2$
- **Lasso Regression (L1 Regularization):**
  $\text{Costo} = \sum_{i=1}^{n} (y_i - \hat{y_i})^2 + \lambda \sum_{j=1}^{p} |\beta_j|$

#### Interpretación de Parámetros
- En Ridge, los parámetros $\beta$ se contraen hacia cero pero no pueden ser exactamente cero.
- En Lasso, algunos parámetros $\beta$ pueden ser exactamente cero, lo que realiza selección de características.

#### Suposiciones
1. La relación entre las variables independientes y la variable dependiente es lineal.
2. Las observaciones son independientes.



In [None]:
import numpy as np
from sklearn.linear_model import Ridge, Lasso

# Datos de ejemplo
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1, 3, 2, 3, 5])

# Ridge Regression
ridge = Ridge(alpha=1.0)
ridge.fit(X, y)
print(f"Parámetros Ridge: {ridge.coef_}, Intersección: {ridge.intercept_}")

# Lasso Regression
lasso = Lasso(alpha=0.1)
lasso.fit(X, y)
print(f"Parámetros Lasso: {lasso.coef_}, Intersección: {lasso.intercept_}")


## Método de Máxima Verosimilitud

#### Descripción
Este método busca los parámetros que maximizan la probabilidad de observar los datos dados el modelo.

#### Ecuación / Metodología de Estimación
1. **Función de Verosimilitud:**
   $L(\theta) = P(\text{datos}|\theta)$
2. **Log-Verosimilitud:**
   $\log L(\theta) = \sum_{i=1}^{n} \log P(y_i|\theta)$
3. **Maximización:**
   $\hat{\theta} = \arg\max_{\theta} \log L(\theta)$

#### Interpretación de Parámetros
- Los parámetros $\theta$ se eligen para maximizar la probabilidad de los datos observados.

#### Suposiciones
1. El modelo probabilístico especificado es correcto.
2. Las observaciones son independientes y identicamente distribuidas (i.i.d.).



In [None]:
import numpy as np
from scipy.optimize import minimize

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5])
y = np.array([1, 3, 2, 3, 5])

# Función de verosimilitud negativa
def negative_log_likelihood(params):
    theta = params[0]
    predictions = X * theta
    residuals = y - predictions
    nll = np.sum(residuals**2)
    return nll

# Optimización
result = minimize(negative_log_likelihood, [0])
theta_opt = result.x[0]

print(f"Parámetro optimizado: {theta_opt}")


## Algoritmo Expectation-Maximization (EM)

#### Descripción
Es un método iterativo para encontrar los parámetros máximos de verosimilitud en modelos con variables latentes.

#### Ecuación / Metodología de Estimación
1. **Expectation Step (E-step):** Calcula la expectativa de la función de verosimilitud completa.
2. **Maximization Step (M-step):** Maximiza la función de verosimilitud basada en la expectativa calculada en la E-step.
3. **Iteración:** Repite los pasos anteriores hasta la convergencia.

#### Interpretación de Parámetros
- Los parámetros se estiman para maximizar la verosimilitud esperada de los datos observados y las variables latentes.

#### Suposiciones
1. Las distribuciones de las variables observadas y latentes son conocidas.
2. El modelo especificado es correcto.



In [None]:
import numpy as np
from sklearn.mixture import GaussianMixture

# Datos de ejemplo
X = np.array([[1], [2], [3], [4], [5]])

# Modelo de mezcla gaussiana (EM)
gmm = GaussianMixture(n_components=2, random_state=42)
gmm.fit(X)

print(f"Medias: {gmm.means_.flatten()}")
print(f"Varianzas: {gmm.covariances_.flatten()}")


## Algoritmo de Levenberg-Marquardt

#### Descripción
Combina el gradiente descendente y el método de Newton para minimizar la función de error en problemas de ajuste no lineal.

#### Ecuación / Metodología de Estimación
1. **Actualizar los Parámetros:**
   $\theta := \theta - (J^T J + \lambda I)^{-1} J^T \mathbf{e}$
   donde $J$ es la matriz jacobiana, $\mathbf{e}$ es el vector de errores, y $\lambda$ es un parámetro de regularización.

#### Interpretación de Parámetros
- Los parámetros $\theta$ se ajustan iterativamente para minimizar la función de error, con un equilibrio entre el gradiente descendente y la actualización de Newton.

#### Suposiciones
1. La función de error es diferenciable.
2. La matriz jacobiana $J$ es bien condicionada.


In [None]:
import numpy as np
from scipy.optimize import least_squares

# Datos de ejemplo
X = np.array([1, 2, 3, 4, 5])
y = np.array([1, 3, 2, 3, 5])

# Función de error
def residuals(theta, X, y):
    return X * theta - y

# Optimización
result = least_squares(residuals, 0, args=(X, y))
theta_opt = result.x[0]

print(f"Parámetro optimizado: {theta_opt}")

## Optimización Bayesiana

#### Descripción
Utiliza modelos probabilísticos para buscar el mínimo global de una función. Es especialmente útil cuando las evaluaciones de la función objetivo son costosas.

#### Ecuación / Metodología de Estimación
1. **Modelo Probabilístico:** Construir un modelo probabilístico de la función objetivo, como un proceso gaussiano.
2. **Función de Adquisición:** Maximizar una función de adquisición que equilibra exploración y explotación.
3. **Actualización:** Actualizar el modelo probabilístico con los nuevos puntos de datos obtenidos.

#### Interpretación de Parámetros
- Los parámetros del modelo probabilístico se ajustan para mejorar la precisión de las predicciones y guiar la búsqueda del mínimo global.

#### Suposiciones
1. La función objetivo es costosa de evaluar.
2. Se dispone de un modelo probabilístico adecuado para la función objetivo.



In [None]:
from skopt import gp_minimize

# Función objetivo
def objective(x):
    return (x - 2) ** 2

# Optimización bayesiana
result = gp_minimize(objective, [(-5.0, 5.0)], n_calls=30, random_state=42)
x_opt = result.x[0]

print(f"Parámetro optimizado: {x_opt}")


## Métodos Evolutivos

#### Descripción
Basados en principios de la evolución natural, estos métodos optimizan una función mediante la simulación de procesos como la selección, mutación y recombinación.

#### Ecuación / Metodología de Estimación
1. **Inicialización:** Crear una población inicial de soluciones.
2. **Evaluación:** Evaluar la aptitud de cada solución.
3. **Selección:** Seleccionar las soluciones más aptas para reproducirse.
4. **Cruzamiento y Mutación:** Generar nuevas soluciones mediante cruzamiento y mutación.
5. **Reemplazo:** Reemplazar las soluciones menos aptas con las nuevas soluciones.
6. **Iteración:** Repetir hasta la convergencia o alcanzar un número máximo de generaciones.

#### Interpretación de Parámetros
- Los parámetros representan las soluciones en el espacio de búsqueda y se evolucionan iterativamente para mejorar la aptitud.

#### Suposiciones
1. La función de aptitud es bien definida y permite comparar soluciones.
2. Existe suficiente diversidad en la población inicial para explorar el espacio de soluciones.

Cada uno de estos métodos tiene sus propias ventajas y limitaciones, y la elección del método adecuado depende de la naturaleza del problema y las características de los datos disponibles.

In [None]:
import numpy as np
from scipy.optimize import differential_evolution

# Función objetivo
def objective(x):
    return (x - 2) ** 2

# Optimización diferencial evolutiva
bounds = [(-5.0, 5.0)]
result = differential_evolution(objective, bounds, seed=42)
x_opt = result.x[0]

print(f"Parámetro optimizado: {x_opt}")
