Consulte y presente el modelo y problema de optimización de los siguientes clasificadores

-  Naive Bayes Gaussian NB
- SGDClasffier
- LogisticRegression
- LinearDiscriminantAnalysis
- KNeighborsClassifier
- SVC
- RandomForestClassifier
-GuassianProcessClassifier


## Naive Bayes Gaussian NB

Naïve Bayes es un clasificador probabilístico basado en el teorema de Bayes, que asume independencia condicional entre las características. GaussianNB es una variante que supone que los datos siguen una distribución normal (gaussiana). Como está basado en el teorema de bayes, que establece que la probabilidad de una clase "C", dato un conjunto de características X se expresa como:

$$
P(C|X) = \frac{P(X|C)P(C)}{P(X)}
$$

Donde:

* $P(C)$ es la probabilidad previa de la clase.
* $P(X|C)$ es la probabilidad condicional de los datos dado la clase.
* $P(X)$ es la probabilidad marginal de los datos.

En el caso de `GaussianNB`, asumimos que cada característica $x_i$ sigue una distribución normal:

$$
P(x_i|C) = \frac{1}{\sqrt{2\pi\sigma_C^2}} \exp\left(-\frac{(x_i - \mu_C)^2}{2\sigma_C^2}\right)
$$

Donde $\mu_C$ y $\sigma_C^2$ son la media y varianza de la característica $x_i$ en la clase $C$.


**Problema de optimización: Maximización de la verosimilitud**

En Naïve Bayes, queremos encontrar los parámetros $\mu_C$ y $\sigma_C^2$ de cada clase $C$ que maximizan la función de verosimilitud:

$$
L(\theta) = \prod_{i=1}^{N} P(y_i|x_i, \theta)
$$

Dado que asumimos independencia condicional y una distribución gaussiana para cada característica:

$$
P(x_i|C) = \prod_{j=1}^{d} \frac{1}{\sqrt{2\pi\sigma_C^2}} \exp\left(-\frac{(x_{ij} - \mu_C)^2}{2\sigma_C^2}\right)
$$

Tomamos el logaritmo para obtener la log-verosimilitud:

$$
\log L(\theta) = \sum_{i=1}^{N} \sum_{j=1}^{d} \left[ -\frac{1}{2} \log(2\pi\sigma_C^2) - \frac{(x_{ij} - \mu_C)^2}{2\sigma_C^2} \right]
$$

La optimización consiste en derivar respecto a $\mu_C$ y $\sigma_C^2$ e igualar a cero:

$$
\mu_C = \frac{1}{N_C} \sum_{i \in C} x_i, \quad \sigma_C^2 = \frac{1}{N_C} \sum_{i \in C} (x_i - \mu_C)^2
$$

donde $N_C$ es el número de muestras en la clase $C$.

DATOS A TENER EN CUENTA: 


- La independencia entre caracteristicas rara vez se cumple en datos reales.
- No maneja bien características correlacionadas.


# **SGDClassifier: Descenso de Gradiente Estocástico**

## **¿Por qué se llama así?**
El nombre **Descenso de Gradiente Estocástico (SGD)** proviene de:
- **Descenso de Gradiente**: Método de optimización que ajusta los parámetros iterativamente en dirección opuesta al gradiente de la función de pérdida.
- **Estocástico**: Indica que el gradiente se estima con una muestra o un minibatch en cada iteración, en lugar de usar todo el conjunto de datos.

## **Modelo Matemático**
SGD se usa para entrenar modelos lineales como:
- **Regresión logística** (clasificación binaria).
- **Máquinas de soporte vectorial (SVM)** (clasificación de margen máximo).

Un **clasificador lineal** tiene la forma general:

$$
\hat{y} = \text{sign}(w^T x + b)
$$

Donde:
- $\hat{y} $ es la predicción (+1 o -1 en clasificación binaria).
- \( x \) es el vector de características.
- \( w \) es el vector de pesos.
- \( b \) es el sesgo (bias).
- $ \text{sign}(\cdot)$ asigna la clase según el signo de la combinación lineal.

## **Problema de Optimización**
El objetivo es minimizar una **función de pérdida**. Ejemplos:

- **Regresión logística (log-loss):**

$$
L(w) = \frac{1}{N} \sum_{i=1}^{N} \log(1 + e^{-y_i (w^T x_i + b)})
$$

- **Máquinas de soporte vectorial (hinge loss):**

$$
L(w) = \frac{1}{N} \sum_{i=1}^{N} \max(0, 1 - y_i (w^T x_i + b))
$$

- **Función de costo con regularización:**

$$
\min_{w} \frac{1}{N} \sum_{i=1}^{N} L(y_i, w^T x_i) + \lambda R(w)
$$

Donde:

- $ R(w) $ es un término de regularización $L2: \frac{1}{2} \|w\|^2\) o L1: \|w\|_1\$.
- $\lambda $ controla la penalización de los pesos.
## **Actualización de Parámetros con SGD**
En cada iteración $ t $, se selecciona una muestra $(x_t, y_t) $ y se actualizan los pesos:

$$
 w^{(t+1)} = w^{(t)} - \eta \nabla L(y_t, w^T x_t)
$$

Donde:
- $\eta$ es la tasa de aprendizaje (learning rate).
- $\nabla L(y_t, w^T x_t)$ es el gradiente de la función de pérdida.

Este enfoque permite convergencia rápida en grandes conjuntos de datos.

## **Conclusión**
El **SGDClassifier** implementa esta estrategia para entrenar clasificadores lineales eficientemente en grandes volúmenes de datos, aprovechando el descenso de gradiente en muestras individuales para actualizar los pesos de forma iterativa.


# **Regresión Logística**

La **Regresión Logística** es un modelo estadístico utilizado para problemas de clasificación binaria. En lugar de predecir directamente una clase, estima la **probabilidad** de que una observación pertenezca a una categoría.

## **Modelo Matemático**
Dado un conjunto de datos con características \( x \) y etiquetas \( y \in \{0,1\} \), la regresión logística modela la probabilidad de que \( y = 1 \) como:

$$
P(y=1 | x) = \sigma(w^T x + b)
$$

Donde:
- $ \sigma(z) $ es la **función sigmoide**, definida como:
  
  $$
  \sigma(z) = \frac{1}{1 + e^{-z}}
  $$
  
- $ w $ es el vector de pesos del modelo.
- $ x $ es el vector de características de entrada.
- $ b $ es el sesgo (bias).

La decisión final se toma aplicando un umbral (por lo general, 0.5):

$$
\hat{y} = \begin{cases} 
1, & \text{si } P(y=1 | x) \geq 0.5 \\
0, & \text{si } P(y=1 | x) < 0.5
\end{cases}
$$

## **Problema de Optimización**
El objetivo es encontrar los parámetros $ w $ y $ b $ que minimicen la **función de pérdida logarítmica (log-loss):**

$$
L(w) = - \frac{1}{N} \sum_{i=1}^{N} \left[y_i \log(\sigma(w^T x_i)) + (1 - y_i) \log(1 - \sigma(w^T x_i))\right]
$$

Donde:
- $ N $ es el número total de muestras.
- $ y_i $ es la etiqueta real de la muestra $ i $.
- $ \sigma(w^T x_i) $ es la probabilidad predicha de que $ y_i = 1 $.

Para evitar sobreajuste, se añade un término de regularización \( R(w) \):

$$
\min_{w} \frac{1}{N} \sum_{i=1}^{N} L(y_i, w^T x_i) + \lambda R(w)
$$

Donde $ \lambda $ controla la penalización. Las opciones comunes son:
- **L2 Regularización (Ridge):** $ R(w) = \frac{1}{2} \|w\|^2 $
- **L1 Regularización (Lasso):** $ R(w) = \|w\|_1 $

## **Optimización con Descenso de Gradiente**
Los parámetros se actualizan iterativamente usando el **gradiente descendente**:

$$
 w^{(t+1)} = w^{(t)} - \eta \nabla L(w)
$$

Donde $ \eta $ es la tasa de aprendizaje y el gradiente de la función de pérdida es:

$$
\nabla L(w) = \frac{1}{N} \sum_{i=1}^{N} (\sigma(w^T x_i) - y_i) x_i
$$

## **Conclusión**
La **Regresión Logística** es un modelo poderoso para clasificación binaria, que utiliza la función sigmoide para predecir probabilidades y se optimiza con descenso de gradiente para ajustar los parámetros.


## LDA - LINEAR DISCRIMINANT ANALYSIS

El Análisis Discriminante Lineal (LDA) es un método de clasificación supervisado que encuentra una combinación lineal de características que maximiza la separación entre clases. Su objetivo es proyectar los datos en un espacio de menor dimensión mientras se conserva la mayor discriminación posible entre las clases.

LDA es útil cuando se quiere:

* Reducir la dimensionalidad de los datos (similar a PCA, pero considerando información de clase).
* Maximizar la separabilidad entre diferentes clases en problemas de clasificación.
* Mejorar la interpretabilidad de los datos en un espacio más pequeño.

## **Modelo Matemático**

Dado un conjunto de datos con $ C $ clases, LDA busca encontrar una **proyección lineal** de los datos de entrada $ X $ en un nuevo espacio donde la separación entre clases sea máxima.

Sea $ x \in \mathbb{R}^d $ un vector de características y $ y \in \{1, 2, ..., C\} $ la etiqueta de clase, LDA modela la probabilidad condicional $ P(x | y) $ bajo la suposición de que:

1. Las muestras de cada clase siguen una distribución normal multivariada.
2. Todas las clases comparten la misma matriz de covarianza \( \Sigma \).

La función de decisión lineal de LDA se define como:

$$
\delta_c(x) = x^T \Sigma^{-1} \mu_c - \frac{1}{2} \mu_c^T \Sigma^{-1} \mu_c + \log P(y=c)
$$

Donde:
- $ \mu_c $ es el vector de medias de la clase $ c $.
- $ \Sigma $ es la matriz de covarianza compartida entre todas las clases.
- $ P(y=c) $ es la probabilidad a priori de la clase $ c $.

Un dato $ x $ se asigna a la clase con la mayor $ \delta_c(x) $:

$$
\hat{y} = \arg\max_{c} \delta_c(x)
$$

---

## **Cálculo de los Parámetros**

1. **Media de cada clase:**
   $$
   \mu_c = \frac{1}{N_c} \sum_{i: y_i = c} x_i
   $$
   donde $ N_c $ es el número de muestras en la clase $ c $.

2. **Matriz de covarianza compartida:**
   $$
   \Sigma = \frac{1}{N - C} \sum_{c=1}^{C} \sum_{i: y_i = c} (x_i - \mu_c)(x_i - \mu_c)^T
   $$

3. **Vectores discriminantes de Fisher:**  
   Para reducir la dimensionalidad, LDA encuentra los **autovectores** de la matriz $ S_w^{-1} S_b $, donde:
   - $ S_w $ es la matriz de dispersión intra-clase.
   - $ S_b $ es la matriz de dispersión entre clases.

   $$
   S_w = \sum_{c=1}^{C} \sum_{i: y_i = c} (x_i - \mu_c)(x_i - \mu_c)^T
   $$

   $$
   S_b = \sum_{c=1}^{C} N_c (\mu_c - \mu)(\mu_c - \mu)^T
   $$

   donde $ \mu $ es la media general de los datos.

Los **autovectores** de $ S_w^{-1} S_b $ proporcionan las direcciones óptimas para la proyección de los datos.
