## Regresión Polinómica

Modelo de acuerdo al orden

Orden 0
$$
h^{(0)}(x) = w_0
$$

Orden 1:
$$
h^{(1)}(x) = w_1 x_1 + w_2 x_2 + ... + w_n x_n + w_0
$$

Orden 2:
$$
h^{(2)}(x) = w_1 x_1^2 + w_2 x_2^2 + ... + w_n x_n^2 + w_{1,2} x_1 x_2 + w_{1,3} x_1 x_3 + ... + w_{n-1,n} x_{n-1} x_n + w_0
$$

Para encontrar los parámetros óptimos $\theta$ que minimizan la función de costo $J(\theta)$, se utiliza la notación de $\arg\min$:

$$
\theta^* = \arg\min_{\theta} J(\theta)
$$

Donde:
- $\theta^*$ es el valor óptimo de los parámetros.
- $J(\theta)$ es la función de costo (por ejemplo, el error cuadrático medio).

La igualdad se cumple cuando:

$$
J(\theta^*) = \frac{1}{2m} \sum_{i=1}^m (y^{(i)} - h(x^{(i)}))^2
$$

Es decir, $J(\theta^*)$ es el valor mínimo alcanzable de la función de costo.

El orden $q$ es un parámetro del modelo, que es el orden del polinomio. 


## Regresión Lineal

La **regresión lineal** es un método estadístico para modelar la relación entre una variable dependiente $y$ y una o más variables independientes $x$. El objetivo es encontrar la recta (o hiperplano) que mejor se ajusta a los datos.

### Modelo matemático (una variable):
$$
y \approx h(x) = w_0 + w_1 x
$$

Donde:
- $y$ es la variable dependiente (lo que queremos predecir).
- $x$ es la variable independiente.
- $w_0$ es el intercepto (ordenada al origen).
- $w_1$ es la pendiente (cuánto cambia $y$ por cada unidad de $x$).

### Modelo matemático (múltiples variables):
$$
y \approx h(x) = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_n x_n
$$

El objetivo es encontrar los valores de $w_0, w_1, \ldots, w_n$ que minimizan el error entre las predicciones y los valores reales, normalmente usando el método de mínimos cuadrados:
$$
\min_{w} \sum_{i=1}^m (y^{(i)} - h(x^{(i)}))^2
$$

Donde $m$ es el número de ejemplos en el conjunto de datos.

## Función Logística (Sigmoide)

La **función logística** o **sigmoide** es ampliamente utilizada en modelos de clasificación, especialmente en regresión logística y redes neuronales.

### Definición matemática

La función logística se define como:
$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$
donde:
- $z$ es una variable real (puede ser una combinación lineal de entradas y pesos: $z = w_0 + w_1 x_1 + \cdots + w_n x_n$).

### Propiedades
- Su salida está acotada entre 0 y 1.
- Es una función suave y diferenciable.
- Se interpreta como una probabilidad en clasificación binaria.

### Paso a paso
1. **Calcular $z$:** Sumar el sesgo y las entradas ponderadas.
   $$
   z = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_n x_n
   $$
2. **Aplicar la función logística:**
   $$
   \sigma(z) = \frac{1}{1 + e^{-z}}
   $$
3. **Interpretar el resultado:**
   - Si $\sigma(z) \approx 1$, la clase predicha es positiva.
   - Si $\sigma(z) \approx 0$, la clase predicha es negativa.

### Gráfica
La función tiene forma de "S" y transforma cualquier valor real a un rango entre 0 y 1.

![sigmoid](https://upload.wikimedia.org/wikipedia/commons/8/88/Logistic-curve.svg)

## Clasificación Multiclase: Regresión Logística Multinomial (Softmax)

Cuando la variable de salida $y$ puede tomar más de dos valores (clases), el problema es de **clasificación multiclase**. El modelo más común es la **regresión logística multinomial** o **softmax**.

### Terminología y notación
- $K$: número de clases posibles ($y \in \{1, 2, ..., K\}$).
- $x \in \mathbb{R}^n$: vector de características de entrada.
- $w_k \in \mathbb{R}^n$: vector de pesos para la clase $k$.
- $b_k$: sesgo para la clase $k$.
- $z_k = w_k^T x + b_k$: puntuación (logit) para la clase $k$.

### Función softmax
La función softmax convierte los logits $z_k$ en probabilidades para cada clase:
$$
P(y = k | x) = \frac{e^{z_k}}{\sum_{j=1}^K e^{z_j}}
$$
donde:
- $P(y = k | x)$ es la probabilidad de que la entrada $x$ pertenezca a la clase $k$.
- $z_k$ es el logit para la clase $k$.

### Predicción
La clase predicha es aquella con mayor probabilidad:
$$
\hat{y} = \arg\max_k P(y = k | x)
$$

### Función de costo: Entropía cruzada categórica
La función de costo para clasificación multiclase es la **entropía cruzada categórica**:
$$
J(W) = -\frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K y_k^{(i)} \log \hat{y}_k^{(i)}
$$
donde:
- $m$ es el número de ejemplos.
- $y_k^{(i)}$ es 1 si el ejemplo $i$ pertenece a la clase $k$, 0 en otro caso (codificación one-hot).
- $\hat{y}_k^{(i)}$ es la probabilidad predicha para la clase $k$ en el ejemplo $i$.

### Resumen del proceso
1. Para cada clase $k$, se calcula $z_k = w_k^T x + b_k$.
2. Se aplica la función softmax para obtener probabilidades.
3. Se predice la clase con mayor probabilidad.
4. Se ajustan los parámetros $W = \{w_1, ..., w_K\}$ y $b = \{b_1, ..., b_K\}$ minimizando la entropía cruzada categórica.

### Ejemplo concreto
Supón $K=3$ clases y $x \in \mathbb{R}^2$. Para una entrada $x = [1, 2]$ y parámetros:
- $w_1 = [1, 0]$, $b_1 = 0$
- $w_2 = [0, 1]$, $b_2 = 0$
- $w_3 = [-1, -1]$, $b_3 = 0$

Calculamos:
$z_1 = 1*1 + 0*2 = 1$
$z_2 = 0*1 + 1*2 = 2$
$z_3 = -1*1 + -1*2 = -3$

Softmax:
$$
P(y=1|x) = \frac{e^1}{e^1 + e^2 + e^{-3}} \approx 0.23
$$
$$
P(y=2|x) = \frac{e^2}{e^1 + e^2 + e^{-3}} \approx 0.76
$$
$$
P(y=3|x) = \frac{e^{-3}}{e^1 + e^2 + e^{-3}} \approx 0.01
$$
Por lo tanto, la clase predicha es la 2.

#### Bibliografía
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning.

## Definición formal de función sigmoidal

Sea $s: \mathbb{R} \to \mathbb{R}$ una función. Se dice que $s$ es **sigmoidal** si cumple las siguientes propiedades:

1. **Acotada:** Existen constantes $a, b \in \mathbb{R}$ tales que para todo $x \in \mathbb{R}$, $a < s(x) < b$.

2. **Clase $C^1$:** $s$ es continuamente diferenciable en todo $\mathbb{R}$ (es decir, $s \in C^1(\mathbb{R})$).

3. **Derivada positiva:** Para todo $x \in \mathbb{R}$, $s'(x) > 0$.

Un ejemplo clásico de función sigmoidal es la función logística:
$$
s(x) = \frac{1}{1 + e^{-x}}
$$

Propiedades:

Si $s$ es sigmoidal, entonces es monotona y tiene asintotas en $x \to -\infty$ y $x \to +\infty$.

def: La funcion logistica se define como:
$$
s(x) = \frac{L}{1 + e^{-\rho (x - x_0)}}
$$      

si L = 1, rho = 1, x_0 = 0, entonces:
$$
s(x) = \frac{1}{1 + e^{-x}}
$$

## Regresión Logística

La **regresión logística** es un modelo estadístico utilizado para problemas de clasificación binaria, es decir, cuando la variable de salida $y$ solo puede tomar dos valores (por ejemplo, 0 o 1, "no" o "sí").

### Motivación
A diferencia de la regresión lineal, que predice valores continuos, la regresión logística predice la probabilidad de que una observación pertenezca a una de dos clases.

### Modelo matemático
La regresión logística modela la probabilidad de la clase positiva ($y=1$) como:
$$
P(y=1|x) = \sigma(z) = \frac{1}{1 + e^{-z}}
$$
donde $z = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_n x_n$ es una combinación lineal de las variables de entrada.

La predicción final se obtiene aplicando un umbral (por ejemplo, 0.5):
$$
\hat{y} = \begin{cases}
1 & \text{si } \sigma(z) \geq 0.5 \\
0 & \text{si } \sigma(z) < 0.5
\end{cases}
$$

### Función de costo (Log-Loss o Entropía Cruzada)
La función de costo utilizada es la **entropía cruzada**:
$$
J(\theta) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{y}^{(i)}) \right]
$$
donde $m$ es el número de ejemplos.

### Ejemplo numérico sencillo
Supongamos que tenemos un solo predictor $x$ y los siguientes parámetros: $w_0 = -3$, $w_1 = 2$. Queremos predecir la probabilidad de $y=1$ para $x=2$.

1. Calculamos $z$:
$$
z = w_0 + w_1 x = -3 + 2 \times 2 = 1
$$

2. Aplicamos la función sigmoide:
$$
\sigma(1) = \frac{1}{1 + e^{-1}} \approx 0.731
$$

3. Interpretación:
La probabilidad de que $y=1$ dado $x=2$ es aproximadamente 73.1%. Si usamos un umbral de 0.5, predecimos $y=1$.

### Generalización a múltiples variables
Para $n$ variables de entrada:
$$
z = w_0 + w_1 x_1 + w_2 x_2 + \cdots + w_n x_n
$$
y se aplica la función sigmoide a $z$.

### Resumen
- La salida de la regresión logística es una probabilidad entre 0 y 1.
- Se utiliza para clasificación binaria.
- La función de costo es la entropía cruzada.
- El modelo se entrena ajustando los pesos $w$ para minimizar la función de costo.

#### Bibliografía
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning.
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning.

### Problema inverso en regresión logística

El **problema inverso** en regresión logística consiste en encontrar los parámetros óptimos $w$ (pesos y sesgo) que mejor se ajustan a los datos de entrenamiento. Es decir, dados un conjunto de ejemplos $(x^{(i)}, y^{(i)})$, buscamos los valores de $w$ que minimizan la función de costo.

#### Formulación matemática
El objetivo es resolver:
$$
w^* = \arg\min_{w} J(w)
$$
donde $J(w)$ es la función de costo (entropía cruzada):
$$
J(w) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log(\hat{y}^{(i)}) + (1 - y^{(i)}) \log(1 - \hat{y}^{(i)}) \right]
$$
con $\hat{y}^{(i)} = \sigma(w_0 + w_1 x_1^{(i)} + ... + w_n x_n^{(i)})$.

#### ¿Cómo se resuelve?
- Se utilizan algoritmos de optimización numérica, como **gradiente descendente** o variantes (stochastic, mini-batch, etc.), para ajustar los parámetros iterativamente.
- En cada iteración, se calcula el gradiente de la función de costo respecto a los parámetros y se actualizan los pesos en la dirección que reduce el error.

#### Resumen
- El problema inverso es el proceso de entrenamiento: ajustar los parámetros del modelo para que las predicciones se acerquen lo más posible a las etiquetas reales.
- El resultado es un conjunto de pesos $w^*$ que minimizan la función de costo sobre los datos de entrenamiento.

¿Te gustaría ver un ejemplo de código para el ajuste de parámetros con gradiente descendente?