# **Regresion Logistica**

La regresión logistica es un método estadístico y matemático que se utiliza para encontrar una clasificacion entre dos o más variables. Su objetico es predecir la probabilidad de que algo pertenezca a una clase (por ejemplo, sí/no, positivo/negativo, aprobado/reprobado…).

¿Cómo funciona entonces? Al igual que un modelo de Regresión Lineal, un modelo de Regresión Logística calcula una suma ponderada de las características de entrada (más un término de error o bias), pero en lugar de arrojar el resultado directamente —como hace el modelo de Regresión Lineal—, arroja la logística de dicho resultado. Se trata de aprendizaje supervisado, porque se aprende a partir de un conjunto de ejemplos ya clasificados.

Tenemos la suma ponderada siguiente:

$$
\theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n = \theta^T \mathbf{x}
$$

Probabilidad estimada del modelo de Regresión Logística

$$
\hat{p} = h_{\theta}(\mathbf{x}) = \sigma(\theta^T \mathbf{x})
$$

La función logística —denotada como $\sigma(\cdot)$— es una función sigmoide (es decir, en forma de S) que devuelve un número entre 0 y 1. Se define como se muestra:

$$
\sigma(t) = \frac{1}{1 + \exp(-t)}
$$

<p align="center">
  <img src="img/Sigmoide.png" width="400">
</p>

Una vez que el modelo de Regresión Logística ha estimado la probabilidad $\hat{p} = h_{\theta}(\mathbf{x})$ de que una instancia $\mathbf{x}$ pertenezca a la clase positiva, puede realizar su predicción $\hat{y}$ fácilmente:

$$
\hat{y} = \begin{cases} 0 & \text{si } \hat{p} < 0.5 \\ 1 & \text{si } \hat{p} \geq 0.5 \end{cases}
$$

Nótese que $\sigma(t) < 0.5$ cuando $t < 0$, y $\sigma(t) \geq 0.5$ cuando $t \geq 0$, por lo que un modelo de Regresión Logística predice $1$ si $\mathbf{x}^T \mathbf{\theta}$ es positivo, y $0$ si es negativo. 

### Frontera de Decision

La expresion de la funcion sigmoide nos abre a expresiones que sean lineales y no lineales resolviendo esto $\theta^T \mathbf{x} = 0$ pero teniendo los valores de $\theta$, como los ejemplos de las siguientes imagenes:

<div style="display: flex; justify-content: center; align-items: center; gap: 40px;">
  <img src="img/LogitLineal.png" alt="Izquierda" width="400">
  <img src="img/LogitNoLineal.png" alt="Derecha" width="425">
</div>

### Funcion de Coste

La función de costo (también llamada función de pérdida) es una de las partes más importantes de la regresión logística, porque mide qué tan bien o mal está funcionando el modelo.

El Coste asociado a cada ejemplo se define como:

$$
\text{Coste}(h_\theta(x), y) =
\begin{cases}
-\log\big(h_\theta(x)\big), & \text{si } y = 1,\\[8pt]
-\log\big(1 - h_\theta(x)\big), & \text{si } y = 0.
\end{cases}
$$

Es decir 
$$
\text{Coste}(h_\theta(x), y) = -y\log\big(h_\theta(x)\big) -(1-y)\log\big(1 - h_\theta(x)\big)
$$

<div style="display: flex; justify-content: center; align-items: center; gap: 40px;">
  <img src="img/CosteLogit1.png" alt="Izquierda" width="500">
  <img src="img/CosteLogit2.png" alt="Derecha" width="485">
</div>

Coste total de todos los datos de entrenamiento del modelo es:

$$
J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \Big[ y^{(i)} \log\big(h_\theta(x^{(i)})\big) + (1 - y^{(i)}) \log\big(1 - h_\theta(x^{(i)})\big) \Big]
$$

#### Minimizacion del costo

Hallaremos la **gradiente** $\nabla_\theta J(\theta)$, pero recordemos lo siguiente $\sigma'(z) = \sigma(z)(1 - \sigma(z))$, entonces para un solo ejemplo:

$$
\ell^{(i)}(\theta) = -\Big[ y^{(i)}\log(\sigma(z^{(i)})) + (1-y^{(i)})\log(1-\sigma(z^{(i)}))\Big]
$$

$$
\frac{d\ell^{(i)}}{dz^{(i)}} 
= -\left[ y^{(i)}\frac{1}{\sigma(z^{(i)})}\sigma'(z^{(i)}) + (1-y^{(i)})\frac{1}{1-\sigma(z^{(i)})}(-\sigma'(z^{(i)})) \right].
$$

$$
\frac{d\ell^{(i)}}{dz^{(i)}} 
= -\sigma'(z^{(i)})\left[\frac{y^{(i)}}{\sigma(z^{(i)})} - \frac{1-y^{(i)}}{1-\sigma(z^{(i)})}\right].
$$

Sustituyendo $\sigma'(z) = \sigma(z)(1-\sigma(z))$ y simplificando:

$$
\frac{d\ell^{(i)}}{dz^{(i)}} = \sigma(z^{(i)}) - y^{(i)} = h_\theta(x^{(i)}) - y^{(i)}.
$$

Aplicamos la regla de la cadena respecto a $\theta$:

$$
\frac{\partial \ell^{(i)}}{\partial \theta} 
= \frac{d\ell^{(i)}}{dz^{(i)}} \cdot \frac{\partial z^{(i)}}{\partial \theta}
= \big(h_\theta(x^{(i)}) - y^{(i)}\big) x^{(i)}.
$$

### Gradiente del Costo

Asi que la gradiente sobre el conjunto m es:

$$
\nabla_\theta J(\theta)
= \frac{1}{m}\sum_{i=1}^m \frac{\partial \ell^{(i)}}{\partial \theta}
= \frac{1}{m}\sum_{i=1}^m \big(h_\theta(x^{(i)}) - y^{(i)}\big)\, x^{(i)}.
$$

De forma vectorizada tenemos:

$$
\nabla_\theta J(\theta) = \frac{1}{m} X^T (\mathbf{h} - \mathbf{y})
$$

Definimos:

- $X$: matriz $m \times n$ (filas = $x^{(i)T}$)
- $\mathbf{h} = \sigma(X\theta)$: vector $m \times 1$
- $\mathbf{y}$: vector de etiquetas reales $m \times 1$

### Descenso de gradiente

Para obtener los valores de $\theta$ optimos utilizamos la gradiente calculada anteriormente para iterar sobre estos valores $\theta$ hasta obtener el optimo. Ademas la función de costo es convexa, por lo que el Gradiente Descendente (o cualquier otro algoritmo de optimización) tiene garantizado encontrar el mínimo global.

$$
\theta := \theta - \alpha \nabla_\theta J(\theta)
= \theta - \alpha \left( \frac{1}{m} X^T(\mathbf{h}-\mathbf{y}) \right)
$$

donde $\alpha$ es la **tasa de aprendizaje** (*learning rate*).

### Implementacion

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn import datasets

In [2]:
def add_bias(X):
    X_b = np.c_[np.ones((X.shape[0], 1)), X]
    return X_b

def sigmoid(z):
    return 1 / (1 + np.exp(-z))

def gradientDescent(lr,n_epochs,X, y):
    m = X.shape[0]
    n = X.shape[1]
    theta = np.random.randn(n,1)

    for i in range(n_epochs):
        h = sigmoid(X @ theta)
        gradients = 1/m * X.T @ (h - y)
        theta -= lr * gradients

    return theta

In [3]:
m = 100   # Cantidad de datos
n = 3     # Features

X = 2 * np.random.randn(m, n)
X_b = add_bias(X)

true_theta = np.array([[2], [1.5], [-2], [0.5]])

p = sigmoid(X_b @ true_theta)
y = (np.random.rand(m, 1) < p).astype(int)

theta = gradientDescent(0.1, 1000, X_b, y)

print("\nParámetros aprendidos (θ):")
print(theta)



Parámetros aprendidos (θ):
[[ 1.32828484]
 [ 0.93522895]
 [-1.99756048]
 [ 0.51034477]]


In [4]:
m = 100   # Cantidad de datos
n = 3     # Features

X = 2 * np.random.randn(m, n)
X_b = add_bias(X)

true_theta = np.array([[2], [1.5], [-2], [0.5]])

p = sigmoid(X_b @ true_theta)
y = (np.random.rand(m, 1) < p).astype(int)

model = LogisticRegression(C=1e5)

model.fit(X, y.ravel())

print("--- Resultados Sklearn ---")
print(f"Intercepto (Bias): {model.intercept_}")
print(f"Coeficientes: {model.coef_}")

--- Resultados Sklearn ---
Intercepto (Bias): [2.40781834]
Coeficientes: [[ 2.06383331 -2.06768501  1.11541491]]
