# Regresión logística

## Qué es?

La regresión logística es un modelo de clasificación binaria en el que se calcula la probabilidad de ocurrencia. Con base en la probabilidad calculada el modelo discrimina la información de modo que la etiqueta como 1 o 0. Si $p < 0.5$ se clasifica como 0 y si $p > 0.5$ se clasifica como 1.

## Cómo se calcula?

Para calcular la probabilidad se utiliza el concepto de log odds, con el que se calcula el valor de z, el cual finalmente funciona para el cálcula de las probabilidades. 

## Verosimilitud General

La función de verosimilitud es:

$$L(\theta, \sigma^2) = \prod_{i=1}^{m} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - \theta^T X_i)^2}{2\sigma^2}\right)$$

Se aplica logaritmo

$$\log L(\theta, \sigma^2) = \sum_{i=1}^{m} \left( -\frac{1}{2} \log(2\pi\sigma^2) - \frac{(y_i - \theta^T X_i)^2}{2\sigma^2} \right)$$

Para maximizar la verosilimitud se ignoran los términos constantes

$$\max_{\theta} \sum_{i=1}^{m} -\frac{(y_i - \theta^T X_i)^2}{2\sigma^2}$$

Esto equivale a minimizar el error cuadrático:

$$\min_{\theta} \sum_{i=1}^{m} (y_i - \theta^T X_i)^2$$


Minimizar el error cuadrático con OLS (mínimos cuadrados) es lo mismo que maximizar la verosimilitud.

---

## Verosimilitud en regresión lineal

Ya que sigue una distribución de bernoulli, la forma es:

$$L(\theta) = \prod_{i=1}^{m} p(y_i | X_i; \theta) = \prod_{i=1}^{m} \left[ \sigma(\theta^T X_i) \right]^{y_i} \cdot \left[ 1 - \sigma(\theta^T X_i) \right]^{(1 - y_i)}$$

Al tomar el logaritmo de la verosimilitud**:

$$\log L(\theta) = \sum_{i=1}^{m} \left[ y_i \log \sigma(\theta^T X_i) + (1 - y_i) \log (1 - \sigma(\theta^T X_i)) \right]$$

### Función de Pérdida
Para estimar $\theta$, **maximizamos la log-verosimilitud**. 

$$
J(\theta) = \frac{1}{m} \sum_{i=1}^{m} \left[ y_i \log \sigma(\theta^T X_i) + (1 - y_i) \log (1 - \sigma(\theta^T X_i)) \right]
$$

# Odds y log odds

Las odds son la razón de éxito frente al fracaso en donde se calculan con la fórmmula

$$\text{odds} = \frac{p}{1-p}$$

Ya que este crecimiento es exponencial, se aplica logaritmo, de modo que se linealize este comportamiento.

$$log \text{ odds} = log (\frac{p}{1-p})$$

---

Una vez que se tienen los coeficientes de la regresión logística, con ayuda del simoide se calcula la combinación lineal de los coeficientes con las características (X), obteniendo el valor de z 

$$z=\Theta ^T X$$

Con esto se ultiliza la fórmula

$$p= \frac{1}{1 + e^{-z}}$$

donde p es la probabilidad de que l modelo clasifique como 1. Si la probabilidad es menor a 0.5 se clasifica como 0 y si es mayor a 0.5 de clasiifica como 1.

# Softmax

El softmax se utiliza de manera similar a la regresión logísica, sin embargo, este clasifica en más de dos clases (0 y 1) modelando las probabilidad para cada una de las clases.

La función Softmax convierte las salidas de la función lineal en probabilidades:

$$P(y = k | \mathbf{x}) = \frac{e^{\mathbf{w}_k \cdot \mathbf{x} + b_k}}{\sum_{j=1}^{K} e^{\mathbf{w}_j \cdot \mathbf{x} + b_j}}$$

**Ejemplo Numérico**

Si tenemos 3 clases y logits calculados como:

$$z_1 = 2, \quad z_2 = 1, \quad z_3 = -1$$

Aplicamos Softmax:

$$P(y=1) = \frac{e^2}{e^2 + e^1 + e^{-1}} = 0.72$$

$$P(y=2) = \frac{e^1}{e^2 + e^1 + e^{-1}} = 0.26$$

$$P(y=3) = \frac{e^{-1}}{e^2 + e^1 + e^{-1}} = 0.04$$

Esto indica que la clase 1 es la más probable.

# Análisis del discriminante lineal

# Redes neuronales

En una red neuronal hay una entrada de datos, seguido de n capas. En cada una de las capas los datos con multiplicados por unos pesos (combinación lineal) y son transformados con base en una función de activación, la cual puede ser diferente o igual a la del resto de capas. Finalmente el modelo arroga un único resultado. Ya que este resultado es bastante malo se distribuye el error calculado en las neuronas a todo el resto de capas, modificando los pesos de la combinación lineal, y mejorando el resultado. 

# AUC

El AUC es una métrica de desempeo que se representa graficamente como el área bajo la curva ROC. Si se toman dos personas al azar una clasificada con 1 y una con 0, el AUC es la probabilidad de que la persona clasificada con 1 tena una mayor probabilidad a la persona clasificada con 0.