# Explicación de la Regresión Logística

La **Regresión Logística** es un modelo estadístico utilizado para modelar la probabilidad de un resultado binario (dicotómico), es decir, una variable dependiente que puede tomar solo uno de dos valores posibles (ej. sí/no, 0/1, éxito/fracaso, compra/no compra). Aunque su nombre incluye "regresión", no predice un valor numérico continuo, sino la probabilidad de que ocurra una de las categorías del resultado.

## Propósito

El propósito principal de la Regresión Logística es estimar la **probabilidad de que un evento ocurra** en función de una o más variables predictoras (independientes), que pueden ser continuas, categóricas o una mezcla de ambas. Luego, esta probabilidad puede usarse para clasificar nuevas observaciones.

## La Función Logit (o Enlace)

A diferencia de la regresión lineal que modela la relación directamente entre la variable dependiente y las independientes, la regresión logística modela la relación entre las variables independientes y la **transformación logit** de la probabilidad de éxito. La función logit se define como el logaritmo natural de las odds (razón de probabilidades):

$$ \text{logit}(p) = \ln\left(\frac{p}{1-p}\right) $$

Donde:

* $p$ : Es la probabilidad de que el evento de interés ocurra (ej., la probabilidad de comprar el producto).
* $\frac{p}{1-p}$ : Son las **odds** (razón de probabilidades), que representan la relación entre la probabilidad de que el evento ocurra y la probabilidad de que no ocurra.

## El Modelo de Regresión Logística

El modelo lineal de la regresión logística relaciona las variables predictoras con el logit de la probabilidad:

$$ \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \dots + \beta_k X_k $$

Donde:

* $\beta_0$ : Es la ordenada al origen (intercepto).
* $\beta_1, \beta_2, \dots, \beta_k$ : Son los coeficientes de regresión para las variables predictoras $X_1, X_2, \dots, X_k$.
* $X_1, X_2, \dots, X_k$ : Son las variables predictoras.

## Transformando a Probabilidad

Para obtener la probabilidad $p$ a partir de la ecuación logit, se aplica la función inversa del logit, que es la **función sigmoide (o logística)**:

$$ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k)}} $$

O de forma equivalente:

$$ p = \frac{e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k}}{1 + e^{\beta_0 + \beta_1 X_1 + \dots + \beta_k X_k}} $$

Donde $e$ es la base del logaritmo natural (aproximadamente 2.71828). Esta función sigmoide comprime cualquier valor real en un rango entre 0 y 1, lo que la hace ideal para modelar probabilidades.

## Interpretación de los Coeficientes ($\beta$) y Odds Ratios (OR)

Los coeficientes $\beta_i$ en la escala logit son difíciles de interpretar directamente. Sin embargo, al exponentiarlos ($e^{\beta_i}$), obtenemos los **Odds Ratios (OR)**, que son mucho más interpretables:

$$ \text{OR}_i = e^{\beta_i} $$

* **Si $X_i$ es una variable continua:** Un $OR_i$ indica el cambio multiplicativo en las odds de que el evento ocurra por cada incremento de una unidad en $X_i$, manteniendo el resto de variables constantes.
    * $OR_i > 1$: A medida que $X_i$ aumenta, las odds de que el evento ocurra aumentan.
    * $OR_i < 1$: A medida que $X_i$ aumenta, las odds de que el evento ocurra disminuyen.
    * $OR_i = 1$: $X_i$ no tiene efecto sobre las odds (o la probabilidad) del evento.
* **Si $X_i$ es una variable categórica dicotómica (0/1):** Un $OR_i$ indica las odds de que el evento ocurra para el grupo donde $X_i=1$ en comparación con el grupo donde $X_i=0$.

## Métodos de Estimación

Los coeficientes de la regresión logística no se estiman utilizando mínimos cuadrados ordinarios (como en la regresión lineal), sino mediante el método de **Máxima Verosimilitud (Maximum Likelihood Estimation - MLE)**. Este método busca los coeficientes que maximizan la probabilidad de observar los datos que realmente se tienen.

## Supuestos

Aunque la regresión logística tiene menos supuestos que la lineal, algunos importantes son:

1.  **Variable Dependiente Binaria:** La variable de resultado debe ser dicotómica.
2.  **Independencia de las Observaciones:** Las observaciones deben ser independientes entre sí.
3.  **No Multicolinealidad Perfecta:** Las variables predictoras no deben estar perfectamente correlacionadas entre sí.
4.  **Relación Lineal entre Predictores y Log-Odds:** Existe una relación lineal entre las variables predictoras y el logaritmo natural de las odds (el logit de la variable dependiente), no con la probabilidad directamente.
5.  **Tamaño de Muestra Suficiente:** Se requiere una muestra de tamaño adecuado, especialmente si hay muchas variables predictoras.

## Aplicaciones

La regresión logística es ampliamente utilizada en diversos campos:

* **Medicina:** Predecir la probabilidad de desarrollar una enfermedad (ej. diabetes, cáncer) basada en factores de riesgo.
* **Marketing:** Predecir la probabilidad de que un cliente compre un producto, abandone un servicio (churn).
* **Finanzas:** Predecir la probabilidad de impago de un préstamo.
* **Ciencias Sociales:** Predecir la probabilidad de votar por un candidato.