# Modelo de Regresión Logística

La regresión logística es un tipo de modelo lineal generalizado que se utiliza principalmente para problemas de clasificación binaria, donde la variable dependiente tiene dos posibles resultados, como 0 y 1, o "sí" y "no". A diferencia de la regresión lineal, que predice un valor continuo, la regresión logística estima la probabilidad de que una observación pertenezca a una clase particular. Esta probabilidad se mapea mediante una función logística (o sigmoide), lo que garantiza que los valores predichos estén comprendidos entre 0 y 1, facilitando la clasificación en una de las dos categorías.

## Componentes del modelo

- **Distribución:** Binomial
- **Función de Enlace:** Logit $ g(\mu) = \log\left(\frac{\mu}{1 - \mu}\right) $
- **Aplicación:** Modela probabilidades de un evento binario (clasificación binaria).

## Ecuación del Modelo

La regresión logística modela la relación entre una o más variables independientes y la probabilidad de que un evento ocurra. La ecuación del modelo se basa en la función logística, la cual se obtiene de despejar $\mu$ de la funcion de enlace:

$$
\log\left(\frac{\mu}{1 - \mu}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n
$$

$$
\Rightarrow
$$

$$
\mu = P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n)}}
$$

donde:
- $P(y=1|x)$ es la probabilidad de que la variable dependiente $y$ sea 1 dado un conjunto de variables independientes $x$.
- $\beta_0$ es el intercepto.
- $\beta_1, \beta_2, \dots, \beta_n$ son los coeficientes de las variables independientes $x_1, x_2, \dots, x_n$.

## Función Sigmoide

La función sigmoide transforma cualquier valor real en un rango entre 0 y 1, lo que la hace ideal para modelar probabilidades:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

donde $z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n$.

## Interpretación de Coeficientes

Cada coeficiente $\beta_i$ en el modelo logístico se interpreta como el cambio en el log-odds de la respuesta por unidad de cambio en la variable independiente correspondiente. En otras palabras, $\beta_i$ mide el efecto de $x_i$ sobre la probabilidad de que $y = 1$.

El log-odds se define como:

$$
\log\left(\frac{P(y=1|x)}{1 - P(y=1|x)}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n
$$

## Ajuste del Modelo

El modelo se ajusta utilizando el método de máxima verosimilitud, que busca encontrar los valores de $\beta_0, \beta_1, \dots, \beta_n$ que maximicen la probabilidad de observar los datos reales dados los valores de las variables independientes.

## Evaluación del Modelo

- **Precisión**: La proporción de predicciones correctas.
- **Matriz de Confusión**: Tabla que compara las predicciones del modelo con las clases reales.
- **ROC y AUC**: La curva ROC y el área bajo la curva (AUC) miden el rendimiento del modelo al cambiar el umbral de decisión.
- **Odds Ratio**: Expresa cómo cambia la probabilidad de un evento cuando una variable independiente aumenta en una unidad.

## Ejemplo en Python

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score, confusion_matrix

# Generar datos de ejemplo
np.random.seed(0)
X = np.random.randn(100, 2)
y = (X[:, 0] + X[:, 1] > 0).astype(int)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear el modelo de regresión logística
model = LogisticRegression()

# Ajustar el modelo a los datos de entrenamiento
model.fit(X_train, y_train)

# Hacer predicciones
y_pred = model.predict(X_test)

# Evaluar el modelo
accuracy = accuracy_score(y_test, y_pred)
roc_auc = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
conf_matrix = confusion_matrix(y_test, y_pred)

print(f'Precisión: {accuracy}')
print(f'ROC AUC: {roc_auc}')
print(f'Matriz de Confusión:\n {conf_matrix}')