![image.png](attachment:image.png)

# **Regresión Logística**



La **Regresión Logística** es un algoritmo de clasificación que es usado para predecir la probabilidad de una variable categórica. A pesar de su nombre, es un modelo de clasificación y no de regresión. Es especialmente útil para situaciones en las que existe una separación binaria (0 o 1, Verdadero o Falso, Sí o No) en los datos.



![image.png](attachment:image.png)

## Invocando el Modelo de Regresión Logística en Scikit-Learn

Para utilizar el modelo de Regresión Logística en Scikit-Learn, debes importar la clase `LogisticRegression` desde el módulo `linear_model`. Luego, puedes instanciar el modelo, entrenarlo con los datos y utilizarlo para hacer predicciones.

Aquí tienes un ejemplo de cómo hacerlo:

```python
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# Datos de ejemplo
X, y = datos_independientes, datos_dependientes

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Instanciar y entrenar el modelo
modelo = LogisticRegression()
modelo.fit(X_train, y_train)

# Hacer predicciones
y_pred = modelo.predict(X_test)

# y_pred contiene las predicciones de clase para el conjunto de prueba



## Hiperparámetros más destacados en la Regresión Logística de Scikit-Learn

La clase `LogisticRegression` en Scikit-Learn viene con varios hiperparámetros. Algunos de los más destacados incluyen:

- `penalty`: Especifica la norma utilizada en la penalización (regularización). Los valores más comunes son 'l2' y 'l1'.

- `C`: Inversa de la fuerza de regularización; debe ser un flotante positivo. Valores más pequeños especifican una regularización más fuerte.

- `solver`: Algoritmo a utilizar en el problema de optimización. Por ejemplo, 'liblinear', 'newton-cg', 'lbfgs', 'sag' y 'saga'.

- `max_iter`: Número máximo de iteraciones que se tomarán para que los solucionadores converjan.

Estos son solo algunos de los hiperparámetros disponibles. La elección de estos hiperparámetros puede afectar significativamente el rendimiento del modelo.


## Hiperparámetros comúnmente optimizados con GridSearchCV o RandomizedSearchCV

Al optimizar un modelo de Regresión Logística, se suelen optimizar los cuatro hiperparámetros ya mencionados, dependiendo de qué se busque:

Si se busca regularizar:

- `penalty`: Puede ser interesante probar diferentes tipos de normas para la regularización, como 'l2' o 'l1'.

- `C`: A menudo se prueban varios valores para encontrar el balance adecuado entre sesgo y varianza.

Si se busca optimizar los tiempos de entrenamiento y, en algunos casos, mejorar las prestaciones del modelo:

- `solver`: Dependiendo del tamaño del conjunto de datos y de la naturaleza del problema, diferentes solucionadores pueden tener un rendimiento mejor.

- `max_iter`: A veces es necesario ajustar este parámetro para asegurar la convergencia del algoritmo, especialmente si estás trabajando con un conjunto de datos muy grande.


## Sugerencias de Cuándo Aplicar la Regresión Logística

La Regresión Logística es particularmente útil en los siguientes escenarios:

1. **Problemas de clasificación binaria**: Es ideal cuando el objetivo es predecir la pertenencia de las observaciones a una de dos posibles categorías.

2. **La relación entre las características y la log-odds es lineal**: Asume una relación lineal entre las características y el logit de la probabilidad (log-odds).

3. **Necesitas probabilidades junto con predicciones**: Además de la clasificación, si necesitas la probabilidad de las predicciones, la regresión logística puede proporcionar esto.

4. **Entendimiento e interpretación del modelo**: Los coeficientes de un modelo de regresión logística pueden ser interpretados como cambios en el log-odds por cada cambio unitario en la característica, lo que puede ser útil para entender cómo afectan las diferentes características a la probabilidad de pertenecer a la categoría de interés.

Es importante verificar estos supuestos y entender las limitaciones del modelo antes de aplicarlo a tus datos.



### Aclaración: logit o log-odds, el 3 a 1 de las apuestas

El "logit de la probabilidad" o "log-odds" es un concepto utilizado en estadística, especialmente en modelos de regresión logística, para describir la relación entre las probabilidades y las probabilidades logarítmicas.

1. **Probabilidad**: La probabilidad de un evento es un número entre 0 y 1 que indica cuán probable es que ocurra ese evento. Por ejemplo, una probabilidad de 0.8 significa que hay un 80% de posibilidades de que ocurra el evento.

2. **Odds o Razón de Probabilidades**: Es el cociente entre la probabilidad de que ocurra un evento y la probabilidad de que no ocurra. Matemáticamente, si la probabilidad de un evento es P, los odds son P / (1 - P). Por ejemplo, si la probabilidad de que llueva mañana es 0.75 (75%), los odds serían 0.75 / (1 - 0.75) = 3. Esto significa que es 3 veces más probable que llueva que no llueva.

3. **Log-Odds o Logit**: El logit es simplemente el logaritmo de los odds. En otras palabras, tomas el logaritmo natural de la razón de probabilidades. Matemáticamente, si los odds son P / (1 - P), entonces el logit es log(P / (1 - P)). El logit puede tomar cualquier valor entre menos infinito y más infinito. Esto es útil porque mientras que las probabilidades están limitadas entre 0 y 1, los logits (como logaritmos de odds) tienen un rango mucho más amplio y pueden ser utilizados para describir relaciones lineales en modelos como la regresión logística.
