# Logistic Regression

Reference: [Logistic Regression](https://machine-learning.paperspace.com/wiki/logistic-regression)

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Datos de ejemplo
data = {
    'Horas_Estudio': [2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
    'Horas_Sueño': [7, 6, 5, 6, 7, 8, 7, 6, 5, 4],
    'Aprobado': [0, 0, 0, 1, 1, 1, 1, 1, 1, 1]  # 0: No aprobado, 1: Aprobado
}

# Crear un DataFrame
df = pd.DataFrame(data)

# Separar características (X) y etiquetas (y)
X = df[['Horas_Estudio', 'Horas_Sueño']]
y = df['Aprobado']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo de regresión logística
model = LogisticRegression()
model.fit(X_train, y_train)

# Predecir en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo

# La precisión es una métrica que mide el porcentaje de predicciones sobre los datos de prueba, correctas del modelo sobre el total de predicciones realizadas.
print("Precisión:", accuracy_score(y_test, y_pred))

# La matriz de confusión es una tabla que muestra el desempeño del modelo en términos de:
# Verdaderos Negativos (TN): Casos negativos correctamente clasificados.
# Falsos Positivos (FP): Casos negativos incorrectamente clasificados como positivos.
# Falsos Negativos (FN): Casos positivos incorrectamente clasificados como negativos.
# Verdaderos Positivos (TP): Casos positivos correctamente clasificados.
# [[TN, FP],
#  [FN, TP]]
print("Matriz de Confusión:\n", confusion_matrix(y_test, y_pred))

# El reporte de clasificación proporciona métricas detalladas para evaluar el desempeño del modelo en cada clase. Las métricas principales son:
# Precisión (Precision): Proporción de predicciones positivas correctas sobre el total de predicciones positivas.
# Recall (Sensibilidad): Proporción de casos positivos correctamente identificados sobre el total de casos positivos reales.
# F1-Score: Media armónica entre precisión y recall. Es útil cuando hay un desbalance entre clases.
# Soporte (Support): Número de ocurrencias de cada clase en el conjunto de prueba.
# 
# Precisión: Indica cuán confiable es el modelo al predecir una clase.
# Recall: Indica cuán bien el modelo identifica todos los casos positivos.
# F1-Score: Es una métrica balanceada entre precisión y recall.
# Soporte: Nos dice cuántos casos hay de cada clase en el conjunto de prueba.
print("Reporte de Clasificación:\n", classification_report(y_test, y_pred))

# Coeficientes del modelo
# Los coeficientes son los valores que multiplican cada característica en la ecuación de la regresión logística. Representan la contribución de cada característica a la predicción.
print("Coeficientes:", model.coef_)

# El intercepto es el término independiente en la ecuación de la regresión logística. Representa el valor de z (la combinación lineal de características) cuando todas las características son 0.
print("Intercepto:", model.intercept_)

## Regresión Logística: Concepto

### ¿Cómo funciona?

1. **Función Logística (Sigmoide):**

   La regresión logística utiliza la **función sigmoide** para mapear cualquier valor real a un valor entre 0 y 1.

   La función sigmoide se define como:

   \[
   \sigma(z) = \frac{1}{1 + e^{-z}}
   \]

   Donde \( z \) es una combinación lineal de las características de entrada:

   \[
   z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n
   \]

   Aquí, \(\beta_0, \beta_1, \ldots, \beta_n\) son los coeficientes del modelo, y \(x_1, x_2, \ldots, x_n\) son las características de entrada.

2. **Probabilidad y Clasificación:**

   La salida de la función sigmoide se interpreta como la probabilidad de que la observación pertenezca a la clase positiva (1). Si esta probabilidad es mayor que un umbral (generalmente 0.5), se clasifica como 1; de lo contrario, se clasifica como 0.

3. **Entrenamiento del Modelo:**

   El modelo se entrena ajustando los coeficientes \(\beta\) para minimizar una función de costo, como la **función de log-pérdida** (log loss). Esta función mide la diferencia entre las probabilidades predichas y las etiquetas reales.

### ¿Para qué se usa?

La regresión logística es útil en situaciones donde:

- Quieres predecir una variable binaria (por ejemplo, si un correo es spam o no).
- Necesitas entender la importancia de las características en la predicción (los coeficientes \(\beta\) indican la influencia de cada característica).
- Requieres un modelo interpretable y fácil de implementar.