<a href="https://colab.research.google.com/github/mbraulio/Clasificacion-Inteligente-de-Datos-CID-2025B/blob/main/Hands-On%204%3A%20Logistic%20Regression%20Tutorial/HO4_LogisticRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Hands On 4: Logistic Regression**
> ## **1.1 Fundamentos de la Técnica**
>>La regresión logística es un modelo estadístico y de machine learning supervisado, lo que significa que utiliza datos previamente etiquetados para aprender un patrón y posteriormente clasificar nuevas observaciones.

>>Se emplea principalmente en problemas de clasificación binaria (0/1, sí/no, acepta/rechaza). A diferencia de la regresión lineal, cuyo objetivo es predecir valores numéricos continuos, la regresión logística estima la probabilidad de que una observación pertenezca a una de las dos clases. Por esta razón, sus salidas siempre se encuentran en el rango [0,1].

>>La probabilidad que genera el modelo se fundamenta en el concepto de odds (razón de probabilidades), definido como la proporción entre la probabilidad de éxito y la probabilidad de fracaso:

$$
\text{odds} = \frac{1 - p}{p}
$$



> ## **1.2 Modelo Matemático**
>> Una combinación lineal pasada por la función sigmoide.
$$
\hat{y} = \frac{1}{1 + e^{-(w_0 + w_1 x_1 + \cdots + w_n x_n)}}
$$

>>El modelo aprende una combinación lineal de los atributos de entrada (igual que en el perceptrón) para encontrar la mejor línea de separación entre las clases, conocida como frontera de decisión:

$$
\text {z} = {wx + b}
$$

>>En lugar de aplicar una función escalón como en el perceptrón, la regresión logística utiliza la función sigmoide para transformar esta combinación lineal en una probabilidad suave y continua:

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

>>De este modo, la sigmoide convierte la distancia de cada punto respecto a la frontera en una probabilidad:

>>- valores grandes y positivos de $z$ generan probabilidades cercanas a 1.

>>- valores grandes y negativos generan probabilidades cercanas a 0.

>>- y cuando $z = 0$, la probabilidad es 0.5, indicando el punto exacto de la frontera de decisión.

>>La función sigmoide es el elemento central de la regresión logística. Su propósito es transformar la combinación lineal de entrada en un valor comprendido estrictamente entre 0 y 1, interpretado como una probabilidad.

>>### **Funcion de perdida: Log-Loss**
>> Para entrenar el modelo no basta con calcular probabilidades: es necesario medir qué tan buenas o malas son esas predicciones. La función utilizada para este propósito es la Log-Loss (también llamada entropía cruzada binaria), definida como:

$$
\text{LogLoss}(y, \hat{y}) = -\left[ y \, \ln(\hat{y}) + (1 - y)\,\ln(1 - \hat{y}) \right]
$$

>>La magnitud de esta pérdida ofrece una interpretación directa sobre la calidad de las predicciones. En términos generales, valores cercanos a 0 indican un excelente desempeño, mientras que valores próximos o superiores a 1 reflejan predicciones deficientes.

>>Cuando el modelo asigna una probabilidad alta al evento correcto, la pérdida resultante es muy pequeña. Por ejemplo, si la etiqueta real es 1 y el modelo predice una probabilidad de 0.95, la Log-Loss es aproximadamente 0.05, lo que refleja una predicción precisa y con alta confianza. Por el contrario, si el modelo asigna una probabilidad baja a un evento que sí ocurre (por ejemplo, $
\hat{y} = 0.2$ cuando $y = 1$), la pérdida aumenta significativamente (generalmente por encima de 1) indicando que el modelo se está inclinando hacia la clase incorrecta.

>>El caso más severo ocurre cuando el modelo realiza una predicción muy segura pero incorrecta, como asignar $\hat{y} = 0.01$ cuando la clase real es 1. En estas situaciones, la Log-Loss supera fácilmente valores de 4 o 5, reflejando un error extremo. Esta característica permite que la función penalice con fuerza las predicciones equivocadas y obligue al modelo a ajustar sus parámetros.

>> En resumen, la Log-Loss proporciona una medida continua de error donde:

>> - 0.0 a 0.2 : predicciones correctas y confiables

>> - 0.2 a 0.7 : predicciones moderadamente buenas o inciertas

>> - ≈ 0.69 : corresponde a una predicción totalmente incierta (p = 0.5)

>> - $> $ 1.0 : predicciones incorrectas

>> - $>$ 2.0 : predicciones muy equivocadas y con exceso de confianza

>> Finalmente, una vez calculada la pérdida individual de cada observación, todas se promedian para obtener la pérdida total del modelo, la cual se evalúa con los mismos criterios. A continuación, el algoritmo de gradiente descendente ajusta los parámetros $w$ y $b$ con el objetivo de minimizar esta pérdida total y mejorar progresivamente el modelo.

>>### **Algoritmo de Gradiente Descendente**
>> Es una técnica de optimización que busca minimizar la función de pérdida moviéndose en la dirección donde dicha pérdida disminuye más rápido.

>>El gradiente descendente opera sobre la pérdida total promedio (Log-Loss total), ya que esta representa el desempeño global del modelo sobre todos los datos. Aunque la pérdida se calcula individualmente para cada observación, la actualización de los parámetros se basa en el gradiente de la pérdida total, lo que implica que cada dato contribuye a la corrección, pero las decisiones de ajuste se toman considerando el conjunto completo.

>>El procedimiento consiste en calcular las derivadas parciales de la pérdida total con respecto a cada parámetro:

$$
\frac{\partial L_{\text{total}}}{\partial w}
\quad\text{y}\quad
\frac{\partial L_{\text{total}}}{\partial b}
$$

>>Estas derivadas indican la dirección exacta en la que la pérdida aumenta. Para reducirla, los parámetros se actualizan moviéndose en la dirección opuesta:

$$
w := w - \eta \cdot \frac{\partial L_{\text{total}}}{\partial w}
$$

$$
b := b - \eta \cdot \frac{\partial L_{\text{total}}}{\partial b}
$$

>>donde:

>>η es la tasa de aprendizaje (learning rate), que controla el tamaño del paso realizado en cada actualización.

>> Este proceso se repite iterativamente. En cada ciclo, el modelo:

>> - Calcula nuevas probabilidades mediante la sigmoide.

>> - Evalúa la pérdida total con Log-Loss.

>> - Obtiene el gradiente correspondiente.

>> Ajusta w y b ligeramente hacia valores que reduzcan la pérdida.

>> Con suficientes iteraciones, el modelo converge hacia un conjunto de parámetros que minimiza la pérdida total, resultando en una frontera de decisión más precisa y en probabilidades mejor calibradas.

>## **1.3 Descripción de las Librerias**

>> ### **Numpy**
>> NumPy (Numerical Python) es una librería fundamental de Python diseñada para realizar operaciones matemáticas y computacionales de manera eficiente. Proporciona estructuras de datos de alto rendimiento, especialmente el arreglo multidimensional o ndarray, que permite almacenar y manipular grandes cantidades de datos numéricos de forma compacta y rápida.

>> ### **Matplotlib.pyplot**
>>Es un módulo de la librería Matplotlib que proporciona una colección de funciones diseñadas para crear gráficos de manera simple y similar a cómo se hace en MATLAB. Es una de las herramientas más utilizadas en Python para visualización de datos, análisis exploratorio y construcción de gráficos científicos.

>> ### **Sklearn.model_selection**
>> El módulo sklearn.model_selection forma parte de la librería scikit-learn y proporciona herramientas esenciales para dividir, validar y evaluar modelos de machine learning. Su propósito principal es garantizar que los modelos se entrenen y evalúen de forma correcta, evitando sobreajuste y asegurando resultados confiables.

>> ### **Sklearn.preprocessing**
>> El módulo sklearn.preprocessing de la librería scikit-learn contiene herramientas destinadas a transformar y preparar los datos antes de entrenar un modelo de machine learning. El preprocesamiento es fundamental porque muchos algoritmos requieren que los datos estén en un formato específico o dentro de ciertos rangos para funcionar correctamente.

>> ### **Sklearn.linear_model**
>> El módulo sklearn.linear_model forma parte de scikit-learn y contiene algoritmos basados en modelos lineales, es decir, métodos que aprenden una combinación lineal de características para hacer predicciones. Estos modelos son ampliamente utilizados en clasificación, regresión y problemas estadísticos por su simplicidad, interpretabilidad y eficiencia.

>> ### **Sklearn.metrics**
>>El módulo sklearn.metrics de la librería scikit-learn proporciona un conjunto completo de métricas para evaluar el rendimiento de modelos de machine learning. Su objetivo es medir qué tan bien funcionan los modelos en tareas de clasificación, regresión, clustering y otros tipos de predicción.

> ## **1.4 Pipeline**
>> ### **Preprocesamiento**
```python
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```
>> ### **Predicción**
```python
modelo = LogisticRegression()  # por defecto usa solver 'lbfgs' y log-loss
modelo.fit(X_train_scaled, y_train)
# Predicción de clases
y_pred = modelo.predict(X_test_scaled)
y_proba = modelo.predict_proba(X_test_scaled)[:, 1]
```

>> ### **Model Evaluation**
```python
# Accuracy
acc = accuracy_score(y_test, y_pred)
print(f"Exactitud (accuracy) en test: {acc*100:.2f}%")

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusión:")
print(cm)

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))
```
> ## 2. Código


In [1]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 1. Mismo dataset sintético de dos clases

np.random.seed(42)
n_muestras = 100

X_clase_0 = np.random.randn(n_muestras // 2, 2) + np.array([1, 1])
y_clase_0 = np.zeros((n_muestras // 2, ))

X_clase_1 = np.random.randn(n_muestras // 2, 2) + np.array([3, 3])
y_clase_1 = np.ones((n_muestras // 2, ))

X = np.vstack([X_clase_0, X_clase_1])   # (100, 2)
y = np.hstack([y_clase_0, y_clase_1])   # (100, )

# Mezclamos
indices = np.arange(n_muestras)
np.random.shuffle(indices)
X = X[indices]
y = y[indices]

# 2. División en entrenamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 3. Escalado de características (opcional pero recomendado)


scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 4. Modelo de Regresión Logística con scikit-learn

modelo = LogisticRegression()  # por defecto usa solver 'lbfgs' y log-loss
modelo.fit(X_train_scaled, y_train)


# 5. Predicción y evaluación

# Predicción de clases
y_pred = modelo.predict(X_test_scaled)

# Probabilidades de la clase 1
y_proba = modelo.predict_proba(X_test_scaled)[:, 1]

# Accuracy
acc = accuracy_score(y_test, y_pred)
print(f"Exactitud (accuracy) en test: {acc*100:.2f}%")

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusión:")
print(cm)

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))


Exactitud (accuracy) en test: 93.33%

Matriz de Confusión:
[[12  1]
 [ 1 16]]

Reporte de clasificación:
              precision    recall  f1-score   support

         0.0       0.92      0.92      0.92        13
         1.0       0.94      0.94      0.94        17

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30



> ## **3. Referencias**
> - Ibm. (2025, 4 junio). Regresión logística. IBM. https://www.ibm.com/mx-es/think/topics/logistic-regression
> - ¿Qué es la regresión logística? - Explicación del modelo de regresión logística - AWS. (s. f.). Amazon Web Services, Inc. https://aws.amazon.com/es/what-is/logistic-regression/
> - Navlani, A. (s. f.). Comprender la regresión logística en el tutorial de Python. Datacamp. https://www.datacamp.com/es/tutorial/understanding-logistic-regression-python
