<a href="https://colab.research.google.com/github/chema74/AI-Portfolio-2025/blob/main/05_Regresion_Logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üéØ M√≥dulo 5: Regresi√≥n Log√≠stica (Clasificaci√≥n Binaria)

La **Regresi√≥n Log√≠stica** es el algoritmo de **Aprendizaje Supervisado** fundamental para resolver problemas de **Clasificaci√≥n**. A pesar de su nombre, no es un algoritmo de regresi√≥n, sino de clasificaci√≥n.

## Conceptos Clave de la Regresi√≥n Log√≠stica

### 1. El Objetivo: Probabilidad
El objetivo principal es estimar la **probabilidad** de que una instancia pertenezca a una clase en particular.

### 2. La Funci√≥n Log√≠stica (Sigmoide)
La Regresi√≥n Log√≠stica toma la salida lineal (similar a la de la Regresi√≥n Lineal) y la pasa a trav√©s de una **funci√≥n Sigmoide** ($\sigma$):

$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

* **Funci√≥n Sigmoide:** Esta funci√≥n "aplasta" el valor lineal ($z$) en un rango entre 0 y 1.
    * Si la salida es **mayor o igual a 0.5**, el modelo clasifica la instancia como **Clase 1** (ej. "S√≠").
    * Si es **menor a 0.5**, la clasifica como **Clase 0** (ej. "No").

### 3. M√©tricas de Evaluaci√≥n para Clasificaci√≥n
Dado que no se predice un n√∫mero continuo, se usan m√©tricas diferentes a R¬≤ y RMSE:
* **Matriz de Confusi√≥n:** Tabla que resume el rendimiento, mostrando aciertos y fallos por categor√≠a (Verdaderos Positivos, Falsos Negativos, etc.).

[Image of Confusion Matrix showing TP, TN, FP, FN]

* **Precisi√≥n (Accuracy):** El porcentaje de predicciones totales que fueron correctas. Es la m√©trica m√°s simple.

Para este ejercicio, necesitamos un problema de clasificaci√≥n. Usaremos una variable existente, Cantidad, y la transformaremos en una variable objetivo binaria: ¬øLa cantidad vendida fue Alta o Baja?

In [1]:
# =======================================================
# PASO 1: Importar librer√≠as
# =======================================================
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression # Importamos el modelo de Regresi√≥n Log√≠stica
from sklearn.metrics import accuracy_score, confusion_matrix # M√©tricas de clasificaci√≥n

print("‚úÖ Librer√≠as de clasificaci√≥n importadas.")
print("-" * 70)

# =======================================================
# PASO 2: Preparaci√≥n de Datos: Creaci√≥n de la Variable Objetivo Binaria
# =======================================================

# Recreamos el DataFrame inicial
datos = {
    'Precio_Unitario': [15.5, 15.5, 15.5, 22.0, 10.0, 15.5],
    'Cantidad': [3, 1, 3, 2, 4, 1],
    'Dias_Envio': [5, 2, 5, 7, 1, 2],
    # Usaremos el precio como predictor de la categor√≠a de cantidad
}
df = pd.DataFrame(datos)

# Creamos la variable objetivo binaria (Y): 'Cantidad_Alta'
# Definimos 'Alta' como si la Cantidad es mayor que la media.
media_cantidad = df['Cantidad'].mean() # Media: (3+1+3+2+4+1)/6 = 2.33

# Usamos np.where: Si Cantidad > media, asignamos 1 (Alta); sino, asignamos 0 (Baja).
df['Cantidad_Alta'] = np.where(df['Cantidad'] > media_cantidad, 1, 0)

# X (Predictor): Usaremos 'Precio_Unitario' (debe ser 2D)
X = df[['Precio_Unitario']]
# Y (Objetivo/Target): La nueva columna binaria
Y = df['Cantidad_Alta']

print("1. DataFrame con variable objetivo binaria 'Cantidad_Alta' (1=Alta, 0=Baja):")
print(df[['Cantidad', 'Cantidad_Alta']])
print("-" * 70)


# =======================================================
# PASO 3: Divisi√≥n de Datos (Entrenamiento y Prueba)
# =======================================================

# Dividimos en 80% entrenamiento y 20% prueba
X_train, X_test, Y_train, Y_test = train_test_split(
    X, Y,
    test_size=0.2,
    random_state=42
)

print(f"2. Conjunto de Entrenamiento (X_train): {len(X_train)} muestras")
print(f"3. Conjunto de Prueba (X_test): {len(X_test)} muestras")
print("-" * 70)


# =======================================================
# PASO 4: Creaci√≥n y Entrenamiento del Modelo
# =======================================================

# 4a. Creamos el modelo de Regresi√≥n Log√≠stica
modelo_logistico = LogisticRegression()

# 4b. Entrenamos el modelo con los datos de ENTRENAMIENTO
modelo_logistico.fit(X_train, Y_train)

print("4. Modelo de Regresi√≥n Log√≠stica entrenado.")
print("-" * 70)


# =======================================================
# PASO 5: Predicci√≥n y Evaluaci√≥n (M√©tricas de Clasificaci√≥n)
# =======================================================

# 5a. Hacemos predicciones sobre el conjunto de PRUEBA
Y_pred = modelo_logistico.predict(X_test)

# 5b. Evaluamos el rendimiento:

# Precisi√≥n (Accuracy): Porcentaje de predicciones correctas
precision = accuracy_score(Y_test, Y_pred)

# Matriz de Confusi√≥n: Nos dice d√≥nde acert√≥ y d√≥nde fall√≥
matriz = confusion_matrix(Y_test, Y_pred)


print("5. Evaluaci√≥n del rendimiento en datos de PRUEBA:")
print(f"   Precisi√≥n (Accuracy): {precision:.4f}")
print("   Matriz de Confusi√≥n:")
print(matriz)
print("-" * 70)

‚úÖ Librer√≠as de clasificaci√≥n importadas.
----------------------------------------------------------------------
1. DataFrame con variable objetivo binaria 'Cantidad_Alta' (1=Alta, 0=Baja):
   Cantidad  Cantidad_Alta
0         3              1
1         1              0
2         3              1
3         2              0
4         4              1
5         1              0
----------------------------------------------------------------------
2. Conjunto de Entrenamiento (X_train): 4 muestras
3. Conjunto de Prueba (X_test): 2 muestras
----------------------------------------------------------------------
4. Modelo de Regresi√≥n Log√≠stica entrenado.
----------------------------------------------------------------------
5. Evaluaci√≥n del rendimiento en datos de PRUEBA:
   Precisi√≥n (Accuracy): 0.5000
   Matriz de Confusi√≥n:
[[0 1]
 [0 1]]
----------------------------------------------------------------------
