
# Regresión Logística con scikit-learn (con Pipelines)

En este cuaderno se demostrará cómo utilizar la regresión logística usando un **pipeline** de scikit-learn. El modelo se entrenará con el conjunto de datos de cáncer de mama disponible en scikit-learn, que es un problema de clasificación binaria.

**Objetivos del notebook**:

1. Cargar y explorar el conjunto de datos
2. Dividir los datos en conjuntos de entrenamiento y prueba
3. Crear un pipeline que estandarice las características y entrene un modelo de regresión logística
4. Evaluar el modelo usando métricas de clasificación
5. Visualizar resultados con una matriz de confusión y curva ROC


In [9]:
!pip install matplotlib ipykernel matplotlib-inline



In [10]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_curve, auc
import matplotlib
import matplotlib.pyplot as plt

# Configuración para gráficos
matplotlib.use('module://matplotlib_inline.backend_inline')

## 1. Cargar y explorar los datos
Utilizamos el dataset de cáncer de mama. A continuación se muestran las dimensiones y un vistazo a las primeras filas.

In [11]:
# Cargar el dataset
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

# Mostrar dimensiones y primeras filas
print("Dimensiones del dataframe:", df.shape)
df.head()


Dimensiones del dataframe: (569, 31)


Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678,0


## 2. Dividir los datos
Dividimos los datos en conjuntos de entrenamiento y prueba con un tamaño de prueba del 30%. Utilizamos `stratify` para mantener la proporción de clases.

In [15]:
# Dividir datos
X = df.drop('target', axis=1)
y = df['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42, stratify=y)

print(f"Tamaño de entrenamiento: {X_train.shape}, Tamaño de prueba: {X_test.shape}")


print(X_train.head())

print(y_train.head())

Tamaño de entrenamiento: (426, 30), Tamaño de prueba: (143, 30)
     mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
517        19.89         20.26          130.50     1214.0          0.10370   
287        12.89         13.12           81.89      515.9          0.06955   
25         17.14         16.40          116.00      912.7          0.11860   
253        17.30         17.08          113.00      928.2          0.10080   
369        22.01         21.90          147.20     1482.0          0.10630   

     mean compactness  mean concavity  mean concave points  mean symmetry  \
517           0.13100          0.1411              0.09431         0.1802   
287           0.03729          0.0226              0.01171         0.1337   
25            0.22760          0.2229              0.14010         0.3040   
253           0.10410          0.1266              0.08353         0.1813   
369           0.19540          0.2448              0.15010         0.1824   

    

## 3. Crear un Pipeline

El pipeline estandariza las características con `StandardScaler` y luego aplica `LogisticRegression`. Se realiza el ajuste usando los datos de entrenamiento.

In [16]:

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('logreg', LogisticRegression(max_iter=1000))
])

pipe.fit(X_train, y_train)


0,1,2
,steps,"[('scaler', ...), ('logreg', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,copy,True
,with_mean,True
,with_std,True

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


## 4. Evaluación del modelo
Se calculan las métricas de evaluación comunes: **accuracy**, **precision**, **recall** y **f1**. También se muestra la matriz de confusión y la curva ROC.

In [None]:
# Predicciones
y_pred = pipe.predict(X_test)

# Métricas de evaluación
acc = accuracy_score(y_test, y_pred)
prec = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Accuracy: {acc:.4f}")
print(f"Precision: {prec:.4f}")
print(f"Recall: {recall:.4f}")
print(f"F1 Score: {f1:.4f}")

# Matriz de confusión
cm = confusion_matrix(y_test, y_pred)
print("Matriz de confusión:", cm)


Accuracy: 0.9860
Precision: 0.9889
Recall: 0.9889
F1 Score: 0.9889
Matriz de confusión: [[52  1]
 [ 1 89]]


## 5. Guardar el modelo entrenado

Una vez que el modelo está entrenado y evaluado, es importante guardarlo para poder reutilizarlo posteriormente sin necesidad de volver a entrenarlo.


In [21]:
import joblib
import os

# Crear directorio para guardar modelos si no existe
model_dir = "modelos"
if not os.path.exists(model_dir):
    os.makedirs(model_dir)

# Guardar el pipeline completo (incluye scaler y modelo)
model_path = os.path.join(model_dir, "logistic_regression_pipeline.pkl")
joblib.dump(pipe, model_path)

print(f"Modelo guardado exitosamente en: {model_path}")
print(f"Tamaño del archivo: {os.path.getsize(model_path)} bytes")


Modelo guardado exitosamente en: modelos/logistic_regression_pipeline.pkl
Tamaño del archivo: 3089 bytes


## 6. Cargar el modelo guardado

Ahora simulamos que estamos en una nueva sesión y necesitamos cargar el modelo previamente entrenado para hacer predicciones.


In [26]:
# Cargar el modelo guardado
model_path = os.path.join("modelos", "logistic_regression_pipeline.pkl")

if os.path.exists(model_path):
    loaded_pipeline = joblib.load(model_path)
    print(f"Modelo cargado exitosamente desde: {model_path}")
    
    print("Componentes del pipeline:")
    for step_name, step_object in loaded_pipeline.steps:
        print(f"  - {step_name}: {type(step_object).__name__}")
else:
    print(f"Error: No se encontró el archivo del modelo en {model_path}")
    print("Asegúrate de ejecutar primero la celda de guardado del modelo")


Modelo cargado exitosamente desde: modelos/logistic_regression_pipeline.pkl
Componentes del pipeline:
  - scaler: StandardScaler
  - logreg: LogisticRegression


## 7. Probar el modelo cargado con datos

Vamos a probar el modelo cargado usando los datos de prueba para verificar que funciona correctamente y produce los mismos resultados que el modelo original.


In [23]:
# Hacer predicciones con el modelo cargado
y_pred_loaded = loaded_pipeline.predict(X_test)
y_pred_proba_loaded = loaded_pipeline.predict_proba(X_test)

# Evaluar el modelo cargado
acc_loaded = accuracy_score(y_test, y_pred_loaded)
prec_loaded = precision_score(y_test, y_pred_loaded)
recall_loaded = recall_score(y_test, y_pred_loaded)
f1_loaded = f1_score(y_test, y_pred_loaded)

print("=== Resultados del modelo cargado ===")
print(f"Accuracy: {acc_loaded:.4f}")
print(f"Precision: {prec_loaded:.4f}")
print(f"Recall: {recall_loaded:.4f}")
print(f"F1 Score: {f1_loaded:.4f}")

# Verificar que las predicciones son idénticas al modelo original
predicciones_identicas = np.array_equal(y_pred, y_pred_loaded)
print(f"\n¿Las predicciones son idénticas al modelo original? {predicciones_identicas}")

# Mostrar algunas predicciones individuales
print("\n=== Ejemplos de predicciones ===")
print("Índice | Real | Predicción | Probabilidad [Maligno, Benigno]")
print("-" * 60)
for i in range(5):
    real = "Benigno" if y_test.iloc[i] == 1 else "Maligno"
    pred = "Benigno" if y_pred_loaded[i] == 1 else "Maligno"
    prob_maligno = y_pred_proba_loaded[i][0]
    prob_benigno = y_pred_proba_loaded[i][1]
    print(f"{i:6d} | {real:6s} | {pred:10s} | [{prob_maligno:.3f}, {prob_benigno:.3f}]")


=== Resultados del modelo cargado ===
Accuracy: 0.9860
Precision: 0.9889
Recall: 0.9889
F1 Score: 0.9889

¿Las predicciones son idénticas al modelo original? True

=== Ejemplos de predicciones ===
Índice | Real | Predicción | Probabilidad [Maligno, Benigno]
------------------------------------------------------------
     0 | Benigno | Benigno    | [0.031, 0.969]
     1 | Maligno | Maligno    | [1.000, 0.000]
     2 | Benigno | Benigno    | [0.441, 0.559]
     3 | Benigno | Benigno    | [0.061, 0.939]
     4 | Maligno | Maligno    | [0.825, 0.175]


### Prueba con datos nuevos/sintéticos

También podemos probar el modelo con datos completamente nuevos para demostrar cómo usarlo en un escenario real.


In [25]:
np.random.seed(42)

nuevas_muestras = np.array([
    [12.5, 15.2, 82.1, 490.0, 0.095, 0.08, 0.04, 0.02, 0.18, 0.062,
     0.25, 0.85, 1.8, 18.5, 0.006, 0.015, 0.018, 0.007, 0.014, 0.002,
     13.8, 18.9, 89.2, 580.3, 0.125, 0.152, 0.089, 0.045, 0.265, 0.078],
    
    [18.8, 22.1, 125.4, 1105.0, 0.118, 0.165, 0.145, 0.095, 0.205, 0.068,
     0.85, 2.15, 5.8, 95.2, 0.011, 0.045, 0.055, 0.025, 0.032, 0.006,
     25.2, 30.5, 165.8, 1895.0, 0.155, 0.385, 0.425, 0.185, 0.315, 0.095],
    
    [15.2, 18.5, 99.8, 720.0, 0.105, 0.125, 0.085, 0.055, 0.192, 0.065,
     0.45, 1.25, 3.2, 42.8, 0.008, 0.025, 0.032, 0.015, 0.022, 0.004,
     17.8, 23.2, 115.6, 980.5, 0.138, 0.235, 0.185, 0.095, 0.285, 0.085]
])

feature_names = data.feature_names
nuevas_muestras_df = pd.DataFrame(nuevas_muestras, columns=feature_names)

print("=== Predicciones para muestras nuevas ===")
print("Características de las muestras:")
print(nuevas_muestras_df[['mean radius', 'mean texture', 'mean perimeter', 'mean area']].round(2))

pred_nuevas = loaded_pipeline.predict(nuevas_muestras_df)
prob_nuevas = loaded_pipeline.predict_proba(nuevas_muestras_df)

print("\nResultados de predicción:")
print("Muestra | Predicción | Probabilidad Maligno | Probabilidad Benigno")
print("-" * 65)
for i in range(len(nuevas_muestras)):
    pred_label = "Benigno" if pred_nuevas[i] == 1 else "Maligno"
    prob_maligno = prob_nuevas[i][0]
    prob_benigno = prob_nuevas[i][1]
    print(f"   {i+1:1d}    |   {pred_label:7s}  |       {prob_maligno:.3f}      |       {prob_benigno:.3f}")


=== Predicciones para muestras nuevas ===
Características de las muestras:
   mean radius  mean texture  mean perimeter  mean area
0         12.5          15.2            82.1      490.0
1         18.8          22.1           125.4     1105.0
2         15.2          18.5            99.8      720.0

Resultados de predicción:
Muestra | Predicción | Probabilidad Maligno | Probabilidad Benigno
-----------------------------------------------------------------
   1    |   Benigno  |       0.001      |       0.999
   2    |   Maligno  |       1.000      |       0.000
   3    |   Maligno  |       0.576      |       0.424


## Guardamos el modelo usando Mlflow

In [None]:
import mlflow
from mlflow.sklearn import log_model