# Logistic Regression

In [4]:
from sklearn.datasets import load_breast_cancer

breast_cancer_dataset = load_breast_cancer()
X, y = breast_cancer_dataset.data, breast_cancer_dataset.target

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=1234
)

In [None]:
# Crear un pipeline con un StandardScaler y el modelo LogisticRegession con max_iter=10000
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('logistic_regression', LogisticRegression(max_iter=10000, random_state=42))
])

Hiperparámetros:

**Parámetro `C`**: Controla la regularización de la regresión logística. La regularización previene al modelo de obtener overfitting, ya que penaliza modelos más complejos. Un valor de C bajo indica una regularización más fuerte.

**Parámetro `solver`**: Indica el algoritmo a usar en el problema de optimización. En términos generales:
- liblinear: para conjuntos de datos pequeños
- saga: para conjuntos de datos grandes

**Parámetro `penalty`**: Define el tipo de regularización a aplicar. En resumen:
- l1 (Lasso): Prumueve modelos más simples reduciendo a cero algunos coeficientes.
- l2 (Ridge): Consigue una distribución más suave de los coeficientes, ayudando a reducir el overfitting.

In [None]:
# Crear una rejilla de hiperparámetros con los siguientes valores posibles:
# C: 0.001, 0.01, 0.1, 1, 10, 100
# solver: liblinear, saga
# penalty: l1, l2
param_grid = {
    'logistic_regression__C': [0.001, 0.01, 0.1, 1, 10, 100],
    'logistic_regression__solver': ['liblinear', 'saga'],
    'logistic_regression__penalty': ['l1', 'l2']
}

In [11]:
%%time

from sklearn.model_selection import GridSearchCV

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy', verbose=1)
grid_search.fit(X_train, y_train)

Fitting 5 folds for each of 24 candidates, totalling 120 fits
CPU times: user 11.9 s, sys: 4.94 ms, total: 11.9 s
Wall time: 11.9 s


In [12]:
print(f"Mejores hiperparámetros encontrados: {grid_search.best_params_}")

Mejores hiperparámetros encontrados: {'logistic_regression__C': 0.1, 'logistic_regression__penalty': 'l2', 'logistic_regression__solver': 'liblinear'}


In [None]:
# Mostrar el classification report
from sklearn.metrics import classification_report

y_pred = grid_search.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      0.91      0.95        45
           1       0.95      1.00      0.97        69

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114

