# Regresión logística

Ya sabes que existe una regresión que en lugar de predecir valores numéricos continuos nos ayuda a hacer clasificaciones. Esa regresión es la regresión logística, y en scikit-learn, la implementación de este algoritmo se encuentra en la clase <code>LogisticRegression</code>.

La regresión logística es un modelo de aprendizaje supervisado que se utiliza comúnmente para problemas de clasificación.

Dado un conjunto de características, la regresión logística estima la probabilidad de que una instancia pertenezca a una clase en particular. Esta probabilidad se transforma en una etiqueta de clase utilizando un umbral de decisión.

In [None]:
# Crea un dataset
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=1000, random_state=42, noise=0.40)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Luego, se instancia un objeto de la clase <code>LogisticRegression</code> :

In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

Y se ajusta a los datos de entrenamiento utilizando el método <code>fit</code>. 

In [None]:
lr.fit(X_train, y_train)

Una vez entrenado, el modelo se puede utilizar para hacer predicciones en los datos de prueba utilizando el método <code>predict</code>.

In [None]:
y_pred = lr.predict(X_test)

La verdad es que no hay mucha ciencia en eso.

## Predict proba

En problemas de clasificación los clasificadores de scikit-learn tienen un método llamado <code>predict_proba</code> que puedes utilizar para obtener un estimado de qué tan probable es que una instancia pertenezca a una clase u otra.

Por ejemplo, puedes llamar al método predict proba sobre nuestro modelo y nuestros datos de entrada:

In [None]:
probabilities = lr.predict_proba(X_test)
probabilities

En este caso, como estamos hablando de un problema de clasificación binaria, <code>probabilities</code> es una matriz de dos columnas, en donde la primera columna representa la probabilidad de que la muestra pertenezca a la clase negativa y la segunda a la positiva.

El predecir las probabilidades en lugar de obtener una clasificación dura es útil en algunos casos, para conocer más, te invito a que veas los recursos de esta lección.

Recuerda además que todos los clasificadores de scikit-learn tienen este método, y no solo la regresión lineal.

## Argumentos

La clase <code>LogisticRegression</code> en scikit-learn tiene una gran cantidad de parámetros que permiten personalizar el modelo según las necesidades específicas del problema, algunos de los comunes y con los que te recomiendo que juegues al momento de trabajar

 - <code>penalty</code>: especifica la norma de regularización a utilizar en el modelo. Las opciones comunes son “L1”, “L2” y “elasticnet”. El valor por default es “L2”. En general, mi recomendación es que trates de no usar “L1” con la regresión logística. 

 - <code>tol</code>: especifica la tolerancia para la detección de convergencia del algoritmo de optimización. Al ser este un algoritmo iterativo, es importante establecer un valor de tolerancia, en caso de que el algoritmo llegue a un punto en el que los valores no cambien lo suficiente, poder detener el entrenamiento.

 - <code>max_iter</code>: siguiendo en el tema de las iteraciones, también es posible establecer un número máximo de estas.

 - <code>C</code>: es un valor que controla la fuerza con la que la regularización es aplicada. <code>C</code> tiene la peculiaridad de ser un valor que afecta inversamente a la regularización, entre más pequeño sea este valor, más fuerte será la regularización aplicada.

 - <code>class_weight</code>: este argumento es útil cuando estás lidiando con un problema en donde haya un desbalance en los datos.  

## Ejemplo de uso de <code>class_weight</code>:

In [None]:
from utils import classification_report_comparison

import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score


# Create an imbalanced classification dataset
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5,
                           weights=[0.9], random_state=42)

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Fit Logistic Regression with class_weight='balanced'
balanced_lr = LogisticRegression(class_weight='balanced')
balanced_lr.fit(X_train, y_train)

vanilla_lr = LogisticRegression()
vanilla_lr.fit(X_train, y_train)


# Make predictions on the testing set
balanced_y_pred = balanced_lr.predict(X_test)
vanilla_y_pred = vanilla_lr.predict(X_test)

classification_report_comparison(y_test, {"Balanced": balanced_y_pred, "No balance": vanilla_y_pred})

 > 📚 De tarea, ¿por qué no intentas jugar un poco más con los parámetros? utiliza la función <code>classification_report_comparison</code>