# Regresi√≥n log√≠stica

Ya sabes que existe una regresi√≥n que en lugar de predecir valores num√©ricos continuos nos ayuda a hacer clasificaciones. Esa regresi√≥n es la regresi√≥n log√≠stica, y en scikit-learn, la implementaci√≥n de este algoritmo se encuentra en la clase <code>LogisticRegression</code>.

La regresi√≥n log√≠stica es un modelo de aprendizaje supervisado que se utiliza com√∫nmente para problemas de clasificaci√≥n.

Dado un conjunto de caracter√≠sticas, la regresi√≥n log√≠stica estima la probabilidad de que una instancia pertenezca a una clase en particular. Esta probabilidad se transforma en una etiqueta de clase utilizando un umbral de decisi√≥n.

In [None]:
# Crea un dataset
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split

X, y = make_moons(n_samples=1000, random_state=42, noise=0.40)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Luego, se instancia un objeto de la clase <code>LogisticRegression</code> :

In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()

Y se ajusta a los datos de entrenamiento utilizando el m√©todo <code>fit</code>. 

In [None]:
lr.fit(X_train, y_train)

Una vez entrenado, el modelo se puede utilizar para hacer predicciones en los datos de prueba utilizando el m√©todo <code>predict</code>.

In [None]:
y_pred = lr.predict(X_test)

La verdad es que no hay mucha ciencia en eso.

## Predict proba

En problemas de clasificaci√≥n los clasificadores de scikit-learn tienen un m√©todo llamado <code>predict_proba</code> que puedes utilizar para obtener un estimado de qu√© tan probable es que una instancia pertenezca a una clase u otra.

Por ejemplo, puedes llamar al m√©todo predict proba sobre nuestro modelo y nuestros datos de entrada:

In [None]:
probabilities = lr.predict_proba(X_test)
probabilities

En este caso, como estamos hablando de un problema de clasificaci√≥n binaria, <code>probabilities</code> es una matriz de dos columnas, en donde la primera columna representa la probabilidad de que la muestra pertenezca a la clase negativa y la segunda a la positiva.

El predecir las probabilidades en lugar de obtener una clasificaci√≥n dura es √∫til en algunos casos, para conocer m√°s, te invito a que veas los recursos de esta lecci√≥n.

Recuerda adem√°s que todos los clasificadores de scikit-learn tienen este m√©todo, y no solo la regresi√≥n lineal.

## Argumentos

La clase <code>LogisticRegression</code> en scikit-learn tiene una gran cantidad de par√°metros que permiten personalizar el modelo seg√∫n las necesidades espec√≠ficas del problema, algunos de los comunes y con los que te recomiendo que juegues al momento de trabajar

 - <code>penalty</code>: especifica la norma de regularizaci√≥n a utilizar en el modelo. Las opciones comunes son ‚ÄúL1‚Äù, ‚ÄúL2‚Äù y ‚Äúelasticnet‚Äù. El valor por default es ‚ÄúL2‚Äù. En general, mi recomendaci√≥n es que trates de no usar ‚ÄúL1‚Äù con la regresi√≥n log√≠stica. 

 - <code>tol</code>: especifica la tolerancia para la detecci√≥n de convergencia del algoritmo de optimizaci√≥n. Al ser este un algoritmo iterativo, es importante establecer un valor de tolerancia, en caso de que el algoritmo llegue a un punto en el que los valores no cambien lo suficiente, poder detener el entrenamiento.

 - <code>max_iter</code>: siguiendo en el tema de las iteraciones, tambi√©n es posible establecer un n√∫mero m√°ximo de estas.

 - <code>C</code>: es un valor que controla la fuerza con la que la regularizaci√≥n es aplicada. <code>C</code> tiene la peculiaridad de ser un valor que afecta inversamente a la regularizaci√≥n, entre m√°s peque√±o sea este valor, m√°s fuerte ser√° la regularizaci√≥n aplicada.

 - <code>class_weight</code>: este argumento es √∫til cuando est√°s lidiando con un problema en donde haya un desbalance en los datos.  

## Ejemplo de uso de <code>class_weight</code>:

In [None]:
from utils import classification_report_comparison

import numpy as np
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score


# Create an imbalanced classification dataset
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, n_redundant=5,
                           weights=[0.9], random_state=42)

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

# Fit Logistic Regression with class_weight='balanced'
balanced_lr = LogisticRegression(class_weight='balanced')
balanced_lr.fit(X_train, y_train)

vanilla_lr = LogisticRegression()
vanilla_lr.fit(X_train, y_train)


# Make predictions on the testing set
balanced_y_pred = balanced_lr.predict(X_test)
vanilla_y_pred = vanilla_lr.predict(X_test)

classification_report_comparison(y_test, {"Balanced": balanced_y_pred, "No balance": vanilla_y_pred})

 > üìö De tarea, ¬øpor qu√© no intentas jugar un poco m√°s con los par√°metros? utiliza la funci√≥n <code>classification_report_comparison</code>