<a href="https://colab.research.google.com/github/AngelOseasA/LogisticRegression/blob/main/LogisticRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Regresión logística o Clasificación Binaria**

La regresión logística es un método estadístico usado para modelar la relación entre una variable dependiente binaria (con dos posibles resultados, como 0/1 o verdadero/falso) y una o más variables independientes. A diferencia de la regresión lineal, utiliza la función logística para garantizar que las predicciones estén limitadas entre 0 y 1, interpretándose como probabilidades. Es ampliamente usada en problemas de clasificación binaria, como la detección de fraude o diagnósticos médicos. Su objetivo es encontrar el mejor ajuste de los datos que maximice la precisión de las predicciones.

## **Objetivo**

En este tutorial vamos a entender el concepto y aplicación de la regresión logística mediante un caso de aplicación y algunas métricas de desempeño del modelo, utilizando la librería SKLEARN.




### **Complejidad del algoritmo**

La complejidad computacional de una regresión logística depende de varios factores, incluyendo el método de optimización usado (como descenso de gradiente) y las características del conjunto de datos. En términos generales, la complejidad puede describirse como:

- **Entrenamiento**: \( O(n \cdot m \cdot k) \), donde:
  - \( n \) es el número de muestras de datos (observaciones),
  - \( m \) es el número de características (variables independientes),
  - \( k \) es el número de iteraciones que el algoritmo necesita para converger.

La complejidad puede variar según la implementación específica del optimizador y la convergencia del modelo. Para modelos grandes o conjuntos de datos con muchas características, la complejidad puede aumentar y requerir técnicas como la regularización para evitar sobreajuste y reducir el tiempo de cómputo.

In [1]:
### Importamos las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [2]:
### Creamos un dataset
X, y = make_classification(n_samples=1000, n_features= 10, n_classes=2, random_state=42)

### Ahora creamos los dato de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.30, random_state = 42)

In [3]:
### Implementación de la regresión logística
logistic = LogisticRegression()
logistic.fit(X_train, y_train)

In [4]:
### Ahora vamos a a predecir la clasificación con los datos de prueba
y_pred = logistic.predict(X_test)
print(y_pred)

[0 1 0 1 0 1 0 0 0 0 0 1 0 1 0 0 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 1 0 0 0 0 1
 1 1 1 0 1 1 0 0 0 1 1 1 1 0 1 0 0 1 0 1 0 1 0 1 0 0 1 1 1 0 0 1 1 1 1 1 0
 1 0 0 1 0 1 0 0 1 0 1 0 0 0 0 1 1 1 1 1 1 1 0 0 1 0 1 0 1 0 0 1 0 1 1 1 1
 1 1 1 1 0 0 1 0 0 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 1 0 0 0 1 1 0 0 0 0 0 1 0
 0 0 1 0 0 1 0 0 1 0 1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1
 0 0 0 0 1 0 0 0 0 1 0 0 1 1 1 0 1 0 0 0 1 1 1 1 1 0 0 0 0 0 1 0 1 0 1 1 0
 0 1 1 1 0 1 1 0 0 0 0 0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1 1 0 0 1 1 1 1
 0 1 0 1 1 0 0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 1 0 1 0 1 1 1 0 0 1 0 1 1 0 1 1
 1 1 1 0]


### **Métricas de desempeño**

Las **métricas de desempeño** son esenciales para evaluar la efectividad de los modelos de clasificación, como la regresión logística. La **precisión** indica qué proporción de las predicciones positivas fue correcta, mientras que el **recall** mide la capacidad del modelo para identificar todos los casos positivos. El **f1-score** combina precisión y recall en un solo valor balanceado, útil cuando las clases están desbalanceadas. La **matriz de confusión** ofrece una representación detallada de los verdaderos y falsos positivos y negativos, ayudando a identificar errores específicos. Finalmente, la **exactitud** refleja el porcentaje de predicciones correctas del modelo en el conjunto total de datos. Estas métricas permiten una comprensión integral del rendimiento del modelo y ayudan a ajustar y optimizar su comportamiento.

In [5]:
### Librerías necesrias para esta sección
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report


El valor de `accuracy_score` de 0.8467 indica que el modelo de regresión logística clasificó correctamente aproximadamente el 84.67% de las observaciones en el conjunto de prueba. Esto significa que, de todas las predicciones realizadas, un 84.67% coincidió con las etiquetas reales. Sin embargo, es importante evaluar otras métricas si existe un desbalance de clases para obtener un análisis más completo del rendimiento.

In [6]:
### Creamos el accuracy score
score = accuracy_score(y_test, y_pred)
print(score)


0.8466666666666667


La matriz de confusión presentada es una herramienta valiosa para evaluar el rendimiento del modelo de clasificación. En la matriz:

- `[[118, 17], [29, 136]]`, el número 118 representa las verdaderas negativas (TN), es decir, las veces que el modelo predijo correctamente la clase negativa.
- El valor 17 indica las falsas positivas (FP), donde el modelo predijo incorrectamente la clase positiva.
- El 29 corresponde a las falsas negativas (FN), en las que la clase real era positiva pero el modelo falló al predecirla.
- Finalmente, el 136 muestra las verdaderas positivas (TP), reflejando las predicciones acertadas de la clase positiva.

Estos números ayudan a calcular métricas clave como precisión, recall y F1-score para un análisis más profundo del rendimiento.

In [7]:
### Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)
print(cm)

[[118  17]
 [ 29 136]]


El **reporte de clasificación** muestra un análisis detallado del desempeño del modelo para las clases 0 y 1.

- La **precisión** es de 0.80 para la clase 0 y 0.89 para la clase 1, lo que indica la proporción de predicciones correctas en cada clase.
- El **recall** de 0.87 para la clase 0 y 0.82 para la clase 1 refleja qué tan bien el modelo captura todos los casos verdaderos de cada clase.
- El **f1-score**, un balance entre precisión y recall, es de 0.84 para la clase 0 y 0.86 para la clase 1, evidenciando un buen desempeño general.
- La **exactitud** global del modelo es 0.85, mostrando un rendimiento sólido en la clasificación de las 300 muestras totales.

In [8]:
### Ahora vamos crear este reporte con la precisión, recall como otras métricas importantes
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.80      0.87      0.84       135
           1       0.89      0.82      0.86       165

    accuracy                           0.85       300
   macro avg       0.85      0.85      0.85       300
weighted avg       0.85      0.85      0.85       300



### **Modificación de los hiperparámetros y Cross validation**

En esta sección, avanzaremos en la optimización del modelo de regresión logística que construimos anteriormente. Nos enfocaremos en mejorar su rendimiento ajustando los hiperparámetros clave mediante el uso de *Grid Search* y validación cruzada. Primero, definiremos un conjunto de posibles opciones para la penalización, el valor de regularización (*C*) y los solucionadores que ofrece la librería `LogisticRegression` de *scikit-learn*. Posteriormente, implementaremos `GridSearchCV` para buscar la mejor combinación de estos parámetros y así optimizar el modelo de manera más robusta. Finalmente, evaluaremos el modelo ajustado usando métricas de desempeño, observando su precisión, reporte de clasificación y la matriz de confusión para obtener un análisis detallado de los resultados.

In [13]:
### Primero creamos un modelo nuevo
model = LogisticRegression()
penalty = ['l1', 'l2', 'elasticnet'] ## Probamos las opciones de la librería
c_values = [100,10,1,0.1,0.01]
solver = ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']

### Ahora lo colocamos dentro de un duccionario para luego, pasarlo al modelo
params = dict(penalty = penalty, C = c_values, solver = solver)
params

{'penalty': ['l1', 'l2', 'elasticnet'],
 'C': [100, 10, 1, 0.1, 0.01],
 'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']}

`GridSearchCV` es una herramienta de *scikit-learn* que se utiliza para buscar la mejor combinación de hiperparámetros para un modelo de machine learning. Lo que hace es:

1. **Exploración de Hiperparámetros**: Toma un conjunto de hiperparámetros definidos por el usuario y evalúa todas las combinaciones posibles de estos.

2. **Validación Cruzada**: Utiliza la validación cruzada para evaluar cada combinación de hiperparámetros, dividiendo el conjunto de datos en diferentes subconjuntos (folds) y entrenando el modelo múltiples veces para obtener una medida más fiable de rendimiento.

3. **Selección del Mejor Modelo**: Devuelve la combinación de hiperparámetros que maximiza (o minimiza) una métrica de desempeño específica, como la *accuracy*, *precision*, *recall*, etc.

In [25]:
### ahora vamos a usar GridSearchCV, que genera la mejor combinación de los parámetros a evaluar

from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold
cv = StratifiedKFold()
grid = GridSearchCV(estimator=model, param_grid= params, scoring='accuracy', cv=cv, n_jobs=-1)
print(grid)

GridSearchCV(cv=StratifiedKFold(n_splits=5, random_state=None, shuffle=False),
             estimator=LogisticRegression(), n_jobs=-1,
             param_grid={'C': [100, 10, 1, 0.1, 0.01],
                         'penalty': ['l1', 'l2', 'elasticnet'],
                         'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag',
                                    'saga']},
             scoring='accuracy')


In [26]:
grid.fit(X_train, y_train)

200 fits failed out of a total of 375.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
25 fits failed with the following error:
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/sklearn/model_selection/_validation.py", line 888, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/base.py", line 1473, in wrapper
    return fit_method(estimator, *args, **kwargs)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/linear_model/_logistic.py", line 1194, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "/usr/local/lib/python3.10/dist-packages/sklearn/linear_model/_logistic.py", line 67, in _check_solver
  

In [27]:
### luego de entrenar el modelo, vamos a ver los hiperparámetros más adecuados
grid.best_params_

{'C': 0.01, 'penalty': 'l2', 'solver': 'newton-cg'}

In [28]:
### Ahora vemos el mejor score
grid.best_score_

0.8785714285714287

In [29]:
### Ahora vamos a hacer la respectiva predicción
y_pred = grid.predict(X_test)

In [30]:
### Finalmente, volvemos a evaluar las métricas
score = accuracy_score(y_pred, y_test)
print(score)
print(classification_report(y_pred, y_test))
print(confusion_matrix(y_pred, y_test))

0.8533333333333334
              precision    recall  f1-score   support

           0       0.92      0.79      0.85       157
           1       0.80      0.92      0.86       143

    accuracy                           0.85       300
   macro avg       0.86      0.86      0.85       300
weighted avg       0.86      0.85      0.85       300

[[124  33]
 [ 11 132]]
