<a href="https://colab.research.google.com/github/amgito1648/clase-inteligencia-artificial/blob/main/Fundamento_Cuaderno_14_Regresi%C3%B3n_log%C3%ADstica_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color="red">Cuaderno 14. Regresión logística </font>
## <font color="red">14.1 ¿Qué es la Regresión Logística?</font>
La regresión logística es un algoritmo de aprendizaje supervisado utilizado principalmente para problemas de clasificación binaria (dos categorías). Su objetivo es modelar la relación entre un conjunto de variables independientes (predictores) y una variable dependiente categórica. A diferencia de la regresión lineal, el resultado de la regresión logística se interpreta como una probabilidad que oscila entre 0 y 1.

Casos donde se aplica
* Clasificación de correos electrónicos (spam o no spam).
* Diagnóstico médico (enfermedad presente o ausente).
* Predicción de abandono de clientes.
* Clasificación binaria en cualquier contexto (aprobado/reprobado, verdadero/falso).

![imagen](https://images.datacamp.com/image/upload/v1661171230/Logistic_Regression_50731b4db3.png)


En la gráfica anerior se aprecia la comparación entre la regresion Lineal y la regresión logística. Así se observa que una regresión lineal no se ajusta bien a una clasificiación de 0 y 1, mientras que la regresión logistica (cuyo resultado se puede analizar como la probabilidad de ser 0 o 1. (0% o 100%) se ajusta de manera adecuada.
---


## <font color="red">14.2 Formulación Matemática</font>
La regresión logística utiliza la función sigmoide o logística para mapear cualquier valor real a un intervalo entre 0 y 1:

$h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}$

Donde:

* $h_\theta(x)$ representa la probabilidad de que la muestra pertenezca a una clase específica (por ejemplo, clase 1).
* $\theta$ son los parámetros (pesos) aprendidos durante el entrenamiento.
* x son las características (variables independientes).


El modelo optimiza los parámetros $\theta$ usando estimación de máxima verosimilitud para encontrar los valores que maximizan la probabilidad de observar los datos dados.


---

## <font color="red">14.3 Diferencias entre Regresión Logística y Regresión Lineal</font>
| **Aspecto**           | **Regresión Lineal**                              | **Regresión Logística**                                         |
|------------------------|---------------------------------------------------|-----------------------------------------------------------------|
| **Tipo de salida**     | Valor continuo (números reales).                  | Probabilidad (entre 0 y 1).                                     |
| **Aplicación**         | Predicción (regresión).                           | Clasificación (binaria o multiclase).                          |
| **Función objetivo**   | Minimizar error cuadrático medio (MSE).           | Maximizar la verosimilitud.                                    |
| **Forma de la ecuación** | Lineal $( y = \theta^T x )$.                   | Sigmoide $( h_\theta(x) = \frac{1}{1+e^{-\theta^T x}})$.     |



---

## <font color="red">14.4  Estimación de Máxima Verosimilitud</font>
La función de costo en regresión logística no es el error cuadrático medio, sino una función basada en la verosimilitud:
$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right]$

Donde:
- $m$: número de muestras.
- $y^{(i)}$: etiqueta de la muestra $i$.
-$h_\theta(x^{(i)})$ : predicción para la muestra $i$.


Este enfoque asegura que el modelo ajuste las probabilidades predichas a los datos reales.


---

## <font color="red">14.5 ¿Por qué se dice que la regresión logística regresa una probabilidad?</font>

La salida de la función sigmoide es un valor entre 0 y 1, lo que facilita su interpretación como una probabilidad. Por ejemplo:
- Si $h_\theta(x) = 0.8$, hay un 80% de probabilidad de que la muestra pertenezca a la clase positiva.
- Si $h_\theta(x) = 0.3$, hay un 30% de probabilidad de que la muestra pertenezca a la clase positiva.

La probabilidad también permite aplicar un umbral (comúnmente 0.5) para decidir a qué clase pertenece una observación.

### Ejercicio Sencillo de Clasificación Binaria con Scikit-learn
Paso 1: Cargar Datos
Usaremos el conjunto de datos Breast Cancer Dataset proporcionado por Scikit-learn, que contiene información sobre características físicas de tumores para predecir si son malignos o benignos.

**Pasos del ejercicio**
* Cargar los datos y preparar las variables.
* Dividir el dataset en conjuntos de entrenamiento y prueba.
* Escalar las características para mejorar el rendimiento del modelo.
* Entrenar el modelo de regresión logística.
* Evaluar el modelo usando métricas de clasificación como la exactitud (accuracy) y el reporte de clasificación.




Usamos load_breast_cancer() para cargar los datos. El dataset contiene características de tumores en células de cáncer de mama, como el tamaño, la textura, el perímetro, etc. La etiqueta (y) es binaria: 1 para tumores malignos y 0 para tumores benignos.

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import pandas as pd
import numpy as np

# Cargar dataset
data = load_breast_cancer()
X = data.data
y = data.target


In [None]:
# Crear un DataFrame para X con nombres de columnas
X_df = pd.DataFrame(X, columns=data.feature_names)

# Crear un DataFrame para y con nombre de columna
y_df = pd.DataFrame(y, columns=["Clase Tumor"])

X_df

In [None]:
X_df.columns

In [None]:
# Crear un DataFrame con la variable dependiente 'y' y asignarle un nombre de columna
y_df

In [None]:
y_df.value_counts()

In [None]:
#Barra de value_counts
y_df.value_counts().plot(kind='bar')

In [None]:


cantidad = y_df.value_counts()
print(f"Porcentaje de tumores malignos: {cantidad[1]/cantidad.sum():.2%}")
print(f"Porcentaje Sin tumores malignos: {cantidad[0]/cantidad.sum():.2%}")

In [None]:
print(f"Diferencia: {cantidad[1]/cantidad.sum()-cantidad[0]/cantidad.sum():.2%}")

Dado que los datos no están significativamente desbalanceados, se puede entrenar sin requerir blanceo.

**Paso** 2: Dividir los datos
Dividimos los datos en conjuntos de entrenamiento y prueba.


In [None]:
X_df.describe()

In [None]:
#Coeficiente de correlación con seaborn de las columnas de X_df con los valores
import seaborn as sns
import matplotlib.pyplot as plt

# Calcular la matriz de correlación
corr_matrix = X_df.corr()

corr_matrix



In [None]:
#De acuerdo con la tabla anterior los features mean radius, mean perimeter y la mean concavity tiene entre si correlaciones uperiores a 0.8
#por lo tanto lo vamos a retirar del dataset.
X_df.drop(['mean radius', 'mean perimeter', 'mean concavity','radius error'], axis=1, inplace=True)


In [None]:
X_df.shape

In [None]:
# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_df, y_df, test_size=0.2, random_state=42, stratify=y_df)

In [None]:
X_train.shape,X_test.shape,y_train.shape,y_test.shape

Paso 3: Normalizar las características
La normalización es importante en la regresión logística, especialmente si las variables tienen diferentes escalas.


In [None]:
# Escalar los datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
#Solo por probar vamos a balancear el X_train y Y_train usando SMOTE
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_train_scaled, y_train = smote.fit_resample(X_train_scaled, y_train)

In [None]:
#barra de y_train_resampled con value_counts
y_train.value_counts().plot(kind='bar')

Paso 4: Entrenar el modelo
Entrenamos un modelo de regresión logística con los datos normalizados.


In [None]:
# Inicializar el modelo de regresión logística
model = LogisticRegression(random_state=42, max_iter=1000)

In [None]:
#Dado que tenemos ahora 26 caracteristicas, quiero seleccionar solo las 10 más importantes,
#Para esto vamos a aplicar RFE para seleccionar características basado en la eliminación de caracteristicas recursivamente

from sklearn.feature_selection import RFE

# Usar RFE para seleccionar las 10 características más importantes
selector = RFE(model, n_features_to_select=10)
X_train_rfe = selector.fit_transform(X_train_scaled, y_train.values.ravel())
X_test_rfe = selector.transform(X_test_scaled)


In [None]:
X_test_rfe

In [None]:
#Visualizar el modelo a entrenar
selector

In [None]:
selector.n_features_in_


In [None]:
#Mostras los nombre de las caracteristicas seleccionadas de X_df.columns filtrada por selector.support_
X_df.columns[selector.support_]

###Obtener el nombre de las columnas

In [None]:
# Obtener las columnas seleccionadas
# Using X_df.columns which has the correct number of features after dropping columns
columnas_seleccionadas = X_df.columns[selector.support_]
print("Columnas seleccionadas por RFE:")
print(", ".join(columnas_seleccionadas))

Vamos a reentrenar el escalador con las columnas sugeridas, luego vamos a hacer todo el preprocesamiento.


In [None]:
# Crear nuevos DataFrames con las columnas seleccionadas
columnas= pd.DataFrame(X_train_rfe, columns=columnas_seleccionadas).columns
X_test_rfe_selected = pd.DataFrame(X_test_rfe, columns=columnas_seleccionadas)

In [None]:
# Filtrar X_df para que contenga solo las 10 columnas seleccionadas
X_df = X_df[columnas_seleccionadas]
y=y_df

In [None]:
y_df[y_df['Clase Tumor']==1]

In [None]:
X_df[columnas_seleccionadas][19:20]


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_df, y_df, test_size=0.2, random_state=42)

In [None]:
X_train

In [None]:
# Escalar los datos
scaler10 = StandardScaler()
X_train_scaled = scaler10.fit_transform(X_train)
X_test_scaled = scaler10.transform(X_test)

In [None]:
X_train_scaled[0]

In [None]:
# Entrenar el modelo con las características seleccionadas
model.fit(X_train_scaled, y_train.values.ravel())

Paso 5: Validar el modelo
Evaluamos el modelo con datos de prueba.


In [None]:
# Evaluar el modelo con los datos de prueba
y_pred = model.predict(X_test_scaled)

# Resultados
print("\nAccuracy con las mejores columnas:", accuracy_score(y_test, y_pred))
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

**Paso 6: Mejorar el modelo**


* Ajustar hiperparámetros como C (regularización) o max_iter.
* Usar técnicas de selección de características como Recursive Feature Elimination (RFE).

Ejemplo de selección de características:


A continuación, se muestra cómo podemos implementar GridSearchCV para encontrar el mejor modelo de regresión logística con los resultados anteriores, utilizando la selección de características mediante RFE.

Pasos para implementar GridSearchCV:
Definir los hiperparámetros que deseamos probar.
Usar GridSearchCV para probar todas las combinaciones de esos hiperparámetros.
Evaluar el mejor modelo basado en la métrica de evaluación.


**Mejores hiperparámetros:** Te mostrará la mejor combinación de hiperparámetros encontrados por GridSearchCV.
**Exactitud:** Te proporcionará la exactitud del modelo con los mejores hiperparámetros en los datos de prueba.
**Reporte de clasificación:** Incluirá métricas como la precisión, recall y F1-score.
**Predicción **para un nuevo dato: Mostrará el resultado de la predicción para un dato que se introduzca manualmente.

In [None]:
X_train_scaled.shape

In [None]:
from sklearn.model_selection import GridSearchCV

# Definir los parámetros para GridSearchCV
param_grid = {
    'C': [0.1, 1, 10, 100],  # Regularización (coeficiente)
    'solver': ['liblinear', 'saga'],  # Algoritmos de optimización
    'penalty': ['l2'],  # Tipo de regularización
    'max_iter': [100, 200, 300,500,1000]  # Número máximo de iteraciones
}

# Inicializar GridSearchCV con validación cruzada
grid_search = GridSearchCV(
    estimator=model,  # Modelo base (LogisticRegression)
    param_grid=param_grid,
    cv=5,  # Validación cruzada de 5 particiones
    scoring='accuracy',  # Métrica para optimizar
    n_jobs=-1  # Usar todos los núcleos disponibles
)

# Realizar la búsqueda de hiperparámetros
grid_search.fit(X_train_scaled,y_train.values.ravel())


In [None]:
# Mejor modelo encontrado
best_model = grid_search.best_estimator_
print("Mejores hiperparámetros encontrados por GridSearchCV:")
print(grid_search.best_params_)

In [None]:
import joblib

# Guardar el modelo entrenado usando joblib
joblib.dump(best_model, 'mejor_modelo_logistico.joblib')

# Evaluar el modelo con los datos de prueba
y_pred = best_model.predict(X_test_scaled)

# Resultados
print("Mejores hiperparámetros encontrados por GridSearchCV:")
print(grid_search.best_params_)


In [None]:
print("\nAccuracy con los mejores hiperparámetros:", accuracy_score(y_test, y_pred))
print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

**GridSearchCV **realiza una búsqueda exhaustiva sobre un conjunto de valores posibles para cada uno de estos hiperparámetros y evalúa qué combinación de ellos da el mejor rendimiento según el criterio que tú elijas (en este caso, accuracy, o precisión). Luego, elige la combinación de parámetros que da el mejor rendimiento en las validaciones cruzadas.

En resumen, los mejores hiperparámetros encontrados por GridSearchCV para este modelo de regresión logística son:

C = 1: Regularización moderada.
max_iter = 100: El modelo convergerá en 100 iteraciones.
penalty = 'l2': Se usa regularización L2 (Ridge).
solver = 'liblinear': El solver de optimización más eficiente para este problema.

Ejemplo de predicción con un nuevo dato

In [None]:

# Cargar el mejor modelo entrenado
best_model = joblib.load('mejor_modelo_logistico.joblib')

# Las 10 columnas seleccionadas por RFE
columnas_seleccionadas = ['mean area', 'perimeter error', 'area error', 'worst radius',
       'worst texture', 'worst perimeter', 'worst area', 'worst smoothness',
       'worst concavity', 'worst concave points']

# Cargar el dataset original (asegúrate de que estás trabajando con el mismo dataset que usaste para entrenar)
data = load_breast_cancer()
X_df = pd.DataFrame(data.data, columns=data.feature_names)

# Filtrar el dataset para que contenga solo las 10 características seleccionadas por RFE
X_selected = X_df[columnas_seleccionadas]


# Nuevo dato para hacer la predicción (asegúrate de que tenga 10 características)
nuevo_dato = np.array([[250.5,1.8850,17.67,10.310,22.65,65.50,324.7,0.14820,1.25200,0.17500]])

# Convertir el nuevo dato a un DataFrame con las columnas seleccionadas
nuevo_dato_df = pd.DataFrame(nuevo_dato, columns=columnas_seleccionadas)

# Escalar el nuevo dato
nuevo_dato_scaled = scaler10.transform(nuevo_dato_df)

# Realizar la predicción
prediccion = best_model.predict(nuevo_dato_scaled)

# Interpretar y mostrar la predicción
if prediccion <= 0.5:
    print("\nEl modelo predice que el tumor es BENIGNO (clase 0).")
else:
    print("\nEl modelo predice que el tumor es MALIGNO (clase 1).")


In [None]:
#El valor de prediccio en porcentaje de probabilidad

prediccion_probabilidad = best_model.predict_proba(nuevo_dato_scaled)
# Access the individual probabilities within the array and format them
prob_benigno, prob_maligno = prediccion_probabilidad[0]
print(f"Probabilidad Benigno: {prob_benigno*100:.2f}%")
print(f"Probabilidad Maligno: {prob_maligno*100:.2f}%")