<a href="https://colab.research.google.com/github/apchavezr/Fundamentos-de-Estad-stica---Ciencia-de-Datos/blob/main/Regresion_Logistica_scikit_learn_Interpretado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión Logística con scikit-learn

Este notebook presenta una implementación paso a paso de un modelo de regresión logística utilizando la biblioteca `scikit-learn`. Se utilizan datos simulados para una variable binaria, y se explica la preparación de datos, el ajuste del modelo, la predicción de clases y la obtención de probabilidades.

## 1. Simulación de datos

### Interpretación - Simulación de datos
Se simularon dos variables independientes `X1` y `X2` con distribuciones normales. A partir de estas variables se construyó una probabilidad utilizando una función logística. Posteriormente, se generó una variable binaria `Y` que toma el valor 1 con probabilidad `p` y 0 en caso contrario. Este proceso imita la generación de un fenómeno real que sigue una relación no lineal entre predictores y una respuesta categórica binaria.

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

# Reproducibilidad
np.random.seed(42)

# Generar variables independientes
n = 500
X1 = np.random.normal(0, 1, n)
X2 = np.random.normal(1, 2, n)

# Crear variable binaria dependiente usando una función logística
log_odds = -0.5 + 1.2 * X1 - 0.8 * X2
p = 1 / (1 + np.exp(-log_odds))
Y = np.random.binomial(1, p)

# Crear DataFrame
df = pd.DataFrame({'X1': X1, 'X2': X2, 'Y': Y})
df.head()

Unnamed: 0,X1,X2,Y
0,0.496714,2.852355,0
1,-0.138264,4.818833,0
2,0.647689,-1.797135,1
3,1.52303,2.125938,1
4,-0.234153,-0.301285,0


### Interpretación - División de los datos
El conjunto de datos fue dividido en dos partes: entrenamiento (70%) y prueba (30%). Este procedimiento es necesario para entrenar el modelo con una muestra y evaluar su capacidad predictiva con datos no vistos. Garantiza que la evaluación del modelo no esté sesgada por los datos usados en el entrenamiento.

## 2. División de datos en entrenamiento y prueba

### Interpretación - Ajuste del modelo de regresión logística
Se entrenó un modelo de regresión logística usando los datos de entrenamiento. Este modelo estima los coeficientes que relacionan `X1` y `X2` con la probabilidad de que `Y = 1`. El método de optimización utilizado por defecto es la máxima verosimilitud.

In [3]:
X = df[['X1', 'X2']]
y = df['Y']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


### Interpretación - Predicción de clases y probabilidades
Luego del entrenamiento, el modelo fue usado para hacer predicciones sobre los datos de prueba. `predict()` genera la clase predicha (0 o 1) y `predict_proba()` devuelve la probabilidad estimada de que `Y = 1`. Estas probabilidades permiten aplicar umbrales personalizados según el contexto de aplicación.

## 3. Ajuste del modelo de regresión logística

### Interpretación - Evaluación del modelo
Se utilizó la matriz de confusión para contar los aciertos y errores del modelo. El reporte de clasificación muestra precisión, recall, F1-score y soporte para cada clase. El valor AUC indica la capacidad discriminativa del modelo; un valor cercano a 1 sugiere buen rendimiento.

In [4]:
from sklearn.linear_model import LogisticRegression

modelo = LogisticRegression()
modelo.fit(X_train, y_train)


## 4. Predicción de clases y probabilidades

In [5]:
y_pred = modelo.predict(X_test)
probs = modelo.predict_proba(X_test)[:, 1]  # Probabilidad de clase 1

# Mostrar primeras predicciones
resultados = pd.DataFrame({'Y_real': y_test.values, 'Y_pred': y_pred, 'Probabilidad': probs})
resultados.head()


Unnamed: 0,Y_real,Y_pred,Probabilidad
0,1,1,0.926502
1,1,1,0.683554
2,1,1,0.747451
3,0,0,0.138059
4,0,0,0.143809


## 5. Evaluación del desempeño del modelo

In [6]:
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de clasificación:")
print(classification_report(y_test, y_pred))

print("AUC:", roc_auc_score(y_test, probs))


Matriz de confusión:
[[94 10]
 [14 32]]

Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.87      0.90      0.89       104
           1       0.76      0.70      0.73        46

    accuracy                           0.84       150
   macro avg       0.82      0.80      0.81       150
weighted avg       0.84      0.84      0.84       150

AUC: 0.9226588628762541


## Conclusión

En este notebook se ha implementado un modelo de regresión logística utilizando `scikit-learn`. Se generaron datos simulados con dos variables predictoras y una respuesta binaria. El modelo fue ajustado, se realizaron predicciones y se evaluó su desempeño usando métricas comunes en clasificación como AUC, matriz de confusión y F1-score.