<a href="https://colab.research.google.com/github/JoseGabriel-ITD/Curso-IA-Python/blob/main/Practica_Regresion_logistica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [68]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

from sklearn.linear_model import LogisticRegression

In [69]:
prestamos = pd.read_csv('prestamos.csv')
prestamos.head()

Unnamed: 0,funded_amnt,loan_term_year,int_rate,grade_code,purpose_code,addr_state_code,home_ownership_code,annual_inc,dti,revol_util,pub_rec_bankruptcies,repaid,total_pymnt
0,2400,3,15.96,2,11,2,4,12252,8.72,98.5,0,1,3005.666844
1,10000,3,13.49,2,9,0,4,49200,20.0,21.0,0,1,12231.89
2,3000,3,18.64,4,0,0,4,48000,5.35,87.5,0,1,3939.135294
3,5600,5,21.28,5,11,0,3,40000,5.55,32.6,0,0,647.5
4,5375,5,12.69,1,9,5,4,15000,18.08,36.5,0,0,1484.59


In [70]:
# columnas necesarias para entrenar el modelo de clasificacion
model_columns = ['funded_amnt', "int_rate", "grade_code", 'purpose_code', 'addr_state_code',
                 'home_ownership_code', 'annual_inc', 'dti', 'revol_util',
                 'pub_rec_bankruptcies']

In [71]:
X = prestamos[model_columns]  # Selección de características
y = prestamos["repaid"]  # Variable objetivo

# Dividir en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

In [72]:
X_train.head()

Unnamed: 0,funded_amnt,int_rate,grade_code,purpose_code,addr_state_code,home_ownership_code,annual_inc,dti,revol_util,pub_rec_bankruptcies
17433,4400,11.83,1,6,0,0,48000,3.52,58.3,0
7540,8000,12.99,2,2,0,4,99000,23.93,93.4,0
4913,10000,5.42,0,4,0,0,96000,1.69,16.8,0
3679,19850,12.69,1,2,3,0,67000,18.84,24.5,0
17388,24250,16.7,4,2,4,4,126000,17.14,97.9,0


In [73]:
# Creamoos el clasificador de regresion logistica
clf1 = LogisticRegression(random_state=0)

# Entrenamos el clasificador
clf1.fit(X_train, y_train)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


## **Escalamiento de variables**

- Transforma la distribución de cada característica para que tenga una media de cero y una desviación estándar de uno. Este proceso garantiza que todas las características estén en la misma escala, evitando que una sola característica domine el proceso de aprendizaje debido a su mayor magnitud.

**Cuándo es necesario escalar?**  
- Modelos basados en distancia como KNN, SVM y regresión logística.
- Redes neuronales porque usan gradientes y pueden verse afectadas por valores grandes.

### StandardScaler
- StandardScaler es una técnica de preprocesamiento proporcionada por scikit-learn, ofrece un método simple pero efectivo para estandarizar los valores de las características
- Convierte los valores a una distribución estándar con media = 0 y desviación estándar = 1.
- Mejora la convergencia de la Regresión Logística, especialmente cuando hay valores en escalas muy diferentes.
- Ayuda a estabilizar los coeficientes y mejorar la precisión del modelo.

In [74]:
# Aplicar escalado solo a las variables numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [75]:
X_train_scaled

array([[-0.93193636, -0.06921094, -0.43097526, ..., -1.42580652,
         0.31810123, -0.19394894],
       [-0.43476103,  0.24459141,  0.28805931, ...,  1.64216196,
         1.5635839 , -0.19394894],
       [-0.15855251, -1.80323943, -1.15000984, ..., -1.70088649,
        -1.15447799, -0.19394894],
       ...,
       [-0.98372546, -1.24326455, -1.15000984, ...,  0.36597125,
        -1.57318726, -0.19394894],
       [ 2.60353266,  2.11658472,  1.72612847, ..., -1.30705615,
         0.64100415, -0.19394894],
       [-0.64191742,  0.1742564 ,  0.28805931, ..., -0.2428123 ,
         0.46358496, -0.19394894]])

In [76]:
# Convertir de nuevo a DataFrame conservando nombres de columnas e índices
X_train_scaled = pd.DataFrame(X_train_scaled, columns=model_columns, index=X_train.index)
X_test_scaled = pd.DataFrame(X_test_scaled, columns=model_columns, index=X_test.index)

In [77]:
X_train_scaled

Unnamed: 0,funded_amnt,int_rate,grade_code,purpose_code,addr_state_code,home_ownership_code,annual_inc,dti,revol_util,pub_rec_bankruptcies
17433,-0.931936,-0.069211,-0.430975,0.603007,-1.057237,-1.288516,-0.308691,-1.425807,0.318101,-0.193949
7540,-0.434761,0.244591,0.288059,-0.548949,-1.057237,0.826880,0.357926,1.642162,1.563584,-0.193949
4913,-0.158553,-1.803239,-1.150010,0.027029,-1.057237,-1.288516,0.318713,-1.700886,-1.154478,-0.193949
3679,1.201774,0.163436,-0.430975,-0.548949,0.506751,-1.288516,-0.060343,0.877049,-0.881252,-0.193949
17388,1.809433,1.248218,1.726128,-0.548949,1.028080,0.826880,0.710841,0.621510,1.723261,-0.193949
...,...,...,...,...,...,...,...,...,...,...
11284,1.913011,0.742347,1.007094,-0.548949,-1.057237,-1.288516,2.985180,0.134483,1.450036,-0.193949
11964,0.117656,-0.867243,-0.430975,-0.548949,-1.057237,-1.288516,-0.021130,-0.190201,-0.781898,-0.193949
5390,-0.983725,-1.243265,-1.150010,0.027029,-1.057237,-1.288516,0.449422,0.365971,-1.573187,-0.193949
860,2.603533,2.116585,1.726128,-0.548949,-1.057237,-1.288516,0.240288,-1.307056,0.641004,-0.193949


In [78]:
# Creamoos el clasificador de regresion logistica
clf1 = LogisticRegression(random_state=0)

# Entrenamos el clasificador
clf1.fit(X_train_scaled, y_train)

In [79]:
print("Exactitud del modelo de entrenamiento:", clf1.score(X_train_scaled, y_train) * 100 )

Exactitud del modelo de entrenamiento: 85.61620897521767


In [80]:
print("Precisión del modelo de prueba: ", clf1.score(X_test_scaled, y_test) *100)

Precisión del modelo de prueba:  84.66850828729282


In [81]:
yhat1 =  clf1.predict(X_test_scaled)
yhat1

array([1, 1, 1, ..., 1, 1, 1])

In [82]:
# informe que muestre las principales métricas de clasificación.
print("Reporte de métricas del clasificador: \n", classification_report(y_test, yhat1))

Reporte de métricas del clasificador: 
               precision    recall  f1-score   support

           0       0.44      0.00      0.01      1220
           1       0.85      1.00      0.92      6744

    accuracy                           0.85      7964
   macro avg       0.65      0.50      0.46      7964
weighted avg       0.79      0.85      0.78      7964



In [83]:
from sklearn import metrics
print(f'Matriz Confusion:\n {metrics.confusion_matrix(y_test, yhat1 )}')

Matriz Confusion:
 [[   4 1216]
 [   5 6739]]


### **📊 Interpretación de la Matriz de Confusión**
De acuerdo con el resultado de la matriz de confusión es:  


|   | Predicho: **0** (No Pagado) | Predicho: **1** (Pagado) |
|---|-----------------|-----------------|
| **Real: 0 (No Pagado)**  | **4** (TP)  | **1216** (FN) |
| **Real: 1 (Pagado)**     | **5** (FP)  | **6739** (TN) |

- **Clase `0` = Créditos NO pagados** (riesgosos)
- **Clase `1` = Créditos pagados** (sin riesgo)

📌 **¿Qué significan estos valores?**
1. **4 créditos (Riesgosos) fueron correctamente clasificados** como que no se van a pagar (**TP**, Verdaderos Positivos).
2. **1,216 créditos Riesgosos fueron mal clasificados como pagados** (**FN**, Falsos Negativos) ❌ **Error crítico**: el modelo está dejando pasar muchos créditos riesgosos.
3. **5 créditos pagados fueron mal clasificados como impagos** (**FP**, Falsos Positivos), lo cual es un error menor.
4. **6,739 créditos pagados fueron correctamente clasificados** como pagados (**TN**, Verdaderos Negativos).

---

### **📉 Problema detectado**
- **El modelo casi nunca detecta créditos Riesgosos.**
- **Detecta bien los créditos pagados**, pero ignora a los morosos.
- **De los 1,220 créditos sin posibilidad de pago, solo detecta 4 correctamente.**
- **Está cometiendo muchos Falsos Negativos (FN)** → préstamos riesgosos que el modelo cree que se pagarán.

---

### **📌 Métricas claves basadas en la matriz**
#### **1️⃣ Precisión para créditos NO pagados (Clase 0)**

\begin{align}
        Precision = \frac{TP}{TP+ FP} = \frac{4} {4+5} = 0.44
    \end{align}



👉 **Solo el 44% de los préstamos predichos como "No pagados" realmente no se pagan.**

#### **2️⃣ Recall para créditos NO pagados (Clase 0)**
\begin{align}
        Recall = \frac{TP}{TP+ FN} = \frac{4} {4+1216} = 0.0033
    \end{align}
👉 **El modelo solo detecta el 0.33% de los créditos impagos.**  
🚨 **Error grave:** Está dejando pasar casi todos los préstamos riesgosos.

#### **3️⃣ Precisión para créditos pagados (Clase 1)**

\begin{align}
        Precision = \frac{TN}{TN+ FN} = \frac{6739} {6739+1216} = 0.85
    \end{align}

👉 **El 85% de los préstamos predichos como "Pagados" realmente sí se pagan.**  
✔️ **Buena precisión para esta clase.**

#### **4️⃣ Recall para créditos pagados (Clase 1)**

\begin{align}
        Recall = \frac{TN}{TN+ FP} = \frac{6739} {6739+5} = 0.9993
    \end{align}

👉 **El modelo detecta el 99.93% de los créditos pagados.**  
✔️ **Es casi perfecto en encontrar los préstamos buenos.**

---

### **📌 Conclusión**
✅ **El modelo detecta casi todos los créditos buenos (pagados).**  
❌ **El modelo no detecta casi ningún crédito impago.**  
🚨 **Problema crítico:** Se está dejando engañar por el desbalance de clases.

---

### **✅ Soluciones para mejorar el modelo**
1️⃣  **Ajustar los pesos de la clase en el modelo** (`class_weight='balanced'`).  
2️⃣   **Usar un modelo más avanzado**, como **Random Forest o XGBoost**, que manejen mejor el desbalance.   
3️⃣  **Cambiar el umbral de decisión** (por defecto, `LogisticRegression` usa 0.5, pero podemos ajustarlo).



## **📊 Regresion logistica con balanceo de clases**

In [84]:
# Crear segundo clasificador con balanceo de clases
clf2 = LogisticRegression(random_state=0, class_weight="balanced")

# Entrenar el nuevo clasificador
clf2.fit(X_train_scaled, y_train)

In [85]:
print("Exactitud del modelo de entrenamiento:", clf2.score(X_train_scaled, y_train) * 100 )

Exactitud del modelo de entrenamiento: 62.74279973208306


In [86]:
print("Precisión del modelo de prueba: ", clf2.score(X_test_scaled, y_test) *100)

Precisión del modelo de prueba:  61.9537920642893


In [87]:
yhat2 =  clf2.predict(X_test_scaled)
yhat2

array([0, 0, 1, ..., 1, 1, 1])

In [88]:
# informe que muestre las principales métricas de clasificación

print("Reporte de métricas del clasificador: \n", classification_report(y_test, yhat2))

Reporte de métricas del clasificador: 
               precision    recall  f1-score   support

           0       0.22      0.60      0.33      1220
           1       0.90      0.62      0.74      6744

    accuracy                           0.62      7964
   macro avg       0.56      0.61      0.53      7964
weighted avg       0.79      0.62      0.67      7964



In [89]:
print(f'Matriz Confusion:\n {metrics.confusion_matrix(y_test, yhat2 )}')

Matriz Confusion:
 [[ 732  488]
 [2542 4202]]


### **📊 Interpretación del Nuevo Reporte de Clasificación**  

Ahora, después de balancear las clases, los resultados han cambiado. Veamos cómo interpretar cada métrica:

| Clase | Precisión | Recall | F1-score | Support |
|-------|----------|--------|----------|---------|
| **0 (No Pagado)** | **0.22** | **0.60** | **0.33** | 1220 |
| **1 (Pagado)** | **0.90** | **0.62** | **0.74** | 6744 |

👉 **Resumen del desempeño**:  
- **La detección de créditos impagos (clase `0`) ha mejorado mucho en recall (0.60), lo que significa que el modelo ahora detecta el 60% de los créditos riesgosos.**  
- **Sin embargo, la precisión para la clase `0` sigue siendo baja (0.22), lo que indica que hay muchos falsos positivos (el modelo clasifica como impagos algunos préstamos que sí se pagan).**  
- **La precisión para la clase `1` (créditos pagados) sigue siendo alta (0.90), pero su recall bajó a 0.62, lo que significa que el modelo ahora confunde más créditos buenos como malos.**  

---

### **📌 Análisis Métrica por Métrica**
#### **1️⃣ Precisión (Precision)**
**¿Qué tan exacto es el modelo cuando predice una clase?**  

\begin{align}
        PrecisionClase 0 = \frac{TP}{TP+ FP} = \frac{732} {732+2542} = 0.2235
    \end{align}

  \begin{align}
        PrecisionClase 1 = \frac{TP}{TP+ FP} = \frac{4202} {4202+488} = 0.8960
    \end{align}

- **Para la clase `0` (No Pagado)** → **0.2235**  
  → **De todos los préstamos que el modelo dijo que no se pagarían, solo el 22% realmente no se pagan.**  
  → **Baja precisión = muchos falsos positivos (FP)**.  
- **Para la clase `1` (Pagado)** → **0.90**  
  → **De todos los préstamos que el modelo dijo que se pagarían, el 90% sí se pagan.**  
  → **Buena precisión para la clase `1`**.

✅ **El modelo sigue siendo bueno prediciendo créditos pagados.**  
❌ **Pero en los créditos que no se pagarán, hay muchos falsos positivos (créditos buenos mal clasificados como malos).**  

---

#### **2️⃣ Recall (Exhaustividad / Sensibilidad)**
**¿Cuántos de los casos reales de cada clase fueron identificados correctamente?**  

\begin{align}
        RecallClase0 = \frac{TP}{TP+ FN} = \frac{732} {732+488} = 0.60
    \end{align}
    \begin{align}
        Recall Clase1= \frac{TN}{TN+ FP} = \frac{4202} {4202+2542} = 0.6230
    \end{align}

- **Para la clase `0` (No Pagado)** → **0.60**  
  → **El modelo ahora detecta el 60% de los créditos que realmente no se pagan.**  
  → **Esto es una gran mejora comparado con el modelo anterior sin balanceo de clases (0.0033).**  
- **Para la clase `1` (Pagado)** → **0.62**  
  → **El modelo ahora solo detecta el 62% de los créditos pagados.**  
  → **Esto es peor que antes (cuando era 1.00). Ahora confunde más créditos buenos con malos.**  

✅ **El modelo ha mejorado en encontrar créditos que no se pagaran.**  
❌ **Pero ahora comete más errores con créditos buenos.**  

---

#### **3️⃣ F1-Score**
**Es el balance entre precisión y recall:**

\begin{align}
        F1ScoreClase0 = 2* \frac{Precision * Recall}{Precision+Recall} = \frac{0.2235*0.6} {0.2235+0.6} = \frac{0.1341}{0.8235} =0.3256
    \end{align}  

\begin{align}
        F1ScoreClase1 = 2* \frac{Precision * Recall}{Precision+Recall} = \frac{0.8960*0.6230} {0.8960+0.6230} = \frac{0.5582}{1.519} =0.7349
    \end{align}

- **Para la clase `0` (No Pagado)** → **0.33**  
  → **Todavía es bajo, pero mejoró comparado con antes (0.01).**  
- **Para la clase `1` (Pagado)** → **0.74**  
  → **Todavía es aceptable, pero bajó desde 0.92.**  

---

#### **4️⃣ Exactitud (Accuracy)**
\[
\text{Accuracy} = \frac{TP + TN}{Total}
\]

\begin{align}
        Accuracy = \frac{TP+TN}{Total} = \frac{732+4202} {7964} = 0.61953
    \end{align}

- Ahora la **exactitud es 0.62 (62%)**, lo cual es menor que antes (85%).  
- **Esto es porque ahora el modelo también comete errores con los créditos pagados.**  

---

### **📌 Conclusión**
✅ **El modelo ahora detecta mejor los créditos impagos (60% en lugar de 0.3%).**  
❌ **Pero está sacrificando precisión, cometiendo más falsos positivos (clasifica como impago algunos créditos que sí se pagan).**  
❌ **También está confundiendo más créditos buenos como malos (recall de la clase `1` bajó de 1.00 a 0.62).**  




### **Cambio del Umbral de Decisión**
En la Regresión Logística Por defecto, LogisticRegression usa un umbral de 0.5, es decir:

- Si la probabilidad de la clase 1 (pagado) es mayor a 0.5, el modelo predice 1.
- Si es menor o igual a 0.5, predice 0 (no pagado).
- Podemos ajustar este umbral para mejorar la detección de créditos impaque no se pagan (0).

In [90]:
# 1️⃣ Obtener las probabilidades de la clase 1 (créditos pagados)
y_pred_proba = clf2.predict_proba(X_test_scaled)[:, 1]

# 2️⃣ Definir un nuevo umbral más bajo (ejemplo: 0.3)
nuevo_umbral = 0.3
y_pred_new = (y_pred_proba > nuevo_umbral).astype(int)

# 3️⃣ Evaluar con la nueva predicción
print("🔹 Matriz de Confusión con umbral =", nuevo_umbral)
print(confusion_matrix(y_test, y_pred_new))

print("\n🔹 Reporte de Clasificación con umbral =", nuevo_umbral)
print(classification_report(y_test, y_pred_new))


🔹 Matriz de Confusión con umbral = 0.3
[[ 181 1039]
 [ 359 6385]]

🔹 Reporte de Clasificación con umbral = 0.3
              precision    recall  f1-score   support

           0       0.34      0.15      0.21      1220
           1       0.86      0.95      0.90      6744

    accuracy                           0.82      7964
   macro avg       0.60      0.55      0.55      7964
weighted avg       0.78      0.82      0.79      7964



### **📊 Análisis del impacto del nuevo umbral (0.3)**  

Con el umbral más bajo, los resultados cambiaron bastante en comparación con el umbral predeterminado de 0.5. Veamos cómo interpretar esto.  

---

## **📌 1. Interpretación de la Matriz de Confusión**  

|          | **Predicho: No Pagado (0)** | **Predicho: Pagado (1)** |
|----------|---------------------------|--------------------------|
| **Real: No Pagado (0)** | **181** (TP) → Correctos | **1039** (FN) → Errores |
| **Real: Pagado (1)** | **359** (FP) → Errores | **6385** (TN) → Correctos |

👉 **¿Qué significa este cambio?**  
🔹 **Ahora detectamos más créditos impagos (181 vs. solo 4 en la primera matriz), pero aún fallamos en identificar la mayoría (1039 errores).**  
🔹 **También aumentamos los falsos positivos (359 créditos buenos fueron clasificados como impagos).**  
🔹 **La mayoría de los créditos pagados siguen siendo correctamente clasificados (6385).**

---

## **📌 2. Análisis del Reporte de Clasificación**  

| Clase | Precisión | Recall | F1-score | Support |
|-------|----------|--------|----------|---------|
| **0 (No Pagado)** | **0.34** (↑ mejoró) | **0.15** (↓ bajó) | **0.21** | 1220 |
| **1 (Pagado)** | **0.86** (↓ bajó) | **0.95** (↑ mejoró) | **0.90** | 6744 |

🔹 **Precision (0)** **→ 34%** → Significa que de todas las veces que el modelo predijo "No Pagado", solo el 34% realmente no se pagaron. **Aún hay muchos falsos positivos.**  
🔹 **Recall (0)** **→ 15%** → Significa que solo detectamos el 15% de los créditos que realmente no se pagan. **Aún es bajo, pero mejoró en comparación con antes.**  
🔹 **Recall (1)** **→ 95%** → Significa que estamos identificando casi todos los créditos pagados correctamente.  

✅ **El modelo ahora detecta más créditos impagos en comparación con antes.**  
❌ **Aún no es suficiente: sigue fallando en detectar la mayoría de los impagos (bajo recall para 0).**  
❌ **Aumentaron los falsos positivos, lo que puede generar problemas para quienes sí pagan sus créditos.**  

---

## **📌 3. Comparación Antes vs. Después (Resumen de Impacto)**  

| Métrica | Antes (Umbral 0.5) | Después (Umbral 0.3) | Cambio |
|---------|----------------|----------------|--------|
| **Precisión (0)** | 0.22 | **0.34** | 🔼 Mejoró |
| **Recall (0)** | 0.60 | **0.15** | 🔽 Bajó |
| **Precisión (1)** | 0.90 | **0.86** | 🔽 Bajó |
| **Recall (1)** | 0.62 | **0.95** | 🔼 Mejoró |
| **Accuracy** | 0.62 | **0.82** | 🔼 Mejoró |

🔹 **Aumentó la precisión para detectar créditos impagos (`0`), pero el recall bajó mucho.**  
🔹 **Se mejoró bastante la exactitud total del modelo (de 62% a 82%), pero sigue fallando en detectar suficientes créditos impagos.**  
🔹 **Es posible que necesitemos seguir ajustando el umbral o probar otros enfoques.**  

---

## **📌 ¿Cómo podemos mejorar más?**
1️⃣ **Probar un umbral aún más bajo (ej. 0.25 o 0.20) para aumentar el recall de `0` (detectar más impagos).**  
2️⃣ **Utilizar técnicas de balanceo de clases como SMOTE o asignar pesos (`class_weight='balanced'`).**  
3️⃣ **Usar un modelo más avanzado como Random Forest o XGBoost, que manejan mejor el desbalance de clases.**  
