<a href="https://colab.research.google.com/github/Jose-Gabriel-Rodriguez/MachineLearning/blob/main/Unidad3/Practica_3_KNN_Lending_Club.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![image](https://github.com/JoseGabriel-ITD/Probabilidad-y-Estadistica/blob/main/Cintilla2004.png?raw=true)

# **Machine Learning y Deep Learning**

## Unidad 3

### Practica 3: **KNN en Prestamos Lending Club**

### Facilitador: *Dr. José Gabriel Rodríguez Rivas*

### Alumno:  _____________


## Clasificador K-Nearest Neighbors  (KNN)   <a id='id8'> </a>

- El algoritmo K-Nearest Neighbors se puede utilizar para la clasificación y regresión.
- Los clasificadores **k-nn son algoritmos de aprendizaje supervisado** basados en instancias o **basados en memoria**.
- Los métodos de aprendizaje basados en instancias, **funcionan memorizando los ejemplos etiquetados que ven en el conjunto de entrenamiento, y luego, usan esos ejemplos memorizados para clasificar nuevos objetos más adelante**.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

# Importamos librerias necesarias para knn
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, precision_recall_curve

In [2]:
prestamos_df = pd.read_csv('prestamos_ok.csv')
prestamos_df.head()

Unnamed: 0.1,Unnamed: 0,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,emp_title,...,disbursement_method,debt_settlement_flag,debt_settlement_flag_date,issue_year,repaid,loan_term_year,purpose_code,home_ownership_code,grade_code,addr_state_code
0,0,2400,2400,2400.0,36 months,15.96,84.33,C,C5,,...,Cash,N,,2011,1,3,11,4,2,2
1,1,10000,10000,10000.0,36 months,13.49,339.31,C,C1,AIR RESOURCES BOARD,...,Cash,N,,2011,1,3,9,4,2,0
2,2,3000,3000,3000.0,36 months,18.64,109.43,E,E1,MKC Accounting,...,Cash,N,,2011,1,3,0,4,4,0
3,3,5600,5600,5600.0,60 months,21.28,152.39,F,F2,,...,Cash,N,,2011,0,5,11,3,5,0
4,4,5375,5375,5350.0,60 months,12.69,121.45,B,B5,Starbucks,...,Cash,N,,2011,0,5,9,4,1,5


## **Selección de Variables predictoras**   

**Para la seleccion de caracteristicas que se utilizarán en el modelo, la mejor opción es comprender los datos, y comprender las reglas del negocio**

Selecionamos las siguientes variables predictoras (columnas)

- **funded_amnt**             ( monto financiado)  La cantidad total comprometida con ese préstamo en ese momento.
- **loan_term_year**          ( Plazo del credito )
- **int_rate**                ( taza de interes )
- **grade_code**              ( codigo de la calificacion del crédito )
- **purpose_code**            ( codigo del proposito)
- **addr_state_code**         ( codigo de la ciudad)
- **home_ownership_code**     ( codigo situacion casa)
- **annual_inc**              ( ingresos anuales)
- **dti**                     ( Una relación calculada utilizando los pagos de deuda mensuales totales del prestatario )
- **revol_util**              ( cantidad de crédito que el prestatario está utilizando en relación con todo el crédito  )
- **pub_rec_bankruptcies**    ( Número de quiebras de registros públicos )

**Variable dependiente (variable a predecir)**
* **la etiqueta `repaid` será la elegida para el modelo de clasificación**.

**Otros aspectos a considerar**

- Solo las **características que están disponibles antes de que se inicie el préstamo pueden usarse en la clasificación**.
- Las características como **recoveries** (recuperaciones o cargo posterior a la recuperación bruta), **total_rec_prncp** (Principal recibido a la fecha), que solo están disponibles después de que se cierra el préstamo, no deben incluirse en las funciones de entrenamiento.
- Si la clasificación logra una tasa de precisión cercana al 100%, es probable que incluya características que solo estarán disponibles después de que se cierre el préstamo.



In [3]:
X = prestamos_df[['funded_amnt', "int_rate", "grade_code", 'purpose_code', 'addr_state_code',
                 'home_ownership_code', 'annual_inc', 'dti', 'revol_util',
                 'pub_rec_bankruptcies']]

# Variable objetivo o variable a predecir
y = prestamos_df["repaid"]

### **Dividir dataset en conjunto de entrenamiento y prueba**

In [4]:
# Dividimos el dataFrame df en df_train y df_test.
# 60% para dataset de entrenamient0, y 40% para dataset de prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

In [5]:
# verificamos la cantidad de registros asignados al dataframe de entrenamiento
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((11944, 10), (7964, 10), (11944,), (7964,))

### **Modelo de Clasificacion KNN con 1 vecino**   

In [6]:
# Creamoos el clasificador de regresion logistica
knn1 = KNeighborsClassifier(n_neighbors = 1)

# Entrenamos el clasificador
knn1.fit(X_train, y_train)

# Precisión del modelo en la fase de entrenamiento
print("Precision del clasificador en fase de entrenamiento", knn1.score(X_train, y_train) )

Precision del clasificador en fase de entrenamiento 1.0


In [7]:
# Realizar una prediccion con los datos de prueba
y_pred = knn1.predict(X_test)

# Crear un informe de texto que muestre las principales métricas de clasificación.
print("\nReporte de métricas del clasificador con 1 vecino: \n",
      classification_report(y_test, y_pred, target_names=["No Pagado", "Pagado"]))

print(f'\nMatriz Confusion con 1 vecino:\n', confusion_matrix(y_test, y_pred ))


Reporte de métricas del clasificador con 1 vecino: 
               precision    recall  f1-score   support

   No Pagado       0.17      0.15      0.16      1220
      Pagado       0.85      0.86      0.86      6744

    accuracy                           0.76      7964
   macro avg       0.51      0.51      0.51      7964
weighted avg       0.74      0.76      0.75      7964


Matriz Confusion con 1 vecino:
 [[ 184 1036]
 [ 915 5829]]


### **Interpretacion**

* **184 → verdaderos “No Pagados”** correctamente detectados (TP clase minoritaria)
* **1036 → falsos negativos** (prestamos impagos clasificados como pagados)
* **915 → falsos positivos** (pagados clasificados como impagos)

* Detecta algunos impagos, pero aún confunde muchos.
* **El balance entre precisión y sensibilidad es débil, pero hay algo de detección útil.**

### **Modelo de Clasificacion KNN con 5 vecinos**   

In [8]:
# Creamoos el clasificador de regresion logistica
knn5 = KNeighborsClassifier(n_neighbors = 5)

# Entrenamos el clasificador
knn5.fit(X_train, y_train)

# Precisión del modelo en la fase de entrenamiento
print("Precision del clasificador en fase de entrenamiento", knn5.score(X_train, y_train) )

Precision del clasificador en fase de entrenamiento 0.8614367046215673


In [9]:
# Realizar una prediccion con los datos de prueba
y_pred = knn5.predict(X_test)

# Crear un informe de texto que muestre las principales métricas de clasificación.
print("\nReporte de métricas del clasificador con 5 vecinos: \n",
      classification_report(y_test, y_pred, target_names=["No Pagado", "Pagado"]))

print(f'\nMatriz de Confusion con 5 vecinos:\n', confusion_matrix(y_test, y_pred ))


Reporte de métricas del clasificador con 5 vecinos: 
               precision    recall  f1-score   support

   No Pagado       0.21      0.04      0.06      1220
      Pagado       0.85      0.98      0.91      6744

    accuracy                           0.83      7964
   macro avg       0.53      0.51      0.48      7964
weighted avg       0.75      0.83      0.78      7964


Matriz de Confusion con 5 vecinos:
 [[  43 1177]
 [ 166 6578]]


### **Interpretacion**

* Solo detecta 43 impagos reales de 1220.
* El modelo prácticamente ha olvidado la clase minoritaria.

### **Modelo de Clasificacion KNN con 10 vecinos**   

In [10]:
# Creamoos el clasificador de regresion logistica
knn10 = KNeighborsClassifier(n_neighbors = 10)

# Entrenamos el clasificador
knn10.fit(X_train, y_train)

# Precisión del modelo en la fase de entrenamiento
print("Precision del clasificador en fase de entrenamiento", knn10.score(X_train, y_train) )

Precision del clasificador en fase de entrenamiento 0.8544876088412592


In [11]:
# Realizar una prediccion con los datos de prueba
y_pred = knn10.predict(X_test)

# Crear un informe de texto que muestre las principales métricas de clasificación.
print("\nReporte de métricas del clasificador con 10 vecinos: \n",
      classification_report(y_test, y_pred, target_names=["No Pagado", "Pagado"]))

print(f'Matriz de Confusion con 10 vecinos:\n', confusion_matrix(y_test, y_pred ))


Reporte de métricas del clasificador con 10 vecinos: 
               precision    recall  f1-score   support

   No Pagado       0.20      0.02      0.03      1220
      Pagado       0.85      0.99      0.91      6744

    accuracy                           0.84      7964
   macro avg       0.52      0.50      0.47      7964
weighted avg       0.75      0.84      0.78      7964

Matriz de Confusion con 10 vecinos:
 [[  19 1201]
 [  77 6667]]


### **Interpretación**

* Este modelo es peor: solo detecta 19 impagos.
* La red de vecinos se ha “suavizado” tanto que todas las predicciones se van a la clase mayoritaria (Pagado).

## **Recomendaciones**

* KNN depende de distancias.
* Si las variables no están escaladas, las de mayor rango (por ejemplo, ***annual_inc***) dominan las distancias.
* **KNN es muy sensible al desbalance**: cuando busca los k vecinos más cercanos, la mayoría pertenecen a la clase mayoritaria (“Pagado”), por lo tanto el voto final también.
* Balancear las clases. **Oversampling** (replicar casos de “No Pagado”)

### **Importancia de las variables**

In [12]:
from sklearn.inspection import permutation_importance

result = permutation_importance(knn10, X_test, y_test, n_repeats=30, random_state=42)

importancia = pd.DataFrame({
    "Variable": X.columns,
    "Importancia Media": result.importances_mean,
    "Desviación": result.importances_std
}).sort_values("Importancia Media", ascending=False)

print(importancia)

               Variable  Importancia Media  Desviación
0           funded_amnt           0.001641    0.001229
6            annual_inc           0.001431    0.001172
8            revol_util           0.000586    0.000429
7                   dti           0.000146    0.000218
2            grade_code           0.000054    0.000077
1              int_rate           0.000033    0.000121
4       addr_state_code           0.000008    0.000107
5   home_ownership_code           0.000000    0.000000
9  pub_rec_bankruptcies           0.000000    0.000000
3          purpose_code          -0.000067    0.000155


In [13]:
# Visualizar importancias con Plotly
import plotly.express as px
fig4 = px.bar(importancia, x="Variable", y="Importancia Media",
              error_y="Desviación", title="Importancia de características (KNN - Permutation Importance)",
              text_auto=".3f", color="Variable")
fig4.update_layout(width=800, height=600)
fig4.show()

## **Normalización de los datos con StandardScaler**

In [14]:
from sklearn.preprocessing import StandardScaler

X = prestamos_df[['funded_amnt', "int_rate", "grade_code", 'purpose_code', 'addr_state_code',
                 'home_ownership_code', 'annual_inc', 'dti', 'revol_util',
                 'pub_rec_bankruptcies']]

y = prestamos_df["repaid"]

# Dividir Datos, stratify es para que mantenga la misma proporción de clases en ambos conjuntos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42, stratify=y)

# Normalizar variables (KNN es sensible a la escala)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

## **Modelo de Clasificación con datos normalizados y 3 vecinos**

In [15]:
# Entrenar KNN
knn_scaled = KNeighborsClassifier(n_neighbors=3)
knn_scaled.fit(X_train_scaled, y_train)

y_pred_scaled = knn_scaled.predict(X_test_scaled)
print("\nReporte de clasificación datos normalizados y 3 vecinos:")
print(classification_report(y_test, y_pred_scaled, target_names=["No Pagado", "Pagado"]))

print ("\nMatriz de confusión con datos normalizados y 3 vecinos:\n", confusion_matrix(y_test, y_pred_scaled), "\n")


Reporte de clasificación datos normalizados y 3 vecinos:
              precision    recall  f1-score   support

   No Pagado       0.22      0.10      0.14      1177
      Pagado       0.86      0.94      0.89      6787

    accuracy                           0.81      7964
   macro avg       0.54      0.52      0.52      7964
weighted avg       0.76      0.81      0.78      7964


Matriz de confusión con datos normalizados y 3 vecinos:
 [[ 121 1056]
 [ 441 6346]] 



### **Interpretación**

* **121 verdaderos impagos detectados** de 1177 reales → recall = 10%
* **1056 impagos mal clasificados** como pagados (falsos negativos)
* **441 pagados mal clasificados** como impagos (falsos positivos)  

***El modelo identifica correctamente casi todos los préstamos buenos (Pagado), pero falla en detectar los malos (No Pagado), lo que en contexto financiero es el peor tipo de error, ya que un préstamo riesgoso se aprueba por error***.

## **Modelo de Clasificación con datos normalizados y 5 vecinos**

In [16]:
# Entrenar KNN
knn_scaled = KNeighborsClassifier(n_neighbors=5)
knn_scaled.fit(X_train_scaled, y_train)

y_pred_scaled = knn_scaled.predict(X_test_scaled)
print("\nReporte de clasificación datos normalizados y 5 vecinos:")
print(classification_report(y_test, y_pred_scaled, target_names=["No Pagado", "Pagado"]))

print ("\nMatriz de confusión con datos normalizados y 5 vecinos:\n", confusion_matrix(y_test, y_pred_scaled), "\n")


Reporte de clasificación datos normalizados y 5 vecinos:
              precision    recall  f1-score   support

   No Pagado       0.24      0.07      0.11      1177
      Pagado       0.86      0.96      0.91      6787

    accuracy                           0.83      7964
   macro avg       0.55      0.52      0.51      7964
weighted avg       0.76      0.83      0.79      7964


Matriz de confusión con datos normalizados y 5 vecinos:
 [[  80 1097]
 [ 257 6530]] 



### **Interpretación**

* 80 verdaderos impagos detectados de 1177 reales → recall = 7%
* 1097 impagos mal clasificados como pagados (falsos negativos)
* 257 pagados mal clasificados como impagos (falsos positivos)

## **Modelo de Clasificación datos normalizados y 10 vecinos**

In [17]:
# Entrenar KNN
knn_scaled = KNeighborsClassifier(n_neighbors=10)
knn_scaled.fit(X_train_scaled, y_train)

y_pred_scaled = knn_scaled.predict(X_test_scaled)
print("\nReporte de clasificación datos normalizados y 10 vecinos:")
print(classification_report(y_test, y_pred_scaled, target_names=["No Pagado", "Pagado"]))

print ("\nMatriz de confusión con datos normalizados y 10 vecinos:\n", confusion_matrix(y_test, y_pred_scaled), "\n")


Reporte de clasificación datos normalizados y 10 vecinos:
              precision    recall  f1-score   support

   No Pagado       0.25      0.05      0.08      1177
      Pagado       0.86      0.97      0.91      6787

    accuracy                           0.84      7964
   macro avg       0.55      0.51      0.50      7964
weighted avg       0.77      0.84      0.79      7964


Matriz de confusión con datos normalizados y 10 vecinos:
 [[  57 1120]
 [ 172 6615]] 



## **Interpretacion general de resultados**

**Sin normalización**  

| Vecinos (k) | Exactitud | Recall No Pagado | Recall Pagado | Observaciones                                                                        |
| ----------- | --------- | ---------------- | ------------- | ------------------------------------------------------------------------------------ |
| **1**       | 0.76      | 0.15             | 0.86          | Detecta mejor los “Pagados”, pero pierde muchos “No Pagados”.                        |
| **5**       | 0.83      | 0.04             | 0.98          | Mucho mejor exactitud, pero casi no detecta “No Pagados” → **desequilibrio fuerte**. |
| **10**      | 0.84      | 0.02             | 0.99          | Muy alto recall en “Pagados”, pero ignora los “No Pagados” casi por completo.        |  

  
**Con normalizacion**  

| Vecinos (k) | Exactitud | Recall No Pagado | Recall Pagado | Observaciones                                                            |
| ----------- | --------- | ---------------- | ------------- | ------------------------------------------------------------------------ |
| **3**       | 0.81      | 0.10             | 0.94          | Mejora leve el equilibrio.                                               |
| **5**       | 0.83      | 0.07             | 0.96          | Buen desempeño general, aunque sigue priorizando “Pagado”.               |
| **10**      | 0.84      | 0.05             | 0.97          | Similar al anterior, pero con aún menos sensibilidad a los “No Pagados”. |  

**Qué significan las métricas en este contexto financiero**

* **Recall (No Pagado)** = sensibilidad para detectar préstamos de alto riesgo.
→ Muy bajo → el banco subestima el riesgo, puede aprobar clientes morosos.
* **Precision (No Pagado)** = de los préstamos que el modelo clasifica como “No Pagado”, ¿cuántos realmente lo son?
→ Aumenta un poco al normalizar (0.22–0.25), pero sigue bajo.
* **Accuracy alto (~0.83) es engañoso**: refleja solo la clase mayoritaria (“Pagado”), no la capacidad de detectar morosos.  
  
  
**Mejor modelo KNN actual:** con normalización y k=3.  
Aunque el rendimiento global no es excelente, es el único que mantiene cierto equilibrio.



