# Taller de Machine Learning: Predicción de Aprobación de Préstamos 🏦💰

En este taller usaremos un dataset de Kaggle para predecir si a una persona se le aprobará o no un préstamo bancario, a partir de información socioeconómica.

👉 Dataset: [Bank Loan Data - Kaggle](https://www.kaggle.com/datasets/udaymalviya/bank-loan-data)

## Objetivo del Taller
1. Preparar el entorno y cargar las librerías necesarias
2. Importar y explorar los datos
3. Preprocesar los datos
4. Entrenar al menos 3 modelos de clasificación
5. Evaluar su desempeño
6. Elegir el mejor modelo


![Bank Loan](https://visbanking.com/wp-content/uploads/2023/02/The-Ultimate-Guide-to-Bank-Loans-.jpeg)

<!-- Taller preparado por Andres Muñoz (anguihero) con el fin de formar profesionales en ciencia de datos -->

## 📄 Overview del Dataset: Bank Loan Data

Este dataset contiene **45,000 registros** de solicitantes de préstamos, con atributos que reflejan información demográfica, situación financiera y detalles del préstamo. Es ideal para tareas de modelado predictivo, especialmente en **evaluación de riesgo crediticio** y **predicción de incumplimiento de préstamos**.

---

### 📊 Contenido del Dataset

El dataset incluye **14 columnas** agrupadas en las siguientes categorías:

#### 🧍 Información Personal
- `person_age`: Edad del solicitante (en años)
- `person_gender`: Género (male, female)
- `person_education`: Nivel educativo (High School, Bachelor, Master, etc.)
- `person_income`: Ingreso anual (USD)
- `person_emp_exp`: Años de experiencia laboral
- `person_home_ownership`: Tipo de vivienda (RENT, OWN, MORTGAGE)

#### 💰 Detalles del Préstamo
- `loan_amnt`: Monto solicitado (USD)
- `loan_intent`: Propósito del préstamo (PERSONAL, EDUCATION, MEDICAL, etc.)
- `loan_int_rate`: Tasa de interés (%)
- `loan_percent_income`: Relación préstamo/ingreso

#### 📂 Historial Crediticio
- `cb_person_cred_hist_length`: Años de historial crediticio
- `credit_score`: Puntaje de crédito
- `previous_loan_defaults_on_file`: ¿Registra incumplimientos anteriores? (Yes/No)

#### 🎯 Variable Objetivo
- `loan_status`: 1 si el préstamo fue pagado exitosamente, 0 si hubo incumplimiento

---

### 💡 Casos de Uso

- **Predicción de incumplimiento**: Clasificar si un préstamo será pagado o no.
- **Análisis de riesgo crediticio**: Examinar la relación entre ingreso, puntaje crediticio e incumplimiento.
- **Ingeniería de características**: Extraer valor de variables como experiencia laboral, tipo de vivienda y monto del préstamo.

---

### 📌 Aclaración
Este dataset es **sintético** y fue diseñado con fines educativos, de análisis financiero y desarrollo de modelos de *machine learning*.



## 0. Preparar el Entorno de Trabajo 🛠️

Antes de comenzar, debemos asegurarnos de que el entorno de trabajo esté correctamente configurado. Esto incluye:

- Importar las librerías necesarias para análisis de datos, visualización y machine learning.
- Configurar el entorno para visualizar gráficos de manera adecuada.
- Silenciar advertencias para evitar ruido innecesario en la ejecución del notebook.

📌 **Hint**: Si alguna librería no está instalada, puedes instalarla con `!pip install nombre-libreria`.


In [None]:
# TODO

## 1. Cargar el Dataset

📌 Asegúrate de descargar el archivo `bank-loan.csv` desde la página de Kaggle y colocarlo en tu misma carpeta que el notebook.


Vamos a leerlo usando pandas:

In [None]:
# TODO

## 2. Explorar los datos

Vamos a entender la estructura del dataset:
- ¿Cuántos registros y columnas tiene?
- ¿Qué tipo de variables hay?
- ¿Existen valores nulos?
- ¿Cómo es la distribución de la variable objetivo?

📌 **Hint**: Usa `.info()`, `.describe()`, `.isnull().sum()`, y gráficos de `seaborn`.


In [None]:
# TODO

## 3. Preparar datos para el modelo

Vamos a:
- Seleccionar algunas variables predictoras
- Codificar las variables categóricas
- Imputar valores nulos
- Dividir el dataset en train y test

📌 **HintBusca quedarte con la cantidad y mejor calidad adecuada de variables para los modelos.

In [None]:
# TODO

## 4. Ajustar modelos

Vamos a entrenar **tres** modelos diferentes, por ejemplo:
1. Regresión Logística
2. Random Forest
3. Máquina de Vectores de Soporte (SVM)
4. KNN
5. XGBoost
6. LightGBM

📌 **Hint**: Usa `.fit()` y `.predict()` para cada modelo.



In [None]:
# TODO

## 5. Evaluar desempeño de los modelos

Vamos a usar:
- Accuracy
- Matriz de confusión
- Reporte de clasificación

📌 **Hint**: Usa `accuracy_score`, `confusion_matrix`, `classification_report`


In [None]:
# TODO

## 6. Seleccionar el mejor modelo

Basado en los resultados de evaluación, elige el modelo con mejor desempeño.

📌 **Hint**: Puedes guiarte por la métrica de *Accuracy*, pero también revisa *Precision* y *Recall* para cada clase.

In [None]:
# TODO

---
---
<div style="text-align:center; font-size:12px; color:#4a6c8a; font-style:italic; margin-top:20px;">
🙏 Gracias por participar y compartir esta ruta de aprendizaje. ¡Con cada aporte, hacemos que la ciencia de datos avance como comunidad!
</div>

<div style="text-align:right; font-size:10px; color:#a0b4d4; font-style:italic; margin-top:30px;">
🔹 Taller preparado por Andres Muñoz (anguihero) con el propósito de formar profesionales en ciencia de datos.
</div>

---

---