# Reto 4 - Concesiones de préstamo

**Introducción al Problema**

En el ámbito financiero, las instituciones crediticias enfrentan el desafío de evaluar la solvencia de los solicitantes de préstamos para minimizar el riesgo de incumplimiento. Este ejercicio se centra en aplicar algoritmos de clasificación para predecir el estado de aprobación de un préstamo basándose en las características demográficas, financieras y crediticias de los solicitantes. Al analizar este conjunto de datos, los alumnos podrán profundizar en técnicas de preprocesamiento, análisis exploratorio y modelado predictivo.

**Descripción del Conjunto de Datos**

El conjunto de datos proporciona información detallada sobre solicitantes de préstamos, incluyendo variables que describen sus características personales, financieras y su historial crediticio. A continuación, se presenta una descripción detallada de cada una de las variables:

1. **person_age**: Edad del solicitante del préstamo (en años).
   - *Tipo de variable*: Numérica continua.
   - *Análisis*: La edad puede influir en la estabilidad financiera y en el riesgo percibido por la entidad crediticia.

2. **person_gender**: Género del solicitante.
   - *Tipo de variable*: Categórica nominal ('male', 'female').
   - *Análisis*: Puede utilizarse para estudios demográficos, aunque debe manejarse con cuidado para evitar sesgos discriminatorios.

3. **person_education**: Nivel educativo alcanzado por el solicitante.
   - *Tipo de variable*: Categórica ordinal ('High School', 'Associate', 'Bachelor', 'Master', etc.).
   - *Análisis*: Un mayor nivel educativo podría correlacionarse con mejores oportunidades laborales y mayor capacidad de pago.

4. **person_income**: Ingresos anuales del solicitante (en dólares).
   - *Tipo de variable*: Numérica continua.
   - *Análisis*: Indicador directo de la capacidad financiera para asumir y pagar el préstamo.

5. **person_emp_exp**: Años de experiencia laboral del solicitante.
   - *Tipo de variable*: Numérica discreta.
   - *Análisis*: Refleja la estabilidad laboral y potencialmente la seguridad financiera del individuo.

6. **person_home_ownership**: Situación de vivienda del solicitante.
   - *Tipo de variable*: Categórica nominal ('RENT', 'OWN', 'MORTGAGE').
   - *Análisis*: Puede indicar estabilidad financiera; por ejemplo, poseer una vivienda puede servir como garantía.

7. **loan_amnt**: Monto del préstamo solicitado (en dólares).
   - *Tipo de variable*: Numérica continua.
   - *Análisis*: Cantidad de dinero que el solicitante desea obtener, importante para evaluar el riesgo crediticio.

8. **loan_intent**: Propósito del préstamo.
   - *Tipo de variable*: Categórica nominal ('PERSONAL', 'EDUCATION', 'MEDICAL', 'VENTURE', 'HOMEIMPROVEMENT', etc.).
   - *Análisis*: El motivo del préstamo puede afectar el riesgo; por ejemplo, préstamos para negocios pueden ser más riesgosos que para educación.

9. **loan_int_rate**: Tasa de interés anual del préstamo (en porcentaje).
   - *Tipo de variable*: Numérica continua.
   - *Análisis*: Refleja el costo del préstamo para el solicitante; tasas más altas pueden indicar mayor riesgo percibido.

10. **loan_percent_income**: Porcentaje del ingreso anual que representa el pago del préstamo.
    - *Tipo de variable*: Numérica continua.
    - *Análisis*: Proporciona una medida de la carga financiera que el préstamo supondrá para el solicitante.

11. **cb_person_cred_hist_length**: Duración del historial crediticio del solicitante (en años).
    - *Tipo de variable*: Numérica discreta.
    - *Análisis*: Historiales más largos pueden proporcionar más información sobre el comportamiento crediticio del solicitante.

12. **credit_score**: Puntaje de crédito del solicitante.
    - *Tipo de variable*: Numérica continua.
    - *Análisis*: Indicador clave de la solvencia crediticia; puntajes más altos suelen asociarse con menor riesgo de incumplimiento.

13. **previous_loan_defaults_on_file**: Historial de incumplimientos de préstamos anteriores.
    - *Tipo de variable*: Categórica nominal ('Yes', 'No').
    - *Análisis*: Un historial de incumplimientos aumenta significativamente el riesgo percibido.

14. **loan_status**: Estado del préstamo.
    - *Tipo de variable*: Categórica binaria (1: aprobado, 0: rechazado).
    - *Análisis*: Es la variable objetivo que se pretende predecir mediante algoritmos de clasificación.

# Instalación de la librería del curso
En el caso de que estés trabajando desde Google Colab o Kaggle, será necesario instalar la librería `blackops`, descomentando (eliminando el asterisco #) y ejecutando la siguiente celda:

In [1]:
# !pip install git+https://github.com/donielix/esic-bigdata-iv-blackops.git > /dev/null

# Importación de paquetes necesarios
Esta celda no debería modificarse. Estos son los únicos paquetes y funciones necesarias y no hay por qué añadir más. Simplemente ejecuta la celda

In [2]:
from blackops.utils.catalog import read_table
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
import pandas as pd
from catboost import CatBoostClassifier
import plotly.express as px
from sklearn.metrics import f1_score, log_loss, precision_score, recall_score
from sklearn.dummy import DummyClassifier

# Apartado 1 - Lectura de Datos
Utiliza la función `read_table` para leer la tabla denominada `"loan_data"`. Recuerda que debes especificar también el argumento `config_share_path`, que debe apuntar a la ruta exacta en la que tienes ubicado el fichero `config.share`, que contiene los permisos necesarios para leer la tabla deseada.

Después de leer la tabla, printea por pantalla el siguiente mensaje: `"La tabla contiene N registros"`, siendo N el número de registros que contiene la tabla recién cargada

In [3]:
# INSERTA CÓDIGO AQUÍ
df = read_table(table_name="loan_data")

print(f"La tabla contiene {df.count()} registros")

24/11/13 00:34:30 WARN Utils: Your hostname, pop-os resolves to a loopback address: 127.0.1.1; using 192.168.1.38 instead (on interface enp3s0)
24/11/13 00:34:30 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Ivy Default Cache set to: /home/dadiego/.ivy2/cache
The jars for the packages stored in: /home/dadiego/.ivy2/jars
io.delta#delta-spark_2.12 added as a dependency
io.delta#delta-sharing-spark_2.12 added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-3b8c3fa3-030b-4d81-89e2-7133562a7a66;1.0
	confs: [default]


:: loading settings :: url = jar:file:/home/dadiego/projects/ESIC/esic-bigdata-iv-blackops/.venv/lib/python3.10/site-packages/pyspark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


	found io.delta#delta-spark_2.12;3.2.0 in central
	found io.delta#delta-storage;3.2.0 in central
	found org.antlr#antlr4-runtime;4.9.3 in central
	found io.delta#delta-sharing-spark_2.12;3.2.0 in central
	found io.delta#delta-sharing-client_2.12;1.0.5 in central
	found org.apache.httpcomponents#httpclient;4.5.13 in central
	found org.apache.httpcomponents#httpcore;4.4.13 in central
	found commons-logging#commons-logging;1.2 in central
	found commons-codec#commons-codec;1.11 in central
:: resolution report :: resolve 213ms :: artifacts dl 15ms
	:: modules in use:
	commons-codec#commons-codec;1.11 from central in [default]
	commons-logging#commons-logging;1.2 from central in [default]
	io.delta#delta-sharing-client_2.12;1.0.5 from central in [default]
	io.delta#delta-sharing-spark_2.12;3.2.0 from central in [default]
	io.delta#delta-spark_2.12;3.2.0 from central in [default]
	io.delta#delta-storage;3.2.0 from central in [default]
	org.antlr#antlr4-runtime;4.9.3 from central in [default]


La tabla contiene 45000 registros


                                                                                

Una vez consultados los registros que tiene, dado que se trata de un volúmen pequeño, vamos a convertir el DataFrame de PySpark a un DataFrame de Pandas. Para ello, hay que hacer uso del método `.toPandas()`. Almacena el resultado en una variable llamada `df`.

In [4]:
# INSERTA CÓDIGO AQUÍ
df = df.toPandas()

                                                                                

A partir de aquí, se asumirá que la variable `df` contiene un DataFrame de pandas. Compruébalo simplemente ejecutando la siguiente celda (no la modifiques, sólo ejecútala)

In [5]:
isinstance(df, pd.DataFrame)

True

Si la celda anterior te devuelve `False`, o si te arroja un error, debes revisar de nuevo que hayas leído la tabla correctamente y que hayas transformado el DataFrame resultante a un DataFrame de pandas, almacenado en la variable `df`.

Ahora, debes obtener una descripción completa del DataFrame, incluyendo todos estos valores por cada columna:
* count
* unique
* top
* freq
* mean
* std
* min
* 25%
* 50%
* 75%
* max

Para ello, utiliza el método `describe` con el argumento `include="all"` para mostrar toda esa info.

In [6]:
# INSERTA CÓDIGO AQUÍ
df.describe(include="all")

Unnamed: 0,person_age,person_gender,person_education,person_income,person_emp_exp,person_home_ownership,loan_amnt,loan_intent,loan_int_rate,loan_percent_income,cb_person_cred_hist_length,credit_score,previous_loan_defaults_on_file,loan_status
count,45000.0,45000,45000,45000.0,45000.0,45000,45000.0,45000,45000.0,45000.0,45000.0,45000.0,45000,45000.0
unique,,2,5,,,4,,6,,,,,2,
top,,male,Bachelor,,,RENT,,EDUCATION,,,,,Yes,
freq,,24841,13399,,,23443,,9153,,,,,22858,
mean,27.764178,,,80319.05,5.410333,,9583.157556,,11.006606,0.139725,5.867489,632.608756,,0.222222
std,6.045108,,,80422.5,6.063532,,6314.886691,,2.978808,0.087212,3.879702,50.435865,,0.415744
min,20.0,,,8000.0,0.0,,500.0,,5.42,0.0,2.0,390.0,,0.0
25%,24.0,,,47204.0,1.0,,5000.0,,8.59,0.07,3.0,601.0,,0.0
50%,26.0,,,67048.0,4.0,,8000.0,,11.01,0.12,4.0,640.0,,0.0
75%,30.0,,,95789.25,8.0,,12237.25,,12.99,0.19,8.0,670.0,,0.0


Tras mostrar la descripción de los datos, responde a las siguientes pregunta:
* ¿Cuál es el propósito de préstamo más recurrente? ¿con qué frecuencia aparece?:
* ¿Existe algún valor nulo en el dataset?
* ¿Cuál es la media de edad del solicitante?
* ¿Observas algún valor anómalo en los datos?

Ahora, utiliza la función `px.imshow` que viene dentro de la librería de plotly para mostrar un mapa de calor con la correlación de las variables numéricas en el DataFrame. Esta correlación la puedes calcular haciendo uso del método `.corr`, empleando el argumento `numeric_only=True` para que se aplique únicamente sobre variables de tipo número.

In [7]:
# INSERTA CÓDIGO AQUÍ
px.imshow(df.corr(numeric_only=True))

Analiza el gráfico y observa como hay dos variables que están altamente correlacionadas linealmente, con un coeficiente superior a 0.95. No queremos utilizar ambas a la hora de modelizar ya que introduce redundancias en el modelo. Piensa cuál de ellas podrías eliminar, y elimina dicha columna del DataFrame utilizando el método `.drop` (recuerda asignar el resultado de nuevo a la variable `df`)

In [8]:
# INSERTA CÓDIGO AQUÍ

df = df.drop(columns="person_age")

# Apartado 2 - Preparación de los datos
En primer lugar define las variables `X` e `y`, que contendrán las variables precictoras y la variable target, respectivamente

In [9]:
# INSERTA CÓDIGO AQUÍ
X = df.drop(columns="loan_status")
y = df.loan_status

Ahora vamos a comprobar si el target está balanceado. Para ello, haz uso del método `.value_counts()` aplicado a la variable target

In [10]:
# INSERTA CÓDIGO AQUÍ
y.value_counts()

loan_status
0    35000
1    10000
Name: count, dtype: int64

Después, haz uso de la función `train_test_split` para definir los conjuntos de entrenamiento y de test. Consulta la documentación de dicha función para ver ejemplos de su uso, y sigue la misma convención para nombrar a las variables resultantes, es decir:

`X_train, X_test, y_train, y_test = train_test_split(...)`

In [11]:
# INSERTA CÓDIGO AQUÍ
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Printea el siguiente mensaje: `"El conjunto de entrenamiento contiene N registros"`, siendo N el número de registros que contiene el dataset de entrenamiento (`X_train`)

In [12]:
# INSERTA CÓDIGO AQUÍ

# Apartado 3 - Entrenamiento del modelo
Ahora debes entrenar el modelo `CatBoostClassifier` sobre los datos de entrenamiento (`X_train`, `y_train`). El modelo CatBoost no tiene problemas con las variables de tipo categórico (no hace falta hace One Hot Encoding); debes especificar cuáles son dichas variables en su argumento `cat_features`.

In [13]:
# INSERTA CÓDIGO AQUÍ
clf = CatBoostClassifier(
    cat_features=[
        "person_gender",
        "person_education",
        "person_home_ownership",
        "loan_intent",
        "previous_loan_defaults_on_file",
    ],
    iterations=10000,
)

In [14]:
clf.fit(X_train, y_train)

Learning rate set to 0.005604
0:	learn: 0.6799287	total: 58.8ms	remaining: 9m 47s
1:	learn: 0.6668406	total: 68.5ms	remaining: 5m 42s
2:	learn: 0.6544911	total: 76.8ms	remaining: 4m 15s
3:	learn: 0.6423020	total: 87.1ms	remaining: 3m 37s
4:	learn: 0.6306170	total: 95.4ms	remaining: 3m 10s
5:	learn: 0.6188414	total: 103ms	remaining: 2m 51s
6:	learn: 0.6073668	total: 112ms	remaining: 2m 40s
7:	learn: 0.5963533	total: 121ms	remaining: 2m 31s
8:	learn: 0.5859168	total: 129ms	remaining: 2m 23s
9:	learn: 0.5761162	total: 138ms	remaining: 2m 17s
10:	learn: 0.5662143	total: 146ms	remaining: 2m 12s
11:	learn: 0.5565940	total: 155ms	remaining: 2m 9s
12:	learn: 0.5464383	total: 162ms	remaining: 2m 4s
13:	learn: 0.5375323	total: 171ms	remaining: 2m 2s
14:	learn: 0.5278152	total: 179ms	remaining: 1m 59s
15:	learn: 0.5191522	total: 188ms	remaining: 1m 57s
16:	learn: 0.5112648	total: 196ms	remaining: 1m 54s
17:	learn: 0.5036789	total: 204ms	remaining: 1m 53s
18:	learn: 0.4960692	total: 214ms	remainin

<catboost.core.CatBoostClassifier at 0x7ad5ca1b4880>

Una vez entrenado el modelo, calcula las siguientes métricas sobre el conjunto de testing: `f1_score`, `precision_score` y `recall_score`. Recuerda que todas estas métricas aceptan esencialmente dos argumentos:
* `y_pred`: las predicciones del modelo, es decir, el resultado de aplicar el método `.predict` sobre el conjunto de test (`X_test`).
* `y_true`: las etiquetas reales del conjunto de test (`y_test`).

In [15]:
f1_score(y_pred=clf.predict(X_test), y_true=y_test)

0.8440443793175634

In [16]:
precision_score(y_pred=clf.predict(X_test), y_true=y_test)

0.8932210899424015

In [17]:
recall_score(y_pred=clf.predict(X_test), y_true=y_test)

0.8

Con los resultados de estas métricas, responde a las siguientes preguntas:
* ¿De las veces que el modelo predice que se otorga un préstamo, qué porcentaje realmente se otorga finalmente?
* ¿De todos los préstamos otorgados, qué porcentaje de los mismos es correctamente clasificado por el modelo?

Calcula la importancia de las características con el atributo `feature_importances_` del clasificador. ¿Cuál es, con diferencia, la variable más importante a la hora de determinar si se le concede el préstamo al solicitante?