### **Caso de estudio - Árboles de Decisión**
Una FinTech quiere la implementación de un modelo de preaprobación de créditos utilizando un modelo de árbol de decisión. Las variables de entrada y salida se describen a continuación:



*   **Preaprobación (Salida-Referencia):** Indica en una etapa muy temprana del crédito si le presto o no le presto a una persona.
* **Edad (Entrada):** Indica la edad que posee una persona al momento de solicitar un crédito.




1. Se cargan las librerías de trabajo

In [None]:
import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier #Modelo de árbol de decisión
from sklearn.metrics import confusion_matrix

#Carga automática de datos
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


2. Se procede con la carga de datos

In [None]:
nxl = "/content/6. SolicitantesCrédito(USD) (3).xlsx"
XDB = pd.read_excel(nxl, sheet_name=1) #Base de datos AAA
XDB = XDB.dropna() #Elimina celdas erróneas o N/A
XDB = XDB[["Edad", "Perscargo", "Ingresos", "Egresos", "Monto (EAD)", "PreApr"]]
print(XDB)


#Separar variables de entrada y variables de salida
XD = XDB[["Edad", "Perscargo", "Ingresos", "Egresos", "Monto (EAD)"]] #Variables de entrada
yd = XDB[["PreApr"]] #Variable de referencia-salida

ValueError: Excel file format cannot be determined, you must specify an engine manually.

3. Se procede con la implementación del modelo

In [None]:
mar = DecisionTreeClassifier(criterion="gini", max_depth=4)
mar.fit(XD, yd)

#Para la gráfica del árbol
from sklearn.tree import export_graphviz
from pydotplus import graph_from_dot_data
dot_data = export_graphviz(mar,
                           feature_names=XD.columns)
graph = graph_from_dot_data(dot_data)
graph.write_png("2.Tree_Clase.png")

True

4. Evaluamos el comportamiento del modelo frente a los datos presentados

In [None]:
ydp = mar.predict(XD) #Vamos a estresar el modelo - backtesting
cm = confusion_matrix(yd, ydp)
print(cm)

VN=cm[0,0]; FP=cm[0,1]; FN=cm[1,0]; VP=cm[1,1]
print("VN: ", VN, "FP: ", FP, "FN: ", FN, "VP: ", VP)

Ex = (VN+VP)/(VN+FP+FN+VP)
print("Exactitud: ", Ex) #Comportamiento General del modelo

Ter = (FP+FN)/(VN+FP+FN+VP)
print("Tasa de Error: ", Ter) #Comportamiento Erróneo del modelo

Sen = VP/(VP+FN)
print("Sensibilidad: ", Sen) #Comportamiento Positivo del modelo

Esp = VN/(VN+FP)
print("Especificidad: ", Esp) #Comportamiento frente a los PreNegativo del modelo

Prec = VP/(VP+FP)
print("Precisión: ", Prec) #Comportamiento solamente contando los positivos

PredNeg = VN/(VN+FN)
print("Predictividad frente a los Negativos: ", PredNeg) #Comportamiento solo contando los Negativos

[[2301  658]
 [ 644 2239]]
VN:  2301 FP:  658 FN:  644 VP:  2239
Exactitud:  0.7771311194796303
Tasa de Error:  0.22286888052036974
Sensibilidad:  0.7766215747485259
Especificidad:  0.7776275768840825
Precisión:  0.772868484639282
Predictividad frente a los Negativos:  0.7813242784380305


## **Análisis de Resultados**

De acuerdo con los resultados obtenidos por el modelo, podemos observar de manera general que el modelo logró una exactitud que se ubicó por encima del 75% en promedio (0,777131), lo que indica el buen comportamiento general del modelo frente a la preaprobación de créditos en una FinTech.

Este valor está por encima de los porcentajes que establece la SuperFinanciera para este tipo de modelos. De esta misma manera, se puede observar que tanto la sensibilidad como la especificidad lograron un valor por encima del 75% en promedio, sin embargo se destaca que la especificidad (0.7776) estuvo por encima de la sensibilidad (0,7767), lo que indica que el modelo tiene la leve tendencia a prenegar créditos.

Se destaca en el árbol que las variables que tuvieron una mayor relevancia fueron: Monto (EAD) e Ingresos. Asimismo, se destaca que el árbol de decisión sólo logró un nodo puro, el cual está definido por la siguiente regla del negocio: MONTO(EAD) <= 322 AND ING >376 AND EGR <= 685 AND ING >644, en donde la decisión se denota "[10,0]", lo que indica la tendencia de esta regla a prenegar créditos con una certeza del 100%.

In [None]:
%pip install openpyxl



In [None]:
nxl = "/content/6. SolicitantesCrédito(USD) (3).xlsx"
XDB = pd.read_excel(nxl, sheet_name=1, engine='openpyxl') #Base de datos AAA
XDB = XDB.dropna() #Elimina celdas erróneas o N/A
XDB = XDB[["Edad", "Perscargo", "Ingresos", "Egresos", "Monto (EAD)", "PreApr"]]
print(XDB)


#Separar variables de entrada y variables de salida
XD = XDB[["Edad", "Perscargo", "Ingresos", "Egresos", "Monto (EAD)"]] #Variables de entrada
yd = XDB[["PreApr"]] #Variable de referencia-salida

OSError: [Errno 22] Invalid argument