Identificación de créditos riesgosos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/R-for-predictive-analytics/blob/master/07-C50-risky-loans.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/R-for-predictive-analytics/blob/master/07-C50-risky-loans.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/R-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/R-for-predictive-analytics/blob/master/readme.md)

# Definición del problema real

Las entidades financieras desean mejorar sus procedimientos de aprobación de créditos con el fin de disminuir los riesgos de no pago de la deuda, lo que acarrea pérdidas a la entidad. El problema real consiste en poder decidir si se aprueba o no un crédito particular con base en información que puede ser fácilmente recolectada por teléfono o en la web.

# Definición del problema en términos de los datos

Se tiene una muestra de 1000 observaciones. Cada registro contiene 20 atributos que recopilan información tanto sobre el crédito como sobre la salud financiera del solicitante. La información fue recolectada por una firma alemana y se puede descargar de https://archive.ics.uci.edu/ml/datasets/statlog+(german+credit+data).

**Code book.**

* Attribute 1: (qualitative)  Status of existing checking account 
  * A11 : ... < 0 DM 
  * A12 : 0 <= ... < 200 DM 
  * A13 : ... >= 200 DM / salary assignments for at least 1 year 
  * A14 : no checking account 
* Attribute 2: (numerical) Duration in month 
* Attribute 3: (qualitative) Credit history 
  * A30 : no credits taken/ all credits paid back duly 
  * A31 : all credits at this bank paid back duly 
  * A32 : existing credits paid back duly till now 
  * A33 : delay in paying off in the past 
  * A34 : critical account/ other credits existing (not at this bank) 
* Attribute 4: (qualitative) Purpose 
  * A40 : car (new) 
  * A41 : car (used) 
  * A42 : furniture/equipment 
  * A43 : radio/television
  * A44 : domestic appliances 
  * A45 : repairs 
  * A46 : education 
  * A47 : (vacation - does not exist?) 
  * A48 : retraining 
  * A49 : business 
  * A410 : others 
* Attribute 5: (numerical) Credit amount 
* Attribute 6: (qualitative) Savings account/bonds 
  * A61 : ... < 100 DM 
  * A62 : 100 <= ... < 500 DM 
  * A63 : 500 <= ... < 1000 DM 
  * A64 : .. >= 1000 DM 
  * A65 : unknown/ no savings account 
* Attribute 7: (qualitative) Present employment since 
  * A71 : unemployed 
  * A72 : ... < 1 year 
  * A73 : 1 <= ... < 4 years 
  * A74 : 4 <= ... < 7 years 
  * A75 : .. >= 7 years 
* Attribute 8: (numerical) Installment rate in percentage of disposable income 
* Attribute 9: (qualitative) Personal status and sex 
  * A91 : male : divorced/separated 
  * A92 : female : divorced/separated/married 
  * A93 : male : single 
  * A94 : male : married/widowed 
  * A95 : female : single 
* Attribute 10: (qualitative) Other debtors / guarantors 
  * A101 : none 
  * A102 : co-applicant 
  * A103 : guarantor 
* Attribute 11: (numerical) Present residence since 
* Attribute 12: (qualitative)  Property 
  * A121 : real estate 
  * A122 : if not A121 : building society savings agreement/ life insurance 
  * A123 : if not A121/A122 : car or other, not in attribute 6 
  * A124 : unknown / no property 
* Attribute 13: (numerical) Age in years 
* Attribute 14: (qualitative) Other installment plans 
  * A141 : bank 
  * A142 : stores 
  * A143 : none 
* Attribute 15: (qualitative) Housing 
  * A151 : rent 
  * A152 : own 
  * A153 : for free 
* Attribute 16: (numerical) Number of existing credits at this bank 
* Attribute 17: (qualitative) Job 
  * A171 : unemployed/ unskilled - non-resident 
  * A172 : unskilled - resident 
  * A173 : skilled employee / official 
  * A174 : management/ self-employed/ highly qualified employee/ officer 
* Attribute 18: (numerical) Number of people being liable to provide maintenance for 
* Attribute 19: (qualitative) Telephone 
  * A191 : none 
  * A192 : yes, registered under the customers name 
* Attribute 20: (qualitative) foreign worker 
  * A201 : yes 
  * A202 : no 

# Exploración

In [1]:
##
## Carga de los datos.
##
data <- read.csv("data/credit.csv")

In [2]:
##
## Verificación de los datos cargados.
##
str(data)

'data.frame':	1000 obs. of  21 variables:
 $ checking_balance    : Factor w/ 4 levels "< 0 DM","> 200 DM",..: 1 3 4 1 1 4 4 3 4 3 ...
 $ months_loan_duration: int  6 48 12 42 24 36 24 36 12 30 ...
 $ credit_history      : Factor w/ 5 levels "critical","delayed",..: 1 5 1 5 2 5 5 5 5 1 ...
 $ purpose             : Factor w/ 10 levels "business","car (new)",..: 8 8 5 6 2 5 6 3 8 2 ...
 $ amount              : int  1169 5951 2096 7882 4870 9055 2835 6948 3059 5234 ...
 $ savings_balance     : Factor w/ 5 levels "< 100 DM","> 1000 DM",..: 5 1 1 1 1 5 4 1 2 1 ...
 $ employment_length   : Factor w/ 5 levels "> 7 yrs","0 - 1 yrs",..: 1 3 4 4 3 3 1 3 4 5 ...
 $ installment_rate    : int  4 2 2 2 3 2 3 2 2 4 ...
 $ personal_status     : Factor w/ 4 levels "divorced male",..: 4 2 4 4 4 4 4 4 1 3 ...
 $ other_debtors       : Factor w/ 3 levels "co-applicant",..: 3 3 3 2 3 3 3 3 3 3 ...
 $ residence_history   : int  4 2 3 4 4 4 4 2 4 2 ...
 $ property            : Factor w/ 4 levels "building soci

In [3]:
##
## Algunas de las columnas son numéricas y 
## las otras son factores.
## DM corresponde a Deutsche Marks
## se verifican algunos valores versus el code book.
##
table(data$checking_balance)


    < 0 DM   > 200 DM 1 - 200 DM    unknown 
       274         63        269        394 

In [4]:
table(data$savings_balance)


     < 100 DM     > 1000 DM  101 - 500 DM 501 - 1000 DM       unknown 
          603            48           103            63           183 

In [5]:
##
## El monto del préstamo va desde 250 DM hasta 18.424 DM
##
summary(data$amount)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    250    1366    2320    3271    3972   18424 

In [6]:
##
## La duración del préstamo va desde 4 hasta 72 meses
##
summary(data$months_loan_duration)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    4.0    12.0    18.0    20.9    24.0    72.0 

In [7]:
##
## La columna default indica si hubo problemas 
## en el pago del préstamo (1- pago, 2- no pago)
## esta es la columna que se desea pronosticar
## 1-si, 2-no
##
table(data$default)


  1   2 
700 300 

In [8]:
##
## Se convierte esta variable a factores
##
data$default <- factor(data$default, labels=c("No", "Yes"))
table(data$default)


 No Yes 
700 300 

# Metodología de árboles de decisión

La metodología de árboles de decisión se basa en la partición del espacio de entrada (las variables o características medibles) en regiones buscando separar en cada región un grupo de elementos que pertenecen a una clase particular. En la siguiente figura se tienen dos clases separables en un espacio de dos dimensiones ($x_1$ y $x_2$); haciendo la analogía con el problema real, los 1 podrían representar los créditos pagados (Clase 1) y los 2 los créditos morosos (Clase 2); y $x_1$ y $x_2$, dos variables de la tabla. En general, en un árbol de decisión se busca encontrar fronteras lineales paralelas a los ejes que permitan clasificar correctamente los datos. Para este ejemplo (figura izquierda), se podría decir que: 

$$\text{if } x_1~>~3 \Longrightarrow C=2 \text{  else  } C=1$$

Pero igualmente, es posible decir que (figura derecha):

$$\text{if } x_2~>~4 \Longrightarrow C=2 \text{  else  } C=1$$

![alt text](images/rules1.jpg)

Note que cada una de los dos regiones obtenidas puede seguir particionándose cuanto sea necesario. Este procedimiento se conoce como particionamiento recursivo y permite generar varias subregiones como las presentadas a continuación.

![alt text](images/tree.jpg)

La figura anterior (izquierda) puede interpretarse como un conjunto de reglas if anidadas:

    if x2 > C then 
       class = azul
    else
       if x1 < A then
           class = verde
       else
           if x2 < B then 
               class = rojo
           else
               class = amarillo
           end if
       end if
    end if
    
Y estas reglas se pueden interpretar como el árbol de decision que aparece en la misma figura. Para decidir que región asignar a un nuevo punto ($x_1$, $x_2$) simplemente se recorre el árbol de decisión usando los valores $x_1$ y $x_2$.

El algoritmo de particionamiento opera de la siguiente manera. Se tienen únicamente dos atributos $x_1$ y $x_2$, y un total de $N$ ejemplos para construir el árbol. Para construir la primera instancia, se construyen todos los árboles posibles de profunidad 1 (un nodo). El primer árbol se construye usando como frontera de decisión el primer valor de $x_1$ en la muestra del ejemplo (véase la figura de abajo); el segundo árbol se construye con el segundo valor, y así sucesivamente. Una vez se recorren todos los valores de $x_1$, se recorren todos los valores de $x_2$ y así sucesivamente hasta agotar todas las variables explicativas (atributos).   

![alt text](images/C50-rule1.jpg)

La mejor partición se escoje como aquella que clasifica el mayor número de ejemplos correctamente (o una métrica equivente) y se obtiene un primer árbol. Esto equivale a encontra la mejor partición de todo el espacio de características en dos regiones que clasifiquen de mejor forma los ejemplos usandos para el entrenamiento del modelo (véase la parte derecha de la figura anterior). En la figura anterior, se supone que la mejor clasificación se obtiene usando como punto de corte el dato `x1[4]`.

El algoritmo continua obteniendo una tercera región y para ello se debe decidir cuál de las dos regiones existentes se parte y en que orientación va dicho corte. El algoritmo prueba nuevamente cada punto del conjunto de datos como punto de corte de la siguiente manera: se hace `x1[1]` el nuevo punto de corte; si `x1[1]` está a la izquierda de `x1[4]`, se esta partiendo dicha región y por lo tanto se agrega esta nueva partición en la parte correspondiente de la regla (primera partición de la figura de abajo). se hace `x1[2]` el nuevo punto de corte; si se asume que `x1[2]` esta a la derecha de `x1[4]` entonces se agrega a la parte `else` del modelo óptimo; se procede así sucesivamente hasta hasta obtener todos los modelos posibles con dos cortes. Asumiendo que el mejor corte se obtiene para `x2[6]`, el árbol queda como se presenta en el conjunto de reglas de la parte derecha de la siguiente figura.   

![alt text](images/C50-rule2.jpg)

El proceso continua agregando un tercer corte, luego un cuarto y así sucesivamente. De ahí que el proceso se conozca como particionamiento recursivo.

Nótese que el proceso puede realizarse hasta que se asigne una región única a cada uno de los datos, lo que resulta erróneo ya que el modelo simplemente memoriza la información usada para el entrenamiento (explique que es esto!). El proceso de crecimiento del árbol de decisión puede deternerse asignando un máximo a la profundidad del árbol (early stoping) o limitando la cantidad mínima de puntos que puede contener una región (pre-pruning).

**Ejercicio.--** Cómo se modifica el algoritmo descrito para introducir como restricción la cantidad mínima de puntos que debe tener una región?

**Ejercicio.--** Cómo opera el algoritmo cuando las variables son categóricas?

Otra forma es permitir el crecimiento del árbol y luego proceder a reducir su tamaño eliminando regiones una a la vez (post-pruning). El algoritmo C5.0 permite el crecimiento del árbol hasta alcanzar el sobre entrenamiento del modelo y luego elimina los nodos (reglas if) que aportan poco al modelo.

# Preparación de los datos

In [9]:
##
## Se usa el 90% de los datos para entrenamiento 
## y el 10% restante para prueba
##
train_sample <- 1:900
str(train_sample)

 int [1:900] 1 2 3 4 5 6 7 8 9 10 ...


In [10]:
##
## Genera los conjuntos de entrenamiento y prueba
##
X_train      <- data[ train_sample, -17]
X_test       <- data[-train_sample, -17]
##
y_train_true <- data$default[train_sample]
y_test_true  <- data$default[-train_sample]

In [11]:
##
## Se verifica la proporción entre créditos pagados
## y no pagados en los dos conjuntos de datos
## conjunto de entrenamiento
##
prop.table(table(y_train_true))

y_train_true
       No       Yes 
0.7022222 0.2977778 

In [12]:
##
## Conjunto de prueba
##
prop.table(table(y_test_true))

y_test_true
  No  Yes 
0.68 0.32 

# Entrenamiento del modelo

In [13]:
##
## Carga la librería
## install.packages("C50")
##
library(C50)

In [14]:
##
## Se usan los parámetros por defecto del algoritmo
##
clf <- C5.0(X_train, y_train_true)
clf


Call:
C5.0.default(x = X_train, y = y_train_true)

Classification Tree
Number of samples: 900 
Number of predictors: 20 

Tree size: 49 

Non-standard options: attempt to group attributes


In [15]:
summary(clf)


Call:
C5.0.default(x = X_train, y = y_train_true)


C5.0 [Release 2.07 GPL Edition]  	Thu Mar 15 16:56:47 2018
-------------------------------

Class specified by attribute `outcome'

Read 900 cases (21 attributes) from undefined.data

Decision tree:

checking_balance in {> 200 DM,unknown}: No (414/53)
checking_balance in {< 0 DM,1 - 200 DM}:
:...months_loan_duration <= 11:
    :...credit_history in {critical,delayed,fully repaid,repaid}: No (71/11)
    :   credit_history = fully repaid this bank: Yes (6/1)
    months_loan_duration > 11:
    :...savings_balance in {> 1000 DM,501 - 1000 DM,unknown}:
        :...checking_balance = 1 - 200 DM: No (52/9)
        :   checking_balance = < 0 DM:
        :   :...savings_balance = > 1000 DM: No (4)
        :       savings_balance = 501 - 1000 DM:
        :       :...property = other: Yes (1)
        :       :   property in {building society savings,real estate,
        :       :                unknown/none}: No (3)
        :       savings_bala

El último resultado indica que hay 135 errores en 900 ejemplos.

**Ejercicio.--** Cómo se lee la tabla anterior?.

# Evaluación del modelo

In [16]:
##
## Se evaluar el modelo con los datos de prueba
## install.packages("gmodels")
##
library(gmodels)
y_test_pred <- predict(clf, X_test)
CrossTable(y_test_true, 
           y_test_pred,
           prop.chisq = FALSE, 
           prop.c = FALSE, 
           prop.r = FALSE,
           dnn = c('actual default', 'predicted default'))


 
   Cell Contents
|-------------------------|
|                       N |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  100 

 
               | predicted default 
actual default |        No |       Yes | Row Total | 
---------------|-----------|-----------|-----------|
            No |        54 |        14 |        68 | 
               |     0.540 |     0.140 |           | 
---------------|-----------|-----------|-----------|
           Yes |        20 |        12 |        32 | 
               |     0.200 |     0.120 |           | 
---------------|-----------|-----------|-----------|
  Column Total |        74 |        26 |       100 | 
---------------|-----------|-----------|-----------|

 


# Mejora del modelo

### Adaptive Boosting

Ya que la precisión del modelo presentado para este caso no es suficiente, se aplica la técnica de adaptive boosting. En esta técnica se entrenan muchos árboles simultáneamente sobre los datos; cuando hay un nuevo ejemplo, cada árbol pronóstica la clase y la clasificación final se obtiene por voto (mayoría).

In [17]:
clf10 <- C5.0(X_train, 
              y_train_true,
              trials = 10)    # cantidad de árboles a considerar

clf10


Call:
C5.0.default(x = X_train, y = y_train_true, trials = 10)

Classification Tree
Number of samples: 900 
Number of predictors: 20 

Number of boosting iterations: 10 
Average tree size: 44.1 

Non-standard options: attempt to group attributes


In [18]:
## imprime todos los arboles
summary(clf10)


Call:
C5.0.default(x = X_train, y = y_train_true, trials = 10)


C5.0 [Release 2.07 GPL Edition]  	Thu Mar 15 16:56:47 2018
-------------------------------

Class specified by attribute `outcome'

Read 900 cases (21 attributes) from undefined.data

-----  Trial 0:  -----

Decision tree:

checking_balance in {> 200 DM,unknown}: No (414/53)
checking_balance in {< 0 DM,1 - 200 DM}:
:...months_loan_duration <= 11:
    :...credit_history in {critical,delayed,fully repaid,repaid}: No (71/11)
    :   credit_history = fully repaid this bank: Yes (6/1)
    months_loan_duration > 11:
    :...savings_balance in {> 1000 DM,501 - 1000 DM,unknown}:
        :...checking_balance = 1 - 200 DM: No (52/9)
        :   checking_balance = < 0 DM:
        :   :...savings_balance = > 1000 DM: No (4)
        :       savings_balance = 501 - 1000 DM:
        :       :...property = other: Yes (1)
        :       :   property in {building society savings,real estate,
        :       :                unknown/none}

El resultado anterior indica que hay 29 errores en 900 patrones de entrenamiento.

In [19]:
y_test_pred10 <- predict(clf10, X_test)

CrossTable(y_test_true, 
           y_test_pred10,
           prop.chisq = FALSE, 
           prop.c = FALSE, 
           prop.r = FALSE,
           dnn = c('actual default', 'predicted default'))


 
   Cell Contents
|-------------------------|
|                       N |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  100 

 
               | predicted default 
actual default |        No |       Yes | Row Total | 
---------------|-----------|-----------|-----------|
            No |        60 |         8 |        68 | 
               |     0.600 |     0.080 |           | 
---------------|-----------|-----------|-----------|
           Yes |        22 |        10 |        32 | 
               |     0.220 |     0.100 |           | 
---------------|-----------|-----------|-----------|
  Column Total |        82 |        18 |       100 | 
---------------|-----------|-----------|-----------|

 


### Uso de pesos por tipo de error

Es posible introducir pesos para hacer más costoso un tipo de error que otro.

In [20]:
matrix_dimensions <- list(predicted=c("No", "Yes"), actual=c("No", "Yes"))
str(matrix_dimensions)

List of 2
 $ predicted: chr [1:2] "No" "Yes"
 $ actual   : chr [1:2] "No" "Yes"


In [21]:
error_cost <- matrix(c(0, 1, 4, 0), # pesos por tipo de error
                     nrow = 2,
                     dimnames = matrix_dimensions)
error_cost

Unnamed: 0,No,Yes
No,0,4
Yes,1,0


In [22]:
clf_cost <- C5.0(X_train,
                 y_train_true,
                 costs = error_cost)

In [23]:
y_test_pred_cost <- predict(clf_cost, X_test)

In [24]:
CrossTable(y_test_true,
           y_test_pred_cost,
           prop.chisq = FALSE, 
           prop.c = FALSE, 
           prop.r = FALSE,
           dnn = c('actual default', 'predicted default'))


 
   Cell Contents
|-------------------------|
|                       N |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  100 

 
               | predicted default 
actual default |        No |       Yes | Row Total | 
---------------|-----------|-----------|-----------|
            No |        41 |        27 |        68 | 
               |     0.410 |     0.270 |           | 
---------------|-----------|-----------|-----------|
           Yes |         8 |        24 |        32 | 
               |     0.080 |     0.240 |           | 
---------------|-----------|-----------|-----------|
  Column Total |        49 |        51 |       100 | 
---------------|-----------|-----------|-----------|

 


**Ejercicio.--** Respecto a los dos casos anteriores, ¿Cómo se interpreta la tabla anterior?

**Ejercicio.--** Compute metricas de error y compare los resultados obtenidos?

**Ejercicio.--** Haga la estimación robusta del mdoelo usando cross-validation.

---

Identificación de créditos riesgosos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/R-for-predictive-analytics/blob/master/07-C50-risky-loans.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/R-for-predictive-analytics/blob/master/07-C50-risky-loans.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/R-for-predictive-analytics/blob/master/LICENSE)  
[Readme](https://github.com/jdvelasq/R-for-predictive-analytics/blob/master/readme.md)