Identificación de créditos riesgosos
===

**Juan David Velásquez Henao**  
jdvelasq@unal.edu.co   
Universidad Nacional de Colombia, Sede Medellín  
Facultad de Minas  
Medellín, Colombia

---

Haga click [aquí](https://github.com/jdvelasq/machine-learning/blob/master/01-archivos-y-directorios.ipynb) para acceder a la última versión online.

Haga click [aquí](http://nbviewer.jupyter.org/github/jdvelasq/machine-learning/blob/master/01-archivos-y-directorios.ipynb) para ver la última versión online en `nbviewer`. 

---
[Licencia](https://github.com/jdvelasq/machine-learning/blob/master/LICENCIA.txt)  
[Readme](https://github.com/jdvelasq/machine-learning/blob/master/readme.md)

# Definición del problema real

Las entidades financieras desean mejorar sus procedimientos de aprobación de créditos con el fin de disminuir los riesgos de no pago de la deuda. El problema real consiste en poder decidir si se aprueba o no un crédito particular con base en información que puede ser fácilmente recolectada por teléfono o en la web.

# Definición del problema en términos de los datos

Se tiene una muestra de 1000 observaciones. Cada registro contiene 21 variables que recopilan información tanto sobre el crédito como sobre la salud financiera del solicitante. La información fue recolectada por una firma alemana y se puede descargar de http://archive.ics.uci.edu/ml.

# Exploración

In [35]:
# carga de los datos
credit <- read.csv("data/credit.csv")

In [36]:
# verificación de los datos cargados
str(credit)

'data.frame':	1000 obs. of  21 variables:
 $ checking_balance    : Factor w/ 4 levels "< 0 DM","> 200 DM",..: 1 3 4 1 1 4 4 3 4 3 ...
 $ months_loan_duration: int  6 48 12 42 24 36 24 36 12 30 ...
 $ credit_history      : Factor w/ 5 levels "critical","delayed",..: 1 5 1 5 2 5 5 5 5 1 ...
 $ purpose             : Factor w/ 10 levels "business","car (new)",..: 8 8 5 6 2 5 6 3 8 2 ...
 $ amount              : int  1169 5951 2096 7882 4870 9055 2835 6948 3059 5234 ...
 $ savings_balance     : Factor w/ 5 levels "< 100 DM","> 1000 DM",..: 5 1 1 1 1 5 4 1 2 1 ...
 $ employment_length   : Factor w/ 5 levels "> 7 yrs","0 - 1 yrs",..: 1 3 4 4 3 3 1 3 4 5 ...
 $ installment_rate    : int  4 2 2 2 3 2 3 2 2 4 ...
 $ personal_status     : Factor w/ 4 levels "divorced male",..: 4 2 4 4 4 4 4 4 1 3 ...
 $ other_debtors       : Factor w/ 3 levels "co-applicant",..: 3 3 3 2 3 3 3 3 3 3 ...
 $ residence_history   : int  4 2 3 4 4 4 4 2 4 2 ...
 $ property            : Factor w/ 4 levels "building soci

In [37]:
# Algunas de las columnas son numéricas y 
# las otras son factores.
# DM corresponde a Deutsche Marks
table(credit$checking_balance)


    < 0 DM   > 200 DM 1 - 200 DM    unknown 
       274         63        269        394 

In [38]:
table(credit$savings_balance)


     < 100 DM     > 1000 DM  101 - 500 DM 501 - 1000 DM       unknown 
          603            48           103            63           183 

In [39]:
# el monto del préstamo va desde 250 DM hasta 18.424 DM
summary(credit$amount)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    250    1366    2320    3271    3972   18424 

In [40]:
# la duración del préstamo va desde 4 hasta 72 meses
summary(credit$months_loan_duration)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    4.0    12.0    18.0    20.9    24.0    72.0 

In [41]:
# la columna default indica si hubo problemas 
# en el pago del préstamo (1- pago, 2- no pago)
table(credit$default)


  1   2 
700 300 

In [42]:
# la columna default indica si el crédito fue pagado o no
# 1-si, 2-no
credit$default

In [43]:
# convierte esta variable a factores
credit$default <- factor(credit$default, labels=c("Yes", "No"))
credit$default

# Metodología k-NN

El problema en términos matemáticos se define de la siguiente forma. 
* Se tienen $M$ ejemplos (las 569 observaciones del problema analizado).  
* Cada ejemplo esta definido por un conjunto de variables ($x_1$, $x_2$, ..., $x_N$); es decir, las 30 columnas de datos.
* Cada ejemplo pertenece a una clase y hay $P$ clases diferentes; en el caso analizado sólo hay dos clases: benigno o maligno. 
* Para un nuevo caso y con base en las 30 mediciones realizadas (variables), se desea pronosticar a que clase pertenece. 

El método k-NN asígna una clase (de las $P$ posibles) al nuevo ejemplo en dos pasos. En el primer paso, determina los $k$ ejemplos más cercanos (distancia) al nuevo ejemplo; en el segundo paso, asigna la clase al nuevo punto por mayoría; es decir, asigna la clase con mayor frecuencia entre los $k$ vecinos más cercnos. Por ejemplo, si se consideran 7 vecinos, de los cuales 5 son "benignos" (y 2 "malignos") entonces el nuevo punto es clasificado como "benigno".

La distancia entre dos puntos $p$ y $q$ es:

$$dist(p, q) = \sqrt{\sum_{i=1}^N (p_i - q_i)^2}$$


**Ejercicio.** ¿Cómo se implementa computacionalmente este algoritmo?

Ya que la escala de las variables numéricas afecta la medición, se pueden realizar dos transformaciones:

**Normalización min-max**.

$$z_j = \frac{x - \text{min}(x_j)}{\text{max}(x_j) - \text{min}(x_j)}$$ 

**Estandarización z.**

$$z_j = \frac{x - \text{mean}(x_j)}{\text{std}(x_j) }$$ 



Para variables nominales que representan $S$ categorías se crean $S-1$ variables: la primera variable vale 1 si la variable nominal toma el valor de la primera categoría; la segunda variable vale 2 si la variable nominal toma el valor de la segunda categoría, y así sucesivamente. ¿Por qué se requieren $S-1$ variables para $S$ categorías de la variable nominal?.  

# Preparación de los datos

In [44]:
# se usa el 90% de los datos para entrenamiento y el 10% restante para prueba
set.seed(123) # inicializa la semilla del generador de aleatorios
train_sample <- sample(1000, 900) # muestrea 900 números al azar
str(train_sample)

 int [1:900] 288 788 409 881 937 46 525 887 548 453 ...


In [45]:
# genera los conjuntos de entrenamiento
credit_train <- credit[train_sample, ]
credit_test  <- credit[-train_sample, ]

In [46]:
# proporción de los créditos pagados y no pagados
# en el conjunto de entrenamiento
prop.table(table(credit_train$default))


      Yes        No 
0.7033333 0.2966667 

In [47]:
# proporción de los créditos pagados y no pagados
# en el conjunto de prueba
prop.table(table(credit_test$default))


 Yes   No 
0.67 0.33 

# Entrenamiento del modelo

In [49]:
# carga la librería
# install.packages("C50")
library(C50)
credit_model <- C5.0(credit_train[-17], credit_train$default)
credit_model


Call:
C5.0.default(x = credit_train[-17], y = credit_train$default)

Classification Tree
Number of samples: 900 
Number of predictors: 20 

Tree size: 54 

Non-standard options: attempt to group attributes


In [50]:
summary(credit_model)


Call:
C5.0.default(x = credit_train[-17], y = credit_train$default)


C5.0 [Release 2.07 GPL Edition]  	Wed Feb 28 11:17:55 2018
-------------------------------

Class specified by attribute `outcome'

Read 900 cases (21 attributes) from undefined.data

Decision tree:

checking_balance in {> 200 DM,unknown}: Yes (412/50)
checking_balance in {< 0 DM,1 - 200 DM}:
:...other_debtors = guarantor:
    :...months_loan_duration > 36: No (4/1)
    :   months_loan_duration <= 36:
    :   :...installment_plan in {none,stores}: Yes (24)
    :       installment_plan = bank:
    :       :...purpose = car (new): No (3)
    :           purpose in {business,car (used),domestic appliances,education,
    :                       furniture,others,radio/tv,repairs,
    :                       retraining}: Yes (7/1)
    other_debtors in {co-applicant,none}:
    :...credit_history = critical: Yes (102/30)
        credit_history = fully repaid: No (27/6)
        credit_history = fully repaid this bank:
      

# Evaluación del modelo

Para evaluar el desempeño en problemas de clasificación dicotómicos (dos clases mutuamente excluyentes) se usa la siguiente tabla:


               Pronostico
                P     N
          P     VP    FN          
    Real
          N     FP    VN
    
    VP - Verdadero positivo (correcto)
    VN - Verdadero negativo (correcto)
    FN - Falso negativo
    FP - Falso positivo
    

In [51]:
#install.packages("gmodels")
library(gmodels)
credit_pred <- predict(credit_model, credit_test)
CrossTable(credit_test$default, 
           credit_pred,
           prop.chisq = FALSE, 
           prop.c = FALSE, 
           prop.r = FALSE,
           dnn = c('actual default', 'predicted default'))


 
   Cell Contents
|-------------------------|
|                       N |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  100 

 
               | predicted default 
actual default |       Yes |        No | Row Total | 
---------------|-----------|-----------|-----------|
           Yes |        60 |         7 |        67 | 
               |     0.600 |     0.070 |           | 
---------------|-----------|-----------|-----------|
            No |        19 |        14 |        33 | 
               |     0.190 |     0.140 |           | 
---------------|-----------|-----------|-----------|
  Column Total |        79 |        21 |       100 | 
---------------|-----------|-----------|-----------|

 


# Mejora del modelo

### Boosting

In [None]:
credit_boost10 <- C5.0(credit_train[-17], credit_train$default,
                         trials = 10)


In [None]:
credit_boost10

In [None]:
summary(credit_boost10)

In [None]:
credit_boost_pred10 <- predict(credit_boost10, credit_test)

In [None]:
CrossTable(credit_test$default, 
           credit_boost_pred10,
           prop.chisq = FALSE, 
           prop.c = FALSE, 
           prop.r = FALSE,
           dnn = c('actual default', 'predicted default'))

**Ejercicio.** Determine si el modelo mejora con $k$ = 21 y se estándarizan las variables. *Ayuda*: use la función `scale`. 

**Ejercicio.** Determine el valor óptimo de $k$ cuándo los datos son normalizados. *Ayuda*: Calcule la cantidad total de ejemplos mal clasificados para $k$ desde 1 hasta 27.

**Ejercicio.** Los resutados son dependientes de cómo se partieron los datos en entrenamiento y prueba. Cómo podría calcular de una forma más robusta la cantidad de vecinos?