<h3>Por qué?</h3>
Han pasado 14 días, y los segundos han corrido cargados de nuevo conocimiento sobre el mundo de machine learning (ML). El 1 de Oct/2018 ha comenzado un periodo de 60 días para aprender y profundizar lo que más se pueda sobre algoritmos y aplicaciones de machine learning. El enfasis es general, pero con un gusto particular de aplicaciones en el campo financiero, más precisamente bursátil y riesgos financieros. Este es uno de los primeros acercamientos al respecto.

<h1>Random Forest</h1><h2>Primer acercamiento</h2>
He dicho el enfasis particular, razón por la cual en esta ocasión traigo un ejemplo de uno de los primeros algoritmos implementados de ML por mi persona, el ya ampliamente conocido Random Forest. No pretendo explicar el modelo en esta hoja, por el contrario, quiero dar a conocer un ejemplo de aplicación practica, sobre uno de los casos de riesgos, el de default. Para cumplir con este objetivo, tomamos un dataset enviado por una empresa en uno de sus test para el cargo de cientifico de datos junior. El nombre .... por obvias razones no se dirá, pero debo decir que es uno de los dataset encontrados en <a href="https://www.kaggle.com/">Kaggle</a>, la plataforma de juego para cientificos de datos.

Ahora sin más, manos a la obra.

Lo primero que haremos, será agrega las lineas en el código python, para soportar UTF-8 (La verdad no recuerdo si más adelante uso caractéres propios de UTF-8, así que serán más por si las mosas.)

In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

Luego de esto, importaremos las principales librerias para nuestro ejercicio de esta manera:

* __Pandas__ : Para la lectura del archivo csv que contiene nuestros datos

* __RandomForestClassifier__ : La clase de SkLearn para el modelado de RandomForest

* __train_test_split__ : La clase, también de SkLearn, que nos separa los datos de entrenamiento, de los de prueba

* __confusion_matrix__ : Clase de SkLearn, muy util para validar que tan asertivo pudo ser el modelo cuando la variable respuesta es categórica o Discreta (pequeña).

In [2]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

import warnings
warnings.filterwarnings('ignore')

  from numpy.core.umath_tests import inner1d


Acto seguido, leeremos los datos del archivo llamado Data.csv

La descripción de cada una de las columnas, del archivo, pueden verlo en <a href="https://www.kaggle.com/dataforyou/bankloan/home">Kaggle</a>. Para confirmar que ha sido cargado, mostramos las columnas del mismo.

In [4]:
file_path = '../../data_source/Data.csv'
data = pd.read_csv(file_path, sep=';')
list(data.columns)

['Customer_ID',
 'Status_Checking_Acc',
 'Duration_in_Months',
 'Credit_History',
 'Purposre_Credit_Taken',
 'Credit_Amount',
 'Savings_Acc',
 'Years_At_Present_Employment',
 'Inst_Rt_Income',
 'Marital_Status_Gender',
 'Other_Debtors_Guarantors',
 'Current_Address_Yrs',
 'Property',
 'Age',
 'Other_Inst_Plans ',
 'Housing',
 'Num_CC',
 'Job',
 'Dependents',
 'Telephone',
 'Foreign_Worker',
 'Default_On_Payment']

Ahora ebemos establecer del conjunto completo de datos, cuantos corresponden a entrenamiento y cuandos a pruebas. Para el ejercicio tomamos 3000 para entrenamiento y el restante para pruebas. Para llevar a cabo esta tarea, usaremos train_test_split.

In [5]:
data_train, data_test = train_test_split(data, train_size =3000)

De este modo, han quedado guardados en **data_train**, los datos para entrenamiento y en **data_test** los datos de prueba. Antes de conituar, es necesario validar la estructura del dataframe de datos para entrenamiento y prueba. Esto se realiza con el fin de validar si alguna de las columnas requiera ser transformada a un valor numérico, pues las clases de SkLearn, suelen tener como entrada matrices numéricas. Para el caso de columnas con valores categóricos, se lleva a cabo una transformación a su código numérico, donde la magnitud del mismo no respresenta ordenamiento alguno entre los valores.

In [6]:
data_train.dtypes

Customer_ID                     int64
Status_Checking_Acc            object
Duration_in_Months              int64
Credit_History                 object
Purposre_Credit_Taken          object
Credit_Amount                   int64
Savings_Acc                    object
Years_At_Present_Employment    object
Inst_Rt_Income                  int64
Marital_Status_Gender          object
Other_Debtors_Guarantors       object
Current_Address_Yrs             int64
Property                       object
Age                             int64
Other_Inst_Plans               object
Housing                        object
Num_CC                          int64
Job                            object
Dependents                      int64
Telephone                      object
Foreign_Worker                 object
Default_On_Payment              int64
dtype: object

In [7]:
data_train['Status_Checking_Acc']           = data_train['Status_Checking_Acc'].astype('category').cat.codes        
data_train['Credit_History']                = data_train['Credit_History'].astype('category').cat.codes               
data_train['Purposre_Credit_Taken']         = data_train['Purposre_Credit_Taken'].astype('category').cat.codes        
data_train['Savings_Acc']                   = data_train['Savings_Acc'].astype('category').cat.codes                  
data_train['Years_At_Present_Employment']   = data_train['Years_At_Present_Employment'].astype('category').cat.codes  
data_train['Marital_Status_Gender']         = data_train['Marital_Status_Gender'].astype('category').cat.codes        
data_train['Other_Debtors_Guarantors']      = data_train['Other_Debtors_Guarantors'].astype('category').cat.codes
data_train['Property']                      = data_train['Property'].astype('category').cat.codes
data_train['Other_Inst_Plans ']             = data_train['Other_Inst_Plans '].astype('category').cat.codes             
data_train['Housing']                       = data_train['Housing'].astype('category').cat.codes 
data_train['Job']                           = data_train['Job'].astype('category').cat.codes            
data_train['Telephone']                     = data_train['Telephone'].astype('category').cat.codes                
data_train['Foreign_Worker']                = data_train['Foreign_Worker'].astype('category').cat.codes                   

data_test['Status_Checking_Acc']           = data_test['Status_Checking_Acc'].astype('category').cat.codes        
data_test['Credit_History']                = data_test['Credit_History'].astype('category').cat.codes               
data_test['Purposre_Credit_Taken']         = data_test['Purposre_Credit_Taken'].astype('category').cat.codes        
data_test['Savings_Acc']                   = data_test['Savings_Acc'].astype('category').cat.codes                  
data_test['Years_At_Present_Employment']   = data_test['Years_At_Present_Employment'].astype('category').cat.codes  
data_test['Marital_Status_Gender']         = data_test['Marital_Status_Gender'].astype('category').cat.codes        
data_test['Other_Debtors_Guarantors']      = data_test['Other_Debtors_Guarantors'].astype('category').cat.codes
data_test['Property']                      = data_test['Property'].astype('category').cat.codes
data_test['Other_Inst_Plans ']             = data_test['Other_Inst_Plans '].astype('category').cat.codes             
data_test['Housing']                       = data_test['Housing'].astype('category').cat.codes 
data_test['Job']                           = data_test['Job'].astype('category').cat.codes            
data_test['Telephone']                     = data_test['Telephone'].astype('category').cat.codes                
data_test['Foreign_Worker']                = data_test['Foreign_Worker'].astype('category').cat.codes   

In [8]:
data_train.dtypes

Customer_ID                    int64
Status_Checking_Acc             int8
Duration_in_Months             int64
Credit_History                  int8
Purposre_Credit_Taken           int8
Credit_Amount                  int64
Savings_Acc                     int8
Years_At_Present_Employment     int8
Inst_Rt_Income                 int64
Marital_Status_Gender           int8
Other_Debtors_Guarantors        int8
Current_Address_Yrs            int64
Property                        int8
Age                            int64
Other_Inst_Plans                int8
Housing                         int8
Num_CC                         int64
Job                             int8
Dependents                     int64
Telephone                       int8
Foreign_Worker                  int8
Default_On_Payment             int64
dtype: object

Ya convertidos los datos, a valores numéricos, lo que se hará será parametrizar modelos _random forest_. Se decide hacer la parametrización de tres, debido a que la librería soporta tres tipos diferentes de criterio para el _split_ de las caracteristicas de los árboles. Para conocer más a fondo estos criterios, y otros más, puede consultar <a href="http://www.ise.bgu.ac.il/faculty/liorr/hbchap9.pdf">Decision Tree</a>.

In [9]:
model_classificator_gini = RandomForestClassifier(n_estimators=1000, random_state=0, criterion='gini')
model_classificator_entropy = RandomForestClassifier(n_estimators=1000, random_state=0, criterion='entropy')
model_classificator_none = RandomForestClassifier(n_estimators=1000, random_state=0)

Importante resaltar que uno de los parámetros más importantes es **n_estimators**, pues define la cantidad de árboles que se usaran en el algoritmo para clasificar los valores de los datos de entrenamiento. Como ya resulta evidente, en los tres modelos se implementan 1000. Como se mencionó anteriormente, varios de los algoritmos en SkLearn, admite los datos en forma de matriz, razón por la cual se crea la variable **data_train_Array**, como matriz pura de **data_train**, y posteriormente se dice a cada uno de los modelos, que calcule los parámetros.

In [10]:
data_train_Array = data_train.as_matrix()
model_classificator_gini.fit(data_train_Array[:,0:21], data_train_Array[:,21])
model_classificator_entropy.fit(data_train_Array[:,0:21], data_train_Array[:,21])
model_classificator_none.fit(data_train_Array[:,0:21], data_train_Array[:,21])

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=1000, n_jobs=1,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

Y ahora la parte más emocionante de todo esto, los resultados. Estos se muestran por medio de sus matrices de confusión, entendiendo cada intersección de filas y columnas, como los valores reales de los datos de prueba, y los valores pronosticados para los mismos, según cada uno de los modelos.

In [11]:
data_test_Array = data_test.as_matrix()

y_predict = model_classificator_gini.predict(data_test_Array[:,0:21])
confu_matrix = confusion_matrix(data_test_Array[:,21], y_predict)
print(' ========================================== GINI')
print(confu_matrix)

y_predict = model_classificator_entropy.predict(data_test_Array[:,0:21])
confu_matrix = confusion_matrix(data_test_Array[:,21], y_predict)
print(' ========================================== ENTROPY')
print(confu_matrix)

y_predict = model_classificator_none.predict(data_test_Array[:,0:21])
confu_matrix = confusion_matrix(data_test_Array[:,21], y_predict)
print(' ========================================== NONE')
print(confu_matrix)

[[1428    0]
 [   0  572]]
[[1428    0]
 [   0  572]]
[[1428    0]
 [   0  572]]


Para entender estas matrices, debe señalarse que la primer columna, son los valores pronosticados con riesgo de default 0, mientras la segunda los valores pronosticados con riesgo default 1. Por su parte las filas, serán los valores reales observados de riesgo default 0 y 1 respectivamente. Dicho esto, para el ejemplo del modelo con criterio de decisión **Gini**, veremos que la cantidad de aciertos entre el pronóstico y los datos observados de riesgo default 0, son de 1390, mientras que los acertados entre el modelo y los observados para riesgo default 1 son 572. Pero los desaciertos de riesgo default 0 son de 33 y los de riesgo default 1, 5. Ante estos hechos, puede ser valido el afirmar que el modelo GINI es capaz de acertar en un casi 97% para riesgos de default 0, mientras que acierta en un valor aproximado de 99% el riesgo de default 1. Esto alentaría a los investigadores para optar por este modelo cuando tienen los datos de los clientes señalados en el archivo de pruebas. Sin embargo cabe resaltar que este modelo puede ser útil para un conjunto de datos con distribuciones similares a las de los datos de prueba, mientras que puede desviar su efectividad si siguen otro patrón.

Ahora, es interesante ver como el modelo que mejor se adaptó por su número de errores de pronóstico fue Entropy, el cual sigue el criterio de decisión llamado "information gain", como se detalla en la descripción tecnica de la clase en <a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html">SkLearn</a>. Las razones siguen siendo parte de estos 60 días, así que decirles cualquier razón sería un poco necio de mi parte.

Este es todo el todo por ahora. Hasta una próxima entrada.

C.Q.