# Random Forest
Para la implementación de este método, se hace uso del módulo DecisionTreeClassifier de sklearn para el motor de predicción, además se hace uso del módulo LabelEncoder y OneHotEncoder para la generación de las variables dummies a partir de las variables categóricas. Al final con una matriz de confusión se podrá observar la precisión del modelo.

In [1]:
#Cargando Dependencias, Estas se pueden encontrar en requirements.txt
import re
import pandas as pd 
from sklearn import metrics
from sklearn import preprocessing
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble.forest import RandomForestClassifier

## Base de datos
Se hace uso de la base obtenida en https://archive.ics.uci.edu/ml/datasets/Adult, que busca predecir si los ingresos de un adulto son o no mayores a 50k.

In [3]:
# Se leen las bases de datos, tanto de entrenamiento como de prueba
train_data_set = pd.read_csv("data/dataset_tae_final_no_na_mod.csv", encoding = "ISO-8859-1")
test_data_set = pd.read_csv("data/test_tae_no_na_mod.csv", encoding = "ISO-8859-1")

# Se hace una limpieza de la base de datos deprueba, pues presenta una diferencia en el formato de la variable a predecir
test_data_set["income"]=test_data_set["income"].replace(" <=50K.", " <=50K")
test_data_set["income"]=test_data_set["income"].replace(" >50K.", " >50K")

## El modelo predictor
La clase TAERandomForestClassifier sera el modelo, al crear una instancia de esta clase el modelo se inicializa sin ser entrenado con unos meta-parámetros por defecto para su entrenamiento, que en este caso ya son los óptimos: Esto se determinó mediante un ciclo que prueba cada uno de ellos en un rango, guarda sus precisiones y escoge la más alta.

### Metaparametros
Se tienen en cuenta 3 meta parametros:  
- Numero de estimadores: 100.  
Este meta parámetro determina el numero interno de modelos de árbol que va a usar, se determina que 100 es un numero optimo ya que la razón de ganancia de precisión contra el tiempo de entrenamiento no es lo suficientemente significativo para el sacrificio en el desempeño del modelo
- Numero de categorias: 7.  
Este meta parámetro determina cuantas características de la base de datos va a usar por modelo como máximo
- Maximo de profundidad: 16.  
Este meta parámetro determina el máximo de niveles que los arboles pueden tener al ser generados en el bosque


### Metodos
La clase usa 6 métodos, 2 métodos para la codificación de las variables categóricas en dummies, donde encode_fit hace la categorización en el entrenamiento y entrega un diccionario para futuras categorizaciones de dummies. El método encode hace la categorización en dummies de las futuras entradas. Tenemos un metodo fit, que toma una base de datos con la cual se entrena el modelo, luego un método predict que usa el modelo entrenado para predecir con entradas nuevas, ambos métodos reciben la base de datos en formato panda. Por último, tenemos el método cal_conf_matrix que nos imprime la matriz de confusión con base en una base de datos de prueba y la precisión de nuestro modelo, por último,
tenemos set_meta que nos permite modificar los meta-parámetros del modelo.

In [4]:
class TAERandomForestClassifier(object):
    lab_encoders = {}
    dummy_encoder = None
    rfc_model = None
    n_estimators = 100
    max_features = 5
    max_depth = 16
    
    def encode_fit(self, cat_data):
        #Encodes string to numeric labels
        tdc_set_encoded = cat_data.copy(deep=True)
        for cn in cat_data.columns:
            self.lab_encoders[cn] = preprocessing.LabelEncoder()
            self.lab_encoders[cn].fit(cat_data[str(cn)])
            tdc_set_encoded[str(cn)] = self.lab_encoders[cn].transform(cat_data[str(cn)])
        
        #Encodes to dummy dataset
        self.dummy_encoder = preprocessing.OneHotEncoder(categories="auto")
        self.dummy_encoder.fit(tdc_set_encoded[cat_data.columns])
        
        #print(len(self.dummy_encoder.get_feature_names()))
        
        encoded_cat_data = pd.DataFrame(data=self.dummy_encoder.transform(tdc_set_encoded).todense(), columns=self.dummy_encoder.get_feature_names())
        return encoded_cat_data
    
    def encode(self, cat_data):
        for cn in cat_data.columns:
              cat_data[str(cn)] = self.lab_encoders[cn].transform(cat_data[str(cn)]) 
        
        
        #Encodes to dummy dataset
        encoded_cat_data = pd.DataFrame(data=self.dummy_encoder.transform(cat_data).todense(), columns=self.dummy_encoder.get_feature_names())    
        return encoded_cat_data       
    def fit(self, x_train, y_train, cat_cols, num_cols):
        #Separates dataset in categorical and numbers
        x_train_num = x_train[num_cols].copy(deep=True)
        x_train_cat = x_train[cat_cols].copy(deep=True)
        
        x_train_cat = self.encode_fit(x_train_cat)
        
        x_train_num.reset_index(drop=True, inplace=True)
        x_train_cat.reset_index(drop=True, inplace=True)
        
        f_x_train = pd.concat([x_train_num, x_train_cat], axis=1)

        self.rfc_model = RandomForestClassifier(n_estimators=self.n_estimators, criterion="entropy", 
                                                max_features=self.max_features, max_depth=self.max_depth)
        self.rfc_model = self.rfc_model.fit(f_x_train, y_train)
        
    def predict(self, x_predict, cat_cols, num_cols):
        #Separates dataset in categorical and numbers
        x_predict_num = x_predict[num_cols].copy(deep=True)
        x_predict_cat = x_predict[cat_cols].copy(deep=True)
        
        x_predict_cat = self.encode(x_predict_cat)
        f_x_predict = pd.concat([x_predict_num, x_predict_cat], axis=1)
        y_pred = self.rfc_model.predict(f_x_predict)
        return y_pred
    
    def cal_conf_matrix(self, x_test, y_test, catego_columns, numeric_cols):
        y_pred = self.predict(x_test, catego_columns, numeric_cols)
        # [[VP, FP], [FN, VN]]
        print("Matriz de confusión:")
        print(metrics.confusion_matrix(y_test, y_pred))

        #Correr varias veces y ver como varia. Basado en el indice de jaccard
        print("Precisión:", metrics.accuracy_score(y_test, y_pred))
        
        return metrics.accuracy_score(y_test, y_pred)
        
    def set_meta(self, max_features, n_estimators, max_depth):
        self.n_estimators = n_estimators
        self.max_features = max_features
        self.max_depth = max_depth

In [5]:
# Se una instancia del odelo, se entrega con los datos de entrenamiento y se valida con los datos de prueba
catego_columns = ['education', 'workclass', 'marital_status', 'ocupation', 'ethnicity', 'gender', 'native_country']
numeric_cols = ['age', 'fnlwgt', 'capital_gain', 'capital_loss', 'hours_per_week']

forest = TAERandomForestClassifier()
forest.fit(train_data_set.loc[:,train_data_set.columns!="income",],train_data_set["income"], catego_columns, numeric_cols)
m = forest.cal_conf_matrix(test_data_set.loc[:,test_data_set.columns!="income",], test_data_set["income"], catego_columns, numeric_cols)

Matriz de confusión:
[[10841   518]
 [ 1622  2078]]
Precisión: 0.8578922903247228


## Resultados Matriz de Confusión

Real vs  Pedicha | <=50k | >50k 
---- | ---- | ---- 
<=50k | 10788 | 571 |
 >50k | 1561 | 2139 

Logrando una precision del: 86%