# Informe modelos

Por:
- David Chaverra Munera  
- Juan Felipe Munera Vergara  
- Andres Felipe Aguilar Rendon    
- Christian Camilo Guzmán Escobar

En el siguiente documento se muestra el proceso de creación de cada uno de los 3 modelos propuestos para el trabajo finall: redes neuronales, maquinas de soporte vectorial y random forest. Utilizando la base de datos abiertos  [_Adult_](https://archive.ics.uci.edu/ml/datasets/Adult), prediciento la variable _income_. 

El análisis descriptivo y la lista de cambios realizados a la base de datos previo al entrenamiento de los modelos puede encontrarse en el archivo [Análisis descriptivo TAE.docx](https://github.com/DavidChaMun/TAE_FINAL/raw/master/An%C3%A1lisis%20descriptivo%20TAE.docx).

## Redes neuronales:

Ahora construiremos una red neuronal utilizando la libreria de Keras que imprementa tensorflow.
Utilizaremos la base de datos sin valores faltantes y con las modificaciones mencionadas previamente para entrenar el modelo. El modelo se elegira mediante validación cruzada, para probar su efectividad.

### Cargando librerias necesarias

In [2]:
from __future__ import absolute_import, division, print_function, unicode_literals
import tensorflow as tf
#tf.enable_eager_execution()
import numpy as np
import pandas as pd
import keras
import os
import functools


Using TensorFlow backend.


Cargamos la base de datos desde Github.

In [0]:
train = pd.read_csv('https://github.com/DavidChaMun/TAE_FINAL/raw/master/data/dataset_tae_final_no_na_mod.csv')
test = pd.read_csv('https://github.com/DavidChaMun/TAE_FINAL/raw/master/data/test_tae_no_na_mod.csv')

Observemos la estructura de los datos:

In [0]:
#Chequeo de tipos de las variables
train.dtypes

age                  int64
workclass         category
fnlwgt               int64
education         category
marital_status    category
ocupation         category
ethnicity         category
gender            category
capital_gain         int64
capital_loss         int64
hours_per_week       int64
native_country    category
income                int8
dtype: object

## Transformación de la base de datos a un formato conveniente

Vemos que tenemos variables categóricas, debemos transformarlas a variables dummies para poder crear la red neuronal:

In [0]:
catego_columns = ['education', 'workclass', 'marital_status', 
             'ethnicity', 'income','gender',
                  'native_country', 'ocupation']
#Transformamos variables object a categoricas
for col in catego_columns:
    train[col] = pd.Categorical(train[col])
    test[col] = pd.Categorical(test[col])

#Transformamos nuestra variable de objetivo para la clasificacion
train[label] = train[label].cat.codes
test[label] = test[label].cat.codes

#Creamos variables dummies con las categoricas
train_dataset=pd.get_dummies(train)
test_dataset=pd.get_dummies(test)

Chequeamos que las variables de nuestro conjunto de entrenamiento sean las mismas que las de validación

In [0]:
for elem in list(train_dataset.columns):
    if not((elem in list(test_dataset.columns))):
        print(elem)
#Dado que no imprime nada, las dos bases tienen las mismas variables dummies.

In [0]:
columns = train_dataset.columns
columns

Index(['age', 'fnlwgt', 'capital_gain', 'capital_loss', 'hours_per_week',
       'income', 'workclass_ Federal-gov', 'workclass_ Local-gov',
       'workclass_ Private', 'workclass_ Self-emp-inc',
       'workclass_ Self-emp-not-inc', 'workclass_ State-gov',
       'workclass_ Without-pay', 'education_ 10th', 'education_ 11th',
       'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th',
       'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm',
       'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate',
       'education_ HS-grad', 'education_ Masters', 'education_ Preschool',
       'education_ Prof-school', 'education_ Some-college',
       'marital_status_ Divorced', 'marital_status_ Never-married',
       'marital_status_ Separated', 'marital_status_ Widowed',
       'marital_status_Married', 'ocupation_ Adm-clerical',
       'ocupation_ Armed-Forces', 'ocupation_ Craft-repair',
       'ocupation_ Exec-managerial', 'ocupation_ Farming-fishi

In [1]:
#train_dataset.to_csv('train_dummies.csv')
temp = ['age', 'fnlwgt', 'capital_gain', 'capital_loss', 'hours_per_week',
       'income', 'workclass_ Federal-gov', 'workclass_ Local-gov',
       'workclass_ Private', 'workclass_ Self-emp-inc',
       'workclass_ Self-emp-not-inc', 'workclass_ State-gov',
       'workclass_ Without-pay', 'education_ 10th', 'education_ 11th',
       'education_ 12th', 'education_ 1st-4th', 'education_ 5th-6th',
       'education_ 7th-8th', 'education_ 9th', 'education_ Assoc-acdm',
       'education_ Assoc-voc', 'education_ Bachelors', 'education_ Doctorate',
       'education_ HS-grad', 'education_ Masters', 'education_ Preschool',
       'education_ Prof-school', 'education_ Some-college',
       'marital_status_ Divorced', 'marital_status_ Never-married',
       'marital_status_ Separated', 'marital_status_ Widowed',
       'marital_status_Married', 'ocupation_ Adm-clerical',
       'ocupation_ Armed-Forces', 'ocupation_ Craft-repair',
       'ocupation_ Exec-managerial', 'ocupation_ Farming-fishing',
       'ocupation_ Handlers-cleaners', 'ocupation_ Machine-op-inspct',
       'ocupation_ Other-service', 'ocupation_ Priv-house-serv',
       'ocupation_ Prof-specialty', 'ocupation_ Protective-serv',
       'ocupation_ Sales', 'ocupation_ Tech-support',
       'ocupation_ Transport-moving', 'ethnicity_ Amer-Indian-Eskimo',
       'ethnicity_ Asian-Pac-Islander', 'ethnicity_ Black', 'ethnicity_ Other',
       'ethnicity_ White', 'gender_ Female', 'gender_ Male',
       'native_country_ Mexico', 'native_country_ United-States',
       'native_country_other']
len(temp)

58

## Creando la red neuronal

Para la construcción de la red neuronal se utilizo el modelo *sequential* de Keras, la cuál ajusta una red neuronal (utilizando ciertos métodos que describiremos más adelante), dicha función se entrena utilizando *.fit()*, este método recibe un conjunto de entrenamiento y permite introducir un conjunto de validación, por lo que en cada iteración de entrenamiento se puede ver la precisión de la predicción para ambos conjuntos de datos. 

Se eligió como criterio de elección del modelo aquel que maximizara la precisión en las predicciones de la variables *income*. Para la elección del modelo se variaron los siguientes atributos:

- Número de capas y neuronas dentro de *sequential*: aumentar el numero de neuronas a más de dos no mejoró los resultados, el número de neuronas mejoraba los resultados al aumentarlas por encimas de 10, al final se eligieron 2 capas internas con 30 y 20 neuronas respectivamentes.

- Método de activación de la neurona de salida: se probo "softmax" que según la documentación de internet es eficiente en clasificación de 2 o multiples variables categóricas. Sin embargo, este mostro precisiones desastrozas por debajo de 0.30 en general. Por lo que se utilizo "sigmoid".

- Optimizador: se probaron *SGD* (precisiones de hasta 0.83), *Adam* y *RMSprop*, variando el __learning rate (LR)__ en todos ellos, se encontro que *Adam* y *RMSprop* llegaban a resultados equivalente de hasta 0.85 de precisión, los LR entre 0.001 y 0.1 convergian siempre a una precisión de 0.85, por lo que se eligió 0.1 al entrenar la red más rapidamente.

- Número de epochs: estos son definimos al usar *model.fit()*. Aumentarlos o disminuirlos no impacto mucho el modelo final, la neurona convergia para el 10avo epoch, se eligio 20 para visualizar un comportamiento más prolongado.

### A continuación se muestra la red neuronal final construida:

#### Definición de la red neuronal:

In [0]:
from keras.models import Sequential
from keras.layers import Dense,Activation
from keras.callbacks import TensorBoard
from keras.callbacks import ModelCheckpoint
from keras.optimizers import adam

#Función que crea la red
def get_compiled_model():
  #Modelo sequencial, posee las neuronas
  model = Sequential([
    Dense(40, input_shape=(x_train.shape[1:])),
    Activation('relu'),
    Dense(20),
    Activation('relu'),
    Dense(1),
    Activation('sigmoid'), #última neuronal
  ])
  
  #optimizador
  opt= adam(lr=0.01,beta_1=0.9, beta_2=0.9)
  
  #definición del copiador
  model.compile(optimizer=opt,
                loss='binary_crossentropy',
                metrics=['accuracy'])
  return model

#### Escalado y definición de variables de apoyo:

In [0]:
from sklearn.preprocessing import MinMaxScaler
#Definimos las variables de entrenamiento y las objetivo para entrenar el modelo
x_train = train_dataset.copy(deep=True)
x_val = test_dataset.copy(deep=True)
y_train = x_train.pop('income').values
y_val = x_val.pop('income').values

#Escalamos los datos
scaler = MinMaxScaler() #definimos nuestro escalador, nos será útil a la hora de convertir los datos para hacer las predicciones.
scaler.fit(x_train)    
x_train =  scaler.transform(x_train)
x_val = scaler.transform(x_val)

### Entrenamiento y validación de la red neuronal:

In [0]:
#Obtenemos nuestro modelo
model = get_compiled_model()

#Entrenamos el modelo.
model.fit(x=x_train, y=y_train,validation_data=(x_val,y_val),epochs = 20,batch_size=20,shuffle=True)

Train on 30160 samples, validate on 15059 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x7ff5d11160f0>

Nuestro modelo final tiene una precisión del **~85%** en los datos de validación. 

### Demo de nuevas predicciones

Ahora construiremos una función que reciba una base numpy con los datos a predecir, construya las variables dummies, las escale y sea predicho por el modelo final.

Para conseguir la misma estructura de la base de datos con la que se entreno el modelo, basta con crear un pd.data_frame con valores de un _input valido_, y añadir las columnas de la df con dummies que falten con valores con cero. Luego se escala con el objeto _scaler_ con el que se escaló la base original. 

Una clase que realiza este proceso cargando la red neuronal y el scaler se presenta a continuación:

In [0]:
#Librerias necesarias:
from sklearn.externals import joblib
from keras.models import load_model
from sklearn.preprocessing import MinMaxScaler

import joblib
import numpy as np
import pandas as pd
import keras
from keras.models import Sequential


class neural_network_mod():

    scaler =None
    nn_model = None
    train_cols = ['age', 'fnlwgt', 'capital_gain', 'capital_loss', 'hours_per_week',
       'workclass_ Federal-gov', 'workclass_ Local-gov', 'workclass_ Private',
       'workclass_ Self-emp-inc', 'workclass_ Self-emp-not-inc',
       'workclass_ State-gov', 'workclass_ Without-pay', 'education_ 10th',
       'education_ 11th', 'education_ 12th', 'education_ 1st-4th',
       'education_ 5th-6th', 'education_ 7th-8th', 'education_ 9th',
       'education_ Assoc-acdm', 'education_ Assoc-voc', 'education_ Bachelors',
       'education_ Doctorate', 'education_ HS-grad', 'education_ Masters',
       'education_ Preschool', 'education_ Prof-school',
       'education_ Some-college', 'marital_status_ Divorced',
       'marital_status_ Never-married', 'marital_status_ Separated',
       'marital_status_ Widowed', 'marital_status_Married',
       'ocupation_ Adm-clerical', 'ocupation_ Armed-Forces',
       'ocupation_ Craft-repair', 'ocupation_ Exec-managerial',
       'ocupation_ Farming-fishing', 'ocupation_ Handlers-cleaners',
       'ocupation_ Machine-op-inspct', 'ocupation_ Other-service',
       'ocupation_ Priv-house-serv', 'ocupation_ Prof-specialty',
       'ocupation_ Protective-serv', 'ocupation_ Sales',
       'ocupation_ Tech-support', 'ocupation_ Transport-moving',
       'ethnicity_ Amer-Indian-Eskimo', 'ethnicity_ Asian-Pac-Islander',
       'ethnicity_ Black', 'ethnicity_ Other', 'ethnicity_ White',
       'gender_ Female', 'gender_ Male', 'native_country_ Mexico',
       'native_country_ United-States', 'native_country_other']
    catego_columns = ['education', 'workclass', 'marital_status', 
             'ethnicity','gender',
                  'native_country', 'ocupation']
    
    def __init__(self):
        #Carga el scaler y la red neuronal:
        self.scaler = joblib.load('scaler.save')
        self.nn_model = load_model('my_model.h5')
        
    def predict(self, data):
      #Esta función s eutiliza para predecir, recibe data un pd_dataframe
      
      #Transformamos la base de datos
      data = self.tidy_data(data)
      
      predictions = self.nn_model.predict(data)>0.5
      predictions=np.where(predictions==0, "<=50k", predictions)
      predictions=np.where(predictions=='True', ">50k", predictions)
      return(predictions)
      
    def tidy_data(self,data):
      
      #Transformamos variables object a categoricas
      for col in self.catego_columns:        
        data[col] = pd.Categorical(data[col])
      
      #Creamos variables dummies con las categoricas
      data_d=pd.get_dummies(data)
      
      #Rellenamos con las variables dummies
      missing_cols = set(self.train_cols) - set(data_d.columns)
      
      for c in missing_cols:
        data_d[c] = 0
        
      # Ensure the order of column in the test set is in the same order than in train set
      data_d = data_d[self.train_cols]
      
      #Escalamos los datos
      data_d = self.scaler.transform(data_d)    
      return(data_d)
      
 


ob = neural_network_mod()
ob.predict(new_pred)
#model.predict(x_train[[1,2],:])>0.5
#y_train

## Prediccion utilizando Maquinas de soporte vectorial

Utilizamos scikit learn e importamos todas las librerías necesarias

In [0]:
import pandas as pd
from sklearn import svm, metrics
from joblib import dump
from google.colab import drive
import os

Importamos las bases de datos necesarias

In [0]:
drive.mount('/content/drive')
path_shared_folder = "/content/drive/My Drive/Colab Notebooks/data"
os.chdir(path_shared_folder)

train_data = pd.read_csv('train_dummies.csv')
test_data = pd.read_csv('test_dummies.csv')
train_answers = train_data.pop("income")
test_answers = test_data.pop("income")
"listo"

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


'listo'

### Entrenamiento del modelo

Para la construcción del modelo de máquina de vectores de soporte se utilizó el modelo la librería scikit learn. Se crea una variable clasificador ‘clf’ con un kernel específico, que tiene los métodos fit() para entrenar y predict() para evaluar el modelo.

El kernel se eligió probando los diferentes kernels “linear”, “poly” y “rbf”. El rendimiento para el kernel “poly” dificultó sus pruebas dado que para incluso una muestra de 100 elementos, demoró más de 40 minutos entrenando. El modelo construido con el kernel “rbf” tuvo una precisión de aproximadamente 75%, menor a la precisión con el kernel “linear” que fue apróximadamente 78%.

Los demás parámetros como gamma y C presentaron también problemas de rendimiento al ser cambiados. Posiblemente la precisión e incluso el rendimiento del entrenamiento del modelo podrían haber mejorado usando una librería como GridSearchCV para tunear los parámetros pero esto no se llevó a cabo por falta de tiempo. La precisión final del modelo fue identificada usando el método metrics.accuracy_score().

In [0]:
lista = list()
#Create a svm Classifier
clf = svm.SVC(kernel='linear')

#Train the model using the training sets
clf.fit(train_data, train_answers)

#Predict the response for test dataset
y_pred = clf.predict(test_data)
lista.append(metrics.accuracy_score(test_answers, y_pred))

In [0]:
dump(clf, "svm_model.joblib")
# Model Accuracy: how often is the classifier correct?
"Accuracy:",lista

('Accuracy:', [0.7844478385018926])

## Random Forest
Para la implementación de este método, se hace uso del módulo DecisionTreeClassifier de sklearn para el motor de predicción, además se hace uso del módulo LabelEncoder y OneHotEncoder para la generación de las variables dummies a partir de las variables categóricas. Al final con una matriz de confusión se podrá observar la precisión del modelo.

In [0]:
#Cargando Dependencias, Estas se pueden encontrar en requirements.txt
import re
import pandas as pd 
from sklearn import metrics
from sklearn import preprocessing
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble.forest import RandomForestClassifier

### Base de datos
Se hace uso de la base obtenida en https://archive.ics.uci.edu/ml/datasets/Adult, que busca predecir si los ingresos de un adulto son o no mayores a 50k.

In [0]:
# Se leen las bases de datos, tanto de entrenamiento como de prueba
train_data_set = pd.read_csv("data/dataset_tae_final_no_na_mod.csv", encoding = "ISO-8859-1")
test_data_set = pd.read_csv("data/test_tae_no_na_mod.csv", encoding = "ISO-8859-1")

# Se hace una limpieza de la base de datos deprueba, pues presenta una diferencia en el formato de la variable a predecir
test_data_set["income"]=test_data_set["income"].replace(" <=50K.", " <=50K")
test_data_set["income"]=test_data_set["income"].replace(" >50K.", " >50K")

### El modelo predictor
La clase TAERandomForestClassifier sera el modelo, al crear una instancia de esta clase el modelo se inicializa sin ser entrenado con unos meta-parámetros por defecto para su entrenamiento, que en este caso ya son los óptimos: Esto se determinó mediante un ciclo que prueba cada uno de ellos en un rango, guarda sus precisiones y escoge la más alta.

### Metaparametros
Se tienen en cuenta 3 meta parametros:  
- Numero de estimadores: 100.  
Este meta parámetro determina el numero interno de modelos de árbol que va a usar, se determina que 100 es un numero optimo ya que la razón de ganancia de precisión contra el tiempo de entrenamiento no es lo suficientemente significativo para el sacrificio en el desempeño del modelo
- Numero de categorias: 7.  
Este meta parámetro determina cuantas características de la base de datos va a usar por modelo como máximo
- Maximo de profundidad: 16.  
Este meta parámetro determina el máximo de niveles que los arboles pueden tener al ser generados en el bosque


### Metodos
La clase usa 6 métodos, 2 métodos para la codificación de las variables categóricas en dummies, donde encode_fit hace la categorización en el entrenamiento y entrega un diccionario para futuras categorizaciones de dummies. El método encode hace la categorización en dummies de las futuras entradas. Tenemos un metodo fit, que toma una base de datos con la cual se entrena el modelo, luego un método predict que usa el modelo entrenado para predecir con entradas nuevas, ambos métodos reciben la base de datos en formato panda. Por último, tenemos el método cal_conf_matrix que nos imprime la matriz de confusión con base en una base de datos de prueba y la precisión de nuestro modelo, por último,
tenemos set_meta que nos permite modificar los meta-parámetros del modelo.

In [0]:
class TAERandomForestClassifier(object):
    lab_encoders = {}
    dummy_encoder = None
    rfc_model = None
    n_estimators = 100
    max_features = 5
    max_depth = 16
    
    def encode_fit(self, cat_data):
        #Encodes string to numeric labels
        tdc_set_encoded = cat_data.copy(deep=True)
        for cn in cat_data.columns:
            self.lab_encoders[cn] = preprocessing.LabelEncoder()
            self.lab_encoders[cn].fit(cat_data[str(cn)])
            tdc_set_encoded[str(cn)] = self.lab_encoders[cn].transform(cat_data[str(cn)])
        
        #Encodes to dummy dataset
        self.dummy_encoder = preprocessing.OneHotEncoder(categories="auto")
        self.dummy_encoder.fit(tdc_set_encoded[cat_data.columns])
        
        #print(len(self.dummy_encoder.get_feature_names()))
        
        encoded_cat_data = pd.DataFrame(data=self.dummy_encoder.transform(tdc_set_encoded).todense(), columns=self.dummy_encoder.get_feature_names())
        return encoded_cat_data
    
    def encode(self, cat_data):
        for cn in cat_data.columns:
              cat_data[str(cn)] = self.lab_encoders[cn].transform(cat_data[str(cn)]) 
        
        
        #Encodes to dummy dataset
        encoded_cat_data = pd.DataFrame(data=self.dummy_encoder.transform(cat_data).todense(), columns=self.dummy_encoder.get_feature_names())    
        return encoded_cat_data       
    def fit(self, x_train, y_train, cat_cols, num_cols):
        #Separates dataset in categorical and numbers
        x_train_num = x_train[num_cols].copy(deep=True)
        x_train_cat = x_train[cat_cols].copy(deep=True)
        
        x_train_cat = self.encode_fit(x_train_cat)
        
        x_train_num.reset_index(drop=True, inplace=True)
        x_train_cat.reset_index(drop=True, inplace=True)
        
        f_x_train = pd.concat([x_train_num, x_train_cat], axis=1)

        self.rfc_model = RandomForestClassifier(n_estimators=self.n_estimators, criterion="entropy", 
                                                max_features=self.max_features, max_depth=self.max_depth)
        self.rfc_model = self.rfc_model.fit(f_x_train, y_train)
        
    def predict(self, x_predict, cat_cols, num_cols):
        #Separates dataset in categorical and numbers
        x_predict_num = x_predict[num_cols].copy(deep=True)
        x_predict_cat = x_predict[cat_cols].copy(deep=True)
        
        x_predict_cat = self.encode(x_predict_cat)
        f_x_predict = pd.concat([x_predict_num, x_predict_cat], axis=1)
        y_pred = self.rfc_model.predict(f_x_predict)
        return y_pred
    
    def cal_conf_matrix(self, x_test, y_test, catego_columns, numeric_cols):
        y_pred = self.predict(x_test, catego_columns, numeric_cols)
        # [[VP, FP], [FN, VN]]
        print("Matriz de confusión:")
        print(metrics.confusion_matrix(y_test, y_pred))

        #Correr varias veces y ver como varia. Basado en el indice de jaccard
        print("Precisión:", metrics.accuracy_score(y_test, y_pred))
        
        return metrics.accuracy_score(y_test, y_pred)
        
    def set_meta(self, max_features, n_estimators, max_depth):
        self.n_estimators = n_estimators
        self.max_features = max_features
        self.max_depth = max_depth

In [0]:
# Se una instancia del odelo, se entrega con los datos de entrenamiento y se valida con los datos de prueba
catego_columns = ['education', 'workclass', 'marital_status', 'ocupation', 'ethnicity', 'gender', 'native_country']
numeric_cols = ['age', 'fnlwgt', 'capital_gain', 'capital_loss', 'hours_per_week']

forest = TAERandomForestClassifier()
forest.fit(train_data_set.loc[:,train_data_set.columns!="income",],train_data_set["income"], catego_columns, numeric_cols)
m = forest.cal_conf_matrix(test_data_set.loc[:,test_data_set.columns!="income",], test_data_set["income"], catego_columns, numeric_cols)

Matriz de confusión:
[[10841   518]
 [ 1622  2078]]
Precisión: 0.8578922903247228


### Resultados Matriz de Confusión

Real vs  Pedicha | <=50k | >50k 
---- | ---- | ---- 
<=50k | 10788 | 571 |
 >50k | 1561 | 2139 

Logrando una precision del: 86%

### Resumen de resultados:

Los resultados de Random Forest y Neural networks son muy similares, podrían considerarse equivalentes. El modelo con el desempeño inferior fue el de maquinas de vectores de soporte. 