# Taller 3: Aprendizaje profundo sobre el censo de 1994

_Santiago Florian Bustamante_

## Introducción
El siguiente taller es con el fin de evaluar el desempeño de aprendizaje profundo visto en clase sobre un mismo conjunto de datos evaluado en el taller 2. Esto es con el fin de comparar el desempeño producido por el metodo de aprendizaje profundo en contraste con las tecnicas evaluadas.


## Definición de la tarea
El conjunto de datos en el que se va a trabajara es una base de datos de 1994 brindada por UCI Maching Learning Repository abierta al público desde 1996 llamada "adult”. La cual cuenta con la cantidad de 48842 instancias divididas en 14 atributos con valores mixtos; continuos y discretos. La tarea de clasificación es determinar si una persona gana menos de 50k o más de 50k.

los 14 atributos son los siguientes:
* age(0): continuous.

* workclass(1): Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.

* fnlwgt(2): continuous.

* education(3): Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.

* education-num(4): continuous.

* marital-status(5): Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.

* occupation(6): Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.

* relationship(7): Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.

* race(8): White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.

* sex(9): Female, Male.

* capital-gain(10): continuous.

* capital-loss(11): continuous.

* hours-per-week(12): continuous.

* native-country(13): United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

El 15 valor en los datos equivale a  >50K, <=50K, que respectivamente indica cuando una persona gana 50k más o cuando gana menos de 50k.

## Preparar la información
### Cargar la información

Haciendo uso de la librería pandas, se pueden cargar los archivos "adult.data" y "adult.test" los cuales contienen todos los datos usados para el desarrollo del taller. El documento "adult.data" contiene 32561 instancias y el documento "adult.test" contiene 16281 instancias.

"Siempre que trabajemos con algoritmos de machine learning que utilicen un proceso estocástico (por ejemplo, números aleatorios), es una buena idea establecer la semilla del número aleatorio." Esto es para que pueda ejecutar el mismo código una y otra vez y obtener el mismo resultado. Esto es útil si necesita demostrar un resultado, comparar algoritmos usando la misma fuente de aleatoriedad o depurar una parte de su código.

In [1]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np

#Pandas es una libreria que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.
import pandas as pd
#LabelEncoder: Libreria que permite dividir el conjunto de datos en subconjuntos
from sklearn.preprocessing import LabelEncoder
#train_test_split: Libreria que permite dividir el conjunto de datos en subconjuntos
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Crea MLP en Keras
from keras.models import Sequential
from keras.layers import Dense
from keras import optimizers

# Fija las semillas aleatorias para la reproducibilidad
np.random.seed(7)

#Leer la informacion del archivo de datos para entrenamiento
train = pd.read_csv("adult.data",header=None, na_values=[' ?'])
test = pd.read_csv("adult.test",header=None, na_values=[' ?'])

#*.shape permite saber la dimension del objeto
print(train.shape,test.shape)
train

Using TensorFlow backend.


(32561, 15) (16281, 15)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


### Preparación de la información
La base de datos "adult", es una base de datos bastante completa lo cual la hace perfecta para practicar las técnicas de aprendizaje, aun así, algunas instancias serán eliminadas debido a que no presentan valores en algunos de sus atributos. Lo cual deja al conjunto de entrenamiento con un total de 30162 instancias y para el conjunto de testing 15060.


In [2]:
#*.dropna(inplace=True): Mantenga el DataFrame con entradas válidas en la misma variable.
train.dropna(inplace=True)
test.dropna(inplace=True)
print(train.shape,test.shape)

(30162, 15) (15060, 15)


Despues de haber eliminado los datos faltantes es necesario transofrmar los valores categoricos a valores numericos.

In [3]:
#LabelEncoder: transforma los atributos categoricos a numericos
train[1]= LabelEncoder().fit_transform(train[1])   #workclass
train[3]= LabelEncoder().fit_transform(train[3])   #education
train[5]= LabelEncoder().fit_transform(train[5])   #marital-status
train[6]= LabelEncoder().fit_transform(train[6])   #occupation
train[7]= LabelEncoder().fit_transform(train[7])   #relationship
train[8]= LabelEncoder().fit_transform(train[8])   #race
train[9]= LabelEncoder().fit_transform(train[9])   #sex
train[13]= LabelEncoder().fit_transform(train[13]) #native-contry
train[14]= LabelEncoder().fit_transform(train[14]) #el dinero que gana actualmente

In [4]:
test[1]= LabelEncoder().fit_transform(test[1])    #workclass
test[3]= LabelEncoder().fit_transform(test[3])    #education
test[5]= LabelEncoder().fit_transform(test[5])    #marital-status
test[6]= LabelEncoder().fit_transform(test[6])    #occupation
test[7]= LabelEncoder().fit_transform(test[7])    #relationship
test[8]= LabelEncoder().fit_transform(test[8])    #race
test[9]= LabelEncoder().fit_transform(test[9])    #sex
test[13]= LabelEncoder().fit_transform(test[13])  #native-contry
test[14]= LabelEncoder().fit_transform(test[14])  #el dinero que gana actualmente

A continuación, se va identificar los datos atípicos de los atributos continuos. Los datos atípicos que sean encontrados su valor serán remplazados por la media del atributo.

La media equivale u una medida de tendencia central y desviacion estandar a una medidad de dispercion

In [5]:
media=train.mean() #Media de cada atributo
std= train.std() # desviación de cada atributo
print(media)
print(std)

0         38.437902
1          2.199324
2     189793.833930
3         10.333764
4         10.121312
5          2.580134
6          5.959850
7          1.418341
8          3.678602
9          0.675685
10      1092.007858
11        88.372489
12        40.931238
13        36.382567
14         0.248922
dtype: float64
0         13.134665
1          0.953925
2     105652.971529
3          3.812292
4          2.549995
5          1.498016
6          4.029566
7          1.601338
8          0.834709
9          0.468126
10      7406.346497
11       404.298370
12        11.979984
13         6.105372
14         0.432396
dtype: float64


Los datos atípicos serán identificados sobre 3 desviaciones de la media. Se encontraron 2411 datos atípicos al utilizar 3 desviaciones estándar

In [6]:
att = [0,2,4,10,11,12] #Atributos continuos: age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-week
cnt = 0
for i in att:
    for j in range(len(train[i])):
        try:
            if(train[i][j]>media[i]+3*std[i]):
                train[i][j]=media[i]
                cnt = cnt+1
            elif(train[i][j]<media[i]-3*std[i]):
                train[i][j]=media[i]
                cnt =cnt+1
        except: continue

El Coeficiente de Correlación es un valor cuantitativo de la relación entre dos o más variables. El coeficiente de correlación puede variar desde -1.00 hasta 1.00. La correlación de proporcionalidad directa o positiva se establece con los valores +1.00 y de proporcionalidad inversa o negativa, con -1.00. No existe relación entre las variables cuando el coeficiente es de 0.00.

Al aplicar el coeficiente de coeficiente de correlación en los datos se puede identificar que no existe correlación alguna entre los atributos.

In [7]:
trainCorr = train.corr()
absTrainCorr = np.absolute(trainCorr)
absTrainCorr

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,1.0,0.078883,0.073748,0.001921,0.056588,0.290154,0.005466,0.248811,0.023726,0.083199,0.105178,0.034169,0.120187,0.001237,0.24891
1,0.078883,1.0,0.029983,0.017855,0.037233,0.034241,0.015572,0.067417,0.044731,0.074973,0.016168,0.001168,0.038067,0.007668,0.018044
2,0.073748,0.029983,1.0,0.026697,0.035581,0.031942,0.002003,0.008034,0.013508,0.025967,0.004213,0.005314,0.018784,0.066991,0.009357
3,0.001921,0.017855,0.026697,1.0,0.332256,0.040664,0.038212,0.012717,0.011154,0.027888,0.024792,0.009558,0.063019,0.07879,0.078987
4,0.056588,0.037233,0.035581,0.332256,1.0,0.058239,0.090053,0.096566,0.03179,0.00768,0.127463,0.03285,0.162857,0.05886,0.336678
5,0.290154,0.034241,0.031942,0.040664,0.058239,1.0,0.022655,0.177964,0.068627,0.119813,0.052686,0.025287,0.195004,0.025902,0.193518
6,0.005466,0.015572,0.002003,0.038212,0.090053,0.022655,1.0,0.053727,0.000717,0.062313,0.008472,0.001774,0.009222,0.003483,0.051577
7,0.248811,0.067417,0.008034,0.012717,0.096566,0.177964,0.053727,1.0,0.117143,0.584876,0.074709,0.023259,0.266944,0.010809,0.251003
8,0.023726,0.044731,0.013508,0.011154,0.03179,0.068627,0.000717,0.117143,1.0,0.089186,0.017989,0.008109,0.052003,0.124514,0.071658
9,0.083199,0.074973,0.025967,0.027888,0.00768,0.119813,0.062313,0.584876,0.089186,1.0,0.062121,0.007943,0.235553,0.000618,0.216699


Se puede observar que existe un desbalanceo ya que el conjunto 0 tiene el 75% de los datos, mientras que el conjunto 1 tiene el 25% restante de los datos. Esto puede generar un mejor aprendizaje para clasificar de manera correcta los datos pertenecientes al conjunto 0

In [8]:
print(pd.value_counts(train[14], sort = True))

0    22654
1     7508
Name: 14, dtype: int64


### Separación de la información a conjuntos
Ya que la base de datos ha sido adaptada para realizar el aprendizaje, se pueden dividir los conjuntos para entrenamiento, validación y testing. Debido a que la base de datos ya se encuentra presenta el conjunto de entrenamiento y testing, solo vamos a generar el conjunto de validación, el cual equivale al 10% de las instancias del conjunto de entrenamiento.
Dejando de esta manera los conjuntos:
* entrenamiento: 27145 instancias
* validación: 3017 instancias
* testing: 15060 instancias



In [9]:
train_t,validation = train_test_split(train, test_size=0.10)
print("Conjunto de entrenamiento por validar: ",train_t.shape)
print("Conjunto de validacion: ",validation.shape)
print("Conjunto de entrenamiento: ", train.shape)
print("Conjunto de testing: ", test.shape)

#Separacion de los atributos de la clasificacion
#Atributos training
x_t = train_t.loc[:,:13]
#Clasificacion training
y_t = train_t.loc[:,14]

#Atributos de validacion
val_x = validation.loc[:,:13]
#Clasificacion de validacion
val_y = validation.loc[:,14]

#Atributos de entrenamiento completo
x = train.loc[:,:13]
#Clasificacion de entrenamiento completo
y = train.loc[:,14]

Conjunto de entrenamiento por validar:  (27145, 15)
Conjunto de validacion:  (3017, 15)
Conjunto de entrenamiento:  (30162, 15)
Conjunto de testing:  (15060, 15)


# Técnica de aprendizaje profundo - Redes neuronales
Es un método de aprendizaje automático el cual se asemeja a una red neuronal. Donde el perceptrón es la neurona y, los axones y dendritas son las conexiones que reciben y envían información a otros perceptrones.
## Validación de parámetros
Antes de generar un agente inteligente es necesario estimar algunos parámetros para obtener el perceptrón que mejor clasifique los datos.

### Función de activación
Los perceptrones tienen en cada entrada y salida una "función de activación", la cual permite generar umbral donde transforma la salida a 1 o 0 si el umbral es superado o no. Dicha función de activación se puede calcular de 3 maneras:
* Función logística, también llamada función sigmoide
* Función tangente hiperbólica, también llamada Tanh
* Función de activación rectificadora proporciona mejores resultados.

### Redes de Neuronas
Las neuronas están dispuestas en redes de neuronas. Una fila de neuronas se llama una capa y una red puede tener múltiples capas. La arquitectura de las neuronas en la red se llama a menudo la topología de la red.

### Entrada o capas visibles
se llama la capa visible, porque es la parte expuesta de la red. A menudo, una red neuronal se dibuja con una capa visible con una por valor de entrada o columna en su conjunto de datos. Estas no son neuronas como se describió anteriormente, sino que simplemente pasa el valor de entrada a la siguiente capa.

Los modelos en Keras se definen como una secuencia de capas. Creamos un modelo secuencial y añadimos capas una a una hasta que estamos satisfechos con nuestra topología de red. Lo primero que hay que hacer es asegurarse de que la capa de entrada tiene el número correcto de entradas. Esto se puede especificar al crear la primera capa con el argumento input_dim y establecerlo en 14 para las 14 variables de entrada.

### Capas ocultas
se llaman capas ocultas porque no están expuestas directamente a la entrada.  El Deep Learning se refiere a tener muchas capas ocultas en tu red neural.

### Capa de salida
capa de salida y es responsable de emitir un valor o vector de valores que corresponden al formato requerido para el problema. La elección de la función de activación en la capa de salida está fuertemente limitada por el tipo de problema que usted está modelando.

Las capas completamente conectadas se densifican utilizando la clase Dense. Podemos especificar el número de neuronas en la capa como el primer argumento y especificar la función de activación usando el argumento de activación. Usaremos la función de activación del rectificador "relu" en las primeras capas y la función de activación sigmoide en la capa de salida. Antes las funciones de activación sigmoide y tanh eran preferidas para todas las capas. Hoy en día, se observa un mejor rendimiento utilizando la función de activación del rectificador. Utilizamos una función de activación sigmoide en la capa de salida para asegurarnos de que nuestra salida de red está entre 0 y 1 y es fácil de mapear a cualquier probabilidad de clase 1 o encajar en una clase dura de cualquiera de las dos clases con un umbral por defecto de 0,5. Unimos todo sumando cada capa.

### Descenso estocástico por gradiente
El clásico y aún preferido algoritmo de entrenamiento para redes neuronales se llama el Descenso de Gradientes Estocástico. Aquí es donde una fila de datos se expone a la red como entrada. La red procesa la entrada hacia delante activando las neuronas hasta que finalmente se produce un valor de salida. Esto se llama un pase adelante en la red. Es el tipo de pase que también es usado después de que la red es entrenada para hacer predicciones sobre nuevos datos. La salida del grafo se compara con la salida esperada y se calcula un error. Este error es entonces propagado a través de la red, en todas las capas y los pesos se actualizan en función del importe que han contribuido al error. Esta inteligente parte de las matemáticas se llama el algoritmo de retro propagación. El proceso se repite para todos los ejemplos en sus datos de formación. Una ronda de actualización de la red para todo el conjunto de datos de formación se denomina época o epoch. Una red puede ser entrenada por decenas, cientos o muchos miles de épocas.

### Actualizaciones de peso
Los pesos en la red se pueden actualizar a partir de los errores calculados para cada ejemplo de formación y esto se llama aprendizaje en línea. Puede resultar en cambios rápidos, pero también caóticos en la red.
Alternativamente, los errores se pueden guardar en todos los ejemplos de formación y la red puede actualizarse al final. Esto se llama aprendizaje por lotes y a menudo es más estable. Debido a que los conjuntos de datos son tan grandes y debido a las eficiencias computacionales, el tamaño del lote, el número de ejemplos que muestra la red antes de una actualización a menudo se reduce a un número pequeño, como decenas o cientos de ejemplos. El importe que se actualizan las ponderaciones es controlado por un parámetro de congestión llamado velocidad de aprendizaje. También se le llama el tamaño del paso y controla el paso o cambio hecho a los pesos de red para un error dado. La ecuación de actualización se puede complementar con términos de congestión adicionales que usted puede establecer.

Debemos especificar la función de pérdida a utilizar para evaluar un conjunto de pesos, el optimizador utilizado para buscar a través de diferentes pesos para la red y cualquier métrica opcional que nos gustaría recopilar y reportar durante el entrenamiento.

En este caso, utilizaremos la pérdida logarítmica, que para un problema de clasificación binaria se define en Keras como “binary_crossentropy”. También utilizaremos el algoritmo de descenso de gradiente eficiente “adam” por su alta eficiencia en estos problemas.

Finalmente, debido a que es un problema de clasificación, recopilaremos y reportaremos el reporte de la clasificacion, el accuracy y la matriz de confusion.

### Modelo de ajuste de la Red Neuronal
El proceso de entrenamiento se ejecutará para un número fijo de iteraciones denominado epochs o épocas. También podemos establecer el número de instancias que se evalúan antes de que se realice una actualización de peso en la red llamada batch_size y establecerlo mediante el argumento batch_size. Para este problema utilizaremos un pequeño número de epochs (5, 10, 15) y un batch_size relativamente pequeño (89). El batch_size se calculó encontrando los divisores de 27145, el número de instancias del conjunto de entrenamiento sin validación.

In [10]:
print("Modelo de 1 capa\n")
for i in range(5,16,5):
    #Atributos training          -> x_t
    #Clasificacion training      -> y_t
    #Atributos de validacion     -> val_x
    #Clasificacion de validacion -> val_y
    model = Sequential()
    #Modelo con 1 capa
    model.add(Dense(14, input_dim=14, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compila el modelo
    model.compile(loss='binary_crossentropy', optimizer='adam')
    # Ajusta el modelo
    model.fit(x_t, y_t, epochs=i, batch_size=89, verbose=0)
    pred = model.predict_classes(val_x)
    
    #Resultados del clasificador
    print("N° de epocas: "+str(i)+"\n")
    print(classification_report(pred,val_y))
    print("Accuracy score: ",accuracy_score(val_y,pred))
    print("Confusion matrix:\n")
    print(confusion_matrix(val_y,pred))

Modelo de 1 capa

N° de epocas: 5

              precision    recall  f1-score   support

           0       0.88      0.79      0.83      2512
           1       0.30      0.46      0.36       505

    accuracy                           0.73      3017
   macro avg       0.59      0.62      0.60      3017
weighted avg       0.78      0.73      0.75      3017

Accuracy score:  0.731852833941001
Confusion matrix:

[[1978  275]
 [ 534  230]]
N° de epocas: 10

              precision    recall  f1-score   support

           0       0.96      0.78      0.86      2768
           1       0.20      0.61      0.30       249

    accuracy                           0.76      3017
   macro avg       0.58      0.69      0.58      3017
weighted avg       0.89      0.76      0.81      3017

Accuracy score:  0.7643354325488896
Confusion matrix:

[[2155   98]
 [ 613  151]]
N° de epocas: 15

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2908
   

In [11]:
print("Modelo de 2 capas\n")
for i in range(5,16,5):
    #Atributos training          -> x_t
    #Clasificacion training      -> y_t
    #Atributos de validacion     -> val_x
    #Clasificacion de validacion -> val_y
    model = Sequential()
    #Modelo con 2 capas
    model.add(Dense(14, input_dim=14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compila el modelo
    model.compile(loss='binary_crossentropy', optimizer='adam')
    # Ajusta el modelo
    model.fit(x_t, y_t, epochs=i, batch_size=89,verbose=0)
    pred = model.predict_classes(val_x)
    
    #Resultados del clasificador
    print("N° de epocas: "+str(i)+"\n")
    print(classification_report(pred,val_y))
    print("Accuracy score: ",accuracy_score(val_y,pred))
    print("Confusion matrix:\n")
    print(confusion_matrix(val_y,pred))

Modelo de 2 capas

N° de epocas: 5

              precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       1.00      0.25      0.40      3017

    accuracy                           0.25      3017
   macro avg       0.50      0.13      0.20      3017
weighted avg       1.00      0.25      0.40      3017

Accuracy score:  0.2532316871063971
Confusion matrix:

[[   0 2253]
 [   0  764]]
N° de epocas: 10

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2894
           1       0.13      0.84      0.23       123

    accuracy                           0.77      3017
   macro avg       0.56      0.80      0.55      3017
weighted avg       0.96      0.77      0.84      3017

Accuracy score:  0.7742790851839576
Confusion matrix:

[[2233   20]
 [ 661  103]]
N° de epocas: 15

              precision    recall  f1-score   support

           0       0.96      0.78      0.86      2779
 

In [12]:
print("Modelo de 4 capas\n")
for i in range(5,16,5):
    #Atributos training          -> x_t
    #Clasificacion training      -> y_t
    #Atributos de validacion     -> val_x
    #Clasificacion de validacion -> val_y
    model = Sequential()
    #Modelo con 4 capas
    model.add(Dense(14, input_dim=14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compila el modelo
    model.compile(loss='binary_crossentropy', optimizer='adam')
    # Ajusta el modelo
    model.fit(x_t, y_t, epochs=i, batch_size=89, verbose=0)
    pred = model.predict_classes(val_x)
    
    #Resultados del clasificador
    print("N° de epocas: "+str(i)+"\n")
    print(classification_report(pred,val_y))
    print("Accuracy score: ",accuracy_score(val_y,pred))
    print("Confusion matrix:\n")
    print(confusion_matrix(val_y,pred))

Modelo de 4 capas

N° de epocas: 5

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2910
           1       0.12      0.84      0.21       107

    accuracy                           0.77      3017
   macro avg       0.56      0.80      0.54      3017
weighted avg       0.96      0.77      0.84      3017

Accuracy score:  0.7709645343056016
Confusion matrix:

[[2236   17]
 [ 674   90]]
N° de epocas: 10

              precision    recall  f1-score   support

           0       0.97      0.78      0.86      2814
           1       0.17      0.65      0.27       203

    accuracy                           0.77      3017
   macro avg       0.57      0.71      0.57      3017
weighted avg       0.91      0.77      0.82      3017

Accuracy score:  0.7669870732515744
Confusion matrix:

[[2182   71]
 [ 632  132]]
N° de epocas: 15

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2883
 

In [13]:
print("Modelo de 8 capas")
for i in range(5,16,5):
    #Atributos training          -> x_t
    #Clasificacion training      -> y_t
    #Atributos de validacion     -> val_x
    #Clasificacion de validacion -> val_y
    model = Sequential()
    #Modelo con 8 capa
    model.add(Dense(14, input_dim=14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compila el modelo
    model.compile(loss='binary_crossentropy', optimizer='adam')
    # Ajusta el modelo
    model.fit(x_t, y_t, epochs=i, batch_size=89,verbose=0)
    pred = model.predict_classes(val_x)
    
    #Resultados del clasificador
    print("N° de epocas: "+str(i)+"\n")
    print(classification_report(pred,val_y))
    print("Accuracy score: ",accuracy_score(val_y,pred))
    print("Confusion matrix:\n")
    print(confusion_matrix(val_y,pred))

Modelo de 8 capas
N° de epocas: 5

              precision    recall  f1-score   support

           0       0.00      0.00      0.00         1
           1       1.00      0.25      0.40      3016

    accuracy                           0.25      3017
   macro avg       0.50      0.13      0.20      3017
weighted avg       1.00      0.25      0.40      3017

Accuracy score:  0.2529002320185615
Confusion matrix:

[[   0 2253]
 [   1  763]]
N° de epocas: 10

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2873
           1       0.15      0.81      0.26       144

    accuracy                           0.78      3017
   macro avg       0.57      0.79      0.56      3017
weighted avg       0.95      0.78      0.84      3017

Accuracy score:  0.7765992707988068
Confusion matrix:

[[2226   27]
 [ 647  117]]
N° de epocas: 15

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2890
  

In [14]:
print("Modelo de 16 capas")
for i in range(5,16,5):
    #Atributos training          -> x_t
    #Clasificacion training      -> y_t
    #Atributos de validacion     -> val_x
    #Clasificacion de validacion -> val_y
    model = Sequential()
    #Modelo con 16 capas
    model.add(Dense(14, input_dim=14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compila el modelo
    model.compile(loss='binary_crossentropy', optimizer='adam')
    # Ajusta el modelo
    model.fit(x_t, y_t, epochs=i, batch_size=89,verbose=0)
    pred = model.predict_classes(val_x)
    
    #Resultados del clasificador
    print("N° de epocas: "+str(i)+"\n")
    print(classification_report(pred,val_y))
    print("Accuracy score: ",accuracy_score(val_y,pred))
    print("Confusion matrix:\n")
    print(confusion_matrix(val_y,pred))

Modelo de 16 capas
N° de epocas: 5

              precision    recall  f1-score   support

           0       0.99      0.77      0.87      2869
           1       0.15      0.79      0.26       148

    accuracy                           0.78      3017
   macro avg       0.57      0.78      0.56      3017
weighted avg       0.95      0.78      0.84      3017

Accuracy score:  0.7752734504474643
Confusion matrix:

[[2222   31]
 [ 647  117]]
N° de epocas: 10

              precision    recall  f1-score   support

           0       1.00      0.77      0.87      2905
           1       0.13      0.90      0.23       112

    accuracy                           0.78      3017
   macro avg       0.56      0.84      0.55      3017
weighted avg       0.96      0.78      0.85      3017

Accuracy score:  0.7765992707988068
Confusion matrix:

[[2242   11]
 [ 663  101]]
N° de epocas: 15

              precision    recall  f1-score   support

           0       1.00      0.77      0.87      2904
 

In [15]:
print("Modelo de 32 capas")
for i in range(5,16,5):
    #Atributos training          -> x_t
    #Clasificacion training      -> y_t
    #Atributos de validacion     -> val_x
    #Clasificacion de validacion -> val_y
    model = Sequential()
    #Modelo con 32 capas
    model.add(Dense(14, input_dim=14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(14, activation='relu'))
    model.add(Dense(1, activation='sigmoid'))
    # Compila el modelo
    model.compile(loss='binary_crossentropy', optimizer='adam')
    # Ajusta el modelo
    model.fit(x_t, y_t, epochs=i, batch_size=89,verbose=0)
    pred = model.predict_classes(val_x)
    
    #Resultados del clasificador
    print("N° de epocas: "+str(i)+"\n")
    print(classification_report(pred,val_y))
    print("Accuracy score: ",accuracy_score(val_y,pred))
    print("Confusion matrix:\n")
    print(confusion_matrix(val_y,pred))

Modelo de 32 capas
N° de epocas: 5

              precision    recall  f1-score   support

           0       0.97      0.77      0.86      2823
           1       0.16      0.64      0.26       194

    accuracy                           0.77      3017
   macro avg       0.57      0.71      0.56      3017
weighted avg       0.92      0.77      0.82      3017

Accuracy score:  0.7653297978123964
Confusion matrix:

[[2184   69]
 [ 639  125]]
N° de epocas: 10

              precision    recall  f1-score   support

           0       1.00      0.77      0.87      2896
           1       0.14      0.91      0.25       121

    accuracy                           0.78      3017
   macro avg       0.57      0.84      0.56      3017
weighted avg       0.96      0.78      0.85      3017

Accuracy score:  0.7795823665893271
Confusion matrix:

[[2242   11]
 [ 654  110]]
N° de epocas: 15

              precision    recall  f1-score   support

           0       0.99      0.78      0.87      2868
 

Después de haber realizado el entrenamiento de todas las redes neuronales, se encontró que la que brinda mejores resultados es la red neuronal con 32 capas. Una capa de entrada 31 capas ocultas densas y una capa de salida. Esta red neuronal obtuvo para el conjunto 0 que equivale a las personas que ganan menos de 50k un precision del 100% lo cual indica que el algoritmo puede decir en todas las veces cuando una persona gana menos de 50k. Para el conjunto 1 el cual define a las personas que ganan 50k o más, una precision del 14% lo cual es un valor muy bajo, esto se debe al desbalanceo de las clases. Se puede resaltar el recall del conjunto 1, ya que dio un valor del 91%. Indica que los pocos datos clasificados, quedaron bien clasificados. La taza de aciertos brindada por esta red neuronal es del 77.95%, lo cual es una muy buena taza, ya que demuestra que el algoritmo es capaz de identificar cuando una persona gana menos de 50k, o, 50k o más.

## Entrenamiento completo
Habiendo encontrado los parámetros que generan el mejor clasificador por redes neuronales, entrenaremos la red con el conjunto de entrenamiento completo

In [17]:
#Atributos training
X = train.loc[:,:13]
#Clasificacion training
Y = train.loc[:,14]
#Atributos de validacion
X_t = test.loc[:,:13]
#Clasificacion de validacion
Y_t = test.loc[:,14]

model = Sequential()
#Modelo con 32 capas
model.add(Dense(14, input_dim=14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(14, activation='relu'))
model.add(Dense(1, activation='sigmoid'))
# Compila el modelo
model.compile(loss='binary_crossentropy', optimizer='adam')
# Ajusta el modelo
model.fit(X, Y, epochs=10, batch_size=89,verbose=0)
pred = model.predict_classes(X_t)

#Resultados del clasificador
print("N° de epocas: 10\n")
print(classification_report(pred,Y_t))
print("Accuracy score: ",accuracy_score(Y_t,pred))
print("Confusion matrix:\n")
print(confusion_matrix(Y_t,pred))

N° de epocas: 10

              precision    recall  f1-score   support

           0       1.00      0.75      0.86     15060
           1       0.00      0.00      0.00         0

    accuracy                           0.75     15060
   macro avg       0.50      0.38      0.43     15060
weighted avg       1.00      0.75      0.86     15060

Accuracy score:  0.7543160690571049
Confusion matrix:

[[11360     0]
 [ 3700     0]]


Al realizar el entrenamiento con el conjunto de datos completo y evaluando el entrenamiento con el conjunto de test, se logró encontrar que el clasificador opto por solo clasificar el conjunto 0. Clasificando el conjunto 0 obtuvo un 100% de precision y de los datos verdaderos el 75% está bien clasificado, lo cual da una certeza la red neuronal es capaz de clasificar a una persona cuando gana menos de 50k. Para el conjunto 1 dio 0% en precision y 0% en recall, lo cual quiere decir que la red neuronal no logra identificar una persona que gana 50k o más. Esto puede verse como si el clasificador evaluara los atributos de una persona y si sus valores no son similares al del conjunto 0, lo clasifica automáticamente como si ganara 50k o más.

## Resultado de la clasificacion con las tecnicas clasicas de aprendizaje automatico
### Arboles de decision
<img width=400px src='tree.png'>

### Maquina de vectores de soporte
<img width=400px src='svc.png'>

# Conclusión
Al comparar los 3 métodos de aprendizaje automático, se puede encontrar que los árboles de decisión brindan el mejor desempeño a la hora de realizar la tarea de clasificación. Debido a que es la que mejor presenta una taza de aciertos con un 84,42%. Además, que el conjunto 1 que se encuentra desbalanceado logra dar, no la mejor, pero si un muy buen precision, "cuánto es correcto del modelo cuando dice que es correcto". Con un valor de 0.94 y logra dar un buen recall de todos los métodos, "de los que realmente se debían clasificar, cuantos se clasificaron". Con un valor de 0.75.

Usando las técnicas clásicas se pudo obtener mejor desempeño a la hora de clasificar a una persona cuando gana menos de 50k o 50k, más específicamente con los árboles de decisión, que con las técnicas avanzadas de aprendizaje automático. Esto no quiere decir que para este problema los árboles de decisión tengan el mejor desempeño, ya que se puede ajustar más los valores de las redes neuronales, pero esto requeriría dedicarle más recursos para lograr ajustar los valores y mejorar el desempeño de los árboles de decisión.

Al ser los árboles de decisión una técnica clásica, su implementación y entrenamiento no requieren mucho tiempo, lo que equivale a decir, que, no consumen muchos recursos. Logrando tener alcanzar un gran desempeño.
