# Taller 2: Aprendizaje de maquina sobre el censo de 1994

_Santiago Florian Bustamante_

## Introducción
El siguiente taller es con el fin de evaluar el desempeño de algunas de las técnicas aprendizaje automático vistas en clase sobre un mismo conjunto de datos. Esto es con el fin de evaluar el desempeño producido por los métodos de aprendizaje implementados y aplicar un criterio sobre cual método tiene mejor resultado sobre la tarea a resolver.


## Definición de la tarea
El conjunto de datos en el que se va a trabajara es una base de datos de 1994 brindada por UCI Maching Learning Repository abierta al público desde 1996 llamada "adult”. La cual cuenta con la cantidad de 48842 instancias divididas en 14 atributos con valores mixtos; continuos y discretos. La tarea de clasificación es determinar si una persona gana menos de 50k o más de 50k.

los 14 atributos son los siguientes:
* age(0): continuous.

* workclass(1): Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.

* fnlwgt(2): continuous.

* education(3): Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.

* education-num(4): continuous.

* marital-status(5): Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse.

* occupation(6): Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces.

* relationship(7): Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried.

* race(8): White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.

* sex(9): Female, Male.

* capital-gain(10): continuous.

* capital-loss(11): continuous.

* hours-per-week(12): continuous.

* native-country(13): United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

El 15 valor en los datos equivale a  >50K, <=50K, que respectivamente indica cuando una persona gana 50k más o cuando gana menos de 50k.

## Preparar la información
### Cargar la información

Haciendo uso de la librería pandas, se pueden cargar los archivos "adult.data" y "adult.test" los cuales contienen todos los datos usados para el desarrollo del taller. El documento "adult.data" contiene 32561 instancias y el documento "adult.test" contiene 16281 instancias.

In [1]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np

#Pandas es una libreria que ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.
import pandas as pd
#LabelEncoder: Libreria que permite dividir el conjunto de datos en subconjuntos
from sklearn.preprocessing import LabelEncoder
#train_test_split: Libreria que permite dividir el conjunto de datos en subconjuntos
from sklearn.model_selection import train_test_split

from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.svm import LinearSVC

#Leer la informacion del archivo de datos para entrenamiento
train = pd.read_csv("adult.data",header=None, na_values=[' ?'])
test = pd.read_csv("adult.test",header=None, na_values=[' ?'])

#*.shape permite saber la dimension del objeto
print(train.shape,test.shape)
train

(32561, 15) (16281, 15)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


### Preparación de la información
La base de datos "adult", es una base de datos bastante completa lo cual la hace perfecta para practicar las técnicas de aprendizaje, aun así, algunas instancias serán eliminadas debido a que no presentan valores en algunos de sus atributos. Lo cual deja al conjunto de entrenamiento con un total de 30162 instancias y para el conjunto de testing 15060.


In [2]:
#*.dropna(inplace=True): Mantenga el DataFrame con entradas válidas en la misma variable.
train.dropna(inplace=True)
test.dropna(inplace=True)
print(train.shape,test.shape)

(30162, 15) (15060, 15)


Despues de haber eliminado los datos faltantes es necesario transofrmar los valores categoricos a valores numericos.

In [3]:
#LabelEncoder: transforma los atributos categoricos a numericos
train[1]= LabelEncoder().fit_transform(train[1])   #workclass
train[3]= LabelEncoder().fit_transform(train[3])   #education
train[5]= LabelEncoder().fit_transform(train[5])   #marital-status
train[6]= LabelEncoder().fit_transform(train[6])   #occupation
train[7]= LabelEncoder().fit_transform(train[7])   #relationship
train[8]= LabelEncoder().fit_transform(train[8])   #race
train[9]= LabelEncoder().fit_transform(train[9])   #sex
train[13]= LabelEncoder().fit_transform(train[13]) #native-contry
train[14]= LabelEncoder().fit_transform(train[14]) #el dinero que gana actualmente

In [4]:
test[1]= LabelEncoder().fit_transform(test[1])    #workclass
test[3]= LabelEncoder().fit_transform(test[3])    #education
test[5]= LabelEncoder().fit_transform(test[5])    #marital-status
test[6]= LabelEncoder().fit_transform(test[6])    #occupation
test[7]= LabelEncoder().fit_transform(test[7])    #relationship
test[8]= LabelEncoder().fit_transform(test[8])    #race
test[9]= LabelEncoder().fit_transform(test[9])    #sex
test[13]= LabelEncoder().fit_transform(test[13])  #native-contry
test[14]= LabelEncoder().fit_transform(test[14])  #el dinero que gana actualmente

A continuación, se va identificar los datos atípicos de los atributos continuos. Los datos atípicos que sean encontrados su valor serán remplazados por la media del atributo.

La media equivale u una medida de tendencia central y desviacion estandar a una medidad de dispercion

In [5]:
media=train.mean() #Media de cada atributo
std= train.std() # desviación de cada atributo
print(media)
print(std)

0         38.437902
1          2.199324
2     189793.833930
3         10.333764
4         10.121312
5          2.580134
6          5.959850
7          1.418341
8          3.678602
9          0.675685
10      1092.007858
11        88.372489
12        40.931238
13        36.382567
14         0.248922
dtype: float64
0         13.134665
1          0.953925
2     105652.971529
3          3.812292
4          2.549995
5          1.498016
6          4.029566
7          1.601338
8          0.834709
9          0.468126
10      7406.346497
11       404.298370
12        11.979984
13         6.105372
14         0.432396
dtype: float64


Los datos atípicos serán identificados sobre 3 desviaciones de la media. Se encontraron 2411 datos atípicos al utilizar 3 desviaciones estándar

In [6]:
att = [0,2,4,10,11,12] #Atributos continuos: age, fnlwgt, education-num, capital-gain, capital-loss, hours-per-week
cnt = 0
for i in att:
    for j in range(len(train[i])):
        try:
            if(train[i][j]>media[i]+3*std[i]):
                train[i][j]=media[i]
                cnt = cnt+1
            elif(train[i][j]<media[i]-3*std[i]):
                train[i][j]=media[i]
                cnt =cnt+1
        except: continue

El Coeficiente de Correlación es un valor cuantitativo de la relación entre dos o más variables. El coeficiente de correlación puede variar desde -1.00 hasta 1.00. La correlación de proporcionalidad directa o positiva se establece con los valores +1.00 y de proporcionalidad inversa o negativa, con -1.00. No existe relación entre las variables cuando el coeficiente es de 0.00.

Al aplicar el coeficiente de coeficiente de correlación en los datos se puede identificar que no existe correlación alguna entre los atributos.

In [7]:
trainCorr = train.corr()
absTrainCorr = np.absolute(trainCorr)
absTrainCorr

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,1.0,0.078883,0.073748,0.001921,0.056588,0.290154,0.005466,0.248811,0.023726,0.083199,0.105178,0.034169,0.120187,0.001237,0.24891
1,0.078883,1.0,0.029983,0.017855,0.037233,0.034241,0.015572,0.067417,0.044731,0.074973,0.016168,0.001168,0.038067,0.007668,0.018044
2,0.073748,0.029983,1.0,0.026697,0.035581,0.031942,0.002003,0.008034,0.013508,0.025967,0.004213,0.005314,0.018784,0.066991,0.009357
3,0.001921,0.017855,0.026697,1.0,0.332256,0.040664,0.038212,0.012717,0.011154,0.027888,0.024792,0.009558,0.063019,0.07879,0.078987
4,0.056588,0.037233,0.035581,0.332256,1.0,0.058239,0.090053,0.096566,0.03179,0.00768,0.127463,0.03285,0.162857,0.05886,0.336678
5,0.290154,0.034241,0.031942,0.040664,0.058239,1.0,0.022655,0.177964,0.068627,0.119813,0.052686,0.025287,0.195004,0.025902,0.193518
6,0.005466,0.015572,0.002003,0.038212,0.090053,0.022655,1.0,0.053727,0.000717,0.062313,0.008472,0.001774,0.009222,0.003483,0.051577
7,0.248811,0.067417,0.008034,0.012717,0.096566,0.177964,0.053727,1.0,0.117143,0.584876,0.074709,0.023259,0.266944,0.010809,0.251003
8,0.023726,0.044731,0.013508,0.011154,0.03179,0.068627,0.000717,0.117143,1.0,0.089186,0.017989,0.008109,0.052003,0.124514,0.071658
9,0.083199,0.074973,0.025967,0.027888,0.00768,0.119813,0.062313,0.584876,0.089186,1.0,0.062121,0.007943,0.235553,0.000618,0.216699


Se puede observar que existe un desbalanceo ya que el conjunto 0 tiene el 75% de los datos, mientras que el conjunto 1 tiene el 25% restante de los datos. Esto puede generar un mejor aprendizaje para clasificar de manera correcta los datos pertenecientes al conjunto 0

In [8]:
print(pd.value_counts(train[14], sort = True))

0    22654
1     7508
Name: 14, dtype: int64


### Separación de la información a conjuntos
Ya que la base de datos ha sido adaptada para realizar el aprendizaje, se pueden dividir los conjuntos para entrenamiento, validación y testing. Debido a que la base de datos ya se encuentra presenta el conjunto de entrenamiento y testing, solo vamos a generar el conjunto de validación, el cual equivale al 10% de las instancias del conjunto de entrenamiento.
Dejando de esta manera los conjuntos:
* entrenamiento: 27145 instancias
* validación: 3017 instancias
* testing: 15060 instancias



In [9]:
train_t,validation = train_test_split(train, test_size=0.10)
print("Conjunto de entrenamiento por validar: ",train_t.shape)
print("Conjunto de validacion: ",validation.shape)
print("Conjunto de entrenamiento: ", train.shape)
print("Conjunto de testing: ", test.shape)

#Separacion de los atributos de la clasificacion
#Atributos training
x_t = train_t.loc[:,:13]
#Clasificacion training
y_t = train_t.loc[:,14]

#Atributos de validacion
val_x = validation.loc[:,:13]
#Clasificacion de validacion
val_y = validation.loc[:,14]

#Atributos de entrenamiento
x = train.loc[:,:13]
#Clasificacion de entrenamiento
y = train.loc[:,14]

Conjunto de entrenamiento por validar:  (27145, 15)
Conjunto de validacion:  (3017, 15)
Conjunto de entrenamiento:  (30162, 15)
Conjunto de testing:  (15060, 15)


## Árbol de decisión
Ya habiendo dividido los conjuntos, se puede empezar a realizar el aprendizaje automático. La librería usada para realizar el entrenamiento se llama sklearn disponible para python2 y python 3. smv, se refiere a la máquina de vectores de soporte. Y tree, para los árboles de decisión.
En un principio vamos a optimizar el rendimiento del árbol de decisiones realizando el entrenamiento en distintos arboles con distintos parámetros. Los parámetros que pueden ser modificados son:
* **max_depth**: int o None, opcional (predeterminado = None) o Profundidad máxima de un árbol: la profundidad máxima del árbol. Si None, los nodos se expanden hasta que todas las hojas contengan menos de min_samples_split samples. El valor más alto de la profundidad máxima provoca un sobreajuste, y un valor más bajo provoca un ajuste insuficiente.
* **splitter**: string, opcional (predeterminado = "best") o Estrategia dividida: este parámetro nos permite elegir la estrategia dividida. Las estrategias admitidas son "best" para elegir la mejor división y "random" para elegir la mejor división aleatoria.
* **criterion**: opcional (predeterminado = "gini") o Elegir medida de selección de atributo: este parámetro nos permite utilizar la medida de selección de atributo diferente-diferente. Los criterios admitidos son "gini" para el índice de Gini y "entropía" para la ganancia de información.

El criterio de usado evaluación para determinar el mejor resultado es accuracy score.


In [10]:
m_d = 15

for i in range(1,m_d):
    print("Profundidad del arbol: "+str(i))
    
    #cfl_gini = arbol de desicion con metodo de ramificacion GINI y la mejor division
        #max_dep = profundidad maxima del arbol
    clf_gini = DecisionTreeClassifier(max_depth=i)
    
    #cfl_gini_rand = arbol de desicion con metodo de ramificacion GINI y usando division aleatoria
        #max_dep = profundidad maxima del arbol
        #splitter = estrategia de division
    clf_gini_rand = DecisionTreeClassifier(max_depth=i, splitter="random")
    
    #cfl_entropy = arbol de desicion con metodo de ramificacion ganancia de informacion
        #criterion = medida de selección de atributo
        #max_dep = profundidad maxima del arbol
    clf_entropy = DecisionTreeClassifier(max_depth=i, criterion="entropy")
    
    #cfl_entropy_rand = arbol de desicion con metodo de ramificacion ganancia de informacion y usando division aleatoria
        #max_dep = profundidad maxima del arbol
        #splitter = estrategia de division
        #criterion = medida de selección de atributo
    clf_entropy_rand = DecisionTreeClassifier(max_depth=i, splitter="random", criterion="entropy")
    
    #Entrenamiento de los arboles
    clf_gini.fit(x_t,y_t)
    clf_gini_rand.fit(x_t,y_t)
    clf_entropy.fit(x_t,y_t)
    clf_entropy_rand.fit(x_t,y_t)
    
    #Taza de aciertos calculada usando el conjunto de validacion
    print("Arbol de decision con GINI y mejor division: "+str(clf_gini.score(val_x,val_y)))
    print("Arbol de decision con GINI y division aleatoria: "+str(clf_gini_rand.score(val_x,val_y)))
    print("Arbol de decision con Ganancia de informacion y mejor division: "+str(clf_entropy.score(val_x,val_y)))
    print("Arbol de decision con Ganancia de informacion y division aleatoria: "+str(clf_entropy_rand.score(val_x,val_y)))
    print("\n")

Profundidad del arbol: 1
Arbol de decision con GINI y mejor division: 0.7543917799138217
Arbol de decision con GINI y division aleatoria: 0.7543917799138217
Arbol de decision con Ganancia de informacion y mejor division: 0.7543917799138217
Arbol de decision con Ganancia de informacion y division aleatoria: 0.7543917799138217


Profundidad del arbol: 2
Arbol de decision con GINI y mejor division: 0.8256546237984753
Arbol de decision con GINI y division aleatoria: 0.7543917799138217
Arbol de decision con Ganancia de informacion y mejor division: 0.8137222406363938
Arbol de decision con Ganancia de informacion y division aleatoria: 0.7931720251905867


Profundidad del arbol: 3
Arbol de decision con GINI y mejor division: 0.8392442823997348
Arbol de decision con GINI y division aleatoria: 0.814385150812065
Arbol de decision con Ganancia de informacion y mejor division: 0.8389128273118992
Arbol de decision con Ganancia de informacion y division aleatoria: 0.7948293006297646


Profundidad de

Después de haber realizado las distintas podas con ambos métodos de ramificación. Se puede concluir que, usando una profundidad máxima de 8 atributos, GINI como método de ramificación y método de división de la mejor opción. Presentan una mayor taza que los demás árboles. Teniendo estos valores definidos, crearemos el clasificador con el conjunto de entrenamiento completo

In [11]:
clf = DecisionTreeClassifier(max_depth=8)

clf.fit(x,y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=8,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

In [12]:
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

In [13]:
w = test.loc[:,14]
z = test.drop(14, axis=1)
pred = clf.predict(z)
print(classification_report(pred,w))
print("Accuracy score: ",accuracy_score(w,pred))
print("Confusion matrix:\n")
print(confusion_matrix(w,pred))

              precision    recall  f1-score   support

           0       0.94      0.87      0.90     12324
           1       0.55      0.75      0.64      2736

    accuracy                           0.84     15060
   macro avg       0.75      0.81      0.77     15060
weighted avg       0.87      0.84      0.85     15060

Accuracy score:  0.8442231075697211
Confusion matrix:

[[10669   691]
 [ 1655  2045]]


### Análisis de los resultados
El conjunto 0 equivale a la población que genera menos de 50k y el conjunto 1 a la población que gana más de 50k. El acccuracy score es el cálculo de los elementos que fueron catalogados de manera correcta como positivos y de manera correcta como negativos sobre el conjunto total de datos. En el árbol generado se pudo obtener un accuracy score con una probabilidad del 0.84, lo cual es una probabilidad bastante alta he indica que el modelo clasifica bien.
Precision se encarga de calcular los elementos que son positivos quedaron bien catalogados, "cuánto es correcto del modelo cuando dice que es correcto". Para el conjunto 0 se obtuvo un valor del 0.94, lo cual es un valor muy bueno y quiere decir que la mayoría de las veces va a quedar bien clasificado una persona que gana menos de 50k. Para el conjunto 1 se obtuvo un valor del 0.55, lo cual es un valor medio, lo que equivale a decir que la mitad de las veces va a quedar bien clasificado una persona que gana más de 50k.
El recall se encarga de calcular cuántos de los positivos reales captura nuestro modelo al etiquetarlo como positivo, "de los que realmente se debían clasificar, cuantos se clasificaron". Para el conjunto 0 de los que debían haberse clasificado bien el 87% quedó bien clasificado y para el conjunto 1, el 77% quedó bien clasificado.
El f1-score es una mezcla de precision y recall, ya que sirve para evaluar el balance que hay entre precision y recall. Lo cual para el conjunto 0 tiene un alto grado de precision con 0.90 y el conjunto 1 no tanto, ya que tiene 0.64.

## Máquina de vectores de soporte
La librería skleanr posee varios tipos de algoritmos para implementar el aprendizaje por maquinita de vectores de soporte, los que vamos a usar son:
* **SVC**: C-Clasificación de vectores de soporte. La implementación se basa en libsvm. El tiempo de ajuste se escala al menos cuadráticamente con el número de muestras y puede ser poco práctico más allá de decenas de miles de muestras. Para conjuntos de datos grandes. El soporte multiclase se maneja de acuerdo con un esquema uno contra uno.
* **LinearSVC**: Similar a SVC con el parámetro kernel = 'linear', pero implementado en términos de liblinear en lugar de libsvm, por lo que tiene más flexibilidad en la elección de penalizaciones y funciones de pérdida y debería escalar mejor a grandes cantidades de muestras.


### Separación lineal

**C**: Cuando más se aproxima C a cero, menos se penalizan los errores y más observaciones pueden estar en el lado incorrecto del margen o incluso del hiperplano. C es a fin de cuentas el hiperparámetro encargado de controlar el balance entre bias y varianza del modelo. Los valores de C a probar son: 0.1, 1, 10.


In [14]:
clf = LinearSVC(C=0.1,class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("   *"+str(clf.score(val_x,val_y))+" Accuracy score")

   *0.39343718926085514 Accuracy score


In [15]:
clf = LinearSVC(C=1,class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("   *"+str(clf.score(val_x,val_y))+" Accuracy score")

   *0.7683128936029168 Accuracy score


In [16]:
clf = LinearSVC(C=10,class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("   *"+str(clf.score(val_x,val_y))+" Accuracy score")

   *0.7593636062313557 Accuracy score


Entre más aumentamos el valor de C; castigo de la penalización. Mayor es la taza de error al clasificar

### Separecion radial
Los parámetros que debemos estimar son los siguientes:

* **C**: Cuando más se aproxima C a cero, menos se penalizan los errores y más observaciones pueden estar en el lado incorrecto del margen o incluso del hiperplano. C es a fin de cuentas el hiperparámetro encargado de controlar el balance entre bias y varianza del modelo.
* **kernel**: La función principal del núcleo es transformar los datos de entrada del conjunto de datos dado en la forma requerida. Existen varios tipos de funciones, como la función de base lineal, polinómica y radial (RBF). 
* **Gamma**: Parámetro de regularización en el parámetro Scikit-learn C de Python utilizado para mantener la regularización. Aquí C es el parámetro de penalización, que representa la clasificación errónea o el término de error. El término de clasificación errónea o error le dice a la optimización SVM cuánto error es soportable. Así es como puede controlar la compensación entre el límite de decisión y el término de clasificación errónea. Un valor menor de C crea un hiperplano de margen pequeño y un valor mayor de C crea un hiperplano de margen mayor.


In [17]:
clf = SVC(kernel='rbf', C=0.1, gamma=0.1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.24560822008617833


In [18]:
clf = SVC(kernel='rbf', C=0.1, gamma=1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =1: 0.24560822008617833


In [19]:
clf = SVC(kernel='rbf', C=0.1, gamma=10, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =10: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =10: 0.24560822008617833


In [20]:
clf = SVC(kernel='rbf', C=0.5, gamma=0.1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7570434206165064


In [21]:
clf = SVC(kernel='rbf', C=0.5, gamma=1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =1: 0.7543917799138217


In [22]:
clf = SVC(kernel='rbf', C=0.5, gamma=10, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =10: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =10: 0.7543917799138217


In [23]:
clf = SVC(kernel='rbf', C=1, gamma=0.1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7570434206165064


In [24]:
clf = SVC(kernel='rbf', C=1, gamma=1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7550546900894929


In [25]:
clf = SVC(kernel='rbf', C=1, gamma=10, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7543917799138217


In [26]:
clf = SVC(kernel='rbf', C=10, gamma=0.1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7570434206165064


In [27]:
clf = SVC(kernel='rbf', C=10, gamma=1, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7550546900894929


In [28]:
clf = SVC(kernel='rbf', C=10, gamma=10, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("SMV RBF con C=0.1 gamma =0.1: "+str(clf.score(val_x,val_y)))

SMV RBF con C=0.1 gamma =0.1: 0.7543917799138217


### Separacion polinomial

In [48]:
clf = SVC(kernel='poly', C=0.1, degree=1000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=1000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=1000: 0.24560822008617833 Accuracy score


In [49]:
clf = SVC(kernel='poly', C=0.1, degree=10000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=10000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=10000: 0.24560822008617833 Accuracy score


In [50]:
clf = SVC(kernel='poly', C=0.1, degree=100000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=100000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=100000: 0.24560822008617833 Accuracy score


In [51]:
clf = SVC(kernel='poly', C=1, degree=1000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=1000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=1000: 0.24560822008617833 Accuracy score


In [52]:
clf = SVC(kernel='poly', C=1, degree=10000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=10000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=10000: 0.24560822008617833 Accuracy score


In [53]:
clf = SVC(kernel='poly', C=1, degree=100000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=100000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=100000: 0.24560822008617833 Accuracy score


In [54]:
clf = SVC(kernel='poly', C=10, degree=1000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=1000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=1000: 0.24560822008617833 Accuracy score


In [55]:
clf = SVC(kernel='poly', C=10, degree=10000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=10000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=10000: 0.24560822008617833 Accuracy score


In [56]:
clf = SVC(kernel='poly', C=10, degree=100000, class_weight="balanced")
clf = clf.fit(x_t,y_t)
print("degree=100000: "+str(clf.score(val_x,val_y))+" Accuracy score")

degree=100000: 0.24560822008617833 Accuracy score


Después de haber realizado el entrenamiento con los distintos parámetros que pueden ser ingresados para obtener el mejor clasificadora, se puede determinar que la máquina de vectores de soporte con separación lineal y un valor de 10 para C; la cual indica la penalización al error. Da los mejores resultados.

Procedemos a realizar el entrenamiento con el conjunto de entrenamiento completo.

In [58]:
clf = LinearSVC(C=10,class_weight="balanced")
clf = clf.fit(x,y)
w = test.loc[:,14]
z = test.drop(14, axis=1)
pred = clf.predict(z)
print(classification_report(pred,w))
print("Accuracy score: ",accuracy_score(w,pred))
print("Confusion matrix:\n")
print(confusion_matrix(w,pred))

              precision    recall  f1-score   support

           0       1.00      0.77      0.87     14659
           1       0.09      0.86      0.17       401

    accuracy                           0.77     15060
   macro avg       0.54      0.82      0.52     15060
weighted avg       0.97      0.77      0.85     15060

Accuracy score:  0.7735059760956176
Confusion matrix:

[[11304    56]
 [ 3355   345]]


Al realizar el entrenamiento con el conjunto de datos de entrenamiento, logró aumentar el accuracy de 0.75 a 0.77, lo cual ayuda a disminuir el error y se puede concluir que la máquina de vectores de soporte logra clasificar bien los conjuntos.

La precision para las personas que ganan menos de 50k logro dar el resultado máximo, por lo tanto, el clasificador puede identificar a la perfección cuando una persona gana menos de 50k y cuando una persona no gana más de 50k. Para el conjunto 1 dio un valor de 0.09 lo cual es un valor bastante bajo, ya que, si el clasificador lo hiciera al azar, obtendría mejores resultados. Esto se debe por el desbalanceo de las clases.

El recall obtenido por el conjunto 0 de 0.77. Lo cual indica que de los que están clasificados como verdaderos el 77% está bien clasificado. Para el conjunto 1 su recall fue de 0.86, lo cual es una muy buena clasificación. Esto debería ser gracias a la poca cantidad de datos.

# Conclusión
Antes de poder realizar la evaluación entre los métodos de entrenamiento, se necesitó hacerle un tratamiento a los datos donde se incluía la tarea de buscar los datos atípicos, lo cual se realizó solo sobre los datos numéricos continuos que ya venían establecidos por la base de datos.

Después de realizar el entrenamiento y validación de los parámetros para el método de árbol de decisión, se logró encontrar que haciendo una poda con los 8 atributos más significativos de los 14 disponibles, lograba dar el mejor desempeño de todos los árboles desarrollados.

Para la máquina de vectores de soporte durante el entrenamiento y la validación. Se logró encontrar que realizar una división lineal con una penalización C de 10 lograba dar los mejores resultados

Si comparamos la técnica de árboles de decisión y máquina de vectores de soporte con el fin de evaluar cual realiza una mejor clasificación de las personas que ganan menos de 50k y 50k o más. Se puede decir que el árbol de decisión tiene una mayor taza de aciertos debido a que 84% de las veces logra clasificar bien. Se puede resaltar el Recall obtenido por la máquina de vectores de soporte al clasificar las personas que ganan 50k o más con un valor del 86%.

Comentarios:
Bien hecha la estimación de parámetros, es importante explorar valores en un rango más amplio. El análisis de los resultados de la máquina de soporte no es correcto, en la tabla de confusión se ve que aprendió mal la segunda clase.

Calificación:
Preparación de los datos: 4,5
Estimación de parámetros: 5
Entrenamiento y prueba: 4,5
Análisis de resultados: 3,5
Informe: 5,0
Sustentación: 0,0
Nota total: 3,9