## Preparación del entorno

In [5]:
import numpy as np

import sklearn

import pandas as pd

Si el entorno está correctamente instalado, las líneas de código anteriores deben importar los paquetes sin ningún error.

Nota: para el resto de las preguntas y soluciones de código, puede ingresar más celdas si lo considera necesario.


## Carga y estudio de datos

Cargue los datos desde el archivo *adult_data.csv*. Para esto puede utilizar la librería *pandas* con su función *read_csv*.

In [2]:
# Genero un dataframe a partir del .csv.
df = pd.read_csv('./adult_data.csv')
df

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
5,37,Private,284582,Masters,14,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States,<=50K
6,49,Private,160187,9th,5,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica,<=50K
7,52,Self-emp-not-inc,209642,HS-grad,9,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States,>50K
8,31,Private,45781,Masters,14,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States,>50K
9,42,Private,159449,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States,>50K


Imprima los nombres de las columnas (atributos), e investigue la documentación para entender que significa cada uno de ellos.

In [3]:
nameList = list(df.columns.values)
print 'Atributos: ' + ', '.join(str(name) for name in nameList) 

Atributos: age, workclass, fnlwgt, education, education-num, marital-status, occupation, relationship, race, sex, capital-gain, capital-loss, hours-per-week, native-country, income


Al investigar el significado de cada atributo, se le dió especial atención a descifrar el de los siguientes atributos (cuyo significado no resultaba obvio a simple vista):
<ul>
    <li>fnlwgt - Se refiere al peso (proporción de la población sensada) que tiene una entrada particular con respecto a la población utilizada en el censo, de acuerdo a quien haya realizado el mismo.</li>
    <li>education-num - Se refiere al nivel más alto de educación obtenido por la persona, pero representado en forma numérica.</li>
    <li>capital_gain - Ganancias registradas asociadas a inversiones.</li>
    <li>capital_loss - Pérdidas de capital asociadas a inversiones.</li>
</ul>

**PREGUNTA: A continuación realice algunas conjeturas de cuáles pueden llegar a ser los atributos de mayor utilidad para predecir el nivel de ingresos (income) de una persona.**

<p>**RESPUESTA:**</p>
<p>Los atributos que a un nivel intuitivo podrían llegar a ser de mayor utilidad, son:</p>
<ul>
    <li><i>education </i>- Asumiendo que en general, una mejor/mayor educación genera individuos más capaces de desempeñarse en áreas de alta remuneración.</li>
    <li><i>education-num </i>- Igual al atributo anterior.</li>
    <li><i>marital-status </i>- Asumiendo que una persona soltera tendrá más horas disponibles para dedicarle a su área de desempeño.</li>
    <li><i>occupation </i>- Por ejemplo se puede suponer que una persona que se dedica a la elaboración de artesanías debería tener un ingreso menor al de una persona especializada en algún área como profesional.</li>
    <li><i>relationship </i>- Mismo razonamiento que con el atributo marital-status.</li>
    <li><i>race </i>- Si bien ocurre menos a medida que pasa el tiempo, se puede suponer que va a haber una cierta diferencia entre los ingresos de personas de raza blanca y el resto por motivos de discriminación.</li>
    <li><i>sex </i>- Similar al atributo anterior.</li>
    <li><i>native-country </i>- Similar al atributo anterior.</li>
</ul>

## Extracción de atributos

Separar la columna **income** en un array **y** que será utilizada como atributo clase:

In [4]:
y = np.array(df['income'])

Eliminar la columna **fnlwgt** ya que no aporta a la solución del problema. También eliminar la columna **education-num** ya que duplica la información de la columna 'education'. Por último, eliminar la columna **income** ya que es la columna que contiene la clase que se pretende predecir:

In [5]:
del df['fnlwgt']
del df['education-num']
del df['income']
# Se imprime dataframe para verificar borrado.
df

Unnamed: 0,age,workclass,education,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country
0,39,State-gov,Bachelors,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States
1,50,Self-emp-not-inc,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States
2,38,Private,HS-grad,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States
3,53,Private,11th,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States
4,28,Private,Bachelors,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba
5,37,Private,Masters,Married-civ-spouse,Exec-managerial,Wife,White,Female,0,0,40,United-States
6,49,Private,9th,Married-spouse-absent,Other-service,Not-in-family,Black,Female,0,0,16,Jamaica
7,52,Self-emp-not-inc,HS-grad,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,45,United-States
8,31,Private,Masters,Never-married,Prof-specialty,Not-in-family,White,Female,14084,0,50,United-States
9,42,Private,Bachelors,Married-civ-spouse,Exec-managerial,Husband,White,Male,5178,0,40,United-States


Los atributos cuyos valores son categorías ('workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'), deben de transformarse a valores numéricos para poder ser utilizados como entradas en los modelos de scikit-learn.

**PREGUNTA: Por qué no es apropiado transformar un atributo de categoría en simples índices numéricos?**

**RESPUESTA: Porque se generaría una relación de órden y magnitud que el algoritmo de aprendizaje puede tomar y no es real...**

Utilice las clases *LabelEncoder* y *OneHotEncoder* del paquete *preprocessing* de *sklearn* para transformar los atributos de categorías en atributos numéricos. Guarde los datos de entrada en una matriz **X**.

In [6]:
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
le = LabelEncoder()
# Inicializo matriz X.
X = []
df_copy = df.copy()
for attributeName in df_copy:
    # Si una columna no toma valores numericos.
    if (df_copy[attributeName].dtype != "int64"):
        # Se la transforma a valores numericos.
        df_copy[attributeName] = le.fit_transform(df_copy[attributeName])

# Obtengo el dataframe con valores numericos como una matriz de enteros.
df_values = df_copy.values
# tomo en cuenta solo los atributos que son categorías
enc = OneHotEncoder(categorical_features=[1,2,3,4,5,6,7,11])
X = enc.fit_transform(df_copy.values).toarray()
#print X.shape
# Codigo para ver donde se encuentra age ahora en los nuevos atributos.
# df['age']
# print 'age is between ' + str(enc.feature_indices_[0]) + ' and ' + str(enc.feature_indices_[1])
# agebla = df['age']
# distinctages = []
# for i in agebla:
#     if (not (i in distinctages)):
#         distinctages.append(i)
# print len(distinctages)
# print distinctages
# print df['age'].max()
# print df['age'].min()


**PREGUNTA: Cuántos y cuáles son los nuevos atributos del dataset?**

**RESPUESTA:** Los atributos ahora van del índice 0 al 102, los nuevos (categorías) van desde el indice 0 hasta el 98, tomando un valor binario (0 o 1):

    -'workclass' de 0 a 7.

    -'education' de 8 a 23.

    -'marital-status' de 24 a 30.

    -'occupation' de 31 a 45.

    -'relationship' de 46 a 51.

    -'race' de 52 a 56.

    -'sex' de 57 a 58.

    -'native-country' de 59 a 98.

Finalmente siguen los atributos que no son categorías, del índice 99 al 102:

    -'age' (99), 'capital-gain' (100), 'capital-loss' (101) y 'hours-per-week' (102).


In [7]:
print enc.feature_indices_
#print enc.active_features_

[ 0  8 24 31 46 52 57 59 99]


## Partición de datos

Para poder entrenar y testear un algoritmo de aprendizaje, es necesario primero particionar los datos en dos conjuntos disjuntos de entrenamiento y testeo. Separe aleatoriamente un 25% de los datos para testeo, llame a los atributos de entrada como **X_test** y al vector de salida esperado **y_test**. El 75% restante se utilizará para el entrenamiento, nombre a la matriz con los datos de entrada como **X_train** y al vector de salida correspondiente como **y_train**.
Para esto puede utilizar la función *train_test_split* del paquete *cross_validation* de *sklearn*:

In [8]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
# random_state se utiliza para generar numeros pseudo-aleatorios 
#print X_train
#print y_train

Examine el tamaño de las matrices y vectores generados:

In [9]:
print X_train.shape
print X_test.shape
print y_train.size
print y_test.size

(3750L, 103L)
(1250L, 103L)
3750
1250


Se puede apreciar que se cuenta con un total de 3750 instancias utilizadas para el entrenamiento, y 1250 para la validación.

## Entrenamiento

Ahora que tenemos particionados los datos en entrenamiento y testeo, podemos comenzar a entrenar los algoritmos.

Genere un modelo 'dt' entrenando un algoritmo de árboles de decisión (ver el paquete *tree* de *sklearn*) con el vector de entrada X_train y el vector de salida y_train. Utilice los valores por defecto:

In [10]:
from sklearn import tree

dt = tree.DecisionTreeClassifier()
dt = dt.fit(X_train, y_train)
out_dt = dt.predict(X_test)
diff = 0
print("Cantidad de errores sobre un total de %d instancias : %d" % (X_test.shape[0],(y_test != out_dt).sum()))

Cantidad de errores sobre un total de 1250 instancias : 254


Genere un modelo 'nb' entrenando un algoritmo de Naive Bayes (ver el paquete *naive_bayes* de *sklearn*) con el vector de entrada X_train y el vector de salida y_train. Utilice los valores por defecto:

In [11]:
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()
out_nb = nb.fit(X_train, y_train).predict(X_test)
print("Cantidad de errores sobre un total de %d instancias : %d" % (X_test.shape[0],(y_test != out_nb).sum()))

Cantidad de errores sobre un total de 1250 instancias : 257


Genere un modelo 'svc' entrenando un algoritmo de Support Vector Machines (ver el paquete *svm* de *sklearn*) con el vector de entrada X_train y el vector de salida y_train. Utilice los valores por defecto:

In [12]:
from sklearn.svm import SVC

svc = SVC()
svc.fit(X_train, y_train)
out_svc = svc.predict(X_test)
print("Cantidad de errores sobre un total de %d instancias : %d" % (X_test.shape[0],(y_test != out_svc).sum()))

Cantidad de errores sobre un total de 1250 instancias : 240


## Testing

Luego de tener los modelos entrenados, podemos medir qué tan bien funcionan los modelos (su capacidad de predicción) utlizando medidas standard como accuracy, precision, recall y medida-f.

**PREGUNTA: De la definición de cada una de las medidas de perfomance (accuracy, precision, recall y medida-f)**

**RESPUESTA:**
<ul>
<li>accuracy:  Es la proximidad de los resultados de la medición realizada al valor verdadero.</li>
    
<li>precision: Es el cociente TP / (TP + FP), donde TP es el número de verdaderos positivos y FN el número de falsos positivos. Representa la habilidad del clasificador para no clasificar como positiva a una instancia que en realidad es negativa.
    
<li>recall: Es el cociente TP / (TP + FN), donde TP es el número de verdaderos positivos y FN el número de falsos negativos. Intuitivamente es la capacidad del clasificador para encontrar todas las muestras positivas. Siendo 1 el mejor valor y 0 el peor.</li>
    
<li>medida-f: Se puede interpretar como la media ponderada entre precision y recall, alcanzando su mejor valor en 1 y su peor valor en 0.</li>
</ul>

Implemente una función 'imprimir_performance' que dado un vector de entrada 'X', un vector de salida 'y', y un clasificador 'clf':
- Realice la predicción para el vector de entrada X.
- Imprima la medida de accuracy.
- Imprima precision, recall y medida f de cada clase.
- Imprima la matriz de confusión.

Para esto puede utilizar el paquete *metrics* de *sklearn*.

In [6]:
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix

def imprimir_performance(X, y, clf, in_labels):
    out = clf.predict(X)
    print 'accuracy: ' + str(accuracy_score(y, out))
    if (len(in_labels)>0):
        p, r, f, s = precision_recall_fscore_support(y, out, labels=in_labels)
    else:
        p, r, f, s = precision_recall_fscore_support(y, out)
    print 'precision: ' + str(p)
    print 'recall: ' + str(r)
    print 'medida-f: ' + str(f)
    print 'confusion matrix:' 
    if (len(in_labels)>0):
        print confusion_matrix(y, out, labels=in_labels)
    else:
        print confusion_matrix(y, out)


Utilice la función **imprimir_performance** para imprimir las medidas de performance para el clasificador **dt** basado en árboles de decisión:

In [209]:
imprimir_performance(X_test, y_test, dt, [' <=50K', ' >50K'])

accuracy: 0.7968
precision: [ 0.85421166  0.63271605]
recall: [ 0.86923077  0.60294118]
medida-f: [ 0.86165577  0.61746988]
confusion matrix:
[[791 119]
 [135 205]]


Utilice la función **imprimir_performance** para imprimir las medidas de performance para el clasificador **nb** basado en Naive Bayes:

In [214]:
imprimir_performance(X_test, y_test, nb, [' <=50K', ' >50K'])

accuracy: 0.7944
precision: [ 0.92679739  0.58556701]
recall: [ 0.77912088  0.83529412]
medida-f: [ 0.84656716  0.68848485]
confusion matrix:
[[709 201]
 [ 56 284]]


Utilice la función **imprimir_performance** para imprimir las medidas de performance para el clasificador **svc** basado en Support Vector Machines:

In [16]:
imprimir_performance(X_test, y_test, svc, [' <=50K', ' >50K'])

accuracy: 0.808
precision: [ 0.79857398  0.890625  ]
recall: [ 0.98461538  0.33529412]
medida-f: [ 0.88188976  0.48717949]
confusion matrix:
[[896  14]
 [226 114]]


**PREGUNTA: Realice un breve análisis de los resultados obtenidos.**

**RESPUESTA:**
<p>Con respecto al atributo <strong>accuracy</strong></p>
<ul>
<li>árbol de decisión</li>
	<ul><li>79.6%</li><ul><li>Por lo tanto, se clasifican correctamente un 79.6% de las instancias del conjunto de testing.</li></ul></ul>
<li>nb</li>
	<ul><li>79.4%</li></ul>
<li>svc</li>
	<ul><li>80.8%</li></ul>
</ul>

<p>Se puede apreciar que el modelo svc posee una accuracy levento mayor al resto, aunque en términos de los resultados obtenidos con esta limitada muestra, resultan relativamente equivalentes.</p>


<p>Con respecto al atributo <strong>precision</strong></p>
<ul>
<li>árbol de decisión</li>
	<ul><li>84.9% para ' <=50K', 63.6% para ' >50K'</li><ul><li>Por lo tanto, se tiene una precision del 84.9% a la hora de clasificar a una instancia como ' <=50K', tomando en cuenta a las instancias clasificadas como ' >50K' como falsos positivos, y se tiene una precision de un 63.6% a la hora de clasificar a una instancia como ' >50K'.</li></ul></ul>
<li>nb</li>
	<ul><li>92.6% para ' <=50K', 58.5% para ' >50K'</li></ul>
<li>svc</li>
	<ul><li>79.8% para ' <=50K', 89.1% para ' >50K'</li></ul>
</ul>

<p>Se puede observar que para el caso de la clasificación ' <=50K', el modelo nb presenta una gran ventaja por sobre el resto de los modelos utilizados; esto significa que en la mayoría de los casos no clasifica a una instancia (que realmente es) negativa como positiva. En términos de la clasificación ' >50K', el modelo svc posee el mayor grado de precision.</p>

<p>Con respecto al atributo <strong>recall</strong></p>
<ul>
<li>árbol de decisión</li>
	<ul><li>87.5% para ' <=50K', 58.5% para ' >50K'</li><ul><li>Por lo tanto, este modelo clasificó exitosamente a un 87.5% de las instancias positivas.</li></ul></ul>
<li>nb</li>
	<ul><li>77.9% para ' <=50K', 83.5% para ' >50K'</li></ul>
<li>svc</li>
	<ul><li>98.5% para ' <=50K', 33.5% para ' >50K'</li></ul>
</ul>

<p>Se puede observar que con el modelo svc se obtuvo una mejor recall en términos de la clasificación ' <=50K', mientras que para ' >50K' el modelo nb resultó mejor que el resto con respecto a dicho atributo.</p>

<p>Con respecto al atributo <strong>medida-f</strong></p>
<ul>
<li>árbol de decisión</li>
	<ul><li>86.1% para ' <=50K', 60.9% para ' >50K'</li></ul>
<li>nb</li>
	<ul><li>84.6% para ' <=50K', 68.8% para ' >50K'</li></ul>
<li>svc</li>
	<ul><li>88.2% para ' <=50K', 48.7% para ' >50K'</li></ul>
</ul>

<p>En este caso, se puede observar que en términos de la media ponderada entre recall y precision (al utilizarse la función por defecto provista por scikit-learn, la ponderación le da igual importancia a cada atributo), el modelo svc tiene una mejor medida-f que el resto de los modelos para la clasificación ' <=50K', mientras que para la clasificación ' >50K' el modelo que obtuvo mejores resultados fue nb.</p>

<p>Antes de comentar acerca de la matriz de confusión para cada modelo, cabe destacar (a fines de facilitar la visualización de los datos impresos previamente) que la celda (0,0) corresponde a la cantidad de instancias que fueron clasificadas correctamente como ' <=50K', la celda (0,1) corresponde a la cantidad de instancias que fueron clasificadas como ' >50K' erróneamente, la celda (1,0) corresponde a la cantidad de instancias que fueron clasificadas como ' <=50K' erróneamente, y la celda (1,1) corresponde a la cantidad de instancias clasificadas correctamente como ' >50K'.</p>
<p>Con respecto a la matriz de confusión, la cual permite observar más claramente el rendimiento que se obtuvo al utilizar cada modelo, se observa lo siguiente:</p>

<ul>
	<li>Todos los modelos tienden a clasificar correctamente a instancias que deberían ser clasificadas como ' <=50K'</li>
	<li>Se puede observar que para el modelo de árbol de decisión, este clasifica erróneamente a instancias de manera similar para ambas clasificaciones posibles (en la matriz de confusión son las entradas con 114 y 141). Esto no ocurre con los modelos de nb y svc; en Naive Bayes se clasificó mal con mayor frecuencia a instancias que realmente debían ser clasificadas como ' <=50K', mientras que para Support Vector Machines se obtuvo que se clasificó mal con mayor frecuencia a instancias que realmente debían ser clasificadas como ' >50K'. </li>
</ul>

## Validación cruzada

Entrene y mida la perfomance de los clasificadores anteriores, pero ahora utilizando el algoritmo de validación cruzada (cross validation) tomando 5 particiones. Imprima el promedio de accuracy obtenido para cada modelo:

In [17]:
from sklearn.model_selection import cross_val_score
dt_performance = cross_val_score(dt, X, y, cv=5)
print "Performance del modelo de árbol de decisión: " + str(100 * (sum(dt_performance) / float(len(dt_performance)))) + "%"
nb_performance = cross_val_score(nb, X, y, cv=5)
print "Performance del modelo de Naive Bayes: " + str(100 * (sum(nb_performance) / float(len(nb_performance)))) + "%"
svc_performance = cross_val_score(svc, X, y, cv=5)
print "Performance del modelo de Support Vector Machine: " + str(100 * (sum(svc_performance) / float(len(svc_performance)))) + "%"

Performance del modelo de árbol de decisión: 79.8006318406%
Performance del modelo de Naive Bayes: 78.34001186%
Performance del modelo de Support Vector Machine: 82.4804128604%


**PREGUNTA: Describa brevemente cuáles son las ventajas de utilizar validación cruzada en vez de realizar una único esquema de partición como se hizo al principio.**

**RESPUESTA:**
<ul>
<li>Al variar la elección de los conjuntos de testing utilizados, la performance obtenida con cada modelo resulta menos sensible a la partición realizada</li>
<li>Se aprovechan todas las instancias disponibles, ya que toda instancia participa del entrenamiento y de la validación</li>
</ul>


## Mejorando los resultados

Existen varias técnicas que pueden ser utilizadas para mejorar los resultados de nuestros modelos. A continuación utilizaremos técnias de **selección de atributos** y de **ajuste de hiperparámetros**.

## Selección de atributos

En nuestros entrenamientos hemos utilizado todos los atributos disponibles para entrenar nuestros modelos. Pero no siempre esto lleva a los mejores resultados, de hecho muchas veces, trabajar con un conjunto reducido de atributos devuelve mejores resultados.

**PREGUNTA: Investigue de qué se trata la técnica de selección de atributos (feature selection) y argumente brevemente por qué puede mejorar la performance de un algoritmo de aprendizaje automático.**

**RESPUESTA:**
<p>La técnica de selección de atributos consiste en elegir un subconjunto de atributos (de los disponibles) para utilizar al construir un modelo predictivo; la idea es quitar aquellos atributos que aporten "ruido" al modelo, que no sean útiles a la hora de realizar predicciones sobre instancias no utilizadas durante el entrenamiento.</p>

<p>Ventajas</p>
<ul>
<li>Reduce la complejidad del modelo utilizado</li>
<li>Disminuye el espacio de almacenamiento utilizado por el modelo</li>
<li>Puede igualar o mejorar la performance de un modelo que utilice todos los atributos disponibles</li>
<li>El entrenamiento resulta más rápido y eficiente</li>
</ul>


Utilizando el paquete *feature_selection* de *sklearn*, seleccione e imprima la lista de los 20 mejores atributos según la medida estadística chi^2:

In [None]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
# Se imprimen las dimensiones de la matriz de datos.
print X.shape
X_new = SelectKBest(chi2, k=20).fit_transform(X, y)
# Se imprimen las dimensiones de la matriz de datos tras aplicada la feature selection, 
# para verificar que se escogieron los 20 mejores atributos.
print X_new.shape

(5000L, 103L)
(5000L, 20L)


Intente obtener la lista de los mejores N atributos, donde N sea la cantidad mínima posible de atributos que mantenga o mejore las medidas de performance obtenidas con validación cruzada:

In [None]:
import heapq

original_attribute_amount = 103
print "############ Prueba para modelo dt ############"
best_dt_performance = 0
best_dt_performance_attr_amount = original_attribute_amount
best_dt_performance_scores = []
for i in list(reversed(range(1,original_attribute_amount + 1))):
    selector = SelectKBest(chi2, k=i).fit(X,y)
    X_new = selector.transform(X)
    dt_performance = cross_val_score(dt, X_new, y, cv=5)
    dt_performance_percentage = 100 * (sum(dt_performance) / float(len(dt_performance)))
    # Chequeo si se mantiene o mejora la performance.
    if (dt_performance_percentage >= best_dt_performance):
        scores = selector.scores_
        best_dt_performance = dt_performance_percentage
        best_dt_performance_attr_amount = i
        # Guardo indices de los atributos con mejor score (los elegidos)
        best_dt_performance_scores = heapq.nlargest(i, range(len(scores)), scores.take)
    print "Performance del modelo de árbol de decisión con " + str(i) + " atributos : " + str(dt_performance_percentage) + "%"
print "Indices de los mejores " + str(best_dt_performance_attr_amount) + " atributos: " + str(best_dt_performance_scores) + ". La performance obtenida fue de " + str(best_dt_performance) + "%"

print "############ Prueba para modelo nb ############"
best_nb_performance = 0
best_nb_performance_attr_amount = original_attribute_amount
best_nb_performance_scores = []
for i in list(reversed(range(1,original_attribute_amount + 1))):
    selector = SelectKBest(chi2, k=i).fit(X,y)
    X_new = selector.transform(X)
    nb_performance = cross_val_score(nb, X_new, y, cv=5)
    nb_performance_percentage = 100 * (sum(nb_performance) / float(len(nb_performance)))
    # Chequeo si se mantiene o mejora la performance.
    if (nb_performance_percentage >= best_nb_performance):
        scores = selector.scores_
        best_nb_performance = nb_performance_percentage
        best_nb_performance_attr_amount = i
        # Guardo indices de los atributos con mejor score (los elegidos)
        best_nb_performance_scores = heapq.nlargest(i, range(len(scores)), scores.take)
    print "Performance del modelo de Naive Bayes  con " + str(i) + " atributos : " + str(nb_performance_percentage) + "%"
print "Indices de los mejores " + str(best_nb_performance_attr_amount) + " atributos: " + str(best_nb_performance_scores) + ". La performance obtenida fue de " + str(best_nb_performance) + "%"

print "############ Prueba para modelo svc ############"
best_svc_performance = 0
best_svc_performance_attr_amount = original_attribute_amount
best_svc_performance_scores = []
for i in list(reversed(range(1,original_attribute_amount + 1))):
    selector = SelectKBest(chi2, k=i).fit(X,y)
    X_new = selector.transform(X)
    svc_performance = cross_val_score(svc, X_new, y, cv=5)
    svc_performance_percentage = 100 * (sum(svc_performance) / float(len(svc_performance)))
    # Chequeo si se mantiene o mejora la performance.
    if (svc_performance_percentage >= best_svc_performance):
        scores = selector.scores_
        best_svc_performance = svc_performance_percentage
        best_svc_performance_attr_amount = i
        # Guardo indices de los atributos con mejor score (los elegidos)
        best_svc_performance_scores = heapq.nlargest(i, range(len(scores)), scores.take)
    print "Performance del modelo de Support Vector Machine con " + str(i) + " atributos : " + str(svc_performance_percentage) + "%"
print "Indices de los mejores " + str(best_svc_performance_attr_amount) + " atributos: " + str(best_svc_performance_scores)  + ". La performance obtenida fue de " + str(best_svc_performance) + "%"

############ Prueba para modelo dt ############
Performance del modelo de árbol de decisión con 103 atributos : 79.8006718807%
Performance del modelo de árbol de decisión con 102 atributos : 79.6804719205%
Performance del modelo de árbol de decisión con 101 atributos : 79.4802718803%
Performance del modelo de árbol de decisión con 100 atributos : 79.8004719605%
Performance del modelo de árbol de decisión con 99 atributos : 79.5606119006%
Performance del modelo de árbol de decisión con 98 atributos : 79.6602920203%
Performance del modelo de árbol de decisión con 97 atributos : 79.8403120403%
Performance del modelo de árbol de decisión con 96 atributos : 79.7003920004%
Performance del modelo de árbol de decisión con 95 atributos : 79.3805717406%
Performance del modelo de árbol de decisión con 94 atributos : 79.6803118803%
Performance del modelo de árbol de decisión con 93 atributos : 79.4804119804%
Performance del modelo de árbol de decisión con 92 atributos : 79.5404318404%
Performance 

<p>Para el modelo dt, la mejor performance con la mínima cantidad de atributos (2) resultó de 82.88%</p>
<p>Para el modelo nb, la mejor performance con la mínima cantidad de atributos (18) resultó de 83.28%</p>
<p>Para el modelo dt, la mejor performance con la mínima cantidad de atributos (2) resultó de 82.86%</p>

Con el conjunto de atributos obtenido, entrene los clasificadores nuevamente y verifique que las medidas de precision, recall mejoran en general:

In [None]:
# Obtengo matrices de entrenamiento para cada modelo de acuerdo a lo obtenido en la parte anterior.
dt_training_matrix = X_train[:, [100, 101]]
dt1 = tree.DecisionTreeClassifier()
dt1 = dt1.fit(dt_training_matrix, y_train)
dt_test_matrix = X_test[:, [100, 101]]
out_dt1 = dt1.predict(dt_test_matrix)
diff = 0
print("Cantidad de errores sobre un total de %d instancias : %d" % (X_test.shape[0],(y_test != out_dt1).sum()))

In [None]:
nb_training_matrix = X_train[:, [100, 101, 99, 102, 26, 46, 28, 49, 35, 47, 57, 4, 17, 41, 20, 22, 51, 39]]
nb1 = GaussianNB()
nb_test_matrix = X_test[:, [100, 101, 99, 102, 26, 46, 28, 49, 35, 47, 57, 4, 17, 41, 20, 22, 51, 39]]
out_nb1 = nb1.fit(nb_training_matrix, y_train).predict(nb_test_matrix)
print("Cantidad de errores sobre un total de %d instancias : %d" % (X_test.shape[0],(y_test != out_nb1).sum()))

In [None]:
svc_training_matrix = X_train[:, [100, 101]]
svc1 = SVC()
svc1.fit(svc_training_matrix, y_train)
svc_test_matrix = X_test[:, [100, 101]]
out_svc1 = svc1.predict(svc_test_matrix)
print("Cantidad de errores sobre un total de %d instancias : %d" % (X_test.shape[0],(y_test != out_svc1).sum()))

In [None]:
imprimir_performance(dt_test_matrix, y_test, dt1, [' <=50K', ' >50K'])

In [None]:
imprimir_performance(nb_test_matrix, y_test, nb1, [' <=50K', ' >50K'])

In [None]:
imprimir_performance(svc_test_matrix, y_test, svc1, [' <=50K', ' >50K'])

<ul>
<li>Se puede apreciar una notoria mejora para el modelo SVC (la precision pasa de  [0.79857398  0.890625] a [0.79232112  0.98076923], y el recall de [0.98461538  0.33529412] a [0.9978022  0.3]</li>
<li>Para el árbol de decisión se aprecia una notoria mejora en términos de la precision y el recall para la clasificación ' >50K'</li>
<li>Para el modelo que utiliza Naive Bayes, disminuye el recall para ' >50K' y la precision para ' <=50K', mientras que el resto aumenta</li>
</ul>

## Ajuste de hiperparámetros

Por lo general, cada algoritmo y modelo de aprendizaje automático posee parámetros configurables. Estos parámetros se los suele denominar 'hiperparámetros' del algoritmo, ya que son parámetros que el algoritmo no ajusta automáticamente, sino que son ajustados por el "usuario".

La correcta selección de estos hiperparámetros por lo general tiene una gran incidencia en la performance de los algoritmos.

**PREGUNTA: Para los modelos generados anteriormente (Árbol de decisión, Naive Bayes y Support Vector Machines), investigue en la documentación de scikit-learn cuáles son sus hiperparámetros y qué valores toman. A continuación liste y de una breve descripción de cada uno:**

**RESPUESTA:**
**Árbol de decisión:**

    -'criterion': Para medir la calidad de una división. Posibles valores son "gini" para la impureza de Gini y "entropy" para la ganancia de información.
    
    -'splitter': La estrategia utilizada para seleccionar la división en cada nodo. Las estrategias posibles son "best" para la mejor división, y "random" para la mejor división aleatoria.
    
    -'max_features': El número de características a tener en cuenta cuando se busca la mejor división.
    Los posibles tipos y valores son:
        -int
        -float
        -string
        -None
    
    -'max_depth': La profundidad máxima del árbol. Los posibles valores son un 'int' o 'None'.
    Si es 'None', los nodos se expanden hasta que todas las hojas son puras, o hasta que todas las hojas contengan menos de min_samples_split muestras.
    
    -'min_samples_split': El número mínimo de muestras requeridas para dividir un nodo interno. Puede ser un 'int' ó un 'float'.
    
    -'min_samples_leaf': El número mínimo de muestras requeridas para estar en un nodo de hoja. Puede ser un 'int' ó un 'float'.
    
    -'min_weight_fraction_leaf': La fracción de peso mínima de las muestras de entrada necesarios para estar en un nodo hoja.
    Acepta un 'float'.
    
    -'max_leaf_nodes': El árbol crece hasta tener max_leaf_nodes hojas. Acepta un 'int' o 'None'. Si es 'None', entonces hay número ilimitado de hojas.
    
    -'class_weight': Pesos asociados con las clases en la forma {class_label: peso}. Si no se da, todas las clases se supone que tienen peso 1. Se aceptan  'dict', lista de 'dict', el valor “balanced” ó None.
    Para los problemas de multi-salida, una lista de dicts se puede proporcionar en el mismo orden que las columnas de y.
    El modo "balanced" utiliza los valores de y para ajustar automáticamente los pesos inversamente proporcional a las frecuencias de clase en los datos de entrada como n_samples / (* n_classes np.bincount (y)).
    
    -'random_state': Acepta 'int', 'RandomState instance' ó 'None'. Si es un int, random_state es la semilla utilizada por el generador de números aleatorios; Si RandomState instance, random_state es el generador de números aleatorios; Si 'None', el generador de números aleatorios es la instancia RandomState utilizado por np.random.
    
    -'min_impurity_split': Acepta un 'float', Umbral para la detención temprana de crecimiento del árbol. Un nodo se divide si su impureza está por encima del umbral, de lo contrario es una hoja.
    
    -'presort': Si se efectúan una clasificación previa de los datos para acelerar el descubrimiento de las mejores divisiones en entrenamiento. Para los ajustes predeterminados de un árbol de decisión en grandes conjuntos de datos, el establecimiento de ésta opción puede ralentizar el proceso de entrenamiento. Cuando se utiliza ya sea un conjunto de datos más pequeña o una profundidad restringida, esto puede acelerar el proceso.
    
**Naive Bayes:**

    -'priors': Las probabilidades previas de las clases. Si se especifica las distribuciones previas no se ajustan de acuerdo a los datos. Tipo aceptado 'array', tamaño (n_classes,).

**Support Vector Machines:**

    -'C': Pena del término de error. Acepta un 'float'.
    
    -'kernel': Especifica el tipo de kernel para ser utilizado en el algoritmo. Debe ser uno de, 'linear', 'poly' 'rbf', 'sigmoid', 'precomputed' o un invocable. Si ninguno es dado, se utiliza 'rbf'. Si se le da un invocable, se utiliza para calcular la validez de la matriz del kernel a partir de matrices de datos; la matriz debe ser una matriz de forma (N_SAMPLES, N_SAMPLES).
    
    -'degree': Grado de la función polinomial kernel ('poly'). Ignorada por todos los demás núcleos. Acepta un 'int'.
    
    -'gamma': Coeficiente para 'rbf', 'poly' y 'sigmoid'. Si gamma es 'auto', entonces 1 / n_features se utilizará.
    
    -'coef0': Término independiente en la función kernel. Sólo es significativa en 'poly' y 'sigmoid'.
    
    -'probability': Si conviene habilitar las estimaciones de probabilidades. Ésto debe estar habilitado antes de entrenar, y hará más lento al método.
    
    -'shrinking': Para usar la heurística de la contracción.
    
    -'tol': Tolerancia de detención.
    
    -'cache_size': Especifica el tamaño de la caché del kernel (en MB).
    
    -'class_weight': Ajusta el parámetro C de la Clase i para class_weight [i] * C para SVC. Si no se da, todas las clases tienen peso 1. El modo "balanced" utiliza los valores de y para ajustar automáticamente los pesos inversamente proporcional a las frecuencias de clase en los datos de entrada como N_SAMPLES / (* n_classes np.bincount (y)).
    
    -'verbose': Habilitar salida detallada.
    
    -'max_iter': Límite máximo de iteraciones, o -1 para ningún límite.
    
    -'decision_function_shape': Ya sea para devolver una one-vs-rest (‘ovr’) función de decisión de tamaño n_samples, n_classes) como los otros clasificadores, ó la original one-vs-one (‘ovo’) función de decisión 'libsvm' de forma (n_samples, n_classes * (n_classes - 1) / 2). El valor por defecto 'None' se comportará como ‘ovo’ por compatibilidad hacia atrás.
    
    -'random_state': La semilla del generador de números pseudo aleatorio a usar cuando mezclan los datos para la estimación de  probabilidades.
    


Pruebe diferentes configuraciones de hiperparámetros para los modelos anteriores de modo de mejorar los resultados de performance obtenidos mediante la función *imprimir_performance*.

Para esto puede realizarlo manualmente o buscar una estrategia más avanzada utilizando la clase *GridSearchCV* del paquete *grid_search* de *sklearn*. Esta clase permite definir una grilla de parámetros y posibles valores para luego entrenar el modelo con todas sus posibles combinaciones y devolver la configuración que retorna la mejor performance.

En caso de tener que combinar varios procesos de extracción y selección de atributos junto con un modelo de aprendizaje, se recomienda utilizar la clase *Pipeline* del paquete *pipeline* de *sklearn*.

Tener en cuenta que si la grilla es muy grande, el proceso puede requerir mucho tiempo de cómputo y memoria.

**PREGUNTAS:**
- **Cuáles son los valores de los hiperparámetros con los cuales se obtienen los mejores resultados de performance?**
- **Con qué modelo se obtienen los mejores resultados de precision y recall?**

**RESPUESTA:**

**PREGUNTA: Escriba las conclusiones generales que haya obtenido de la tarea.**

**RESPUESTA:**
<p>Se reconoce la importancia que tiene la selección de atributos a la hora de mejorar la eficiencia, rapidez y efectividad a la hora de construir y utilizar un modelo predictivo, y el valor de la utilización de la validación cruzada como forma de estabilizar la performance de uno de estos modelos.</p>

# Clasificación de Imágenes

En esta sección trabajaremos con clasificación de imágenes. Cada instancia a clasificar es una imagen con un dígito escrito a mano. El objetivo es detectar el dígito correspondiente a cada imagen. Para eso utilizaremos un dataset de *sklearn.datasets* que contiene imágenes de dígitos escritos a mano etiquetadas. Cada imagen se representa como un vector de pixeles.

Utilizar la función *load_digits* para importar los datos de dígitos escritos a mano. Inspeccionar su contenido (data, target, images y target_names), renderizar el dígito de la primera instancia del dataset:

In [1]:
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt 
digits = load_digits()
plt.gray() 
plt.matshow(digits.images[0])
print digits.target[0]
plt.show() 

0


Particionar los datos en dos conjuntos dijuntos de entrenamiento y testeo:

In [2]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25, random_state=42)

print X_train
print y_train

[[  0.   0.   2. ...,   0.   0.   0.]
 [  0.   5.  16. ...,   6.   1.   0.]
 [  0.   0.   4. ...,   2.   0.   0.]
 ..., 
 [  0.   0.   9. ...,  16.   2.   0.]
 [  0.   0.   1. ...,   0.   0.   0.]
 [  0.   0.   1. ...,   1.   0.   0.]]
[5 2 0 ..., 2 7 1]


Extraer atributos de las imágenes para ser utilizados en el modelo de clasificación. Para esto, investigar las clases de Principal Component Analysis (PCA) del paquete sklearn.decomposition:

In [3]:
from sklearn.decomposition import PCA
pca = PCA(n_components=10)
pca.fit(digits.data)
print(pca.explained_variance_ratio_) 
train=pca.transform(X_train)
test=pca.transform(X_test)

[ 0.14890594  0.13618771  0.11794594  0.08409979  0.05782412  0.04916909
  0.04315977  0.03661267  0.03353242  0.03078452]


**PREGUNTA: Explique el método de extracción de atributos y justifique su elección.**

**RESPUESTA:**
<p>Se escoge utilizar el solver predeterminado, que actúa en base a X.shape y n_components. Si los datos de entrada son mayores a 500x500 y el número de componentes a extraer es menor al 80% de la dimensión más pequeña de los datos, entonces se utiliza un método 'randomized'. De otra manera se utiliza SVD.</p>

Elija dos algoritmos de aprendizaje y entrene e intente obtener los mejores modelos de clasificación posibles:

In [7]:
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(activation='identity', hidden_layer_sizes=8, learning_rate_init=.01)
mlp.fit(train, y_train)
print mlp.predict(test[1])
print y_test[1]
print mlp.score(test, y_test)
imprimir_performance(test, y_test, mlp, [])

[9]
9
0.931111111111
accuracy: 0.931111111111
precision: [ 1.          0.82051282  0.88095238  0.91666667  0.98113208  0.93103448
  0.97727273  1.          0.88888889  0.89583333]
recall: [ 1.          0.86486486  0.97368421  0.95652174  0.94545455  0.91525424
  0.95555556  0.95121951  0.84210526  0.89583333]
medida-f: [ 1.          0.84210526  0.925       0.93617021  0.96296296  0.92307692
  0.96629213  0.975       0.86486486  0.89583333]
confusion matrix:
[[43  0  0  0  0  0  0  0  0  0]
 [ 0 32  3  1  0  0  0  0  0  1]
 [ 0  1 37  0  0  0  0  0  0  0]
 [ 0  0  1 44  0  1  0  0  0  0]
 [ 0  3  0  0 52  0  0  0  0  0]
 [ 0  0  1  0  0 54  1  0  1  2]
 [ 0  0  0  0  0  1 43  0  1  0]
 [ 0  0  0  0  0  0  0 39  0  2]
 [ 0  2  0  2  1  1  0  0 32  0]
 [ 0  1  0  1  0  1  0  0  2 43]]




Imprima los mejores resultados de precision, recall y accuracy para los algoritmos seleccionados:

In [8]:
from sklearn import svm
from sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix
svc = svm.SVC(gamma=0.001)
svc.fit(train, y_train)
print svc.predict(test[1])
print y_test[1]
print svc.score(test, y_test)
imprimir_performance(test, y_test, svc, [])


[9]
9
0.991111111111
accuracy: 0.991111111111
precision: [ 1.          1.          1.          1.          1.          0.96721311
  1.          0.97619048  0.97368421  1.        ]
recall: [ 1.          1.          1.          0.97826087  1.          1.          1.
  1.          0.97368421  0.95833333]
medida-f: [ 1.          1.          1.          0.98901099  1.          0.98333333
  1.          0.98795181  0.97368421  0.9787234 ]
confusion matrix:
[[43  0  0  0  0  0  0  0  0  0]
 [ 0 37  0  0  0  0  0  0  0  0]
 [ 0  0 38  0  0  0  0  0  0  0]
 [ 0  0  0 45  0  0  0  0  1  0]
 [ 0  0  0  0 55  0  0  0  0  0]
 [ 0  0  0  0  0 59  0  0  0  0]
 [ 0  0  0  0  0  0 45  0  0  0]
 [ 0  0  0  0  0  0  0 41  0  0]
 [ 0  0  0  0  0  1  0  0 37  0]
 [ 0  0  0  0  0  1  0  1  0 46]]




**PREGUNTA: Analice los resultados obtenidos.**

**RESPUESTA:**
Se puede observar claramente que la performance es muy buena, estando muy cerca del 100% cada una de las medidas asociadas a la misma, tanto en accuracy como precision, recall y medida-f. En la matriz de confusión se puede apreciar que la gran mayoría de los casos son clasificados correctamente (al estar ubicados en su mayoría en la diagonal de la matriz).
