## Preparación del entorno

In [121]:
%matplotlib inline
import numpy as np

import sklearn

import pandas as pd

Si el entorno está correctamente instalado, las líneas de código anteriores deben importar los paquetes sin ningún error.

Nota: para el resto de las preguntas y soluciones de código, puede ingresar más celdas si lo considera necesario.


## Carga y estudio de datos

Cargue los datos desde el archivo *adult_data.csv*. Para esto puede utilizar la librería *pandas* con su función *read_csv*.

In [122]:
df = pd.read_csv('adult_data.csv')

Imprima los nombres de las columnas (atributos), e investigue la documentación para entender que significa cada uno de ellos.

In [123]:
df.columns

Index([u'age', u'workclass', u'fnlwgt', u'education', u'education-num',
       u'marital-status', u'occupation', u'relationship', u'race', u'sex',
       u'capital-gain', u'capital-loss', u'hours-per-week', u'native-country',
       u'income'],
      dtype='object')

**PREGUNTA: A continuación realice algunas conjeturas de cuáles pueden llegar a ser los atributos de mayor utilidad para predecir el nivel de ingresos (income) de una persona.**

**RESPUESTA:**

## Extracción de atributos

Separar la columna **income** en un array **y** que será utilizada como atributo clase:

In [124]:
y = df.income

Eliminar la columna **fnlwgt** ya que no aporta a la solución del problema. También eliminar la columna **education-num** ya que duplica la información de la columna 'education'. Por último, eliminar la columna **income** ya que es la columna que contiene la clase que se pretende predecir:

In [125]:
del df['fnlwgt']
del df['education-num']
del df['income']

Los atributos cuyos valores son categorías ('workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'), deben de transformarse a valores numéricos para poder ser utilizados como entradas en los modelos de scikit-learn.

**PREGUNTA: Por qué no es apropiado transformar un atributo de categoría en simples índices numéricos?**

**RESPUESTA: Porque se generaría una relación de órden y magnitud que el algoritmo de aprendizaje puede tomar y no es real...**

Utilice las clases *LabelEncoder* y *OneHotEncoder* del paquete *preprocessing* de *sklearn* para transformar los atributos de categorías en atributos numéricos. Guarde los datos de entrada en una matriz **X**.

In [126]:
import sklearn.preprocessing

aTransformar = ['workclass', 'education', 'marital-status', 'sex','occupation', 'native-country', 'relationship', 'race']

le = sklearn.preprocessing.LabelEncoder()

for t in aTransformar:
    le.fit(df[t])
    df[t] = le.transform(df[t])
    
features = [df.columns.get_loc(f) for f in aTransformar]

ohe = sklearn.preprocessing.OneHotEncoder(categorical_features=features, sparse=False)
df = pd.DataFrame(data=ohe.fit_transform(df))
    
    


In [127]:
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,93,94,95,96,97,98,99,100,101,102
0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,39.0,2174.0,0.0,40.0
1,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,50.0,0.0,0.0,13.0
2,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,38.0,0.0,0.0,40.0
3,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,...,0.0,0.0,0.0,1.0,0.0,0.0,53.0,0.0,0.0,40.0
4,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,28.0,0.0,0.0,40.0
5,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,37.0,0.0,0.0,40.0
6,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,49.0,0.0,0.0,16.0
7,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,52.0,0.0,0.0,45.0
8,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,31.0,14084.0,0.0,50.0
9,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,42.0,5178.0,0.0,40.0


**PREGUNTA: Cuántos y cuáles son los nuevos atributos del dataset?**

**RESPUESTA:**

In [128]:
len(df.columns)

103

In [129]:
df.columns

RangeIndex(start=0, stop=103, step=1)

## Partición de datos

Para poder entrenar y testear un algoritmo de aprendizaje, es necesario primero particionar los datos en dos conjuntos disjuntos de entrenamiento y testeo. Separe aleatoriamente un 25% de los datos para testeo, llame a los atributos de entrada como **X_test** y al vector de salida esperado **y_test**. El 75% restante se utilizará para el entrenamiento, nombre a la matriz con los datos de entrada como **X_train** y al vector de salida correspondiente como **y_train**.
Para esto puede utilizar la función *train_test_split* del paquete *cross_validation* de *sklearn*:

In [130]:
import sklearn.cross_validation
X_train,X_test,y_train,y_test = sklearn.cross_validation.train_test_split(df,y, test_size=0.25)

Examine el tamaño de las matrices y vectores generados:

In [131]:
len(X_train)

3750

In [132]:
len(y_train)

3750

In [133]:
len(X_test)

1250

In [134]:
len(y_test)

1250

## Entrenamiento

Ahora que tenemos particionados los datos en entrenamiento y testeo, podemos comenzar a entrenar los algoritmos.

Genere un modelo 'dt' entrenando un algoritmo de árboles de decisión (ver el paquete *tree* de *sklearn*) con el vector de entrada X_train y el vector de salida y_train. Utilice los valores por defecto:

In [135]:
import sklearn.tree as tree

dt = tree.DecisionTreeClassifier()
dt.fit(X_train,y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            presort=False, random_state=None, splitter='best')

Genere un modelo 'nb' entrenando un algoritmo de Naive Bayes (ver el paquete *naive_bayes* de *sklearn*) con el vector de entrada X_train y el vector de salida y_train. Utilice los valores por defecto:

In [136]:
import sklearn.naive_bayes as naive_bayes


nb = naive_bayes.GaussianNB()
nb.fit(X_train, y_train)

GaussianNB(priors=None)

Genere un modelo 'svc' entrenando un algoritmo de Support Vector Machines (ver el paquete *svm* de *sklearn*) con el vector de entrada X_train y el vector de salida y_train. Utilice los valores por defecto:

In [137]:
import sklearn.svm as svm

svc = svm.SVC()
svc.fit(X_train, y_train)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

## Testing

Luego de tener los modelos entrenados, podemos medir qué tan bien funcionan los modelos (su capacidad de predicción) utlizando medidas standard como accuracy, precision, recall y medida-f.

**PREGUNTA: De la definición de cada una de las medidas de perfomance (accuracy, precision, recall y medida-f)**

**RESPUESTA:**

Implemente una función 'imprimir_performance' que dado un vector de entrada 'X', un vector de salida 'y', y un clasificador 'clf':
- Realice la predicción para el vector de entrada X.
- Imprima la medida de accuracy.
- Imprima precision, recall y medida f de cada clase.
- Imprima la matriz de confusión.

Para esto puede utilizar el paquete *metrics* de *sklearn*.

In [138]:
import sklearn.metrics as metrics
import numpy as np

def imprimir_performance(X, y, clf):
    # predicciones = np.array([clf.predict(np.array(x).reshape(1,-1)) for x in X.values])
    predicciones = clf.predict(np.array(X))
        
    print("Accuracy: " + str(metrics.accuracy_score(y, predicciones)))
    
    for l in [' <=50K', ' >50K']:
        print("Label " + l)
        print("   Precision: " + str(metrics.precision_score(y, predicciones, pos_label=l)))
        print("   Recall: " + str(metrics.recall_score(y, predicciones, pos_label=l)))
        print("   Medida-f: " + str(metrics.f1_score(y, predicciones, pos_label=l)))
        
    print("Confussion matrix:\n" + str(metrics.confusion_matrix(y, predicciones)))

Utilice la función **imprimir_performance** para imprimir las medidas de performance para el clasificador **dt** basado en árboles de decisión:

In [139]:
imprimir_performance(X_test, y_test, dt)

Accuracy: 0.7992
Label  <=50K
   Precision: 0.869978858351
   Recall: 0.865404837014
   Medida-f: 0.867685819715
Label  >50K
   Precision: 0.578947368421
   Recall: 0.588628762542
   Medida-f: 0.583747927032
Confussion matrix:
[[823 128]
 [123 176]]


Utilice la función **imprimir_performance** para imprimir las medidas de performance para el clasificador **nb** basado en Naive Bayes:

In [140]:
imprimir_performance(X_test, y_test, nb)

Accuracy: 0.788
Label  <=50K
   Precision: 0.94087403599
   Recall: 0.769716088328
   Medida-f: 0.846732215153
Label  >50K
   Precision: 0.536016949153
   Recall: 0.846153846154
   Medida-f: 0.656290531777
Confussion matrix:
[[732 219]
 [ 46 253]]


Utilice la función **imprimir_performance** para imprimir las medidas de performance para el clasificador **svc** basado en Support Vector Machines:

In [141]:
imprimir_performance(X_test, y_test, svc)

Accuracy: 0.8192
Label  <=50K
   Precision: 0.821080602303
   Recall: 0.97476340694
   Medida-f: 0.891346153846
Label  >50K
   Precision: 0.801652892562
   Recall: 0.324414715719
   Medida-f: 0.461904761905
Confussion matrix:
[[927  24]
 [202  97]]


**PREGUNTA: Realice un breve análisis de los resultados obtenidos.**

**RESPUESTA:**

## Validación cruzada

Entrene y mida la perfomance de los calsifificadores anteriores, pero ahora utilizando el algoritmo de validación cruzada (cross validation) tomando 5 particiones. Imprima el promedio de accuracy obtenido para cada modelo:

In [142]:
import sklearn.model_selection as ms

cross = ms.KFold(n_splits=5)

clfs = [("DT", tree.DecisionTreeClassifier()), ("NB", naive_bayes.GaussianNB()), ("SVC",  svm.SVC())]

for nombre, clf in clfs:
    
    sumAcc = 0
    
    for train, test in cross.split(X_train, y_train):
           
        clf.fit(X_train.values[train],y_train.values[train])
        predicciones = clf.predict(np.array(X_train.values[test]))
        sumAcc += metrics.accuracy_score(y_train.values[test], predicciones)
    
    print("Accuracy " + nombre + ": " + str(sumAcc/5))

    

Accuracy DT: 0.7984
Accuracy NB: 0.778933333333
Accuracy SVC: 0.827733333333


**PREGUNTA: Describa brevemente cuáles son las ventajas de utilizar validación cruzada en vez de realizar una único esquema de partición como se hizo al principio.**

**RESPUESTA:**

## Mejorando los resultados

Existen varias técnicas que pueden ser utilizadas para mejorar los resultados de nuestros modelos. A continuación utilizaremos técnias de **selección de atributos** y de **ajuste de hiperparámetros**.

## Selección de atributos

En nuestros entrenamientos hemos utilizado todos los atributos disponibles para entrenar nuestros modelos. Pero no siempre esto lleva a los mejores resultados, de hecho muchas veces, trabajar con un conjunto reducido de atributos devuelve mejores resultados.

**PREGUNTA: Investigue de qué se trata la técnica de selección de atributos (feature selection) y argumente brevemente por qué puede mejorar la performance de un algoritmo de aprendizaje automático.**

**RESPUESTA:**

Utilizando el paquete *feature_selection* de *sklearn*, seleccione e imprima la lista de los 20 mejores atributos según la medida estadística chi^2:

In [147]:
import sklearn.feature_selection as fs

selector = fs.SelectKBest(fs.chi2,k=20)
selector.fit_transform(X_train, y_train).astype(np.int32)

array([[   0,    1,    0, ..., 7298,    0,   45],
       [   1,    1,    0, ...,    0,    0,   20],
       [   0,    0,    0, ...,    0,    0,   40],
       ..., 
       [   0,    0,    0, ...,    0,    0,   40],
       [   0,    0,    0, ...,    0,    0,   40],
       [   0,    1,    0, ...,    0,    0,   42]])

Intente obtener la lista de los mejores N atributos, donde N sea la cantidad mínima posible de atributos que mantenga o mejore las medidas de performance obtenidas con validación cruzada:

In [None]:
import matplotlib
import matplotlib.pyplot as plt

def realizarCV(clf, X, y):
    
    cross = ms.KFold(n_splits=5)
    sumAcc = 0
    
    for train, test in cross.split(X, y):
           
        clf.fit(X[train],y.values[train])
        predicciones = clf.predict(np.array(X[test]))
        sumAcc += metrics.accuracy_score(y.values[test], predicciones)
    
    return sumAcc / 5

plt.clf()

clfs = [("DT", tree.DecisionTreeClassifier()), ("NB", naive_bayes.GaussianNB())]#, ("SVC",  svm.SVC())]
 
for nombre, clf in clfs:

    performanceTarget = realizarCV(clf, X_train.values, y_train)
    performances = []

    for n in xrange(1,df.shape[1]):
        kSelector = fs.SelectKBest(fs.chi2,k=n)
        X_filtered = kSelector.fit_transform(X_train, y_train).astype(np.int32)
        res = realizarCV(clf, X_filtered, y_train)

        performances.append(res)
        
    plt.plot(performances, label=nombre)
    
plt.legend()
plt.show()

Con el conjunto de atributos obtenido, entrene los clasificadores nuevamente y verifique que las medidas de precision, recall mejoran en general:

## Ajuste de hiperparámetros

Por lo general, cada algoritmo y modelo de aprendizaje automático posee parámetros configurables. Estos parámetros se los suele denominar 'hiperparámetros' del algoritmo, ya que son parámetros que el algoritmo no ajusta automáticamente, sino que son ajustados por el "usuario".

La correcta selección de estos hiperparámetros por lo general tiene una gran incidencia en la performance de los algoritmos.

**PREGUNTA: Para los modelos generados anteriormente (Árbol de decisión, Naive Bayes y Support Vector Machines), investigue en la documentación de scikit-learn cuáles son sus hiperparámetros y qué valores toman. A continuación liste y de una breve descripción de cada uno:**

**RESPUESTA:**


Pruebe diferentes configuraciones de hiperparámetros para los modelos anteriores de modo de mejorar los resultados de performance obtenidos mediante la función *imprimir_performance*.

Para esto puede realizarlo manualmente o buscar una estrategia más avanzada utilizando la clase *GridSearchCV* del paquete *grid_search* de *sklearn*. Esta clase permite definir una grilla de parámetros y posibles valores para luego entrenar el modelo con todas sus posibles combinaciones y devolver la configuración que retorna la mejor performance.

En caso de tener que combinar varios procesos de extracción y selección de atributos junto con un modelo de aprendizaje, se recomienda utilizar la clase *Pipeline* del paquete *pipeline* de *sklearn*.

Tener en cuenta que si la grilla es muy grande, el proceso puede requerir mucho tiempo de cómputo y memoria.

**PREGUNTAS:**
- **Cuáles son los valores de los hiperparámetros con los cuales se obtienen los mejores resultados de performance?**
- **Con qué modelo se obtienen los mejores resultados de precision y recall?**

**RESPUESTA:**

**PREGUNTA: Escriba las conclusiones generales que haya obtenido de la tarea.**

**RESPUESTA:**

# Clasificación de Imágenes

En esta sección trabajaremos con clasificación de imágenes. Cada instancia a clasificar es una imagen con un dígito escrito a mano. El objetivo es detectar el dígito correspondiente a cada imagen. Para eso utilizaremos un dataset de *sklearn.datasets* que contiene imágenes de dígitos escritos a mano etiquetadas. Cada imagen se representa como un vector de pixeles.

Utilizar la función *load_digits* para importar los datos de dígitos escritos a mano. Inspeccionar su contenido (data, target, images y target_names), renderizar el dígito de la primera instancia del dataset:

Particionar los datos en dos conjuntos dijuntos de entrenamiento y testeo:

Extraer atributos de las imágenes para ser utilizados en el modelo de clasificación. Para esto, investigar las clases de Principal Component Analysis (PCA) del paquete sklearn.decomposition:

**PREGUNTA: Explique el método de extracción de atributos y justifique su elección.**

**RESPUESTA:**

Elija dos algoritmos de aprendizaje y entrene e intente obtener los mejores modelos de clasificación posibles:

Imprima los mejores resultados de precision, recall y accuracy para los algoritmos seleccionados:

**PREGUNTA: Analice los resultados obtenidos.**

**RESPUESTA:**