Clasificación de vinos con machine learning
===================================================================

En este trabajo vamos a utilizar técnicas de machine learning con el objetivo de clasificar vinos a partir de sus componentes químicos y algunas otras características medidas en cada muestra, datos obtenidos de mediciones reales sobre vinos de 3 diferentes cultivadores. Descargue los datos desde http://archive.ics.uci.edu/dataset/109/wine

El problema:
============

Se poseen mediciones de distintos químicos y algunos otros aspectos presentes en muestras de vinos provenientes de 3 cultivadores diferentes. Con esta información se desea aprender una función que permita determinar el origen de nuevas muestras de vino, solo a partir de las mediciones de sus componentes.

La solución:
============

En primer lugar tenemos que determinar si los datos son realmente clasificables. Es decir, tenemos que intentar verificar que realmente se puedan "separar" los datos en grupos claramente con curvas. Si los datos están muy "mezclados" es probable que no podamos encontrar una función que los separe con precisión aceptable.

Como las entradas tienen 13 dimensiones (los compuestos químicos que tiene cada muestra), no es posible armar un gráfico que muestre los puntos con tudos sus datos, y allí ver su agrupación. Pero algo que sí podemos hacer es graficar los datos tomando de a pares de dimensiones, y visualizar esos datos incompletos. Si en algunas de esas visualizaciones los datos son claramente separables, entonces es posible encontrar una función que clasifique correctamente.

Para aprender la función deseada vamos a intentar utilizar el algoritmo K-means para clasificación, implementado en la biblioteca Scikit-Learn. Como el algoritmo requiere que se defina el parámetro K (la cantidad de cluster), vamos a evaluar el algoritmo con distintos valores de K y elegir el valor que mejores resultados obtenga.

Código de ayuda y ejercicios:
=============================

Estas son las columnas que tienen nuestros datos de entrada. Son los distintos valores medidos en cada muestra:

In [4]:
features = 'Alcohol', 'Malic acid', 'Ash', 'Alcalinity of ash', 'Magnesium', 'Total phenols', 'Flavanoids', 'Nonflavanoid phenols', 'Proanthocyanins', 'Color intensity', 'Hue', 'OD280/OD315 of diluted wines', 'Proline'

Estas son las distintas clases que se encuentran en los datos de salida, las etiquetas que vamos a usar para clasificar a cada muestra. Y definimos también colores para cada clase, que se usan en las gráficas.

In [5]:
clases = 'cultivador 1', 'cultivador 2', 'cultivador 3'
colores_clases = 'red', 'green', 'blue'

Lo primero que tenemos que hacer es leer los datos que vamos a usar para entrenar y testear al clasificador, que están en un archivo con formato csv. Los leemos y convertimos a arrays de numpy, que son mucho más eficientes y rápidos que usar listas de python normales.

El conjunto de datos de entrada es una matriz de 178 filas (las 178 muestras de vinos obtenidas), y 13 columnas (features), que son los distintos valores medidos en cada muestra.
El conjunto de datos de salida es un vector con las 178 clases correspondientes a cada muestra. Las clases van de 0 a 2.

In [6]:
print entradas.shape
print salidas.shape

SyntaxError: ignored

Como no es posible graficar las muestras debido a que tienen más de 3 dimensiones, si queremos graficarlas para analizar qué tan separables son, debemos hacerlo tomando de a pares de dimensiones. Por ejemplo, graficar solo las dimensiones "Malic acid" y "Nonflavanoid phenols".

El siguiente gráfico hace eso, y como podemos ver, si tomamos solo esas dimensiones los datos no son tan separables por sus clases.

In [None]:
indice_feature1 = 1
indice_feature2 = 7

salidas_a_colores = [colores_clases[v] for v in salidas]

scatter(entradas[:, indice_feature1],
        entradas[:, indice_feature2],
        color=salidas_a_colores,
        title='Separables?',
        x_axis_label=features[indice_feature1],
        y_axis_label=features[indice_feature2])
show()

Ejercicio 1
===========

Modificar el código que grafica las clases en base a dos dimensiones, para que arme un gráfico por cada posible par de dimensiones (features).

Ejercicio 2
===========

Viendo todos los gráficos del ejercicio 1, ¿alguno de ellos permite saber que los datos son fácilmente clasificables (separables)? ¿Con cuáles dimensiones se ve eso? (responder editando esta misma celda)

---

En clases aprendimos sobre los riesgos del sobreentrenamiento (overfitting), y que este problema se combate separando nuestros datos en un set de entrenamiento y otro de test. Scikit learn tiene funcionalidad específica para separar sets de datos de esa manera, la función ```train_test_split```.

Ejercicio 3
===========

Completar la siguiente celda de código para que las variables contengan los sets generados con la función ```train_test_split```.

In [None]:
entradas_entrenamiento, entradas_test, salidas_entrenamiento, salidas_test =  # llamada a train_test_split

Ahora podemos crear un clasificador de tipo K-vecinos, y entrenarlo con los datos del set de entrenamiento. Como sabemos, k-vecinos requiere que se le defina el parámetro K (la cantidad de vecinos a observar al predecir), y desconocemos un valor adecuado para K. Pero para realizar una prueba inicial, elegimos el valor 1.

In [None]:
clasificador = ?

Entrenamos el clasificador:

In [None]:
clasificador.fit(entradas_entrenamiento, salidas_entrenamiento)

Y ahora podemos usarlo para predecir salidas a partir de entradas. Vamos a predecir las salidas de las entradas de los dos conjuntos:

In [None]:
salidas_predichas_entrenamiento = clasificador.predict(entradas_entrenamiento)
salidas_predichas_test = clasificador.predict(entradas_test)

Con las salidas predichas podemos comparar la precisión, accuracy y recall en cada uno de los dos conjuntos, comparando las predicciones con las salidas reales que esperábamos:

In [None]:
conjuntos_salidas = (
    ('entrenamiento', salidas_entrenamiento, salidas_predichas_entrenamiento),
    ('test', salidas_test, salidas_predichas_test),
)
medidas = (precision_score, accuracy_score, recall_score)

for nombre, salidas, salidas_predichas in conjuntos_salidas:
    print 'Set de', nombre
    for medida in medidas:
        print '   ', medida.func_name, ':', medida(salidas, salidas_predichas)

Ejercicio 4
===========

¿Por qué al medir la performance en el conjunto de entrenamiento, las predicciones fueron perfectas? (1.0 en todas las métricas de ese conjunto) (responder editando esta misma celda)

---

Siendo que el resultado en el conjunto de test (probablemente) no fue tan bueno, nos interesaría probar con otros valores de K y evaluar la performance con esos otros valores. Y no solo con algunos valores elegidos al azar, sino que nos interesa evaluar el algoritmo para todos los posibles valores de K desde 1 hasta 150.

Vamos a crear algunas variables donde ir guardando las métricas para cada valor de K:

In [None]:
precisiones = [0,] * 151
accuracies = [0,] * 151
recalls = [0,] * 151

Ejercicio 5
===========

Escribir código que vaya desde K=1 hasta K=150, y en cada iteración cree un clasificador con el valor correspondiente de K, lo entrene, lo use para predecir las salidas del conjunto de test, evalúe precisión, accuracy y recall en esas predicciones, y guarde las 3 métricas en las variables anteriores, usando K como índice. Ej:

    precisiones[14] = el número que dio la precisión del clasificador con K=12

Estas métricas deben ser evaluadas **solo** para el conjunto de test.

In [None]:
# código que rellena los valores en precisiones, accuracies y recalls

Con los valores completos, podemos ahora graficar las métricas de performance con respecto a los valores posibles de K:

In [None]:
indice_feature1 = 1
indice_feature2 = 7

salidas_a_colores = [colores_clases[v] for v in salidas]

ks = range(1, 151)

datos_medidas = (
    (u'Precisión', 'red', precisiones),
    (u'Accuracy', 'green', accuracies),
    (u'Recall', 'blue', recalls),
)

figure(title='Valores')
hold()

for nombre, color, valores in datos_medidas:
    line(ks, valores[1:],
         color=color,
         legend=nombre,
         x_axis_label='k')

show()
hold(False)

Ejercicio 6
===========

Habiendo visualizado la performance para los distintos valores de K, ¿qué valor de K elegirían como el más adecuado para utilizar? ¿Por qué? (responder editando esta misma celda)

Ejercicio 7
===========

El valor de precisión obtenido para ese K, ¿es válido como estimado de la precisión que tendríamos prediciendo futuras muestras que no hayan estado en los datos que utilizamos en esta entrega? ¿Por qué? ¿Cómo estimarían dicha precisión? (responder editando esta misma celda)