# Clasificación

Por otro lado tenemos los modelos para clasificar entradas, se quiere categirizar una nueva entrada _i_ dependiendo de susu caracterisitcas _x_ y para clasificarlo en alguna clase _C_.

El algoritmo que utilizaremos en esta oportunidad es _k-nearest neighbors algorithm (KNN)_ el cual consiste en determinar la clase de una nueva entrada dependiendo de la _similitud_ que posee con las demás entradas conocidas. Como se muestra en el siguiente ejemplo:

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/KnnClassification.svg/330px-KnnClassification.svg.png" height=250px width=250px>

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, neighbors
from sklearn.metrics import mean_squared_error, r2_score

%matplotlib inline

## Ejemplo

Supongamos tenemos dos atributos instancias en un vector X, estas se clasifican en dos clases $C_0$ y $C_1$, donde el vector Y continene la clase correspondiente a cada instancia de X.


$$ X = [ [0, -1], [2, 2], [-1, 0], [1, 2], [2, 3], [-1,-2] ]$$
$$ Y = [ 0, 1, 0, 1, 1, 0 ] $$

A simple vista se puede apreciar un agrupamiento por clase

In [None]:
x = np.array([ [0, -1], [2, 2], [-1, 0], [1, 2], [2, 3], [-1,-2] ])
y = np.array([ 0, 1, 0, 1, 1, 0 ])
plt.scatter(x[:,0][y == 0], x[:,1][y == 0]);
plt.scatter(x[:,0][y == 1], x[:,1][y == 1]);

In [None]:
#Instanciamos nuestro modelo
neigh = neighbors.KNeighborsClassifier(n_neighbors=3)

#Entrenamos
neigh.fit(x, y)

#Datos de prueba
test_x = [[1,1],[-1,0]]
test_y = [1,0]

#Predecimos
pred_y = neigh.predict(test_x)

print("Error cuadrado: %.2f"
      % mean_squared_error(test_y, pred_y))
print('r2: %.2f' % r2_score(test_y, pred_y))


## Usando datos reales

A continuación usaremos el set de datos _iris_ el cual contiene los datos de 3 clases de plantas, nos dan 4 atributos de cada planta y debemos predecir a que especie pertenece.

In [None]:
iris = datasets.load_iris()
print(iris.DESCR)

In [None]:
# Preparando los datos, en este caso solo usaremos los dos primeros atributos
iris_x_train = iris.data[:-20, :2]
iris_y_train = iris.target[:-20]

iris_x_test = iris.data[-20:, :2]
iris_y_test = iris.target[-20:]

# Plots
plt.scatter(iris_x_train[:,0][iris_y_train == 0], iris_x_train[:,1][iris_y_train == 0]);
plt.scatter(iris_x_train[:,0][iris_y_train == 1], iris_x_train[:,1][iris_y_train == 1]);
plt.scatter(iris_x_train[:,0][iris_y_train == 2], iris_x_train[:,1][iris_y_train == 2]);

plt.show()

### Clasificación


In [None]:
# Guardar resultados en iris_y_pred

In [None]:
# Resultados
# Metrica para la regresión
print("Error cuadrado: %.2f"
      % mean_squared_error(iris_y_test, iris_y_pred))
print('r2: %.2f' % r2_score(iris_y_test, iris_y_pred))

plt.scatter(iris_x_test[:,0][iris_y_pred == 0], iris_x_test[:,1][iris_y_pred == 0]);
plt.scatter(iris_x_test[:,0][iris_y_pred == 1], iris_x_test[:,1][iris_y_pred == 1]);
plt.scatter(iris_x_test[:,0][iris_y_pred == 2], iris_x_test[:,1][iris_y_pred == 2]);

Pruebe cambiando la cantidad de vecinos para m y eligiendo otros atributos para determinar la clase.

## Clasificar números escritos a mano

Utilive KNN para determinar el número escrito utilizando el siguiente set de datos

In [None]:
digits = datasets.load_digits()
print(digits.DESCR)

In [None]:
images_and_labels = list(zip(digits.images, digits.target))
for index, (image, label) in enumerate(images_and_labels[:4]):
    plt.subplot(2, 4, index + 1)
    plt.axis('off')
    plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')
    plt.title('Training: %i' % label)

# turn the data in a (samples, feature) matrix:
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

digits_x_train, digits_y_train = data[:n_samples // 2], digits.target[:n_samples // 2]

digits_x_test, digits_y_test = data[n_samples // 2:], digits.target[n_samples // 2:]
