# Notas de Scikit-Learn

Scipy y Numpy proporcionan herramientas y funcionalidades para diversas áreas científicas. Algunas veces necesitamos herramientas más avanzadas para temas muy específicos, es ahí donde los paquetes ** [scikit](https://scikits.appspot.com/)** intervienen. 

Por ejemplo tenemos:

- Scikit-Image: Contiene rutina para procesmiento de imágenes en Scipy.
- Scikit-Learn: Un conjunto de módulos en Python, para Machine Learning y Data Minning.

## Scikit-Learn

Lectura:

 * [Tutorial de Scikit-Learn](http://scikit-learn.org/stable/tutorial/basic/tutorial.html).

Cada método implementado sobre sckit-learn asume que la data viene en un conjunto de datos. Sckit-learn incluye algunos conjuntos de datos conocidos.

El conjunto de datos tiene 150 instancias y 4 atributos. En nuestro primer paso, separamos el conjunto de datos , usando el %75 de la instancia para 'entrenar' nuestro clasificador y el 25% para evaluarlos.

In [4]:
from sklearn import datasets
iris = datasets.load_iris()
X_iris, Y_iris = iris.data, iris.target
print (X_iris.shape, Y_iris.shape)
print(X_iris[0], Y_iris[0])

(150, 4) (150,)
[ 5.1  3.5  1.4  0.2] 0


Estamos evaluando  ahora dos caracteristicas de `iris`: sepal width, sepal length de manera aleatoria el conjunto de evalaución. También calculamos el promedio, retamos el valor medio desde el valor caracteristico y dividimos el resultado por la desviacion estandar (Estandarización de valores).


In [25]:
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# Conseguimos el conjunto de datos solo con los dos primeros
# atributos

X,Y =X_iris[:, :2], Y_iris

# Dividir el conjunto de datos en conjuntos de entrenamiento 
# testing

X_entrenamiento, X_test, Y_entrenamiento, Y_test \
= train_test_split(X, Y, test_size = 0.25, random_state=34)
print(X_entrenamiento.shape, Y_entrenamiento.shape)

# Estandarizacion

scaler = StandardScaler().fit(X_entrenamiento)
X_entrenamiento = scaler.transform(X_entrenamiento)

X_test =scaler.transform(X_test)
# Graficando los datos de entranamiento usando pyplot

colores = ['red', 'green', 'blue']
for i in range(len(colores)):
    px =X_entrenamiento[:,0][Y_entrenamiento == i]
    py =X_entrenamiento[:, 1][Y_entrenamiento ==i]
    plt.scatter(px, py, c =colores[i])

plt.legend(iris.target_names)
plt.xlabel("Sepal length")
plt.ylabel("Sepal width")
plt.show()

(112, 2) (112,)


 La setosa es facilmente separable de las otras dos clases mientras que versicolor y virginica son muy desordenadas. Para implementar una clasificacion lineal, usamos `SGDClassifier` desde Scikit-learn.
 
 SGD  es el método del *descenso de gradiente estocástico*  que es muy útil para encontrar mínimos locales de una función.

In [None]:
# Creamos un modelo lineal clasificatorio
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier()

#fijamos el clasificador (entrenamiento)
clf.fit(X_entrenamiento, Y_entrenamiento)

# Imprimimos los coeficientes del hiperplano que minimiza 
# loss function(funcion de perdida)

print(clf.coef_)
print(clf.intercept_)

# Dibujar las 3 curvas de decision 

x_min, x_max = X_entrenamiento[:,0].min() -.5, X_entrenamiento[:,0].max() + .5
y_min, y_max = X_entrenamiento[:,1].min() -.5, X_entrenamiento[:,1].max() + .5

xs = np.arange(x_min, x_max, 0.5)
fig, axes = plt.subplots(1,3)
fig.set_size_inches(10,6)

for i in [0,1,2]:
    axes[i].set_aspect("equal")
    axes[i].set_title('Clase' + str(i) + 'versus el resto')
    axes[i].set_xlim(x_min, x_max)
    axes[i].set_ylim(y_min, y_max)
    axes[i].set_xlabel("Longitud Sepal")
    axes[i].set_ylabel("Ancho Sepal")
    
    plt.sca(axes[i])
    
    for j in range(len(colores)):
        px =X_entrenamiento[:,0][Y_entrenamiento == j]
        py =X_entrenamiento[:, 1][Y_entrenamiento ==j]
        plt.scatter(px, py, c =colores[j])

    ys = (-clf.intercept_[i] -xs*clf.coef_[i,0])/clf.coef_[i,1]
    plt.plot(xs, ys, hold =True)
plt.show()

[[-28.67108892  22.96191474]
 [-11.32002052 -14.57276498]
 [  3.79132988   8.15912468]]
[-26.45480613  -9.95033872  -8.79589017]
