# Master notebook

Este notebook sirve como plantilla para solver un problema de clasificación. Partes que tienes que llenar tu son maracdos con **?**.

## Leyendo datos y pre-processamiento

El código siguiente va a asumir que los datos son una mezcla de palabras/letras y numeros. En caso que los datos son numeros desde el principio se puede omitir el `dtype='S'` y se van a leer los datos como `float`. No olvides ajustar el `delimiter` dependiendo de tus datos (omitirlo usa espacios o tabs).

Para ver como se puede escoger partes de un matrix en numpy también ayuda ver [la introducción de numpy](http://wiki.scipy.org/Tentative_NumPy_Tutorial).

In [None]:
import numpy as np

todo = np.loadtxt('???', dtype='S', delimiter=',')    # asumimos formato csv
header = todo[0,:]                    # solamente cuando las columnas tienen titulo
datos = todo[?,?].astype('float')     # depende de tus datos por ejemplo sin titulos y sin la ultima fila es todo[1:,0:-1]
clases = todo[?,-1]  

print 'dimensiones datos (filas, columnas) =', datos.shape
print '#muestras =', len(clases)

Esto te debería dejar con los datos (mediciones de variables) y clases. Ahora los vamos a estandardizar. Para métodos de normalizar datos también [vea aquí](http://scikit-learn.org/stable/modules/preprocessing.html).

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(datos)
datos_norm = scaler.transform(datos)

## Clasificación

Aquí vamos a clasificar los datos con SVC. Para más información vea la documentación para los [SVMs](http://scikit-learn.org/stable/modules/svm.html) y la [validación cruzada](http://scikit-learn.org/stable/modules/cross_validation.html).

In [None]:
from sklearn.svm import SVC
from sklearn.cross_validation import cross_val_score, StratifiedKFold

clf = SVC(kernel='rbf', class_weight=???)
exas = cross_val_score(clf, datos_norm, clases, cv=8)    # escoge un numero adecuado de folds 
print 'cv exactitud =', exas.mean(), '±', exas.std()

...y para ver los hiper-parámetros (ejemplarios para dos hiper-parámetros) procedemos con el siguiente código. Ten cuidado aquí porque podría tomar bastante tiempo aquí. Si tienes muchas muestras puede ser buena estrategía hacer todo nada mas para unos de tus datos. Si tienes `n` muestras puedes sacar una selecion aleatoria de 100 elementos así:

In [None]:
n = ???
sel = np.random.permutation(n)[0:100]

Y con esto puedes correr tu analisis de hiper-parametros...

In [None]:
%matplotlib inline
from sklearn.grid_search import GridSearchCV
import matplotlib.pyplot as plt

cv = StratifiedKFold(y=clases[sel], n_folds=3)     # usamos las primeras 100 muestras
C_rango = 10.0 ** np.arange(-3,4)
gamma_rango = 10.0 ** np.arange(-3,4)
busqueda = GridSearchCV(clf, param_grid=dict(C=C_rango, gamma=gamma_rango), cv=cv)
busqueda.fit(datos_norm[sel,], clases[sel])        # usamos las primeras 100 muestras

print 'Mejor C, gamma =',busqueda.best_params_,',exactitud =',busqueda.best_score_

scores = np.array( [x[1] for x in busqueda.grid_scores_] ) # Sacamos nada mas el segundo elemento de los scores
n_C, n_g = len(C_rango), len(gamma_rango)                  # sacamos el numero de parametros probados
scores = scores.reshape(n_C, n_g)                          # convertimos los scores en la cuadricula

# Ahora vamos a dibujar todo
plt.figure(figsize=(10,8))                     # hacemos el imagen un poco mas grande
plt.imshow(scores, interpolation='nearest')    # dibuja los scores representado por colores
plt.xlabel('gamma')                            # pon el titulo del eje x
plt.ylabel('C')                                # pon el titulo del eje y
plt.colorbar()                                 # pon un escala de colores para los scores
plt.xticks(np.arange(len(gamma_rango)), gamma_rango, rotation=45)    # pon los valores para gamma
plt.yticks(np.arange(len(C_rango)), C_rango)   # pon los valores para C
plt.show()

En caso que nada más es un hiper-parámetro los paso del reshape no son necesarios y deberías usar `plt.plot` en lugar de `plt.imshow`.

Ahora podemos sacar el mejor clasificador...

In [None]:
clf = busqueda.best_estimator_

## Predicción

Prediciendo datos no es muy complicado. Entrenamos el SVM con todos los datos y metemos nuevos datos.

In [None]:
datos_nuevo = ???     # tú tienes que sacarlos...

datos_nuevo_norm = scaler.transform(datos_nuevos)
clf.fit(datos_norm, clases)         # entrenamos con todo que tenemos
clases_nuevo = clf.predict(datos_nuevo_norm)

print 'Clases predichos: ', clases_nuevo