# Master Notebook: Bosques aleatorios

Como ya vímos en scikit-learn gran parte de codigo es reciclable. Particularmente, leyendo variables y preparando los datos es lo mismo, independientemente del clasificador que usamos.

## Leyendo datos

Para que no esta tan aburrido (también para mi) esta vez nos vamos a escribir una función para leer los datos que podemos reciclar para otros datos.

In [None]:
import numpy as np
from collections import Counter

def lea_datos(archivo, i_clase=-1, cabezazo=True, delim=","):
    '''Una funcion para leer archivos con datos de clasificación. 
    Argumentos:
        archivo - direccion del archivo
        i_clase - indice de columna que contiene las clases. 
                  default es -1 y significa la ultima fila.
        header - si hay un encabezado
        delim - que separa los datos
    Regresa:
        Un tuple de los datos, clases y cabezazo en caso que hay.'''
    
    todo = np.loadtxt(archivo, dtype="S", delimiter=delim)    # para csv
    if(cabezazo):
        cabezazo = todo[0,:]
        todo = todo[1:,:]
    else: 
        cabezazo = None
    
    clases = todo[:, i_clase]
    datos = np.delete(todo, i_clase, axis=1)
    print "Clases"
    for k,v in Counter(clases).iteritems(): print k,":",v
    return (datos, clases, cabezazo) 

Ahora importando datos se hace muy simple en el futuro. Para datos de csv con cabezazo por ejemplo:

In [None]:
datos, clases, cabeza = lea_datos("titanic.csv")  # _ significa que no nos interesa este valor 
clases.shape

## Balanceando datos

Normalizacion de datos no es necesario para bosques aleatorios o arboles porque son invariantes al respeto de los magnitudes de variables. Lo unico que podría ser un problema es los clases son imbalanceados bajo nuestra percepción. Esto significa que a veces ni esperamos que nuestros datos van a ser balanceados y, en este caso, es permisible dejarlos sin balancear porque queremos que el clasificador incluye este probabilidad "prior" de la vida real. Si por ejemplo clasifico por ejemplo evaluaciones del vino, puede ser que lo encuentro normal que muchos vinos tienen una evaluacion promedia y solamente poco una muy buena. Si quiero que mi clasificador también tenga esta "tendencía" no tengo que balancear. 
En otro caso, si diseño una prueba para una enfermeda y no quiero que mi clasificador hace asumpciones sobre el estado del paciente no basados en mis variables, mejor balanceo.

Scikit-learn no llega con una función para balancear datos entonces porque no lo hacemos nosotros?

In [None]:
def balance(datos, clases, estrategia="down"):
    '''Balancea unos datos así que cada clase aparece en las mismas proporciones.
    Argumentos:
        datos - los datos. Filas son muestras y columnas variables.
        clases - las clases para cada muestra.
        estrategia - "up" para up-scaling y "down" para down-scaling'''
    
    import numpy as np
    from collections import Counter
    
    # Decidimos los nuevos numeros de muestras para cada clase
    conteos = Counter(clases)
    if estrategia=="up": muestras = max( conteos.values() )
    else: muestras = min( conteos.values() )
    
    datos_nuevo = np.array([]).reshape( 0, datos.shape[1] )
    clases_nuevo = []
    
    for c in conteos:
        c_i = np.where(clases==c)[0]
        new_i = np.random.choice(c_i, muestras, replace=(estrategia=="up") )
        datos_nuevo = np.append( datos_nuevo, datos[new_i,:], axis=0 )
        clases_nuevo = np.append( clases_nuevo, clases[new_i] )
    
    return (datos_nuevo, clases_nuevo)
    

Y vamos a ver si funciona...

In [None]:
datos_b, clases_b = balance(datos, clases)
print Counter(clases_b)
print datos_b.shape

## Entrenando el bosque

Corriendo un bosque aleatorio para la clasificación es casi lo mismo como todos los otros clasificadores. Nada más importamos de una libreria diferente.

In [None]:
from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(oob_score=True)
clf.fit(datos_b, clases_b)
print "Exactitud estimado:", clf.oob_score_

Ya sabemos que los hiper-parametros mas importantes para los bosques son el numero de arboles dado por `n_estimators` y la profundidad del arbol dado por `max_depth`. Porque son monotonos los podemos variar por separado. 

In [None]:
%matplotlib inline
from sklearn.cross_validation import StratifiedKFold
from sklearn.grid_search import GridSearchCV
import matplotlib.pyplot as plt

cv = StratifiedKFold(y=clases, n_folds=4)
arboles_vals = np.arange(5,200,5)
busqueda = GridSearchCV(clf, param_grid=dict(n_estimators=arboles_vals), cv=cv)
busqueda.fit(datos, clases)

print 'Mejor numero de arboles=',busqueda.best_params_,',exactitud =',busqueda.best_score_

scores = [x[1] for x in busqueda.grid_scores_]

plt.plot(arboles_vals, scores)
plt.xlabel('C')
plt.ylabel('exactitud cv')
plt.show()

Y para la profundidad:

In [None]:
prof_vals = np.arange(1,12)
busqueda = GridSearchCV(clf, param_grid=dict(max_depth=prof_vals), cv=cv)
busqueda.fit(datos, clases)

print 'Mejor profundidad=',busqueda.best_params_,',exactitud =',busqueda.best_score_

scores = [x[1] for x in busqueda.grid_scores_]
plt.plot(prof_vals, scores)
plt.xlabel('profundidad maxima')
plt.ylabel('exactitud cv')
plt.show()

Viendo unas buenas valores podemos escoger un bosque con la menor numero de arboles y profundidad para una buena exactitud. También esta vez vamos a sacar las importancias de variables de una vez.

In [None]:
clf = RandomForestClassifier(n_estimators=101, oob_score=True) 
clf.fit(datos, clases)
print "Exactitud estimada:", clf.oob_score_

print cabeza
print clf.feature_importances_

## Predecir nuevas variables

In [None]:
datos_test, clases_test, _ = lea_datos("titanic_test.csv")
clases_pred = clf.predict(datos_test)
print "Predicho:", clases_pred
print "Verdad:  ", clases_test