# Árboles de decisión

In [None]:
#importamos las librerías
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import classification_report
from sklearn import cross_validation
from sklearn.tree import DecisionTreeClassifier

In [None]:
#cargamos los datos
file = 'datos_arboles.txt'
datos = np.loadtxt(file, delimiter=',')
X, y = datos[:,:-1], datos[:,-1]

In [None]:
#separamos las clases por etiquetas
clase0 = np.array(X[y==0])
clase1 = np.array(X[y==1])

In [None]:
#visualizamos los datos de entrada
plt.figure() #instanciamos la figura
plt.scatter(clase0[:,0], clase0[:,1], s=75, facecolors = 'white',
           edgecolors = 'black', linewidth = 1, marker = 's')
plt.scatter(clase1[:,0], clase1[:,1], s=75, facecolors = 'white',
           edgecolors = 'black', linewidth = 1, marker = 'o')
plt.title('Datos de entrada')
plt.show()


In [None]:
#particionamos la base de datos en entrenamiento y validación
X_train, X_test, y_train, Y_test = cross_validation.train_test_split(X, y,
                                                                     test_size = 0.25,
                                                                     random_state = 5)
                                                                     

In [None]:
#construimos el árbol de decisión
parametros = {'random_state':0, 'max_depth': 4} #definimos los parámetros como diccionario
#instanciamos el clasificador
clasificador = DecisionTreeClassifier(**parametros)
#entrenamos el clasificador
clasificador.fit(X_train, y_train)
visualizar_clasificador(clasificador, X_train, y_train)

In [None]:
#validamos el clasificador
y_pred = clasificador.predict(X_test)
visualizar_clasificador(clasificador, X_test, y_pred)

In [None]:
# mostramos el reporte de clasificación
nombres_clases = ['Clase0' , 'Clase1']
print('\n' + "#"*70)
print('\n Desempeño del clasificador sobre el conjunto de entrenamiento\n')
print(classification_report(y_train, clasificador.predict(X_train), 
                            target_names = nombres_clases))
print("#"*70+'\n')

print("#"*70)
print('\n Desempeño del clasificador sobre el conjunto de validación\n')
print(classification_report(Y_test, clasificador.predict(X_test), 
                            target_names = nombres_clases))
print("#"*70+'\n')


In [None]:
def visualizar_clasificador(clasificador, X, y):
    #definimos los máximos valores de X e y para la malla
    min_x, max_x = X[:, 0].min() - 1.0, X[:, 0].max() + 1.0 
    min_y, max_y = X[:, 1].min() - 1.0, X[:, 1].max() + 1.0
    #definimos el paso de la malla
    mesh_step_size = 0.01
    #definimos la malla para x e y
    x_vals, y_vals = np.mgrid[min_x:max_x:mesh_step_size, min_y:max_y:mesh_step_size]
    #corremos el clasificador sobre la malla
    resultados = clasificador.predict(np.c_[x_vals.ravel(), y_vals.ravel()])
    #reordenamos la salida
    print(resultados)
    resultados = resultados.reshape(x_vals.shape)
    #creamos la figura
    plt.figure()
    #elegimos los colores
    plt.pcolormesh(x_vals,y_vals,resultados,cmap=plt.cm.PiYG)
    #ubicamos los puntos
    plt.scatter(X[:,0],X[:,1],c=y,s=75,edgecolors='black',linewidth=1,cmap=plt.cm.PiYG)
    #especificamos los límites de la gráfica
    plt.xlim(x_vals.min(), x_vals.max()) 
    plt.ylim(y_vals.min(), y_vals.max())
    #especificamos los puntos que se visualizarán sobre los ejes
    plt.xticks((np.arange(int(X[:, 0].min() - 1), int(X[:, 0].max() + 1), 1.0))) 
    plt.yticks((np.arange(int(X[:, 1].min() - 1), int(X[:, 1].max() + 1), 1.0)))
    #Graficamos
    plt.show()

# Bosques Aleatorios

In [None]:
#incluimos librería de los bosques aleatorios
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier


In [None]:
#cargamos los datos
file = 'datos_bosques_aleatorios.txt'
datos = np.loadtxt(file, delimiter=',')
X, y = datos[:,:-1], datos[:,-1]

In [None]:
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X, y,
                                                                     test_size = 0.25,
                                                                     random_state = 5)
                                                                     

In [None]:
#definimos los parámetros para el bosque aleatorio
parametros = {'n_estimators': 100, 'max_depth': 4, 'random_state': 0}

In [None]:
#instanciamos los clasificadores
#bosque aleatorio (aleatoriedad en las características)
clasificador_bosque = RandomForestClassifier(**parametros)
#bosque extremadamente aleatorio (aleatoriedad en las características y observaciones)
clasificador_extremo = ExtraTreesClassifier(**parametros)

#Entrenamos los clasificadores
clasificador_bosque.fit(X_train,y_train)
clasificador_extremo.fit(X_train,y_train)

In [None]:
#validamos los clasificadores
y_bosque_pred = clasificador_bosque.predict(X_test)
y_extremo_pred = clasificador_extremo.predict(X_test)

In [None]:
#visualizamos
visualizar_clasificador(clasificador_bosque,X_test, y_bosque_pred)

In [None]:
visualizar_clasificador(clasificador_extremo, X_test, y_extremo_pred)