# Métodos combinados - Bosque Aleatorio

Mejor que usar un solo algoritmo, sería poder usar multiples algoritmos y sacar lo mejor de cada uno.

El algoritmo de bosque combina varios arboles de decisión (de ahí el nombre bosque), y cada uno es entrenado en una porción aleatoria de los datos de entrada.

<img src="random.png" alt="random" >

Esto se hace con el objetivo de mejorar la robustez del algoritmo

Existen muchos otros metodos de combinanción de algoritmos y se conocen como metodos ensamblados o en ingles *Ensemble methods*
como Adaboost, gradiente...etc



Para usar este algoritmo (y otros) debemos de seguir siempre 4 pasos:

1. importar el algoritmo
2. Crear el clasificador
3. Entrenar el clasificador
4. Hacer predicciones

In [1]:
#1 importamos el algoritmo
from sklearn import datasets
from sklearn.ensemble import RandomForestClassifier
import numpy as np

#vamos a usar los datos de unas plantas
iris = datasets.load_iris()
# almacenamos las caracteristicas de la planta en la variable X
X = iris.data
# tenemos 3 tipos de planta rotulada (labels): 0, 1 y 2
y = iris.target

In [2]:
# Generalmente todo nuestro set de datos no se debe usar para entrenar nuestro algoritmo
#la idea es poder tambien revisar la precision del mismo
# entonces debemos de partir nuestros datos en datos de entrenamiento y datos de prueba
#sklearn tiene este paso vital ya resuelto para que nosotros lo hagamos de la forma mas sencilla posible
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)

In [3]:
#2 creamos nuestro clasificador, donde n_estimators es el número de arboles de decisión que queremos usar
#para conformar el "bosque
clf = RandomForestClassifier(n_estimators=100)

In [4]:
#3 Entrenamos nuestro clasificador usando los datos para entrenarlo por medio de la funcion fit
clf.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_split=1e-07, min_samples_leaf=1,
            min_samples_split=2, min_weight_fraction_leaf=0.0,
            n_estimators=100, n_jobs=1, oob_score=False, random_state=None,
            verbose=0, warm_start=False)

In [5]:
#4 Hacemos predicciones con la funcion predict() que recibe como argumentos las caracteristicas de prueba
pred = clf.predict(X_test)

In [6]:
# vamos a importar una medición de la precisión de nuestro algoritmo
# osea que tan bien esta haciendo el trabajo nuestro clasificador
from sklearn.metrics import accuracy_score
acc = accuracy_score(pred, y_test)
print (acc)

0.973684210526
