# <font color= darkcyan>_Algoritmo Random Forest_</font>

Este algoritmo perteneciente al tipo de Machine Learning conocido como Aprendizaje Supervisado, es una combinación de árboles predictores, de modo que cada árbol depende de los valores del vector aleatorio muestra independientemente y con el mismo distribuidor para todos los árboles en el bosque. La generalización error para Random Forests converge conforme el límite de número de árboles crece. La generalización error de un bosque de árboles clasificadores depende de la fuerza que posea cada árbol individualmente en el bosque y la correlación entre ellos.
***

## <font color= darkcyan>_Algunos usos_</font>

-  **Teledetección**
    -  Usado en dispositivos ETM para adquirir imagenes de la superficie terrestre.
    -  Con una exactitud mayor y un tiempo de entrenamiento menor.
-  **Detección de Objetos**
    -  La detección de multiples clases se lleva a cabo mediante el uso de algoritmos RF. 
    -  Provee mejor detección en ambientes complicados.
-  **Kinect**
    -  El dispositivo detector de movimiento utilizado por XBOX utiliza RF.
    -  Rastrea movimientos del sujeto y los recrea en el juego.
***

# <font color= darkcyan>_Ventajas_</font>

-  **Sin overfitting**
    -  Utilización de múltiples árboles, lo que reduuce el riesgo de overfitting.
    -  Tiempo de entrenamiento es menor.
-  **Alta efectividad**
    -  Corre eficientemente en base de datos grandes.
    -  Para datos grandes produce un nivel alto de efectividad.
-  **Estima datos faltantes**
    -  Random Forest puede mantener la exactitud inclusive cuando hacen falta algunos datos.
    
***

## <font color= darkcyan>_¿Cómo funciona?_</font>

Random Decision Forest es un método que opera al crear múltiples árboles de decisión durante la face de entrenamiento.
La decisión de la mayoría de árboles es escogida por el Random Forest como decisión final.

Supongamos que tenemos una entrada **_X_** y 3 árboles de decisión donde: 


| . | Árbol 1 | Árbol 2 | Árbol 3 | Random Forest | Elección |
| --- | --- | --- | --- | --- | ---|
| **Respueta** | Manzana | Naranja | Manzana  | . | . |
| **Manzana** | . | . | . | <font color= blue>**2**</font> | **<--** |
| **Naranja** | . | . | . | <font color= red>1</font> | . |

<br><br>
Se puede apreciar cómo la respuesta de el Árbol 1 y 3 fue Manzana, a diferencia del 2 que dió como respuesta Naranja, para el parámetro **_X_**, luego el algorítmo Random Forest verifica los output de cada árbol y deduce que la respuesta correcta es aquella que posee mayores ocurrencias entre los árboles, por lo tanto se decide que la respuesta correcta para el prámetro **_X_** es Manzana.
***


## <font color= darkcyan>_Referencias_</font>

-  Breiman. L. (2001) RANDOM FORESTS. Setiembre 8, 2018. de Statistics Department University of California Berkeley, CA 94720
-  Simplilearn. (2018) Random Forest Algorithm - Random Forest Explained | Random Forest In Machine Learning | Simplilearn. Sitio web: https://www.slideshare.net/Simplilearn/random-forest-algorithm-random-forest-explained-random-forest-in-machine-learning-simplilearn-91647398

## <font color= darkcyan>_Código_</font>

A continuación se muestra un código en python, en el cual se implementa una solución para el Algoritmo Random Forest, en este se utiliza un librería llamada scikit, de la cual se toma un banco de datos de lirios, el cual posee el largo y ancho del Sépalo y Pétalo en centimetros de esta especie de flores, de los cuales se puede deducir si el lirio es setosa, versicolor o virginica.<br><br><br><br>

In [1]:
#!/usr/bin/env python -W ignore::DeprecationWarning

#Librería para la carga de datos de lirios
from sklearn.datasets import load_iris

#Librería scikit que contiene el algorítmo de Random Forest
from sklearn.ensemble import RandomForestClassifier

#Librería pandas para crear el formato de los datos(tablas)
import pandas as pd

#Librería numpy para números aleatorios
import numpy as np


np.random.seed()

  from numpy.core.umath_tests import inner1d


In [2]:
#Carga de los datos de lirios desde la libreria
iris = load_iris()

#Se crea una tabla con las caracteristicas de los datos
tabla = pd.DataFrame(iris.data, columns=['Sépalo largo', 'Sépalo ancho', 'Pétalo largo','Pétalo ancho'])

#Muestra las primeras 5 filas
tabla.head()


Unnamed: 0,Sépalo largo,Sépalo ancho,Pétalo largo,Pétalo ancho
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [3]:
#Se agrega la columna Especies a la tabla (objetivo a predecir)
tabla['Especies'] = pd.Categorical.from_codes(iris.target, iris.target_names)

#Muestra las primeras 5 filas
tabla.head()

Unnamed: 0,Sépalo largo,Sépalo ancho,Pétalo largo,Pétalo ancho,Especies
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [4]:
#Se crear la columna De Entrenamiento (asigna 75% de los datos de manera aleatoria)
tabla['De Entrenamiento'] = np.random.uniform(0, 1, len(tabla)) <= .75

#Muestra las primeras 5 filas
tabla.head()

Unnamed: 0,Sépalo largo,Sépalo ancho,Pétalo largo,Pétalo ancho,Especies,De Entrenamiento
0,5.1,3.5,1.4,0.2,setosa,True
1,4.9,3.0,1.4,0.2,setosa,True
2,4.7,3.2,1.3,0.2,setosa,False
3,4.6,3.1,1.5,0.2,setosa,True
4,5.0,3.6,1.4,0.2,setosa,True


In [5]:
#Se crean 2 tablas una para entrenamiento y otra para prueba
entrenamiento = tabla[tabla['De Entrenamiento']==True]
prueba =        tabla[tabla['De Entrenamiento']==False]

print('Numero de observaciones en los datos de entrenamiento:', len(entrenamiento))
print('Numero de observaciones en los datos de prueba:', len(prueba))

('Numero de observaciones en los datos de entrenamiento:', 110)
('Numero de observaciones en los datos de prueba:', 40)


In [6]:
#Asigna las caracteristicas (primeras 4 colum) a una variables
caracteristicas = tabla.columns[:4]

#Imprime la lista
caracteristicas

Index([u'Sépalo largo', u'Sépalo ancho', u'Pétalo largo', u'Pétalo ancho'], dtype='object')

In [7]:
#transforma Especies (setosa, versicolor, virginica) en (0s, 1s y 2s) respectivamente para un merjor manejo
y = pd.factorize(entrenamiento['Especies'])[0]

y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [8]:
#Crea el RandomForestClassifier con jobs=2 y random_state=0 por estandar
clf = RandomForestClassifier(n_jobs=2, random_state=0)

#Entrenamiento del clasificador
clf.fit(entrenamiento[caracteristicas], y)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=2,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

In [9]:
#Una vez entrenado el clasificador
#Se intenta predecir los valores con los datos de prueba (25%)
result = clf.predict(prueba[caracteristicas])

#Imprime las probabilidades de predicción de las primeras 10 observaciones
clf.predict_proba(prueba[caracteristicas])[0:10]

array([[1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.]])

In [10]:
#transforma los 0s, 1s y 2s en su respectivo nombre setosa, versicolor, virginica
preds = iris.target_names[result]

#imprime las predicciones
preds[0:25]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'virginica', 'versicolor'],
      dtype='|S10')

In [11]:
#Imprime el valor real de la especie para luego
#verificar si la predicción fue buena
real = prueba['Especies']

#Muestra los primeros 5 valores
real.head()

2     setosa
8     setosa
10    setosa
14    setosa
17    setosa
Name: Especies, dtype: category
Categories (3, object): [setosa, versicolor, virginica]

In [12]:
#Crea e imprime una matriz entre la interseccion de real y predicciones
final = pd.crosstab(prueba['Especies'], preds, rownames=['Especies Reales'], colnames=['Especies Predecidas'])

final

Especies Predecidas,setosa,versicolor,virginica
Especies Reales,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,13,0,0
versicolor,0,12,1
virginica,0,1,13


In [13]:
numExitos = final.loc['setosa','setosa'] + final.loc['versicolor','versicolor'] + final.loc['virginica','virginica']

total = len(prueba.index)*1.0

efectividad = numExitos/total

print('Total datos de prueba:', total)
print('Numero de Exitos:', numExitos)


efectividad

('Total datos de prueba:', 40.0)
('Numero de Exitos:', 38)


0.95