## Random Forest (Bosques Aleatorios)

Uno de los problemas con la creación de un árbol de decisión es que si la profundidad es suficiente, el árbol tiende a "memorizar" las soluciones en vez de generalizar el aprendizaje. Es decir, **tendremos un modelo sobreajustado (overfitting)**.


**La solución para evitar esto es crear muchos árboles y que trabajen en conjunto.**


**Random Forest es un modelo de aprendizaje supervisado** que, como su nombre lo indica, **consiste en una gran cantidad de árboles de decisión (Decision Trees) individuales que operan como un conjunto**. Cada árbol individual en el bosque aleatorio retorna una predicción de clase y la clase con más votos (moda) se convierte en la predicción de nuestro modelo.

![ml_22.jpeg](attachment:ml_22.jpeg)


**¿Por qué se llama Random?**
- Cuenta con una **"doble aleatoriedad"**:
    - La primera es para la selección del **valor de "k" (número de atributos) para cada árbol**.
    - La segunda es para elegir la **cantidad de patrones (elementos) a utilizar para entrenar** a cada árbol del "bosque".


La razón por la que el modelo de **Random Forest** funciona muy bien es:
Una gran cantidad de modelos **relativamente no correlacionados** (árboles) que funcionan como un grupo superará a cualquiera de los modelos constituyentes individuales.

La **baja correlación** entre modelos es la clave, los modelos no correlacionados pueden producir predicciones en conjunto que son más precisas que cualquiera de las predicciones individuales.

La razón de este efecto es que los árboles se "protegen" entre sí de sus errores individuales (siempre y cuando no se equivoquen constantemente en la misma dirección).

Si bien algunos árboles pueden retornar predicciones erróneas, muchos otros árboles retornaran predicciones correctas, por lo que, como grupo, los árboles pueden retornar predicciones "mas acertadas".

_**Documentación:** https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html_

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import datasets

# Normalizacion
from sklearn.preprocessing import MinMaxScaler

# Train, Test
from sklearn.model_selection import train_test_split

# Metricas
from sklearn.metrics import jaccard_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

In [2]:
iris = datasets.load_iris()
X = iris.data
y = iris.target

### Procesamiento

In [3]:
# Normalización de datos

x_scaler = MinMaxScaler()
X = x_scaler.fit_transform(X)

X

array([[0.22222222, 0.625     , 0.06779661, 0.04166667],
       [0.16666667, 0.41666667, 0.06779661, 0.04166667],
       [0.11111111, 0.5       , 0.05084746, 0.04166667],
       [0.08333333, 0.45833333, 0.08474576, 0.04166667],
       [0.19444444, 0.66666667, 0.06779661, 0.04166667],
       [0.30555556, 0.79166667, 0.11864407, 0.125     ],
       [0.08333333, 0.58333333, 0.06779661, 0.08333333],
       [0.19444444, 0.58333333, 0.08474576, 0.04166667],
       [0.02777778, 0.375     , 0.06779661, 0.04166667],
       [0.16666667, 0.45833333, 0.08474576, 0.        ],
       [0.30555556, 0.70833333, 0.08474576, 0.04166667],
       [0.13888889, 0.58333333, 0.10169492, 0.04166667],
       [0.13888889, 0.41666667, 0.06779661, 0.        ],
       [0.        , 0.41666667, 0.01694915, 0.        ],
       [0.41666667, 0.83333333, 0.03389831, 0.04166667],
       [0.38888889, 1.        , 0.08474576, 0.125     ],
       [0.30555556, 0.79166667, 0.05084746, 0.125     ],
       [0.22222222, 0.625     ,

### Train, Test

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape},  y_test: {y_test.shape}")

X_train: (105, 4), y_train: (105,)
X_test: (45, 4),  y_test: (45,)


### Modelo

In [5]:
from sklearn.ensemble import RandomForestClassifier

In [6]:
model = RandomForestClassifier()
model.fit(X_train, y_train)

### Predicciones

In [7]:
yhat = model.predict(X_test)

yhat

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0, 0, 0, 1, 0, 0, 2, 1, 0, 0, 0, 2, 1, 1, 0,
       0])

In [8]:
print("Jaccard Index:", jaccard_score(y_test, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y_test, yhat))
print("Precisión:"    , precision_score(y_test, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y_test, yhat, average = "macro"))
print("F1-score:"     , f1_score(y_test, yhat, average = "macro"))

Jaccard Index: 1.0
Accuracy: 1.0
Precisión: 1.0
Sensibilidad: 1.0
F1-score: 1.0


### Confusion Matrix

In [9]:
confusion_matrix(y_test, yhat, labels = [0, 1, 2])

array([[19,  0,  0],
       [ 0, 13,  0],
       [ 0,  0, 13]], dtype=int64)

### Classification Report

In [10]:
print(classification_report(y_test, yhat, digits = 3))

              precision    recall  f1-score   support

           0      1.000     1.000     1.000        19
           1      1.000     1.000     1.000        13
           2      1.000     1.000     1.000        13

    accuracy                          1.000        45
   macro avg      1.000     1.000     1.000        45
weighted avg      1.000     1.000     1.000        45



### Atributos y Métodos

In [11]:
# .predict_proba()

model.predict_proba(X_test)

array([[0.  , 0.98, 0.02],
       [0.93, 0.07, 0.  ],
       [0.  , 0.  , 1.  ],
       [0.  , 0.96, 0.04],
       [0.  , 0.83, 0.17],
       [1.  , 0.  , 0.  ],
       [0.  , 1.  , 0.  ],
       [0.  , 0.05, 0.95],
       [0.  , 0.85, 0.15],
       [0.  , 1.  , 0.  ],
       [0.  , 0.05, 0.95],
       [1.  , 0.  , 0.  ],
       [0.95, 0.05, 0.  ],
       [1.  , 0.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.01, 0.92, 0.07],
       [0.  , 0.  , 1.  ],
       [0.  , 1.  , 0.  ],
       [0.  , 0.99, 0.01],
       [0.  , 0.  , 1.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 0.09, 0.91],
       [1.  , 0.  , 0.  ],
       [0.  , 0.  , 1.  ],
       [0.  , 0.01, 0.99],
       [0.  , 0.04, 0.96],
       [0.  , 0.06, 0.94],
       [0.  , 0.  , 1.  ],
       [1.  , 0.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.94, 0.06, 0.  ],
       [0.  , 1.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [1.  , 0.  , 0.  ],
       [0.  , 0.09, 0.91],
       [0.  , 0.99, 0.01],
 

In [12]:
# .feature_importances_ es un atributo que retorna un array con las importancias de cada columna
# En este caso como entrenamos con 4 columnas tenemos un array de 4 elementos.

model.feature_importances_

array([0.09893526, 0.04545857, 0.4146899 , 0.44091627])

In [13]:
# Bucle "columna" vs "importancia"

for col, imp in zip(iris.feature_names, model.feature_importances_):
    print(f"Columna: {col} Importancia: {imp}")

Columna: sepal length (cm) Importancia: 0.09893525995335926
Columna: sepal width (cm) Importancia: 0.045458567908905866
Columna: petal length (cm) Importancia: 0.4146899029922045
Columna: petal width (cm) Importancia: 0.4409162691455304


In [14]:
# Parametros del Modelo, definidos por defecto

print(f"n_estimators: {model.n_estimators}")
print(f"criterion: {model.criterion}")
print(f"max_depth: {model.max_depth}")
print(f"min_samples_split: {model.min_samples_split}")
print(f"min_samples_leaf: {model.min_samples_leaf}")
print(f"min_weight_fraction_leaf: {model.min_weight_fraction_leaf}")
print(f"max_features: {model.max_features}")
print(f"bootstrap: {model.bootstrap}")
print(f"random_state: {model.random_state}")
print(f"max_leaf_nodes: {model.max_leaf_nodes}")
print(f"min_impurity_decrease: {model.min_impurity_decrease}")
print(f"class_weight: {model.class_weight}")
print(f"ccp_alpha: {model.ccp_alpha}")

# Tiene los mismos que DecisionTreeClassifier, a excepción del parametro "splitter"

n_estimators: 100
criterion: gini
max_depth: None
min_samples_split: 2
min_samples_leaf: 1
min_weight_fraction_leaf: 0.0
max_features: sqrt
bootstrap: True
random_state: None
max_leaf_nodes: None
min_impurity_decrease: 0.0
class_weight: None
ccp_alpha: 0.0


In [15]:
# .get_params() retorna un diccionario con los parametros del modelo

model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

In [16]:
print(f"Estimador Base: {model.base_estimator}")

print("*"*100)

for num, estimador in enumerate(model.estimators_):
    print(f"Estimador {num}: {estimador}")
    
print(f"Numero de estimadores: {len(model.estimators_)}")

Estimador Base: DecisionTreeClassifier()
****************************************************************************************************
Estimador 0: DecisionTreeClassifier(max_features='sqrt', random_state=785226945)
Estimador 1: DecisionTreeClassifier(max_features='sqrt', random_state=785955005)
Estimador 2: DecisionTreeClassifier(max_features='sqrt', random_state=977291961)
Estimador 3: DecisionTreeClassifier(max_features='sqrt', random_state=824520341)
Estimador 4: DecisionTreeClassifier(max_features='sqrt', random_state=1700765959)
Estimador 5: DecisionTreeClassifier(max_features='sqrt', random_state=610351417)
Estimador 6: DecisionTreeClassifier(max_features='sqrt', random_state=173486084)
Estimador 7: DecisionTreeClassifier(max_features='sqrt', random_state=884297177)
Estimador 8: DecisionTreeClassifier(max_features='sqrt', random_state=1659006815)
Estimador 9: DecisionTreeClassifier(max_features='sqrt', random_state=765457547)
Estimador 10: DecisionTreeClassifier(max_featu

### Parámetros del Modelo (Tuning)

#### Parametros de RandomForestClassifier()

- **`n_estimators`**: int, **`default`** = 100
    - Numero de arboles creados para generar el bosque.

___

- **`criterion`**: {"gini", "entropy"}, **default** = "gini"
    - Es la función para medir la calidad de una división/split. Los criterios admitidos son "gini" para la impureza de Gini y "entropía" para la ganancia de información.

___

- **`max_depth`**: int, **default** = None
    - La profundidad máxima del árbol. Si es **None** los nodos se expanden hasta que todas las hojas sean puras o hasta que todas las hojas contengan menos de **`min_samples_split`** elementos.
        
___

- **`min_samples_split`**: int or float, **default** = 2
    - El número mínimo de muestras requeridas para dividir un nodo interno.
    - Si es int, considera **`min_samples_split`** como el número mínimo.
    - Si es float, entonces **`min_samples_split`** es una fracción y **`ceil(min_samples_split * n_samples)`** es el número mínimo de muestras para cada división/split.
        
___

- **`min_samples_leaf`**: int or float, **`default`** = 1
    - El número mínimo de muestras requeridas para llegar a nodo hoja. Es un punto de división a cualquier profundidad del arbol  solo se considerará si deja al menos **`min_samples_leaf`** muestras de entrenamiento en cada una de las ramas izquierda y derecha.
    - Si es int, considera **`min_samples_leaf`** como el número mínimo.
    - Si es float, entonces **`min_samples_split`** es una fracción y **`ceil(min_samples_leaf * n_samples)`** es el número mínimo de muestras para cada nodo.
        
___

- **`min_weight_fraction_leaf`**: float, **`default`** = 0.0
    - La fracción ponderada mínima de la suma total de pesos (de todas las muestras de entrada) requerida para estar en un nodo hoja. Las muestras tienen el mismo peso cuando no se proporciona **`sample_weight`**.
            
___

- **`max_features`**: int, float or {"auto", "sqrt", "log2"}, **`default`** = None

    - El número de características (atributos) a considerar al buscar la mejor división:
    - Si es int, considera las funciones **`max_features`** en cada división.
    - Si es float, **`max_features`** es una fracción y se consideran **`int(max_features * n_features)`** características (atributos) en cada división.
    - Si es "auto", entonces **`max_features = sqrt(n_features)`**.
    - Si es "sqrt", entonces **`max_features = sqrt(n_features)`**.
    - Si es "log2", entonces **`max_features = log2(n_features)`**.
    - Si None, entonces **`max_features = n_features`**.
  
___

- **`random_state`**: int, **`default`** = None
    - Controla la aleatoriedad del estimador. Las características (atributos) siempre se permutan aleatoriamente en cada división, incluso si el divisor está configurado como "best".
    - Cuando **`max_features < n_features`**, el algoritmo seleccionará **`max_features`** al azar en cada división antes de encontrar la mejor división entre ellas. Pero la división mejor encontrada puede variar entre diferentes ejecuciones, incluso si **`max_features = n_features`**.
    - Ese es el caso, si la mejora del criterio es idéntica para varias divisiones y una división debe seleccionarse al azar.
    - Para obtener un comportamiento determinista durante el ajuste, **`random_state`** debe fijarse en un número entero.
  
___

- **`max_leaf_nodes`**: int, **`default`** = None
    - Este parámetro hace "crecer" el árbol ya que aumenta el número de nodos hoja.
    - Se define como "mejor nodo" como una reducción relativa de la impureza.
    - Si es None, entonces el modelo tendrá un número ilimitado de nodos hoja.
      
___

- **`min_impurity_decrease`**: float, **`default`** = 0.0
    - Un nodo se dividirá si esta división induce una disminución de la impureza mayor o igual a este valor.
         
___

- **`bootstrap`**: bool, **`default`** = True
    - Si se utiliza "bootstrap" al construir árboles.
    - Si es False, se usa todo el conjunto de datos para construir cada árbol.
         
___

- **`n_jobs`**: int, **`default`** = None
    - El número de "trabajos" a ejecutar en paralelo. **`fit`**, **`predict`**, **`decision_path`** y **`apply`** están paralelizados sobre los árboles.
    - None significa 1 procesador para trabajo en paralelo.
    - -1 significa usar todos los procesadores.
             
___


- **`class_weight`**: dict, list of dict or "balanced", **`default`** = None
    - Pesos asociados a cada clases en la forma **`{class_label : weight}`**.
    - Si es None, se supone que todas las clases tienen peso uno.
    - Para problemas de clasificación múltiple, se puede proporcionar una lista de diccionarios en el mismo orden que la columna y.
     
___

- **`ccp_alpha`**: non-negative float, **`default`** = 0.0
    - Parámetro de complejidad utilizado para **Minimal Cost-Complexity Pruning**.
    - Se elegirá el subárbol con la mayor complejidad de costos que sea menor que **`ccp_alpha`**. De forma predeterminada, no se realiza ninguna poda.

In [17]:
# Dataset del titanic preprocesado en clase

titanic = pd.read_csv("../Data/titanic_preprocesamiento.csv")

X = titanic.drop(["Fare-Binning", "Age-Binning", "Survived"], axis = 1)
y = titanic["Survived"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"X_test: {X_test.shape},  y_test: {y_test.shape}")

X_train: (621, 11), y_train: (621,)
X_test: (267, 11),  y_test: (267,)


In [31]:
# Prueba con RandomForestClassifier() con parámetros por defecto

model = RandomForestClassifier()

# Entrenamiento
model.fit(X_train, y_train)

# Predicciones
yhat_train = model.predict(X_train)
yhat = model.predict(X_test)

# Métricas
print("Jaccard Index Train:", jaccard_score(y_train, yhat_train, average = "macro"))
print("Accuracy Train:"     , accuracy_score(y_train, yhat_train))
print("Precisión Train:"    , precision_score(y_train, yhat_train, average = "macro"))
print("Sensibilidad Train:" , recall_score(y_train, yhat_train, average = "macro"))
print("F1-score Train:"     , f1_score(y_train, yhat_train, average = "macro"))
print("ROC AUC Train:"      , roc_auc_score(y_train, yhat_train))
print("---------------------------------------------------------------------------")
print("Jaccard Index:", jaccard_score(y_test, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y_test, yhat))
print("Precisión:"    , precision_score(y_test, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y_test, yhat, average = "macro"))
print("F1-score:"     , f1_score(y_test, yhat, average = "macro"))
print("ROC AUC:"      , roc_auc_score(y_test, yhat))

Jaccard Index Train: 0.9760754092650645
Accuracy Train: 0.9887278582930756
Precisión Train: 0.9911616161616161
Sensibilidad Train: 0.9849137931034483
F1-score Train: 0.987882757947846
ROC AUC Train: 0.9849137931034483
---------------------------------------------------------------------------
Jaccard Index: 0.6619136960600376
Accuracy: 0.8089887640449438
Precisión: 0.8113255459624176
Sensibilidad: 0.7864485981308411
F1-score: 0.7940095302927161
ROC AUC: 0.7864485981308411


In [22]:
model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'sqrt',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

In [30]:
# Prueba con DecisionTreeClassifier() usando diferentes parámetros

model = RandomForestClassifier(n_estimators = 200, criterion = "entropy",
                               max_depth = 20, min_samples_split = 15, min_samples_leaf = 8,
                               max_features = "sqrt", random_state = 42, max_leaf_nodes = 40, bootstrap=False)
# Entrenamiento
model.fit(X_train, y_train)

# Predicciones
yhat_train = model.predict(X_train)
yhat = model.predict(X_test)

# Métricas
print("Jaccard Index Train:", jaccard_score(y_train, yhat_train, average = "macro"))
print("Accuracy Train:"     , accuracy_score(y_train, yhat_train))
print("Precisión Train:"    , precision_score(y_train, yhat_train, average = "macro"))
print("Sensibilidad Train:" , recall_score(y_train, yhat_train, average = "macro"))
print("F1-score Train:"     , f1_score(y_train, yhat_train, average = "macro"))
print("ROC AUC Train:"      , roc_auc_score(y_train, yhat_train))
print("---------------------------------------------------------------------------")
print("Jaccard Index:", jaccard_score(y_test, yhat, average = "macro"))
print("Accuracy:"     , accuracy_score(y_test, yhat))
print("Precisión:"    , precision_score(y_test, yhat, average = "macro"))
print("Sensibilidad:" , recall_score(y_test, yhat, average = "macro"))
print("F1-score:"     , f1_score(y_test, yhat, average = "macro"))
print("ROC AUC:"      , roc_auc_score(y_test, yhat))

Jaccard Index Train: 0.7324588455023238
Accuracy Train: 0.8599033816425121
Precisión Train: 0.8678134010202321
Sensibilidad Train: 0.8307663327719175
F1-score Train: 0.8433259772008224
ROC AUC Train: 0.8307663327719175
---------------------------------------------------------------------------
Jaccard Index: 0.6779415523557979
Accuracy: 0.8202247191011236
Precisión: 0.825095785440613
Sensibilidad: 0.7973714953271027
F1-score: 0.8057004244996968
ROC AUC: 0.7973714953271027


**Ventajas:**
- Es capaz de dar buenos resultados sin ajuste de parámetros.
- Al utilizar múltiples árboles se reduce considerablemente el riesgo de overfitting.
- Se mantiene estable con nuevas muestras puesto que al utilizar cientos de árboles sigue prevaleciendo la moda de sus votaciones.


**Deventajas:**
- En algunos casos el clasificador Random Forest también puede caer en overfitting.
- Es mucho más "costo" de crear y ejecutar que un solo DecisionTree.
- Puede requerir mucho tiempo de entrenamiento
- Random Forest no funciona bien con datasets pequeños.
- Es muy difícil poder interpretar los cientos de árboles creados en el bosque, si quisiéramos comprender y explicar su comportamiento.

In [None]:
################################################################################################################################