### **Random Forest**

---

Random Forest es un **algoritmo de aprendizaje automático** de uso común, registrado por Leo Breiman y Adele Cutler, que combina el resultado de múltiples árboles de decisión para llegar a un resultado único. Su facilidad de uso y flexibilidad han impulsado su adopción, ya que maneja problemas de clasificación y regresión. [1]
\
\
Pero, ¿qué son los árboles de decisión? Son estructuras algorítmicas que se inician con una pregunta. A partir de ahí, pueden subdividirse en una secuencia de preguntas para determinar una respuesta de tipo binario.
\
\
Estas preguntas constituyen los nodos de decisión en el árbol, que funcionan como un medio para dividir los datos. Cada pregunta ayuda a determinar una decisión final denominada "nodo hoja" o "leaf node".
\
\
Con el objetivo de profundizar en el entendimiento de los conceptos matemáticos, estadísticos, probabilísticos, computacionales y de programación que subyacen al algoritmo de Random Forest, he asumido la enorme empresa de programarlo desde sus cimientos hasta su puesta en funcionamiento, para finalmente comparar su rendimiento con lo ofrecido por una de las librerías más populares de Machine Learning: Scikit-learn.
\
\
[1] IBM, _"¿Qué es el Random Forest?"_ [Online]. Available: https://www.ibm.com/mx-es/topics/random-forest. [Accessed: 28-Feb-2025].


#### **TreeNode:** el átomo de los Árboles de Decisión.

---

Los Árboles de Decisión son un tipo de algoritmo de aprendizaje supervisado no paramétrico. Están compuestos por una estructura jerárquica de árbol, que consta de un nodo raíz, ramas, nodos internos y nodos hoja. [2]

Los nodos representan el punto de decisión en donde el algoritmo debe optar por un camino. El **nodo raíz** es el subconjunto de datos inicial. Los **nodos internos** de decisión son aquellos estadios intermedios que permiten ramificar aún más la toma de decisiones. Finalmente, cuando el algoritmo obtiene un valor de predicción y detiene la división del subconjunto de datos, se lo considera un **nodo hoja**.

**TreeNode** es la clase que abstrae las características de los nodos y nos permite instanciar los distintos tipos. Los parámetros contenidos son:

-   **feature_index:** índice de la variable utilizada para dividir el nodo.
-   **threshold:** valor umbral para la división.
-   **left:** nodo hijo izquierdo.
-   **right:** nodo hijo derecho.
-   **value:** valor predictorio para los nodos hoja.

[2] IBM, "¿Qué es un árbol de decisión?" [Online]. Available: https://www.ibm.com/es-es/think/topics/decision-trees. [Accessed: 28-Feb-2025].


In [None]:
from TreeNode import TreeNode

In [2]:
leaf_node = TreeNode()

In [3]:
internal_node = TreeNode(feature_index=2, threshold=3.5, left=leaf_node, right=None)

In [4]:
print("Nodo hoja: ", leaf_node.__dict__)
print("Nodo interno: ", internal_node.__dict__)

Nodo hoja:  {'feature_index': None, 'threshold': None, 'left': None, 'right': None, 'value': None}
Nodo interno:  {'feature_index': 2, 'threshold': 3.5, 'left': <TreeNode.TreeNode object at 0x000001ADFC8CD310>, 'right': None, 'value': None}


### **Mecanismos de decisión**

---

La entropía es una métrica que nos permite calcular la impureza de un conjunto de datos es decir, su grado de desorden o incertidumbre. Existe otra métrica muy utilizada en los algoritmos de Random Forest; la medida de Gini. Sin embargo, para este ejercicio práctico usaremos la entropía como mecanismo de decisión.
\
\
Basándonos en la naturaleza del problema a resolver de este proyecto, simulemos un ejemplo. Tenemos cuatro escenarios:
\
\
Escenario 1: 5 emails son spam y otros 5 emails no lo son.
\
Escenario 2: 7 emails son spam y otros 3 emails no lo son.
\
Escenario 3: 9 emails son spam y otros 1 emails no lo son.
\
Escenario 4: los 10 emails son spam.


In [5]:
import numpy as np
from entropy import entropy

In [6]:
# Emails spam -> 1
# Emails no spam -> 0
scenary_one = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])
scenary_two = np.array([1, 1, 1, 1, 1, 1, 1, 0, 0, 0])
scenary_three = np.array([1, 1, 1, 1, 1, 1, 1, 1, 1, 0])
scenary_four = np.array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

La ecuación de la entropía total de un sistema (o conjunto de datos en nuestro caso) viene dada por:

$$
H(x) = - \sum_{x=0}^{n} p(x) \log_2(p(x))
$$


In [7]:
print("Entropy scenary one: ", entropy(scenary_one))
print("Entropy scenary two: ", entropy(scenary_two))
print("Entropy scenary three: ", entropy(scenary_three))
print("Entropy scenary four: ", entropy(scenary_four))

Entropy scenary one:  1.0
Entropy scenary two:  0.8812908992306927
Entropy scenary three:  0.4689955935892812
Entropy scenary four:  -0.0
