# Arboles de decision
Los árboles de decisión son modelos de aprendizaje supervisado utilizados tanto para clasificación como para regresión. Su estructura se asemeja a un árbol, donde cada nodo interno representa una prueba sobre un atributo, cada rama representa el resultado de la prueba y cada hoja representa una clase o valor de predicción.

El algoritmo básico para construir un árbol de decisión consiste en seleccionar el atributo que mejor separa los datos según una medida de pureza (como la entropía o el índice de Gini), dividir el conjunto de datos en subconjuntos basados en ese atributo y repetir el proceso recursivamente para cada subconjunto. El proceso termina cuando los datos en un nodo son suficientemente puros o no se pueden realizar más divisiones.

Los árboles de decisión son fáciles de interpretar y visualizar, pero pueden ser propensos al sobreajuste si no se podan adecuadamente.

* Aprendizaje Supervisado
* Aprendizaje basado en modelos
* Son clasificadores no lineales. Al contrario de la regresion logistica o algoritmo SVM , no construye los limites de decision con lineas y planos rectos
* Permiten la prediccion de valores continuos (regresion) y valores discretos (clasificacion)
* Determina si un vector determinado pertenece a una clase o a otra estableciendo un conjunto de reglas de decision "if-then else" que terminan en la prediccion de una clase concreta

## Qué es un arbol de decision
$
(x_1^1,x_2^1,y^1),...,(x_1^m,x_2^m,y^m)\\
y = {0,1,2}
$
Se cuentan la cantidad de ejemplos, despues si se dividen por la categoria se tiene una clasificacion y con ello armar un modelo que clasifique los limites. Para lo que si yo divido en dos subconjuntos, un conjunto tendra todos los de un subconjunto y el otro el de los otros 2 subconjuntos, entonces claramente no se puede aun clasificar y por lo tanto se sigue subdividiendo para quedar subconjuntos por clases unicas.

![arbol ejemplo](Images/arboleje.png)

## Gini Impurity
El problema del estilo que vimos anteriormente es que entra en una clasificacion cerrada que puede sesgar el entrenamiento.

La impureza de Gini es una métrica utilizada para medir la pureza de un conjunto de datos en los nodos de un árbol de decisión. Se calcula como la probabilidad de clasificar incorrectamente un elemento seleccionado al azar si se asigna una etiqueta según la distribución de clases en el nodo.

Matemáticamente, para un nodo con $K$ clases, la impureza de Gini se define como:

$$
Gini = 1 - \sum_{k=1}^{K} p_k^2
$$

donde $p_k$ es la proporción de elementos de la clase $k$ en el nodo. Un valor de Gini bajo indica que el nodo es más puro (predominan los elementos de una sola clase), mientras que un valor alto indica mayor mezcla de clases. El algoritmo busca divisiones que minimicen la impureza de Gini en los nodos hijos.

![Gini ejemplo](Images/ginieje.png)

### ARBOL DECISION | ENTRENAMIENTO ALGORITMO
#### *ENTRENAMIENTO I*
1. **Selección de la característica (split variable):**  
    * Se examinan todas las variables independientes del conjunto de datos $(x_1, x_2, ..., x_n)$ para identificar cuál de ellas permite separar mejor las clases objetivo $(y)$.  
    * La selección se basa en una métrica de pureza, como la impureza de Gini, que cuantifica qué tan homogéneos son los grupos resultantes tras una posible división.

2. **Determinación del valor de división (split value):**  
    * Para la característica seleccionada, se consideran todos los valores posibles como candidatos para dividir el conjunto de datos.  
    * El valor óptimo de división es aquel que genera los subconjuntos más puros, es decir, que maximiza la separación entre las clases.

3. **Creación de nodos hijos:**  
    * El conjunto de datos se divide en dos subconjuntos según el valor de división elegido, creando dos nodos hijos en el árbol.  
    * Cada nodo hijo representa una rama que contiene los datos que cumplen o no cumplen la condición de la división.

4. **Evaluación de la división con la métrica de pureza:**  
    * Se calcula la impureza de Gini (u otra métrica) en cada nodo hijo para medir la calidad de la división.  
    * Una división efectiva produce nodos con baja impureza, es decir, con predominancia de una sola clase.

5. **Repetición del proceso:**  
    * Si algún nodo hijo aún contiene una mezcla significativa de clases, se repite el proceso de selección de característica y valor de división sobre ese nodo.  
    * El procedimiento es recursivo y continúa hasta que los nodos sean suficientemente puros o se alcance un criterio de parada (como un número mínimo de muestras o profundidad máxima).

#### *ENTRENAMIENTO II*
1. **Exploración de combinaciones:**  
    * El árbol analiza todas las posibles combinaciones de características y valores de división en cada nodo, buscando la opción que genere los subconjuntos más puros según la métrica seleccionada (por ejemplo, impureza de Gini).

2. **Construcción recursiva del árbol:**  
    * Para cada nodo hijo creado, se repite el proceso de selección de característica y valor de división, profundizando en el árbol de manera recursiva.  
    * Este procedimiento continúa hasta que se cumple algún criterio de parada, como alcanzar nodos completamente puros, un número mínimo de muestras por nodo, o una profundidad máxima del árbol.

3. **Poda del árbol (opcional):**  
    * Una vez construido el árbol completo, se pueden eliminar (podar) ramas que no aportan valor predictivo significativo.  
    * La poda ayuda a reducir la complejidad del modelo y a evitar el sobreajuste, manteniendo únicamente las divisiones que mejoran la capacidad de generalización del árbol.


## Classification and Regression Tree (CART)
El algoritmo CART (Classification and Regression Tree) es una técnica fundamental para construir árboles de decisión tanto en tareas de clasificación como de regresión.

- **Clasificación:** En problemas de clasificación, el árbol divide el espacio de características en regiones homogéneas respecto a la variable objetivo (clase). Cada hoja del árbol representa una clase y la predicción se realiza asignando la clase mayoritaria de los ejemplos que caen en esa hoja.

- **Regresión:** En problemas de regresión, el árbol divide el espacio de características en regiones donde la variable objetivo es continua. Cada hoja del árbol predice el valor promedio de los ejemplos que llegan a esa hoja.

CART utiliza métricas como la impureza de Gini para clasificación y el error cuadrático medio para regresión, buscando en cada división maximizar la pureza o minimizar el error. El resultado es un modelo interpretable que puede visualizarse como un conjunto de reglas de decisión secuenciales.

Recordando la ecuacion de gini:
$$
Gini = 1 - \sum_{k=1}^{K} p_k^2
$$

Con lo que la funcion de costo es:
$$
J(k,t_k)=\frac{m_izq}{m_total}*G_izq + \frac{m_der}{m_total}*G_der
$$

m es el numero de ejemplos de datos de entrenamiento. Entonces lo que hace es una suma ponderada.

Los arboles de decision son capaces de hacer tareas de clasificacion, pero tambien de regresion.

$$
MSE = \sum_{i=1}^{n_{node}} (\hat{y}_{node}-y^{i})^2\\
\hat{y}_{node} = \frac{1}{m_{node}} \sum_{i=0}^{m_{node}} y^{i}
$$



## Limitaciones de los arboles de decision
* La versión implementada en Scikit-learn puede producir árboles de decisión complejos que producen `Overfitting` sobre el conjunto de datos
* La implementación del algoritmo, se basa en la `obtención de óptimos locales` entre el nodo padre y el nodo hijo. Como consecuencia, no hay manera de asegurar que el árbol a alcance una forma óptima global
* Los árboles de decisión `pueden ser inestables`. Una pequeña variación en el conjunto de datos puede producir que se genere un árbol completamente diferente
* Pueden `mitigarse gran parte de los efectos` de estas limitaciones si se utilizan conjuntos aleatorios de árboles que toman decisiones conjuntas `(Random Forest)`

### Overfiting
Los árboles de decisión también pueden producir Overfitting. Cuando existe un número elevado de características o de valores atípicos, es posible que el árbol de decisión genere un número muy elevado de ramas que desemboque en problemas para generalizar
* Aplicar un criterio de parada (hiperparámetros):
    * **max_depth**. Determina la cantidad máxima de ramas y hojas permitidas antes de que termine la construcción del árbol.
    * **min_samples_split**. Determina el número mínimo de muestras que un nodo debe poseer para ser elegible para una división.
    * **min_samples_leaf**. Determina el número mínimo de muestras necesarias para crear una hoja secundaria.
    * **max_leaf_nodes**. Determina cuántas hojas se pueden crear en total

```mermaid
graph TD
    A[#30 15,15] --> B[#15 14,1]
    A --> C[#15 1,14]
    B --> D[#14 14,0]
    B --> E[#14 0,14]
    D --> F[Clase 0]
    E --> G[Clase 1]
```

# Ensamble Learning y Random Forest

## Ensemble Learning

El aprendizaje por ensamble (Ensemble Learning) es una técnica que combina múltiples modelos para mejorar el rendimiento predictivo. En lugar de confiar en un solo modelo, se utilizan varios modelos para obtener una predicción más robusta y precisa. Las principales ventajas del ensemble learning incluyen:

- Reduce el sobreajuste (overfitting)
- Mejora la precisión y estabilidad de las predicciones
- Captura relaciones complejas que un solo modelo podría no detectar

Los métodos principales de ensemble learning son:

1. **Bagging**: Entrena varios modelos en diferentes subconjuntos de datos (muestreados con reemplazo) y promedia sus predicciones
2. **Boosting**: Entrena modelos secuencialmente, cada uno enfocándose en los errores del anterior
3. **Stacking**: Combina las predicciones de varios modelos usando otro modelo

## Random Forest

Random Forest es un algoritmo de ensemble learning basado en la técnica de bagging, que utiliza múltiples árboles de decisión para mejorar la precisión predictiva y controlar el sobreajuste.

### Características clave:

- **Construcción de múltiples árboles**: Crea un "bosque" de árboles de decisión, cada uno entrenado con un subconjunto aleatorio de datos
- **Selección aleatoria de características**: En cada nodo, considera solo un subconjunto aleatorio de características para la división
- **Votación mayoritaria**: Para clasificación, la clase más votada entre todos los árboles es la predicción final
- **Promedio**: Para regresión, el resultado es el promedio de las predicciones de todos los árboles

### Ventajas:

- Alta precisión incluso con datos de alta dimensionalidad
- Estima la importancia de cada variable en la clasificación
- Maneja eficientemente grandes conjuntos de datos
- Robusto frente a outliers y ruido
- Reduce significativamente el riesgo de overfitting

### Hiperparámetros importantes:

- `n_estimators`: Número de árboles en el bosque
- `max_features`: Número máximo de características consideradas en cada división
- `max_depth`: Profundidad máxima de los árboles
- `min_samples_split`: Mínimo de muestras para dividir un nodo
- `bootstrap`: Si usar o no muestreo con reemplazo

Random Forest representa una solución eficaz a las limitaciones de los árboles de decisión individuales, ofreciendo mayor estabilidad y capacidad de generalización.


# Ensamble Learning: Bagging y Pasting

## Bagging y Pasting: Métodos de Ensemble Learning

### Bagging (Bootstrap Aggregating)
Bagging es una técnica de ensemble learning que crea múltiples versiones del mismo modelo, entrenando cada uno con diferentes subconjuntos del conjunto de datos original, muestreados con reemplazo (bootstrap). Características principales:

- **Muestreo con reemplazo**: Cada subconjunto puede contener ejemplos duplicados
- **Entrenamiento paralelo**: Los modelos se entrenan independientemente
- **Agregación**: Las predicciones se combinan por votación (clasificación) o promedio (regresión)
- **Reduce la varianza**: Disminuye el riesgo de sobreajuste al promediar predicciones de múltiples modelos

### Pasting
Similar al bagging, pero el muestreo se realiza sin reemplazo. Cada subconjunto contiene ejemplos únicos del conjunto de datos original. Diferencias clave:

- **Muestreo sin reemplazo**: No hay duplicados en los subconjuntos
- **Mayor diversidad en los datos**: Cada modelo ve una parte diferente del conjunto de datos
- **Menor correlación entre modelos**: Potencialmente mejor cuando los datos contienen ruido

### Comparación
- Bagging suele funcionar mejor cuando los modelos base son complejos y tienen alta varianza
- Pasting puede ser preferible cuando se quiere minimizar el impacto de valores atípicos
- Ambos métodos se benefician de la paralelización, ya que los modelos son independientes

### Aplicación en Random Forest
Random Forest es una implementación de bagging aplicada a árboles de decisión, con la adición de selección aleatoria de características en cada nodo, lo que añade diversidad adicional entre los modelos del ensemble.

# Ensamble Learning: Random Forest

## Random Forest: Un poderoso método de ensemble learning

Random Forest es una técnica avanzada de ensemble learning que extiende el concepto de bagging aplicado específicamente a los árboles de decisión. Desarrollado por Leo Breiman en 2001, combina las predicciones de múltiples árboles de decisión para producir un modelo más preciso y estable.

### Funcionamiento del algoritmo

1. **Muestreo con reemplazo (bootstrap)**: Para cada árbol, se selecciona una muestra aleatoria del conjunto de datos original con reemplazo
   
2. **Selección aleatoria de características**: En cada nodo del árbol, solo se considera un subconjunto aleatorio de características para realizar la división
   
3. **Construcción completa de árboles**: Los árboles se desarrollan al máximo sin poda
   
4. **Agregación de resultados**: 
   - En clasificación: se utiliza votación mayoritaria
   - En regresión: se promedian las predicciones de todos los árboles

### Ventajas principales

- **Alta precisión**: Generalmente supera a los árboles individuales y muchos otros algoritmos
- **Robustez ante el ruido y los outliers**: El promediado reduce el impacto de datos anómalos
- **Estimación incorporada de importancia de variables**: Permite identificar qué características son más relevantes
- **Manejo efectivo de datos de alta dimensionalidad**
- **Capacidad para modelar interacciones complejas entre variables**
- **Menor tendencia al sobreajuste** en comparación con árboles individuales

### Consideraciones clave

- **Número de árboles (n_estimators)**: Más árboles generalmente mejoran el rendimiento hasta cierto punto
- **Profundidad de los árboles**: Árboles más profundos capturan relaciones más complejas pero pueden aumentar el riesgo de overfitting
- **Número de características consideradas (max_features)**: Afecta la diversidad entre los árboles
- **Tamaño mínimo de nodos (min_samples_split/min_samples_leaf)**: Controla el nivel de detalle del modelo

### Out-of-Bag (OOB) Evaluation

Una ventaja única de Random Forest es la evaluación OOB: como cada árbol se entrena con aproximadamente 2/3 de las muestras (debido al muestreo bootstrap), el tercio restante puede usarse como conjunto de validación natural para cada árbol, proporcionando una estimación interna del error de generalización.

# Ensamble Learning: Boosting y Stacking

## Boosting

Boosting es una técnica de ensemble learning secuencial donde cada modelo se entrena para corregir los errores de los modelos anteriores. A diferencia del bagging, los modelos se construyen de manera secuencial y cada nuevo modelo se enfoca en los ejemplos que fueron mal clasificados por los modelos anteriores.

### Características principales:
- **Aprendizaje secuencial**: Cada modelo aprende de los errores del anterior
- **Ponderación**: Se asignan pesos mayores a las observaciones mal clasificadas
- **Modelos débiles**: Utiliza "weak learners" (modelos simples) que juntos forman un modelo fuerte
- **Reduce el sesgo**: Efectivo para disminuir tanto el bias como la varianza

### Algoritmos populares:
1. **AdaBoost**: Ajusta los pesos de las observaciones según la precisión de clasificación
2. **Gradient Boosting**: Optimiza una función de pérdida mediante descenso de gradiente
3. **XGBoost**: Implementación optimizada de gradient boosting con regularización
4. **LightGBM**: Algoritmo de Microsoft optimizado para eficiencia y velocidad
5. **CatBoost**: Manejo eficiente de variables categóricas y menos overfitting

## Stacking

Stacking (o Stacked Generalization) es un método de ensemble learning que combina múltiples modelos de clasificación o regresión mediante un meta-modelo que aprende cómo integrar mejor las predicciones de los modelos base.

### Funcionamiento:
1. **Modelos base**: Se entrenan varios modelos heterogéneos (de diferentes tipos) en el mismo conjunto de datos
2. **Generación de meta-características**: Las predicciones de los modelos base se utilizan como características para el meta-modelo
3. **Meta-modelo**: Un modelo final que aprende la mejor manera de combinar las predicciones de los modelos base
4. **Validación cruzada**: Las predicciones para el meta-modelo suelen generarse mediante validación cruzada para evitar fugas de información

### Ventajas:
- **Aprovecha las fortalezas de diferentes algoritmos**
- **Mayor poder predictivo** que cualquiera de los modelos individuales
- **Flexibilidad**: Permite combinar cualquier tipo de modelo
- **Captura relaciones complejas** entre los patrones detectados por diferentes modelos

### Consideraciones:
- Requiere mayor tiempo de computación y complejidad
- Riesgo de sobreajuste si no se implementa correctamente
- La selección adecuada de los modelos base y el meta-modelo es crítica

El stacking es particularmente efectivo cuando los modelos base tienen diferentes fortalezas y debilidades, permitiendo que el meta-modelo aprenda cuándo confiar en cada uno de ellos.

