## Clasificación con Árboles de Decisión y Bosques Aleatorios

En este proyecto, vamos a usar dos técnicas de aprendizaje automático: 

    1. Árboles de Decisión
    2. Bosques Aleatorios
    
Vamos a usar estos modelos para clasificar datos, evaluar su rendimiento y analizar la importancia de las características en el dataset de Iris.

## Objetivos

    - Implementar y ajustar modelos de Árboles de Decisión y Bosques Aleatorios utilizando 'scikit-learn'.
    - Visualizar y comprender la estructura de los Árboles de Decisión.
    - Evaluar el rendimiento de los modelos mediante métricas como la matriz de confusión y el informe de clasificación.
    - Analizar la importancia de las características par cada modelo.
    - Comparar el desempeño de los modelos en términos de precisión y generalización.

### 1. Importar las librerías y cargar los datos

Importamos librerias necesarias para la manipulacion de datos (numpy, pandas), para la visualización (matplotlib, seaborn) y para machine learning (scikit-learn).

Luego cargamos el dataset de flores iris con 'load_iris'.

'data.data' (en la x), Contiene las características de longitud y ancho de sépalos y pétalos.

'data.target' (en la y), tiene las etiquetas 0, 1, 2 que corresponden a especies de iris.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [None]:
# Cargar dataset de Iris
data = load_iris()
X = data.data
y = data.target

### 2. Dividir el conjunto en entrenamiento y prueba

Aqui estamos dividiendo los datos, el 80% va para entrenamiento y el 20% lo reservamos para las pruebas.

Hemos usado 'stratify=y' para mantener la proporción de clases en ambos conjuntos.

Luego, hemos usado 'random_state=42' para asegurar que los resultados sean reproducibles.

Y para verificar la distribución de clases, se cuentan cuántos ejemplos hay de cada clase en el conjuno de entrenamiento para verificar que la división se ha hecho de forma balanceada.

In [None]:
# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Verificar distribución de clases
unique, counts = np.unique(y_train, return_counts=True)
print("Distribución de clases en el conjunto de entrenamiento:", dict(zip(unique, counts)))

### 3. Entrenamineto del Árbol de Decisión con ajuste de hiperparámetros

Aquí definimos la profundidad del arbol (max_depth), y luego el número mínimo de muestras necesarias para dividir un nodo (min_samples_split).

Para buscar la mejor combinación de hiperparámetros probando la con la validación cruzada (cv=5) hemos usado 'GridSearchCV'.

Obtenemos el mejor modelo encontrado por 'GridSearchCV' y se usa para hacer las predicciones.

In [None]:
# 1. Modelo de Árbol de Decisión con ajuste de hiperparámetros
param_grid_dt = {"max_depth": [3, 5, 10, None], "min_samples_split": [2, 5, 10]}
grid_dt = GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid_dt, cv=5)
grid_dt.fit(X_train, y_train)

dt_best = grid_dt.best_estimator_
y_pred_dt = dt_best.predict(X_test)


### 4. Evaluación del Árbol de Decisión

Se muestra los mejores hiperparámetros encontrados.

Se calcula la precisión del modelo.

Se muestra la matriz de confusión (compara las predicciones y los valores reales).

Se genera un informe de clasificación con precisión, recall y F1-score para cada clase.

In [None]:
print("\nMejor configuración para Árbol de Decisión:", grid_dt.best_params_)
print("\nEvaluación del Árbol de Decisión:")
print("Precisión:", accuracy_score(y_test, y_pred_dt))
print("Matriz de Confusión:\n", confusion_matrix(y_test, y_pred_dt))
print("Informe de Clasificación:\n", classification_report(y_test, y_pred_dt))

### 5. Visualización del Árbol de Decisión

Esto dibuja el arbol de decisión que hemos entrenado, mostrando los nodos y reglas de decisión.

'feature_names=data.feature_names': Etiqueta las características (longitud y ancho de sépalos y pétalos).

'class_names=data.target_names': Etiqueta las clases de iris.

'filled=True': Colorea los nodos según la clase predominante

In [None]:
# Visualizar el árbol
plt.figure(figsize=(12, 6))
plot_tree(dt_best, feature_names=data.feature_names, class_names=data.target_names, filled=True)
plt.show()

### 6. Entrenamiento del Bosque Aleatorio con ajuste de hiperparámetros


In [None]:
# 2. Modelo de Bosque Aleatorio con ajuste de hiperparámetros
param_grid_rf = {"n_estimators": [50, 100, 200], "max_depth": [3, 5, 10, None], "min_samples_split": [2, 5, 10]}
grid_rf = GridSearchCV(RandomForestClassifier(random_state=42), param_grid_rf, cv=5)
grid_rf.fit(X_train, y_train)

rf_best = grid_rf.best_estimator_
y_pred_rf = rf_best.predict(X_test)


### 7. Evaluación del Bosque Aleatorio

In [None]:
print("\nMejor configuración para Random Forest:", grid_rf.best_params_)
print("\nEvaluación del Bosque Aleatorio:")
print("Precisión:", accuracy_score(y_test, y_pred_rf))
print("Matriz de Confusión:\n", confusion_matrix(y_test, y_pred_rf))
print("Informe de Clasificación:\n", classification_report(y_test, y_pred_rf))

### 8. Análisis de la importancia de características en Random Forest

'rf_best.feature_importances_': Obtiene la importancia de cada característica en la predicción.

Se representa la importancia de cada característica con un gráfico de barras.

In [None]:
# Importancia de características
feature_importances = rf_best.feature_importances_
sns.barplot(x=feature_importances, y=data.feature_names)
plt.xlabel("Importancia")
plt.ylabel("Características")
plt.title("Importancia de Características en Random Forest")
plt.show()

### 9. Conclusiones

1. Desempeño de los modelos

El Bosque Aleatorio ha tenido una mejor precisión en comparación con el Árbol de Decisión, esto nos indica que la combinación de múltiples árboles mejora la capacidad de generalización del modelo.
La matriz de confusión y el informe de clasificación nos muestra que el Bosque Aleatorio tiene menos errores de clasificación que el Árbol de Decisión.

2. Importancia de las características

El análisis de la importancia de las características en el Bosque Aleatorio nos revela qué variables influyen más en la predicción.
En este caso, algunas de las características del dataset de Iris tienen mayor peso en la clasificación, esto permite entender mejor qué factores son clave en la toma de decisiones del modelo.

3. Interpretable vs. Preciso

El Árbol de Decisión es más fácil de interpretar y visualizar, esto es útil para entender el proceso de decisión del modelo.
El Bosque Aleatorio, aunque es menos sencillo de interpretar, nos da mejores resultados en cuanto a precisión y robustez, porque reduce el sobreajuste al promediar múltiples árboles.

4.Recomendaciones finales

Si el objetivo es una interpretación clara de las decisiones del modelo, el Árbol de Decisión es una buena opción.
Si se busca un mejor desempeño en términos de precisión y generalización, el Bosque Aleatorio es la mejor elección.