# Árboles Aleatoreos

Para este ejemplo se utiliza [el conjunto de datos de diabetes](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html#sklearn.datasets.load_diabetes) incluído en la librería Scikit-learn.

In [1]:
# Librerías requeridas
import numpy as np # Para realizar operaciones matemáticas y estadísticas
import pandas as pd
from sklearn.datasets import load_diabetes # Importa el conjunto de datos de diabetes
from sklearn.model_selection import train_test_split # Para crear conjuntos de entrenamiento y prueba
from sklearn.ensemble import RandomForestClassifier # Importa el algoritmo de áboles aleatoreos para clasificación.
from sklearn.metrics import classification_report, confusion_matrix # Librerías para evaluación del modelo

In [2]:
# Carga el conjunto de datos de diabetes
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

La variable objetivo en el conjunto de datos de diabetes es continua, lo que implica un problema de regresión.

Para usar un árbol de decisión para clasificación, necesitamos convertir esta variable en categórica; por ejemplo, podemos clasificar los niveles de glucosa en 'alto' y 'bajo' basándonos en la mediana.

In [3]:
# Datos originales
y[:10]

array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310.])

In [4]:
# Transforma los datos del nivel de glucosa de continuos a categorícos usando la mediana.
y_categorico = (y > np.median(y)).astype(int)

In [5]:
# Datos categóricos
y_categorico[:10]

array([1, 0, 1, 1, 0, 0, 0, 0, 0, 1])

In [6]:
# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y_categorico, random_state=0)

In [7]:
# Crear el modelo de clasificación Random Forest
rf_model = RandomForestClassifier(n_estimators=100, random_state=0)

In [8]:
# Entrenar el modelo usando los datos de entrenamiento
rf_model.fit(X_train, y_train)

RandomForestClassifier(random_state=0)

In [9]:
# Hacer predicciones en el conjunto de prueba
y_pred = rf_model.predict(X_test)

In [10]:
# Evaluación del modelo
print("Matrix de Confusión:\n", confusion_matrix(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred))

Matrix de Confusión:
 [[38 14]
 [17 42]]

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.69      0.73      0.71        52
           1       0.75      0.71      0.73        59

    accuracy                           0.72       111
   macro avg       0.72      0.72      0.72       111
weighted avg       0.72      0.72      0.72       111



In [11]:
# Crea matriz de confusión, visualmente más clara
conf_matrix = confusion_matrix(y_test, y_pred)
conf_matrix_df = pd.DataFrame(conf_matrix, index=[0, 1], columns=[0, 1])
conf_matrix_df

Unnamed: 0,0,1
0,38,14
1,17,42
