# Random Forest

In [None]:
# Importar librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import (confusion_matrix, classification_report,
                             accuracy_score)

# Configurar estilo de gráficos
%matplotlib inline
sns.set(style='whitegrid')

Esta vez, utilizaremos un conjunto mas complejo que el clasico de las flores. Utilizaremos datos de vino

In [None]:
# Cargar el conjunto de datos Wine
wine = load_wine()
X = wine.data
y = wine.target
feature_names = wine.feature_names
class_names = wine.target_names

df = pd.DataFrame(X, columns=feature_names)
df['target'] = y

In [None]:
wine

In [None]:
df

In [None]:
# Visualización de pares de características
sns.pairplot(df, hue='target', vars=feature_names[:4])
plt.show()


In [None]:
# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=2, stratify=y)


# Prueba de árbol

In [None]:
dt_clf = DecisionTreeClassifier(random_state=2)
dt_clf

In [None]:
dt_clf.fit(X_train, y_train)

In [None]:
# Evaluación del árbol de decisión
y_pred_dt = dt_clf.predict(X_test)
print("Precisión del Árbol de Decisión:", accuracy_score(y_test, y_pred_dt))

In [None]:
# Matriz de confusión
conf_matrix_dt = confusion_matrix(y_test, y_pred_dt)
sns.heatmap(conf_matrix_dt, annot=True, cmap='Blues', fmt='d',
            xticklabels=class_names, yticklabels=class_names)
plt.title('Matriz de Confusión - Árbol de Decisión')
plt.ylabel('Etiqueta Verdadera')
plt.xlabel('Etiqueta Predicha')
plt.show()


# Random Forest

In [None]:
rf_clf = RandomForestClassifier(
    n_estimators=100,    # Número de árboles en el bosque
    max_features='sqrt', # Número de características a considerar en cada división
    random_state=2
)

rf_clf

In [None]:
rf_clf.fit(X_train, y_train)

In [None]:
# Evaluación del Random Forest
y_pred_rf = rf_clf.predict(X_test)
print("Precisión del Random Forest:", accuracy_score(y_test, y_pred_rf))


In [None]:
# Matriz de confusión
conf_matrix_rf = confusion_matrix(y_test, y_pred_rf)
sns.heatmap(conf_matrix_rf, annot=True, cmap='Blues', fmt='d',
            xticklabels=class_names, yticklabels=class_names)
plt.title('Matriz de Confusión - Random Forest')
plt.ylabel('Etiqueta Verdadera')
plt.xlabel('Etiqueta Predicha')
plt.show()


In [None]:
# Importancia de las características en el Random Forest
importances = pd.DataFrame({
    'Feature': feature_names,
    'Importance': rf_clf.feature_importances_
}).sort_values(by='Importance', ascending=False)

print(importances)

# Visualización de la importancia
plt.figure(figsize=(10,6))
sns.barplot(x='Importance', y='Feature', data=importances)
plt.title('Importancia de las Características')
plt.show()
