In [None]:
# 01_decision_trees.ipynb
# Árbol de decisión con dataset Iris - Explicado en español con Gini

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.tree import plot_tree

# Cargar el dataset Iris
data = load_iris()
caracteristicas = ['longitud_sépalo', 'ancho_sépalo', 'longitud_pétalo', 'ancho_pétalo']
especies = ['setosa', 'versicolor', 'virginica']

# Convertir a DataFrame
df = pd.DataFrame(data.data, columns=caracteristicas)
df['especie'] = [especies[i] for i in data.target]
print("Primeras 5 filas del dataset:")
print(df.head())

# Preparar datos
X = data.data
y = data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Entrenar el modelo
clf = DecisionTreeClassifier(max_depth=3, random_state=42)
clf.fit(X_train, y_train)

# Predicciones
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Precisión del modelo: {accuracy:.2f}")

# Visualizar el árbol con más detalles
plt.figure(figsize=(15, 10))
plot_tree(clf, feature_names=caracteristicas, class_names=especies, filled=True, rounded=True, impurity=True)
plt.title("Árbol de Decisión - Clasificación de Flores Iris (con Gini)")
plt.show()

# Explorar el Gini en el nodo raíz
print("Gini en el nodo raíz:", clf.tree_.impurity[0])