# Ejemplo 1: Árboles de decisión

In [5]:
# Importa las bibliotecas necesarias
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, cross_val_score

In [8]:
# Carga un conjunto de datos (en este caso, el conjunto de datos Iris)
iris = load_iris()
df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0.0
1,4.9,3.0,1.4,0.2,0.0
2,4.7,3.2,1.3,0.2,0.0
3,4.6,3.1,1.5,0.2,0.0
4,5.0,3.6,1.4,0.2,0.0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0


In [9]:
# Separa en variable independiente y dependiente
X = iris.data  # Características
y = iris.target  # Etiquetas

In [10]:
# Divide los datos en conjuntos de entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [12]:
# Crea un modelo de árbol de decisión
modelo_arbol = DecisionTreeClassifier(random_state=42)
modelo_arbol

In [13]:
# Entrena el modelo en el conjunto de entrenamiento
modelo_arbol.fit(X_train, y_train)

In [14]:
# Realiza predicciones en el conjunto de prueba
predicciones = modelo_arbol.predict(X_test)
predicciones

array([1, 0, 2, 1, 1, 0, 1, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 1, 1, 2, 0, 2,
       0, 2, 2, 2, 2, 2, 0, 0])

In [15]:
# Calcula la precisión del modelo en el conjunto de prueba
precision = np.mean(predicciones == y_test)
print(f'Precisión del modelo en el conjunto de prueba: {precision:.2f}')

# Realiza validación cruzada para obtener una estimación más robusta de la precisión
scores = cross_val_score(modelo_arbol, X, y, cv=5)  # 5-fold cross-validation
print(f'Precisión de validación cruzada: {scores.mean():.2f} (+/- {scores.std() * 2:.2f})')

Precisión del modelo en el conjunto de prueba: 1.00
Precisión de validación cruzada: 0.95 (+/- 0.07)


En este ejemplo:

1. Cargamos un conjunto de datos (en este caso, el conjunto de datos Iris) utilizando la biblioteca scikit-learn.
1. Dividimos los datos en conjuntos de entrenamiento (80%) y prueba (20%) utilizando `train_test_split`.
1. Creamos un modelo de árbol de decisión utilizando DecisionTreeClassifier y lo entrenamos en el conjunto de entrenamiento.
1. Realizamos predicciones en el conjunto de prueba y calculamos la precisión del modelo comparando las predicciones con las etiquetas reales.
1. Utilizamos la validación cruzada con 5-fold cross-validation para obtener una estimación más robusta de la precisión del modelo en diferentes subconjuntos de datos.

La precisión del modelo se imprime tanto para el conjunto de prueba como para la validación cruzada, lo que te permite evaluar su rendimiento en diferentes configuraciones y asegurarte de que no esté sobreajustando los datos de prueba.