# Decision Tree 

## Comentarios y Descripción del Código Python para la clasificación de frutas

Este script de Python, arbol_decision_frutas.py, demuestra cómo usar un árbol de decisión para clasificar frutas (manzanas o naranjas) basándose en su peso y textura.

A continuación, una descripción detallada de cada línea:


In [2]:
# arbol_decision_frutas.py
import pandas as pd

Esta línea importa la librería pandas, que es fundamental para trabajar con conjuntos de datos estructurados. La usaremos para crear nuestro DataFrame que contendrá la información de las frutas. Le damos el alias pd por convención.

In [4]:
from sklearn.tree import DecisionTreeClassifier

Aquí se importa la clase DecisionTreeClassifier del módulo tree de la librería scikit-learn (sklearn). Esta clase es la que se utiliza para construir y entrenar modelos de árboles de decisión para tareas de clasificación.

In [6]:
from sklearn import tree

Se importa el módulo completo tree de sklearn. Esto es necesario para usar funciones como plot_tree, que permite visualizar el árbol de decisión entrenado.

In [7]:
# Datos
data = pd.DataFrame({
    'peso': [150, 160, 180, 200, 120, 110],
    'textura': [0, 0, 1, 1, 0, 0],  # 0: suave, 1: rugosa
    'fruta': ['manzana', 'manzana', 'naranja', 'naranja', 'manzana', 'manzana']
})

En esta sección, creamos un DataFrame de pandas llamado data. Este DataFrame contiene los datos de ejemplo que nuestro modelo usará para aprender a clasificar. Incluye tres columnas:

- 'peso': El peso de la fruta en gramos.
- 'textura': Una característica categórica donde 0 representa una textura suave (típica de manzanas) y 1 representa una textura rugosa (típica de naranjas).
- 'fruta': La etiqueta de la clase, indicando si la fruta es una 'manzana' o una 'naranja'. Esta es nuestra variable objetivo.

In [8]:
X = data[['peso', 'textura']]

Aquí definimos X, que son las características de entrada (también conocidas como variables predictoras o features) que el modelo utilizará para hacer sus predicciones. Seleccionamos las columnas 'peso' y 'textura' de nuestro DataFrame data.

In [9]:
y = data['fruta']

Esta línea define y, que es la variable objetivo (o variable dependiente) que nuestro modelo intentará predecir. En este caso, es la columna 'fruta', que contiene el tipo de fruta.

In [11]:
modelo = DecisionTreeClassifier()

Se crea una instancia del clasificador de árbol de decisión DecisionTreeClassifier. Este es el objeto que representará nuestro modelo de árbol de decisión antes de que comience a aprender de los datos.

In [12]:
modelo.fit(X, y)

DecisionTreeClassifier()

Esta es la etapa crucial de entrenamiento del modelo. El método fit() toma las características de entrada (X) y las etiquetas objetivo (y), y a partir de ellas, el árbol de decisión aprende los patrones y las reglas para diferenciar entre manzanas y naranjas basándose en el peso y la textura.

In [13]:
nueva_fruta = [[170, 1]]

Preparamos un nuevo dato para que el modelo haga una predicción. nueva_fruta es una lista de listas que representa una fruta hipotética con un peso de 170 gramos y una textura rugosa (1).

In [14]:
prediccion = modelo.predict(nueva_fruta)

Utilizamos el método predict() del modelo ya entrenado para clasificar la nueva_fruta. El modelo aplicará las reglas que aprendió y devolverá un resultado, que será 'manzana' o 'naranja'.

In [15]:
print("La fruta clasificada es:", prediccion[0])

La fruta clasificada es: naranja


Finalmente, imprimimos el resultado de la predicción. prediccion[0] accede al primer (y único) elemento del array de predicciones, que será el nombre de la fruta clasificada.

Este ejemplo muestra cómo los árboles de decisión son herramientas intuitivas y efectivas para la clasificación, incluso con conjuntos de datos pequeños, haciendo que conceptos complejos sean fáciles de entender.