# Algoritmo Árboles de Decisión

A continuación, se dará el código en JupyterNotebook para el algoritmo de clasificación en Árboles de Decisión.

In [None]:
# Importar librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn import preprocessing

- **`pandas (pd)`**: Se utiliza para manipular, analizar y trabajar con DataFrames (estructuras de datos tabulares).
- **`numpy (np)`**: Proporciona cómputo numérico eficiente y operaciones con arrays.
- **`matplotlib.pyplot (plt)`**: Se usa para visualizaciones (no se usa directamente en este fragmento de código).
- **`sklearn.tree.DecisionTreeClassifier`**: Clase para crear y usar clasificadores de árboles de decisión.
- **`sklearn.model_selection.train_test_split`**: Divide los datos en conjuntos de entrenamiento y prueba para la evaluación del modelo.
- **`sklearn.metrics`**: Proporciona funciones para métricas de evaluación de modelos como la precisión.
- **`sklearn.preprocessing`**: Ofrece herramientas para el preprocesamiento de datos, incluida la codificación de etiquetas.

In [None]:
# Trabajando con dataset
columNames = ["company", "job", "degree", "salary more than 100k"]
dataset = pd.read_csv("salaries.csv", header = None, names = columNames)
dataset

- Define los nombres de las columnas para el conjunto de datos ("salarios.csv").
- Lee el archivo CSV usando `pandas.read_csv`, asignando nombres de columna usando `header=None` (sin fila de encabezado) y `names`.
- Imprime las primeras filas del conjunto de datos usando `.head()`.

In [None]:
# Dividir dataset en caracteristicas (features) y variable destino
feature_cols = ["company", "job", "degree"]
x = dataset[feature_cols]
y = dataset["salary more than 100k"]

- Extrae las características (columnas usadas para la predicción) en un DataFrame `x` usando `dataset[feature_cols]`.
- Selecciona la variable objetivo (lo que quieres predecir) como `y`, que es la columna "salary more than 100k".

In [None]:
# Codificación de datos categoricos
# Label Encoder sabe como entender las etiquetas categoricas
labelEncoder = preprocessing.LabelEncoder()
# codificando categorias en columnas
dataset["company"] = labelEncoder.fit_transform(dataset["company"])
dataset["job"] = labelEncoder.fit_transform(dataset["job"])
dataset["degree"] = labelEncoder.fit_transform(dataset["degree"])
print(dataset.head()) # .head() obtiene las 5 primeras filas

- Crea un objeto `LabelEncoder` para manejar datos categóricos.
- Codifica las características categóricas ("company", "job", "degree") en valores numéricos adecuados para el algoritmo del árbol de decisión.
- El método `fit_transform` aprende las categorías de los datos de entrenamiento y luego transforma los datos.
- Imprime las primeras filas después de la codificación para mostrar los cambios.

In [None]:
print(x)
print(y)

- Esta sección utiliza la función `print()` para mostrar dos conjuntos de datos: `x` e `y`.
- `x` representa las características del conjunto de datos, que son las variables que se utilizan para predecir la variable objetivo.
- `y` representa la variable objetivo, que es lo que se quiere predecir (en este caso, si el salario es superior a 100.000).
- Al imprimir estos conjuntos de datos, podemos obtener una idea de su estructura, contenido y distribución de valores.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 100)

- Esta sección utiliza la función `train_test_split()` de la biblioteca `sklearn.model_selection` para dividir el conjunto de datos en dos subconjuntos: entrenamiento y prueba.
- `x_train` y `y_train` representan los subconjuntos de entrenamiento para las características y la variable objetivo, respectivamente.
- `x_test` y `y_test` representan los subconjuntos de prueba para las características y la variable objetivo, respectivamente.
- El parámetro `test_size` indica la proporción del conjunto de datos que se debe asignar al conjunto de prueba. En este caso, se asigna el 20% (0.2) al conjunto de prueba y el 80% restante al conjunto de entrenamiento.
- El parámetro `random_state` se utiliza para garantizar la reproducibilidad de la división de datos. Al establecer una semilla aleatoria, se obtiene la misma división cada vez que se ejecuta el código.

In [None]:
# Crear objeto clasificador arbol de decision usando entropia
clf_entropy = DecisionTreeClassifier(criterion = "entropy", max_depth = 2)

# Entrenar clasificador
clf_entropy = clf_entropy.fit(x_train, y_train)

- Esta sección crea y entrena un clasificador de árbol de decisión utilizando la biblioteca `sklearn.tree`.
- Se crea un objeto `DecisionTreeClassifier` con los siguientes parámetros:
    - `criterion`: Especifica el criterio de división del árbol. En este caso, se utiliza la "entropía", que mide la incertidumbre en un conjunto de datos.
    - `max_depth`: Limita la profundidad máxima del árbol, lo que evita el sobreajuste. En este caso, se establece un límite de 2 niveles.
- El método `fit()` se utiliza para entrenar el clasificador utilizando los datos de entrenamiento `x_train` e `y_train`. Esto implica construir el árbol de decisión y aprender las relaciones entre las características y la variable objetivo.

In [None]:
# predecir respuesta para dataset test
y_pred = clf_entropy.predict(x_test)

# imprimir exactitud (accuracy)
print("Presición:", metrics.accuracy_score(y_test, y_pred))

- Esta sección utiliza el clasificador entrenado `clf_entropy` para predecir la variable objetivo para el conjunto de datos de prueba `x_test`.
- La función `predict()` toma el conjunto de datos de prueba como entrada y devuelve un vector de predicciones, que representa la variable objetivo predicha para cada punto de datos en `x_test`.
- Finalmente, se calcula la precisión del modelo utilizando la función `accuracy_score()` de la biblioteca `sklearn.metrics`. La precisión mide la proporción de predicciones correctas realizadas por el modelo. El resultado se imprime para evaluar el rendimiento del modelo en el conjunto de datos de prueba.