
# Algoritmos basados en árboles de decisión
Los algoritmos basados en árboles de decisión también son de aprendizaje supervisado y se pueden usar para tareas de regresión o clasificación.

El nombre de esta familia se debe a que usan una estructura básica, los árboles precisamente, que con simples reglas de decisión aplicadas sobre los datos les permite generar predicciones.

* Aprenden de los datos con reglas if-else en cada nodos. 

* Cada nodo representa una pregunta sobre los datos y cada rama del árbol representa una respuesta a esa pregunta. 

* El proceso continúa hasta que se llega a una hoja del árbol, que representa la predicción final.

* Desventaja:  Tendencia al sobreajuste u overfitting, lo que significa que pueden ajustarse demasiado a los datos de entrenamiento y no generalizar bien para nuevos datos. Esto se puede prevenir mediante técnicas de poda o regularización.



In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split


#leer datos
data = pd.read_csv('../datasets/pid.100.csv')
dataset = data[3:]

dataset

FileNotFoundError: [Errno 2] No such file or directory: '../datasets/pid.100.csvpid.100.csv'

In [None]:
print(pd.Series(dataset['pid']).value_counts(sort = True))

y = dataset['pid']# variable dependiente
x = dataset.drop(['pid'], axis=1) #  variable independiente


In [None]:
#separar datos en entrenamiento y prueba

X_train, X_test, Y_train, Y_test = train_test_split(x, y ,test_size = 0.2, random_state = 1)
print(X_train.shape, X_test.shape, Y_train.shape, Y_test.shape)

## Índice de Gini 

* Probabilidad de que una característica específica se clasifique incorrectamente cuando se selecciona al azar.

* Rango entre 0 (un corte puro) a 0.5 (corte completamente puro que divide los datos en partes iguales). 

\begin{equation}
Gini = 1 - \sum_{i=1}^{n}(P_i)^2
\end{equation}

Donde $P_i$ es la probabilidad de que un elemento se clasifique en el grupo no adecuado. 


## Entropía.

Mide la aleatoriedad en los puntos de datos

\begin{equation}
E(S) = \sum_{i=1}^{c} -p_i log_2 (p_i)
\end{equation}

* El rango de la entropía va de 0 a 1. De esta forma, los valores cercanos a cero son menos impuros que aquellos que se acercan al 1.

In [None]:


# Importamos las librerias para la creacion del modelo
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# Definir el clasificador y los valores de los hiperparámetros a probar
clf = DecisionTreeClassifier(random_state=42)
param_grid = {'criterion': ['gini', 'entropy'], 'max_depth': [2]}

# Realizar la búsqueda de hiperparámetros utilizando GridSearchCV
grid_search = GridSearchCV(clf, param_grid=param_grid, cv=10, return_train_score=True, n_jobs=-1)
grid_search.fit(X_train, Y_train)

# Imprimir los resultados
print("Mejores hiperparámetros encontrados:")
print(grid_search.best_params_)
print("Mejor puntuación de validación cruzada:")
print(grid_search.best_score_)

In [None]:
# Modelo decision tree con parametros optimizados
best_clf = grid_search.best_estimator_

In [None]:
# Predecimos Y
y_train_pred = best_clf.predict(X_train)
y_test_pred = best_clf.predict(X_test)

In [None]:
# Graficamos matriz de confusion
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay
cm = confusion_matrix(Y_test,y_test_pred,labels=best_clf.classes_)
ConfusionMatrixDisplay(cm, display_labels=best_clf.classes_).plot()

In [None]:
# Calculo de las predicciones en Train y test
y_train_pred = best_clf.predict(X_train)
y_test_pred = best_clf.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score, classification_report
print('El accuracy en train es:',accuracy_score(Y_train,y_train_pred))
print('El accuracy en test es:', accuracy_score(Y_test,y_test_pred))

In [None]:
print(classification_report(Y_test,y_test_pred))

In [None]:


feature_scores= pd.DataFrame(pd.Series(grid_search.best_estimator_.feature_importances_, index=pd.DataFrame(X_train).columns).sort_values(ascending=False)).T


In [None]:
plt.figure(figsize=(12,4))
sns.barplot(data=feature_scores)

for index, value in enumerate(feature_scores.values.flatten()):
    plt.annotate(f'{value:.2f}', xy=(index, value), ha='center', va='bottom')


plt.title("Factores clave en el pid")
plt.show()

In [None]:
plt.figure(figsize = (12,8))
from sklearn import tree

tree.plot_tree(best_clf.fit(X_train, Y_train))

https://bookdown.org/keilor_rojas/CienciaDatos/introducci%C3%B3n-a-ciencia-de-datos-en-python.html