# Decision Tree Classifier

In [1]:
# Importacion de librerias
import pandas as pd
import numpy as np
from sklearn import tree
from sklearn.metrics import explained_variance_score
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score


In [2]:
#Lectura del dataset
columns = ["sepal length","sepal width","petal length","petal width", "class"] # definir nombres de columna manualmente
df = pd.read_csv('iris.data',names = columns) # abrir el archivo de datos con los nombres dados para las columnas
df.head()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class


In [3]:
# Se hace la division de las columnas para poder obtener los datos necesarios para hacer el entrenamiento y las pruebas
columnas = ["sepal length","sepal width","petal length","petal width"]
X = df[columnas]
Y = df['class']
print(Y)
print(X)

Series([], Name: class, dtype: object)
Empty DataFrame
Columns: [sepal length, sepal width, petal length, petal width]
Index: []


In [None]:
#Aplicando la separacion de los datos para el test, el train y la validacion
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=30) # 80% training and 20% test

## Arbol 1

In [None]:
#Se crea el arbol de decision donde se puede hacer modificaciones para los parametros
myTree1 = DecisionTreeClassifier(criterion="gini")
#Se entrena el Decision Tree Classifier
myTree1.fit(X_train, Y_train)
#Aqui se predice la respuesta para el subset de datos de prueba (test)
Y_pred1 = myTree1.predict(X_test)

In [None]:
#Aqui se puede visualizar el arbol creado pero en forma de texto
print(tree.export_text(myTree1))

In [None]:
#Aqui se puede visualizar el arbol creado pero en forma de grafico
tree.plot_tree(myTree1)

Accuracy con los datos test

In [None]:
# Parametros Entropy
myTree1.score(X_test, Y_test)

In [None]:
# Evaluacion del modelo entrenado 
Y_pred_test = myTree1.predict(X_test)
accuracy_test = accuracy_score(Y_test, Y_pred_test)
confusion_matrix_test = confusion_matrix(Y_test, Y_pred_test)
f1_score_test = f1_score(Y_test, Y_pred_test, average='weighted')

In [None]:
print("Accuracy:", accuracy_test)
print("F1 Score:", f1_score_test)
print("Matriz de confusion: \n", confusion_matrix_test)

## Arbol 2

In [None]:
#Se crea el arbol de decision donde se puede hacer modificaciones para los parametros
myTree2 = DecisionTreeClassifier(criterion="entropy", max_depth = 3)
#Se entrena el Decision Tree Classifier
myTree2.fit(X_train, Y_train)
#Aqui se predice la respuesta para el subset de datos de prueba (test)
Y_pred2 = myTree2.predict(X_test)

In [None]:
print(tree.export_text(myTree2))

In [None]:
tree.plot_tree(myTree2)

In [None]:
#Parametros con Gini y Max_depth 3
myTree2.score(X_test, Y_test)

In [None]:
# Evaluacion del modelo entrenado 
Y_pred_test2 = myTree2.predict(X_test)
accuracy_test2 = accuracy_score(Y_test, Y_pred_test)
confusion_matrix_test2 = confusion_matrix(Y_test, Y_pred_test)
f1_score_test2 = f1_score(Y_test, Y_pred_test, average='weighted')

In [None]:
print("Accuracy:", accuracy_test2)
print("F1 Score:", f1_score_test2)
print("Matriz de confusion: \n", confusion_matrix_test2)

Ahora sigue realizar algunos cambios a los arboles con el fin de buscar que nos den resultados diferentes a los anteriormente ya obtenidos


## Validacion

In [None]:
# Se hace nuevamente la division de los datos para tener training, test y ahora tambien se le agregara validacion
X_train, X_temp, Y_train, Y_temp = train_test_split(X,Y, test_size = 0.2, random_state = 30)
X_test, X_valid, Y_test, Y_valid = train_test_split(X_temp, Y_temp, test_size = 0.5, random_state = 30)

In [None]:
myTree_valid = DecisionTreeClassifier(criterion="entropy", max_depth=3)
myTree_valid.fit(X_train, Y_train)
Y_predic_valid = myTree_valid.predict(X_temp)

In [None]:
print(tree.export_text(myTree_valid))

In [None]:
tree.plot_tree(myTree_valid)

In [None]:
#Evaluacion con la validacion
Y_pred_valid = myTree_valid.predict(X_valid)
accuracy_valid = accuracy_score(Y_valid, Y_pred_valid)
confusion_matrix_valid = confusion_matrix(Y_valid, Y_pred_valid)
f1_score_valid = f1_score(Y_valid, Y_pred_valid, average='weighted')

In [None]:
#Parametros con criterion="entropy", max_depth=3
myTree_valid.score(X_test, Y_test)

In [None]:
print("Accuracy:", accuracy_valid)
print("F1 Score:", f1_score_valid)
print("Matriz de confusion: \n", confusion_matrix_valid)

In [None]:
# Cambiamos las etiquetas a numeros ya que la varianza requiere valores numéricos, y el dataset tiene strings como etiquetas.
class_to_number = {'Iris-setosa': 0, 'Iris-versicolor': 1, 'Iris-virginica': 2}

# Aplicamos el cambio en las predicciones, para que ahora sean valores numericos
y_pred1_Num = [class_to_number[label] for label in Y_pred1]
y_pred2_Num = [class_to_number[label] for label in Y_pred2]
y_pred_ValNum = [class_to_number[label] for label in Y_pred_valid]


# Calculamos la varianza ahora que tenemos los valores de forma numérica
varianza1 = np.var(y_pred1_Num)
varianza2 = np.var(y_pred2_Num)
varianzaVal = np.var(y_pred_ValNum)


# Creamos una tabla para visualizar de una manera más clara la varianza de cada una de las pruebas.
variance_data = {
    'Modelo': ['Gini', 'Entropy y Max Depth  (Random State 30)', 'Validación'],
    'Varianza': [varianza1, varianza2, varianzaVal]
}

varianzaDF = pd.DataFrame(variance_data)
print(varianzaDF)

## Conclusiones

Al realizar las dos primeras pruebas, donde el primer arbol contenia un criterio de gini, y el segundo arbol contenia de parametros como creiterio entropy y max_depth = 3.

myTree1 -- criterion = "gini"
- Socre: 0.93 
- Accuracy: 0.93
- F1-score: 0.93
Matriz de confucion:
[[12 0 0]
 [0 8 1]
 [0 1 8]]

myTree2 -- criterion = "entropy" y max_depth = 3
- Socre: 0.97
- Accuracy: 0.93
- F1-score: 0.93
Matriz de confucion:
[[12 0 0]
 [0 8 1]
 [0 1 8]]


myTree_valid -- criterion = "entropy" y max_depth = 3
- Socre: 1
- Accuracy: 0.93
- F1-score: 0.93
Matriz de confucion:
[[6 0 0]
 [0 4 1]
 [0 0 4]]

Lo que podemos concluir de esto es con la validacion es que se tiene un sego bajo, que en otras palabras se puede decir que se tiene un ajuste buen de los datos, aunque aun se puede mejorar para que el modelo sea aun mas preciso. Tampoco se puede considerar que el modelo tenga ni Overfitting ni Underfitting, ya que al igual en lo anterior explicado, los datos son buenos aunque existe margen de mejora.


Al realizar la validacion se obtiene un grado de variaza relativamente bueno, se puediera simplificar diciendo que es "medio" al tener un grado de 0.7289