# Preparación de datos

In [1]:
# Importar librerías básicas
import pandas as pd
import numpy as np

In [2]:
# Lectura de datos
df = pd.read_excel('Iris.xlsx')

FileNotFoundError: [Errno 2] No such file or directory: 'Iris.xlsx'

In [None]:
df.head()

In [None]:
# Dividir el dataset en conjuntos de entrenamiento y prueba (70% - 30%)
from sklearn.model_selection import train_test_split
np.random.seed(1234)
X = df[df.columns[:-1]]
Y = df['class']
X_train, X_test, y_train, y_test = train_test_split(X,Y, test_size=0.3)

# Árbol de decisión de profundidad 3

In [None]:
#Importar librería
from sklearn.tree import DecisionTreeClassifier

In [None]:
# Instanciar el modelo
arbol = DecisionTreeClassifier(max_depth=3)

In [None]:
# Entrenar el modelo
arbol.fit(X_train,y_train)

In [None]:
# Predicciones para el conjunto de prueba
y_pred = arbol.predict(X_test)

# Graficación del árbol

In [None]:
# Importar librerías
import graphviz
from sklearn.tree import export_graphviz

In [None]:
# Extraer los valores de las clases
lista_clases = df['class'].unique()

In [None]:
# Crear el archivo .dot
export_graphviz(arbol, out_file = 'arbol.dot',
               feature_names = df.columns[:-1],
               class_names = lista_clases,
               filled = True,
               max_depth=3)

In [None]:
# Graficar
with open('arbol.dot') as f:
    dot_graph = f.read()
graphviz.Source(dot_graph)

In [None]:
# Importar como imagen PNG
import pydot

(graph,) = pydot.graph_from_dot_file('arbol.dot')
graph.write_png('arbol.png')

In [None]:
# Árbol como texto
from sklearn.tree import export_text
lista_columnas = list(df.columns[:-1])
r = export_text(arbol, max_depth=3, feature_names = lista_columnas)
print(r)

# Métricas (I)
## Automáticas
*El uso de algunas métricas globales carece de sentido si se tienen varias clases*

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, confusion_matrix, recall_score, precision_score, balanced_accuracy_score, cohen_kappa_score

In [None]:
# Matriz de confución
CM = confusion_matrix(y_test,y_pred)
print('CM = ', CM)

In [None]:
# Presición
# Como se tienen varias clases es necesario hacer la aclaración del tipo de promedio, en este caso 'micro' cuenta los totales
PPV = precision_score(y_test,y_pred, average = 'micro')
print('PPV = ', PPV)

In [None]:
# Exactitud
ACC = accuracy_score(y_test,y_pred)
print('ACC = ', ACC)

In [None]:
# Sensibilidad
# Como se tienen varias clases es necesario hacer la aclaración del tipo de promedio, en este caso 'micro' cuenta los totales
VPR = recall_score(y_test,y_pred, average = 'micro')
print('VPR = ', VPR)

In [None]:
# Exactitud balanceada
BAC = balanced_accuracy_score(y_test,y_pred)
print('BAC = ', BAC)

In [None]:
# kappa de Cohen
k = cohen_kappa_score(y_test,y_pred)
print('k = ',k)

# Métricas (II)
## Manuales a partir de la matriz de confusión

*El uso de algunas métricas globales carece de sentido si se tienen varias clases*

In [None]:
# Verdaderos positivos y verdaderos negativos
#Si se calculan de forma global, no por clase, son los mismos
# Suma de elementos de la diagonal de la matriz de confusión
# Se utiliza la función trace (traza) de NumPy
TP = np.trace(CM)
TN = np.trace(CM)

In [None]:
# Falsos positivos y falsos negativos
# Si se calcula en forma global, no por clase, los falsos positivos y falsos negativos son los mismos
FP = np.sum(CM) - np.trace(CM)
FN = np.sum(CM) - np.trace(CM)

In [None]:
# Sensibilidad
VPR_man = TP / (TP + FN)
# Especificidad
SPC_man = TN / (TN + FP)
# Precisión
PPV_man = TP / (TP + FP)
# Exactitud
ACC_man = TP / np.sum(CM)

In [None]:
print('VPR = ', VPR_man)
print('SPC = ', SPC_man)
print('PPV = ', PPV_man)
print('ACC = ', ACC_man)