# Árbol de decisión de clasificación

Dado que el análisis exploratorio de este set de datos ya se realizó en las actividades anteriores ahora solo se procede directo a la creación, entrenamiento y validación del modelo y su correspondiente evaluación.

In [None]:
# Carga de datos  
# https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html
import pandas as pd
import numpy as np
from sklearn import datasets
dataset = datasets.load_breast_cancer()
data_frame = pd.DataFrame(np.c_[dataset['data'], dataset['target']],
                  columns= np.append(dataset['feature_names'], ['target']))
data_frame

## Preparación de los datos

In [None]:
data_frame.info()

In [None]:
# 0 = Malinga , 1 = Benigna
print(data_frame.groupby('target').size())

In [None]:
import matplotlib.pyplot as plt
# Gráfico de tortas del porcentaje de muestras benignas y mañignas
# Contando las benignas
clases = np.array([data_frame[data_frame.target == 0.0].shape[0], data_frame[data_frame.target == 1.0].shape[0]])

# Creando las leyendas del grafico.
labels = [ str(round(x * 1.0 / clases.sum() * 100.0, 2)) + '%'  for x in clases ]
labels[0] = 'Malignas\n ' + labels[0]
labels[1] = 'Benignas\n ' + labels[1]

plt.pie(clases, labels=labels)
plt.title('Porcentaje de muestras beningnas y malignas')
plt.show()

In [None]:
# Selecciona las variables
X = data_frame.drop(["target"],axis=1)

# Rescata la etiqueta
y = data_frame.target

## Creación del modelo, entrenamiento, validación y evaluación

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Separar los datos de "train" en entrenamiento y prueba para probar los algoritmos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 29)

modelo = DecisionTreeClassifier(random_state=29)

# Entrenamiento del modelo
modelo.fit(X_train, y_train)

# Validación del modelo
y_pred = modelo.predict(X_test)

# Evaluación del modelo
print('Precisión del modelo:', modelo.score(X_test, y_test))
print('Accuracy del modelo:', accuracy_score(y_test, y_pred))

## Representación gráfica del árbol

In [None]:
cn = ['Maligna','Benigna']

In [None]:
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(30, 10))

print(f"Profundidad del árbol: {modelo.get_depth()}")
print(f"Número de nodos terminales: {modelo.get_n_leaves()}")

plot = plot_tree(
            decision_tree = modelo,
            feature_names = data_frame.drop(columns = ["target"]).columns,
            class_names   = cn,
            filled        = True,
            impurity      = False,
            fontsize      = 10,
            precision     = 2,
            ax            = ax
       )

In [None]:
fig.savefig("arbol_class.jpg")

In [None]:
# Evaluación del modelo
from sklearn.metrics import confusion_matrix

matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

In [None]:
#Cantidad de Predicciones Malignas 
len(y_pred[y_pred[:]==0])