In [73]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
import matplotlib.pyplot as plt
import numpy as np

# import warnings
# warnings.filterwarnings("ignore")

import os
os.chdir("E:/EBAC/Material/M18")

drugs = pd.read_csv("drugs.csv")
drugs.head()

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,drugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,drugY


In [74]:
feature_cols = ["Age", "Sex", "BP", "Cholesterol", "Na_to_K"]
X = drugs[feature_cols].values
y = drugs.Drug

In [75]:
from sklearn import preprocessing

Cod_Sex = preprocessing.LabelEncoder()
Cod_Sex.fit(np.unique(X[:,1]))
X[:,1] = Cod_Sex.transform(X[:,1])

Cod_BP = preprocessing.LabelEncoder()
Cod_BP.fit(np.unique(X[:,2]))
X[:,2] = Cod_BP.transform(X[:,2])

Cod_Cholesterol = preprocessing.LabelEncoder()
Cod_Cholesterol.fit(np.unique(X[:,3]))
X[:,3] = Cod_Cholesterol.transform(X[:,3])

In [76]:
X[0:5]

array([[23, 0, 0, 0, 25.355],
       [47, 1, 1, 0, 13.093],
       [47, 1, 1, 0, 10.114],
       [28, 0, 2, 0, 7.798],
       [61, 0, 1, 0, 18.043]], dtype=object)

In [77]:
y[0:5]

0    drugY
1    drugC
2    drugC
3    drugX
4    drugY
Name: Drug, dtype: object

In [121]:
# Creación de grupos de entrenamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 1)

In [122]:
# Crear objeto de clasificación del árbol de decisión
clf = DecisionTreeClassifier(criterion = "gini", max_depth = 5)

# Aplicación del algoritmo de árboles de decisión a los grupos de entrenamiento
clf = clf.fit(X_train, y_train)

# Predicción de la respuesta para el grupo de prueba
y_pred = clf.predict(X_test)

In [111]:
# Matriz de confusión
from sklearn.metrics import confusion_matrix, classification_report
cm = confusion_matrix(y_test, y_pred)
cm

array([[ 4,  0,  0,  0,  0],
       [ 2,  4,  0,  0,  0],
       [ 0,  0,  4,  0,  0],
       [ 0,  0,  0, 19,  0],
       [ 0,  0,  0,  0, 27]], dtype=int64)

In [112]:
# Estadísticas de desempeño

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

       drugA       0.67      1.00      0.80         4
       drugB       1.00      0.67      0.80         6
       drugC       1.00      1.00      1.00         4
       drugX       1.00      1.00      1.00        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.97        60
   macro avg       0.93      0.93      0.92        60
weighted avg       0.98      0.97      0.97        60



In [113]:
from sklearn import tree
import graphviz
import pydotplus
from PIL import Image

In [114]:
# Creación de información para el árbol (Reglas de decisión)
dot_data = tree.export_graphviz(clf, out_file=None, feature_names = feature_cols, class_names = ["DrugA", "DrugB", "DrugC", "DrugX", "DrugY"])

# Creación de la gráfica del árbol
graph = pydotplus.graph_from_dot_data(dot_data)

In [109]:
# Creacion del árbol en formato PDF
graph.write_pdf("DrugGini.pdf")

# Creación del árbol en formato PNG
graph.write_png("DrugGini.png")

image = Image.open("DrugGini.png")
image.show()

Al utilizar una base de entrenamiento de .2, el criterio Gini y sin definir una maxima profundidad, obtenemos resultados 100% certeros, lo que puede indicar que el modelo esta haciendo overfitting que en este caso puede resultar en la memorizacion de la informacion en lugar de generalizar patrones.
Despues de ajustar los parametros a una base de entrenamiento de .3, criterio Gini y definir una maxima profundidad de 5 obtenemos una pequeña variacion en los datos lo que nos indica que puede estar funcionando mejor pero aun se necesita mejorar el uso del modelo.

In [134]:
# Crear objeto de clasificación del árbol de decisión
clf = DecisionTreeClassifier(criterion = "entropy", max_depth = 5)

# Aplicación del algoritmo de árboles de decisión a los grupos de entrenamiento
clf = clf.fit(X_train, y_train)

# Predicción de la respuesta para el grupo de prueba
y_pred = clf.predict(X_test)

In [135]:
# Matriz de confusión
from sklearn.metrics import confusion_matrix, classification_report
cm = confusion_matrix(y_test, y_pred)
cm

array([[ 4,  0,  0,  0,  0],
       [ 2,  4,  0,  0,  0],
       [ 0,  0,  4,  0,  0],
       [ 0,  0,  0, 19,  0],
       [ 0,  0,  0,  0, 27]], dtype=int64)

In [136]:
# Estadísticas de desempeño

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

       drugA       0.67      1.00      0.80         4
       drugB       1.00      0.67      0.80         6
       drugC       1.00      1.00      1.00         4
       drugX       1.00      1.00      1.00        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.97        60
   macro avg       0.93      0.93      0.92        60
weighted avg       0.98      0.97      0.97        60



In [125]:
# Creación de información para el árbol (Reglas de decisión)
dot_data = tree.export_graphviz(clf, out_file=None, feature_names = feature_cols, class_names = ["DrugA", "DrugB", "DrugC", "DrugX", "DrugY"])

# Creación de la gráfica del árbol
graph = pydotplus.graph_from_dot_data(dot_data)

In [126]:
# Creacion del árbol en formato PDF
graph.write_pdf("DrugEntropy.pdf")

# Creación del árbol en formato PNG
graph.write_png("DrugEntropy.png")

image = Image.open("DrugEntropy.png")
image.show()

Al utilizar el clasificador Entropy obtenemos diferentes valores para los clasificadores pero el mismo resultado en cuanto a las predicciones y la misma matriz de confusion, por lo que mi conclusion seria que podemos utilizar cualquiera de los dos resultados generados pero para mejorar la predicción necesitariamos conseguir mas información o probar con un modelo diferente.

# Probar modelo con un nuevo paciente

In [132]:
pacienteY = np.asarray([50, 0, 0, 1, 15.302]).reshape(1, -1)

In [133]:
# Predicción de nuevo paciente
y_pred = clf.predict(pacienteY)
y_pred

array(['drugY'], dtype=object)

El modelo muestra que el medicamento Y seria el mas apropiado para la paciente segun sus parametros