In [1]:
# Importación de librerías principales a utilizar
import pandas as pd
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.preprocessing import LabelEncoder

In [2]:
# Carga de la base de datos
drugs = pd.read_csv('drugs.csv')
drugs

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,drugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,drugY
...,...,...,...,...,...,...
195,56,F,LOW,HIGH,11.567,drugC
196,16,M,LOW,HIGH,12.006,drugC
197,52,M,NORMAL,HIGH,9.894,drugX
198,23,M,NORMAL,NORMAL,14.020,drugX


In [3]:
# Creación de variable con los nombres de las columnas a utilizar
feature_cols = ['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']

# Separación de datos predictores con base en la variable anterior
x = drugs[feature_cols].values

# Separación de los datos de la variable a predecir
y = drugs.Drug
x

array([[23, 'F', 'HIGH', 'HIGH', 25.355],
       [47, 'M', 'LOW', 'HIGH', 13.093],
       [47, 'M', 'LOW', 'HIGH', 10.114],
       [28, 'F', 'NORMAL', 'HIGH', 7.798],
       [61, 'F', 'LOW', 'HIGH', 18.043],
       [22, 'F', 'NORMAL', 'HIGH', 8.607],
       [49, 'F', 'NORMAL', 'HIGH', 16.275],
       [41, 'M', 'LOW', 'HIGH', 11.037],
       [60, 'M', 'NORMAL', 'HIGH', 15.171],
       [43, 'M', 'LOW', 'NORMAL', 19.368],
       [47, 'F', 'LOW', 'HIGH', 11.767],
       [34, 'F', 'HIGH', 'NORMAL', 19.199],
       [43, 'M', 'LOW', 'HIGH', 15.376],
       [74, 'F', 'LOW', 'HIGH', 20.942],
       [50, 'F', 'NORMAL', 'HIGH', 12.703],
       [16, 'F', 'HIGH', 'NORMAL', 15.516],
       [69, 'M', 'LOW', 'NORMAL', 11.455],
       [43, 'M', 'HIGH', 'HIGH', 13.972],
       [23, 'M', 'LOW', 'HIGH', 7.298],
       [32, 'F', 'HIGH', 'NORMAL', 25.974],
       [57, 'M', 'LOW', 'NORMAL', 19.128],
       [63, 'M', 'NORMAL', 'HIGH', 25.917],
       [47, 'M', 'LOW', 'NORMAL', 30.568],
       [48, 'F', 'LOW',

In [4]:
# Codificación de variables categóricas
# 0 = F, 1 = M
code_sex = LabelEncoder()
code_sex.fit(['F', 'M'])
x[:,1] = code_sex.transform(x[:,1])
x

array([[23, 0, 'HIGH', 'HIGH', 25.355],
       [47, 1, 'LOW', 'HIGH', 13.093],
       [47, 1, 'LOW', 'HIGH', 10.114],
       [28, 0, 'NORMAL', 'HIGH', 7.798],
       [61, 0, 'LOW', 'HIGH', 18.043],
       [22, 0, 'NORMAL', 'HIGH', 8.607],
       [49, 0, 'NORMAL', 'HIGH', 16.275],
       [41, 1, 'LOW', 'HIGH', 11.037],
       [60, 1, 'NORMAL', 'HIGH', 15.171],
       [43, 1, 'LOW', 'NORMAL', 19.368],
       [47, 0, 'LOW', 'HIGH', 11.767],
       [34, 0, 'HIGH', 'NORMAL', 19.199],
       [43, 1, 'LOW', 'HIGH', 15.376],
       [74, 0, 'LOW', 'HIGH', 20.942],
       [50, 0, 'NORMAL', 'HIGH', 12.703],
       [16, 0, 'HIGH', 'NORMAL', 15.516],
       [69, 1, 'LOW', 'NORMAL', 11.455],
       [43, 1, 'HIGH', 'HIGH', 13.972],
       [23, 1, 'LOW', 'HIGH', 7.298],
       [32, 0, 'HIGH', 'NORMAL', 25.974],
       [57, 1, 'LOW', 'NORMAL', 19.128],
       [63, 1, 'NORMAL', 'HIGH', 25.917],
       [47, 1, 'LOW', 'NORMAL', 30.568],
       [48, 0, 'LOW', 'HIGH', 15.036],
       [33, 0, 'LOW', 'HIGH', 

In [5]:
# Segunda codificación
#0 = LOW, 1 = NORMAL, 2 = HIGH
code_bp = LabelEncoder()
code_bp.fit(['LOW', 'NORMAL', 'HIGH'])
x[:,2] = code_bp.transform(x[:,2])
x

array([[23, 0, 0, 'HIGH', 25.355],
       [47, 1, 1, 'HIGH', 13.093],
       [47, 1, 1, 'HIGH', 10.114],
       [28, 0, 2, 'HIGH', 7.798],
       [61, 0, 1, 'HIGH', 18.043],
       [22, 0, 2, 'HIGH', 8.607],
       [49, 0, 2, 'HIGH', 16.275],
       [41, 1, 1, 'HIGH', 11.037],
       [60, 1, 2, 'HIGH', 15.171],
       [43, 1, 1, 'NORMAL', 19.368],
       [47, 0, 1, 'HIGH', 11.767],
       [34, 0, 0, 'NORMAL', 19.199],
       [43, 1, 1, 'HIGH', 15.376],
       [74, 0, 1, 'HIGH', 20.942],
       [50, 0, 2, 'HIGH', 12.703],
       [16, 0, 0, 'NORMAL', 15.516],
       [69, 1, 1, 'NORMAL', 11.455],
       [43, 1, 0, 'HIGH', 13.972],
       [23, 1, 1, 'HIGH', 7.298],
       [32, 0, 0, 'NORMAL', 25.974],
       [57, 1, 1, 'NORMAL', 19.128],
       [63, 1, 2, 'HIGH', 25.917],
       [47, 1, 1, 'NORMAL', 30.568],
       [48, 0, 1, 'HIGH', 15.036],
       [33, 0, 1, 'HIGH', 33.486],
       [28, 0, 0, 'NORMAL', 18.809],
       [31, 1, 0, 'HIGH', 30.366],
       [49, 0, 2, 'NORMAL', 9.381],
      

In [6]:
# Ultima codificación
# 0 = HIGH, 1 = NORMAL
code_cholesterol = LabelEncoder()
code_cholesterol.fit(['NORMAL', 'HIGH'])
x[:,3] = code_cholesterol.transform(x[:,3])
x

array([[23, 0, 0, 0, 25.355],
       [47, 1, 1, 0, 13.093],
       [47, 1, 1, 0, 10.114],
       [28, 0, 2, 0, 7.798],
       [61, 0, 1, 0, 18.043],
       [22, 0, 2, 0, 8.607],
       [49, 0, 2, 0, 16.275],
       [41, 1, 1, 0, 11.037],
       [60, 1, 2, 0, 15.171],
       [43, 1, 1, 1, 19.368],
       [47, 0, 1, 0, 11.767],
       [34, 0, 0, 1, 19.199],
       [43, 1, 1, 0, 15.376],
       [74, 0, 1, 0, 20.942],
       [50, 0, 2, 0, 12.703],
       [16, 0, 0, 1, 15.516],
       [69, 1, 1, 1, 11.455],
       [43, 1, 0, 0, 13.972],
       [23, 1, 1, 0, 7.298],
       [32, 0, 0, 1, 25.974],
       [57, 1, 1, 1, 19.128],
       [63, 1, 2, 0, 25.917],
       [47, 1, 1, 1, 30.568],
       [48, 0, 1, 0, 15.036],
       [33, 0, 1, 0, 33.486],
       [28, 0, 0, 1, 18.809],
       [31, 1, 0, 0, 30.366],
       [49, 0, 2, 1, 9.381],
       [39, 0, 1, 1, 22.697],
       [45, 1, 1, 0, 17.951],
       [18, 0, 2, 1, 8.75],
       [74, 1, 0, 0, 9.567],
       [49, 1, 1, 1, 11.014],
       [65, 0, 0,

In [7]:
# Separación de grupos de entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)

# Metodo GINI

In [8]:
# Creación y entrenamiento del primer árbol de decisión
clf_gini = tree.DecisionTreeClassifier(criterion='gini')
clf_gini.fit(x_train, y_train)

# Predicción
yhat_gini = clf_gini.predict(x_test)

In [9]:
# Creación de la Matriz de Confusión
cm_gini = metrics.confusion_matrix(y_test, yhat_gini)
cm_gini

array([[ 4,  0,  0,  0,  0],
       [ 0,  2,  0,  0,  0],
       [ 0,  0,  4,  0,  0],
       [ 0,  0,  0, 13,  0],
       [ 0,  0,  0,  0, 17]], dtype=int64)

In [10]:
# Revisión del reporte de clasificación
print(metrics.classification_report(y_test, yhat_gini))

""" Tanto en la matriz de confusión como en el reporte de clasificación
podemos darnos cuenta de que obtuvimos métricas perfectas, es decir,
todos los indicadores marcan 100% de efectividad, lo que sifnifica
que el árbol de decisión predijo todos los casos acertivamente. """

              precision    recall  f1-score   support

       drugA       1.00      1.00      1.00         4
       drugB       1.00      1.00      1.00         2
       drugC       1.00      1.00      1.00         4
       drugX       1.00      1.00      1.00        13
       drugY       1.00      1.00      1.00        17

    accuracy                           1.00        40
   macro avg       1.00      1.00      1.00        40
weighted avg       1.00      1.00      1.00        40



' Tanto en la matriz de confusión como en el reporte de clasificación\npodemos darnos cuenta de que obtuvimos métricas perfectas, es decir,\ntodos los indicadores marcan 100% de efectividad, lo que sifnifica\nque el árbol de decisión predijo todos los casos acertivamente. '

In [11]:
# Importación de librerías para la visualización del árbol de decisiones
import pydotplus
from PIL import Image

# Creación del formato dot
dot_data_gini = tree.export_graphviz(clf_gini, out_file=None, feature_names=feature_cols, 
                                     class_names=['Drug_A', 'Drug_B', 'Drug_C', 'Drug_X', 'Drug_Y'])

# Creación de la gráfica a partir del formato dot
graph = pydotplus.graph_from_dot_data(dot_data_gini)

In [12]:
# Generación y visualización de archivos png y pdf del árbol de decisión
graph.write_pdf('drugs.pdf')
graph.write_png('drugs.png')

image = Image.open('drugs.png')
image.show()

In [13]:
# Creación de caso hipotético proporcionado para su predicción
paciente = {
    'Age' : [50],
    'Sex' : [0],
    'BP' : [2],
    'Cholesterol' : [1],
    'Na_to_K' : [15.302]
}

paciente_df = pd.DataFrame(paciente)
paciente_df.values

array([[50.   ,  0.   ,  2.   ,  1.   , 15.302]])

In [14]:
# Predicción con el árbol de decisión creado con el paciente creado anteriormente
clf_gini.predict(paciente_df.values)
""" La predicción arroja que para este paciente lo recomendable es suministrar
la medicina Y """

' La predicción arroja que para este paciente lo recomendable es suministrar\nla medicina Y '

# Método Entropy

In [15]:
# Creación y entrenamiento del segundo árbol de decisión
clf_entropy = tree.DecisionTreeClassifier(criterion='entropy')
clf_entropy.fit(x_train, y_train)

# Predicción
yhat_entropy = clf_entropy.predict(x_test)

In [16]:
# Creación de la Matriz de Confusión
cm_entropy = metrics.confusion_matrix(y_test, yhat_entropy)
cm_entropy

array([[ 4,  0,  0,  0,  0],
       [ 0,  2,  0,  0,  0],
       [ 0,  0,  4,  0,  0],
       [ 0,  0,  0, 13,  0],
       [ 0,  0,  0,  0, 17]], dtype=int64)

In [17]:
# Revisión del reporte de clasificación
print(metrics.classification_report(y_test, yhat_entropy))

              precision    recall  f1-score   support

       drugA       1.00      1.00      1.00         4
       drugB       1.00      1.00      1.00         2
       drugC       1.00      1.00      1.00         4
       drugX       1.00      1.00      1.00        13
       drugY       1.00      1.00      1.00        17

    accuracy                           1.00        40
   macro avg       1.00      1.00      1.00        40
weighted avg       1.00      1.00      1.00        40



In [18]:
# Creación del formato dot
dot_data_entropy = tree.export_graphviz(clf_entropy, out_file=None, feature_names=feature_cols, 
                                     class_names=['Drug_A', 'Drug_B', 'Drug_C', 'Drug_X', 'Drug_Y'])

# Creación de la gráfica a partir del formato dot
graph = pydotplus.graph_from_dot_data(dot_data_entropy)

In [19]:
# Generación y visualización de archivos png y pdf del árbol de decisión
graph.write_pdf('drugs2.pdf')
graph.write_png('drugs2.png')
image = Image.open('drugs.png')
image.show()

# Conclusiones
Ambos criterios (gini y entropy) arrojan un 100% de efectividad en las predicciones, y de igual manera arrojan el mismo árbol de decisión.
En el primer nodo la condición es Na_to_k, si no se cumple la condición, el medicamento adecuado sería Drug_Y. Si se cumple la condición, el segundo nodo tiene como condición el BP, si se cumple posteriormente evalúa Age, si cumple la condición Age el medicamento adecuado es Drug_A, si no, sería Drug_B. Regresando al nodo que evalúa BP, si no se cumple, evalúa otros valores de BP, si no se cumple este criterio, la medicina es Drug_X, si se cumple el criterio, el siguiente nodo finalmente evalúa Choresterol, si se cumple, la medicina es Drug_C, si no, la medicina es Drug_X.