# Actividad 4-5 Arboles de decisión

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
import warnings
warnings.filterwarnings("ignore")

pd.options.display.max_rows = None

In [2]:
Df_drugs = pd.read_csv("drugs.csv")
Df_drugs

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,drugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,drugY
5,22,F,NORMAL,HIGH,8.607,drugX
6,49,F,NORMAL,HIGH,16.275,drugY
7,41,M,LOW,HIGH,11.037,drugC
8,60,M,NORMAL,HIGH,15.171,drugY
9,43,M,LOW,NORMAL,19.368,drugY


## 1. Preprocesamiento de los datos

In [3]:
## División de las variables x y y
feature_cols = ["Age", "Sex", "BP", "Cholesterol", "Na_to_K"]
X = Df_drugs[feature_cols].values
y = Df_drugs.Drug

In [4]:
## Asignación de números a las variables cualitativas (X)

from sklearn import preprocessing

# Asignación de nuevos valores a la columna Sex (F = 0, M = 1)
Cod_sex = preprocessing.LabelEncoder() # Asignación de etiquetas
Cod_sex.fit(["F", "M"])
X[:,1] = Cod_sex.transform(X[:,1])

# Asignación de nuevos valores a la columna BP (High = 0, Low = 1, Normal = 2)
Cod_BP = preprocessing.LabelEncoder() # Asignación de etiquetas
Cod_BP.fit(["LOW", "NORMAL", "HIGH"])
X[:,2] = Cod_BP.transform(X[:,2])

# Asignación de nuevos valores a la columna Cholesterol (High = 0, Normal = 1)
Cod_Chol = preprocessing.LabelEncoder() # Asignación de etiquetas
Cod_Chol.fit(["NORMAL", "HIGH"])
X[:,3] = Cod_Chol.transform(X[:,3])

print(X[0:10])

[[23 0 0 0 25.355]
 [47 1 1 0 13.093]
 [47 1 1 0 10.114]
 [28 0 2 0 7.798]
 [61 0 1 0 18.043]
 [22 0 2 0 8.607]
 [49 0 2 0 16.275]
 [41 1 1 0 11.037]
 [60 1 2 0 15.171]
 [43 1 1 1 19.368]]


In [5]:
####
# Asignación de nuevos valores a la columna drug
#Cod_drug = preprocessing.LabelEncoder() # Asignación de etiquetas
#Cod_drug.fit(["drugA", "drugB", "drugC", "drugX", "drugY"])
#y[:] = Cod_drug.transform(y[:])
#print(y[0:20])

In [6]:
## Creación de los grupos de entrenamiento y prueba

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 1)

## 2. Creación del árbol de decisión (Model Gini)

In [7]:
clfg = DecisionTreeClassifier(criterion = "gini")
clfg = clfg.fit(X_train, y_train)

y_predg = clfg.predict(X_test)

## Reporte de clasificación

from sklearn.metrics import classification_report
print(classification_report(y_test, y_predg))

              precision    recall  f1-score   support

       drugA       0.67      1.00      0.80         4
       drugB       1.00      0.67      0.80         6
       drugC       1.00      1.00      1.00         4
       drugX       1.00      1.00      1.00        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.97        60
   macro avg       0.93      0.93      0.92        60
weighted avg       0.98      0.97      0.97        60



In [8]:
## Visualización del árbol de decisiones
from sklearn import tree
import graphviz
import pydotplus
from PIL import Image

dot_data = tree.export_graphviz(clfg, out_file=None, feature_names = feature_cols, class_names = 
                                                                                  ["MedA", "MedB", "MedC", "MedX", "MedY"])
graph = pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf("Drug.pdf")
graph.write_png("Drug.png")

image = Image.open("Drug.png")
image.show()

<img src="Drug.png">

## Explicación de las reglas del árbol
El árbol que mejor precisión marcó para las predicciones de diagnósticos de Diabetes fue el Gini estandar (4 etapas) el cual establece las siguientes reglas por etapa:

- 1 piso = Hace la comparativa con el valor de Na_to_K y establece la primera regla: Si el paciente tiene igual o menor      puntaje de 14.839 se cambia a MedX, en caso contrario se mantiene en MedY
- 2 piso = Toma como base el BP y hace la segunda regla: Si el paciente presenta igual o menor puntaje de 0.5 en BP, se cambia a MedA, caso contrario se mantiene el MedX
- 3 piso = Se analiza la edad y se determina que si la edad del paciente es igual o menor a 53, se mantiene la MedA, en caso contrario se cambia a MedB
- 4 piso = Por último se toma en cuenta para los pacientes asignados al MedX su nivel de colesterol, a lo que si éste supera el valor de 0.5, se mantiene el mismo medicamento, en caso contrario se cambia a MedC

In [9]:
## Exploración hasta 3 niveles del árbol con gini
clfg3 = DecisionTreeClassifier(criterion = "gini", max_depth = 3)
clfg3 = clfg3.fit(X_train, y_train)

y_predg3 = clfg3.predict(X_test)

from sklearn.metrics import classification_report
print(classification_report(y_test, y_predg3))

              precision    recall  f1-score   support

       drugA       0.67      1.00      0.80         4
       drugB       1.00      0.67      0.80         6
       drugC       0.00      0.00      0.00         4
       drugX       0.83      1.00      0.90        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.90        60
   macro avg       0.70      0.73      0.70        60
weighted avg       0.86      0.90      0.87        60



## Observaciones
Para esta variación de tres pisos en el árbol de gini podemos notar una disminución en la precisión global en comparación con 4 pisos, siendo lo más relevante que no se logra llegar a poder determinar cuando aplicar el medicamento C y la disminución del valor de F1 score para la medición del medicamento X

In [10]:
## Exploración hasta 2 niveles del árbol con gini
clfg2 = DecisionTreeClassifier(criterion = "gini", max_depth = 2)
clfg2 = clfg2.fit(X_train, y_train)

y_predg2 = clfg2.predict(X_test)

from sklearn.metrics import classification_report
print(classification_report(y_test, y_predg2))

              precision    recall  f1-score   support

       drugA       0.40      1.00      0.57         4
       drugB       0.00      0.00      0.00         6
       drugC       0.00      0.00      0.00         4
       drugX       0.83      1.00      0.90        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.83        60
   macro avg       0.45      0.60      0.50        60
weighted avg       0.74      0.83      0.77        60



## Observaciones
Para esta variación de dos pisos en el árbol de gini podemos notar aún mayor disminución en la precisión global, esto debido a que con dos pisos no se alcanza a generar las suficientes variaciones para formar las reglas de los medicamentos B y C, lo que provoca que no se pueda tener una presición adecuada tanto en los medicamentos A como que disminuya la precisión de los medicamentos X.

## Exploración con el algoritmo Entropy

In [11]:
clf_en = DecisionTreeClassifier(criterion = "entropy")
clf_en = clf_en.fit(X_train, y_train)

y_pred_en = clf_en.predict(X_test)

## Reporte de clasificación

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_en))

              precision    recall  f1-score   support

       drugA       0.67      1.00      0.80         4
       drugB       1.00      0.67      0.80         6
       drugC       1.00      1.00      1.00         4
       drugX       1.00      1.00      1.00        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.97        60
   macro avg       0.93      0.93      0.92        60
weighted avg       0.98      0.97      0.97        60



In [12]:
## Exploración hasta 3 niveles del árbol con entropy
clf_en3 = DecisionTreeClassifier(criterion = "entropy", max_depth = 3)
clf_en3 = clf_en3.fit(X_train, y_train)

y_pred_en3 = clf_en3.predict(X_test)

## Reporte de clasificación

from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_en3))

              precision    recall  f1-score   support

       drugA       0.67      1.00      0.80         4
       drugB       1.00      0.67      0.80         6
       drugC       0.00      0.00      0.00         4
       drugX       0.83      1.00      0.90        19
       drugY       1.00      1.00      1.00        27

    accuracy                           0.90        60
   macro avg       0.70      0.73      0.70        60
weighted avg       0.86      0.90      0.87        60



## Recomendación de medicación para paciente (Árbol gini 4 pisos)

In [13]:
                        ### Primera línea = ejemplo del paciente
pac_ejem = np.array([[50, 0, 0, 1, 15.302],
                     [33, 0, 1, 0, 13.942],
                     [50, 1, 2, 1, 11.220]])

y_predg = clfg.predict(pac_ejem)
print("El medicamento que debe tomar el paciente es ", y_predg[0])

El medicamento que debe tomar el paciente es  drugY
