In [None]:
# Imagina que eres un investigador médico que compila datos para un estudio.
# Ya has recolectado datos sobre un conjunto de pacientes,los cuales sufrieron de la
# la misma enfermedad.
# Durante el curso de su tratamiento,cada paciente respondió a uno de los dos medicamentos; nosotros
# los llamaremos fármaco A y fármaco B. Parte de tu trabajo consiste en construir un modelo para encontrar
# qué medicamento podría ser apropiado para un paciente futuro con la misma enfermedad.

# Ahora la pregunta es ¿cómo podemos construir un árbol de decisiones así?
# Este es el modo en que se construye un árbol de decisiones.

# Se puede construir un árbol de decisiones teniendo en cuenta los atributos uno por uno.
# En primer lugar,elije un atributo de nuestro dataset.
# Calcula la importancia del atributo en la división de los datos.
# En el siguiente video,explicaremos cómo calcular la importancia de un atributo,
# para ver si se trata de un atributo efectivo o no.
# A continuación,divide los datos en función del valor del mejor atributo.
# Luego,ve a cada rama y repitelo para el resto de los atributos.
# Después de construir este árbol,puede usarlo para predecir la clase de casos desconocidos o,en
# nuestro caso,el fármaco adecuado para un nuevo paciente basado en su caracterestica.

In [None]:
# Construyendo Arboles de Decisión

# Los árboles de decisiones se crean utilizando el particionamiento 
# recursivo(https://es.wikipedia.org/wiki/Particionamiento_recursivo) para clasificar los datos.

# La "Impureza" de los nodos se calcula mediante la "Entropía" de los datos en el nodo.
# Entonces,¿qué es "Entropía"?
# La entropía es la cantidad de desorden de la información,o la cantidad de aleatoriedad en los datos.
# La entropía en el nodo depende de la cantidad de datos aleatorios que se encuentran en ese nodo y se calcula
# para cada nodo.
# En los árboles de decisión,buscamos a los árboles que tengan la entropía más pequeña en sus nodos.
# Esto significa que,si todos los datos de un nodo son o únicamente Fármaco 
# A o únicamente Fármaco B,entonces la entropía.

# ¿Cuál es mejor como el primer atributo para dividir el dataset en 2 sucursales?
# O,en otras palabras,¿qué atributo resulta en más nodos puros para nuestros fármacos?
# O,¿en qué árbol tenemos menos entropía después de la división en lugar de antes de la división?
# El atributo "Sex" con entropía de 0.98 y 0.59,o el atributo "Colesterol"
# con entropía de 0,81 y 1,0 en sus ramas?
# La respuesta es: "El árbol con la mayor ganancia de información después de la división"
# Entonces,¿qué es la ganancia de información?
# La ganancia de información es la información que puede aumentar el nivel de certeza después de la división.
# Es la entropía de un árbol antes de la división menos la entropía ponderada después de la división
# por un atributo.

# Podemos pensar en la ganancia de la información y en la entropía como opuestos.

# Como la entropía,o la cantidad de aleatoriedad,disminuye,la ganancia de la información,o la cantidad de certeza,
# aumenta,y viceversa.
# Por lo tanto,la construcción de un árbol de decisión se trata de encontrar atributos que devuelvan la más alta
# ganancia de información.

In [None]:
# laborratorio Arboles de Decisión 

# En este ejercicio, aprenderás un algoritmo muy popular de machine learning llamado 
# Árboles de Decisión. Utilizarás un algoritmo de clasificación para construir un modelo 
# basado en datos históricos de pacientes y sus respectivos medicamentos. Luego, 
# utilizarás el árbol de decisión recién entrenado para predecir la clase de paciente 
# desconocido o para encontrar la droga adecuada para el mismo.

# Import the Following Libraries:

# numpy (as np)
# pandas
# DecisionTreeClassifier from sklearn.tree

# Acerca del set de datos

# Imagina que eres un investigador médico recolectando datos para un estudio. 
# Has colectado datos de un grupo de pacientes, todos sufrieron la misma enfermedad. 
# Durante su tratamiento, cada paciente respondio a una de 5 medicaciones, 
# Droga A, Droga B, Droga c, Droga x e y.

# Parte de tu trabajo es construir un modelo para encontrar la droga 
# apropiada para un próximo paciente con la misma enfermedad. 
# El conjunto de características son Edad, Sexo, Presión Sanguínea 
# y Colesterol. El objetivo es la droga ante la cual cada paciente respondió.

# Este es un ejemplo de un clasificador binario donde puedes utilizar 
# un set de entrenamiento del set de datos para construir un árbol de 
# decisión para predecir la clase de pacientes desconocidos 
# o para prescribirle a un nuevo paciente.



In [5]:
import numpy as np 
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

In [6]:
my_data = pd.read_csv("https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/drug200.csv", delimiter=",")
my_data.head(50)


Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,drugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,drugY
5,22,F,NORMAL,HIGH,8.607,drugX
6,49,F,NORMAL,HIGH,16.275,drugY
7,41,M,LOW,HIGH,11.037,drugC
8,60,M,NORMAL,HIGH,15.171,drugY
9,43,M,LOW,NORMAL,19.368,drugY


In [7]:
my_data.size

1200

In [211]:
my_data1 = my_data[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K', 'Drug']].values
my_data1

array([[23, 'F', 'HIGH', 'HIGH', 25.355, 'drugY'],
       [47, 'M', 'LOW', 'HIGH', 13.093, 'drugC'],
       [47, 'M', 'LOW', 'HIGH', 10.113999999999999, 'drugC'],
       ...,
       [52, 'M', 'NORMAL', 'HIGH', 9.894, 'drugX'],
       [23, 'M', 'NORMAL', 'NORMAL', 14.02, 'drugX'],
       [40, 'F', 'LOW', 'NORMAL', 11.349, 'drugX']], dtype=object)

In [212]:
# Pre-procesamiento
from sklearn import preprocessing

#convertimos las variables categoricas F = 0 y M = 1
le_sex = preprocessing.LabelEncoder()
le_sex.fit(['F','M'])
my_data1[:,1] = le_sex.transform(my_data1[:,1]) 

# convertimos BP  'LOW = 1 ', 'NORMAL = 2', 'HIGH = 0'
le_BP = preprocessing.LabelEncoder()
le_BP.fit([ 'LOW', 'NORMAL', 'HIGH'])
my_data1[:,2] = le_BP.transform(my_data1[:,2])

# convertimos BP  , 'NORMAL = 1', 'HIGH = 0
le_Chol = preprocessing.LabelEncoder()
le_Chol.fit([ 'NORMAL', 'HIGH'])
my_data1[:,3] = le_Chol.transform(my_data1[:,3]) 

# # convertimos a drugA = 0, drugB= 1, drugC = 2, drugX = 3, drugY = 4

le_Drog = preprocessing.LabelEncoder()
le_Drog.fit([ 'drugA', 'drugB', 'drugC','drugX','drugY'])
my_data1[:,5]= le_Drog.transform(my_data1[:,5])
my_data1[0:5]



array([[23, 0, 0, 0, 25.355, 4],
       [47, 1, 1, 0, 13.093, 2],
       [47, 1, 1, 0, 10.113999999999999, 2],
       [28, 0, 2, 0, 7.797999999999999, 3],
       [61, 0, 1, 0, 18.043, 4]], dtype=object)

In [213]:
df = pd.DataFrame(my_data1)
df.head(55)

Unnamed: 0,0,1,2,3,4,5
0,23,0,0,0,25.355,4
1,47,1,1,0,13.093,2
2,47,1,1,0,10.114,2
3,28,0,2,0,7.798,3
4,61,0,1,0,18.043,4
5,22,0,2,0,8.607,3
6,49,0,2,0,16.275,4
7,41,1,1,0,11.037,2
8,60,1,2,0,15.171,4
9,43,1,1,1,19.368,4


In [214]:
headers = ["Age", "Sex", "BP", "Cholesterol", "Na_to_K", "Drug"]
df.columns = headers

In [215]:
df

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,0,0,0,25.355,4
1,47,1,1,0,13.093,2
2,47,1,1,0,10.114,2
3,28,0,2,0,7.798,3
4,61,0,1,0,18.043,4
...,...,...,...,...,...,...
195,56,0,1,0,11.567,2
196,16,1,1,0,12.006,2
197,52,1,2,0,9.894,3
198,23,1,2,1,14.02,3


In [216]:
# Pre-procesamiento
# Utilizando my_data como los datos de panda el archivo Drug.csv, declara las siguientes variables:


# X as the Feature Matrix (datos de my_data)
# <li> <b> y </b> como el <b> vector de respuesta (target) </b> </li>
# Elimina la columna que contiene el target ya que no posee valores numéricos.
X = df[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']].values
X[0:5]

array([[23, 0, 0, 0, 25.355],
       [47, 1, 1, 0, 13.093],
       [47, 1, 1, 0, 10.113999999999999],
       [28, 0, 2, 0, 7.797999999999999],
       [61, 0, 1, 0, 18.043]], dtype=object)

In [217]:
# Como te puedes imaginar, algunas características son de categoría, tales como Sex o__BP__. 
# Desafortunadamente, los árboles de Decisión Sklearn no manejan variables categóricas. 
# Pero las podemos convertir en valores numéricos. 
# pandas.get_dummies() Convertir variable categórica en indicadores de variables.

In [218]:
# Ahora, podemos completar la variable objetivo (target).
y1 = df["Drug"]
y = pd.to_numeric(y1, downcast='float')
y

0      4.0
1      2.0
2      2.0
3      3.0
4      4.0
      ... 
195    2.0
196    2.0
197    3.0
198    3.0
199    3.0
Name: Drug, Length: 200, dtype: float32

In [219]:
# Configurando el Arbol de Decisión
# Estaremos utilizando entrenar/probar separar en nuestro árbol de decisión. 
# Importemos train_test_split de sklearn.cross_validation.
from sklearn.model_selection import train_test_split

# Ahora train_test_split devolverá 4 parámetros diferentes. Los nombraremos:
# X_trainset, X_testset, y_trainset, y_testset

# El train_test_split necesitará los parámetros:
# X, y, test_size=0.3, and random_state=3.

# La X e y son los arreglos necesarios ántes de la operación dividir/separar, 
# test_size representa el grado del dataset de pruebas, 
# y el random_state asegura que obtendremos las mismas divisiones.


X_trainset, X_testset, y_trainset, y_testset = train_test_split(X, y, test_size=0.3, random_state=3)
# Práctica
# Imprimir la forma X_trainset e y_trainset. Asegurarse que las dimensiones coincidan
print ('Set de Entrenamiento:', X_trainset.shape,  y_trainset.shape)
print ('Set de Prueba:', X_testset.shape,  y_testset.shape)

Set de Entrenamiento: (140, 5) (140,)
Set de Prueba: (60, 5) (60,)


In [220]:
# Modelando
# Primero crearemos una instancia del DecisionTreeClassifier llamada drugTree.
# Dentro del clasificador, especificaremos criterion="entropy" 
# para que podamos ver la nueva información de cada nodo.
drugTree = DecisionTreeClassifier(criterion="entropy", max_depth = 4)
drugTree # muestra los parámetros por omisión

DecisionTreeClassifier(criterion='entropy', max_depth=4)

In [221]:
y_trainset[0:5]

77    4.0
73    4.0
71    4.0
78    0.0
42    4.0
Name: Drug, dtype: float32

In [222]:
X_trainset[0:5]

array([[26, 0, 0, 1, 19.160999999999998],
       [41, 0, 2, 1, 22.905],
       [28, 0, 2, 0, 19.675],
       [19, 0, 0, 0, 13.312999999999999],
       [50, 1, 2, 1, 15.79]], dtype=object)

In [223]:
# Luego, adaptaremos los datos con la matriz de 
# entrenamiento X_trainset y el vector de respuesta y_trainset

drugTree.fit(X_trainset,y_trainset)

DecisionTreeClassifier(criterion='entropy', max_depth=4)

In [224]:
# Predicción
# Ahora hagamos algunas predicciones en el dataset de pruebas 
# y guardémoslas en una variable llamada predTree.
predTree = drugTree.predict(X_testset)

In [225]:
# Valores reales
y.values[0:20]

array([4., 2., 2., 3., 4., 3., 4., 2., 4., 4., 2., 4., 4., 4., 3., 4., 3.,
       0., 2., 4.], dtype=float32)

In [226]:
# Valores predichos
predTree[0:20]

array([4., 3., 3., 3., 3., 2., 4., 0., 1., 0., 4., 0., 4., 4., 3., 4., 3.,
       3., 1., 3.], dtype=float32)

In [227]:
y_testset[0:5]

40     4.0
51     3.0
139    3.0
197    3.0
170    3.0
Name: Drug, dtype: float32

In [228]:
# Evaluación
# Luego, importemos metrics de sklearn y revisemos la precisión de nuestro modelo.
from sklearn import metrics
import matplotlib.pyplot as plt
print("Precisión de los Arboles de Decisión: ", metrics.accuracy_score(y_testset, predTree))

Precisión de los Arboles de Decisión:  0.9833333333333333


In [229]:
# Accuracy classification score calcula la precisión del subconjunto: 
# las etiquetas predichas para una muestra deben coincidir con 
# las correspondientes etiquetas en y_true.

# En la clasificación multietiqueta, la función devuelve un subconjunto de precisión. 
# Si el conjunto de etiquetas predichas para una muestra coincide totalmente con 
# el conjunto de etiquetas, entonces la precisión del subconjunto es 1.0; de no ser así, es 0.0.

In [2]:
# from sklearn.externals.six import StringIO
import pydot
import matplotlib.image as mpimg
from sklearn import tree
%matplotlib inline 

ModuleNotFoundError: No module named 'pydot'