# Modelo Árboles de decisión

## Importación de librerías

In [2]:
import pandas as pd
pd.set_option('display.max_columns', 25) # Número máximo de columnas a mostrar
pd.set_option('display.max_rows', 50) # Numero máximo de filas a mostar
import numpy as np
np.random.seed(3301)
import pandas as pd
# Para preparar los datos
from sklearn.preprocessing import LabelEncoder
# Para crear el arbol de decisión 
from sklearn.tree import DecisionTreeClassifier 
# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para evaluar el modelo
from sklearn.metrics import confusion_matrix, classification_report, precision_score, recall_score, f1_score, accuracy_score
from sklearn.metrics import plot_confusion_matrix
# Para búsqueda de hiperparámetros
from sklearn.model_selection import GridSearchCV
# Para la validación cruzada
from sklearn.model_selection import KFold 
#Librerías para la visualización
import matplotlib as mplt
import matplotlib.pyplot as plt
# Seaborn
import seaborn as sns 
from sklearn import tree

## Carga de datos

In [3]:
# Se cargan los datos. 
datos=pd.read_csv('datos.csv', sep=';', encoding = 'utf-8')
datos.head()

Unnamed: 0,HairColor,Pregnancies,Glucose,City,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,Red,6.0,148.0,New York,72.0,35.0,0.0,336,627.0,50,1.0
1,Black,1.0,85.0,New York,66.0,29.0,0.0,266,351.0,31,0.0
2,Red,8.0,183.0,New York,64.0,0.0,0.0,233,672.0,32,1.0
3,Black,1.0,89.0,New York,66.0,23.0,94.0,281,167.0,21,0.0
4,Black,0.0,137.0,New York,40.0,35.0,168.0,431,2288.0,33,1.0


In [32]:
datos.shape

(768, 11)

In [4]:
# Podemos ver los tipos de todas la variables.
datos.dtypes

HairColor                    object
Pregnancies                 float64
Glucose                     float64
City                         object
BloodPressure               float64
SkinThickness               float64
Insulin                     float64
BMI                           int64
DiabetesPedigreeFunction    float64
Age                           int64
Outcome                     float64
dtype: object

In [34]:
# Y hacer una descripción de los datos
datos.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,767.0,767.0,767.0,767.0,767.0,768.0,767.0,768.0,767.0
mean,3.839635,120.921773,69.09648,20.563233,79.90352,289.796875,432.395046,38.011719,0.349413
std,3.368429,31.984561,19.366833,15.945349,115.283105,116.757554,336.144934,117.8256,0.477096
min,0.0,0.0,0.0,0.0,0.0,0.0,1.0,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,251.75,205.5,24.0,0.0
50%,3.0,117.0,72.0,23.0,32.0,309.0,337.0,29.0,0.0
75%,6.0,140.5,80.0,32.0,127.5,359.0,592.0,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,671.0,2329.0,3256.0,1.0


In [5]:
# Se observa que hay ausencias:
datos.isnull().sum()

HairColor                   0
Pregnancies                 1
Glucose                     1
City                        1
BloodPressure               1
SkinThickness               1
Insulin                     1
BMI                         0
DiabetesPedigreeFunction    1
Age                         0
Outcome                     1
dtype: int64

### Limpieza

In [12]:
# Es recomendable que todos los pasos de limpieza y preparación se realicen sobre otro archivo.
datoslimpios = datos
datoslimpios

Unnamed: 0,HairColor,Pregnancies,Glucose,City,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,Red,6.0,148.0,New York,72.0,35.0,0.0,336,627.0,50,1.0
1,Black,1.0,85.0,New York,66.0,29.0,0.0,266,351.0,31,0.0
2,Red,8.0,183.0,New York,64.0,0.0,0.0,233,672.0,32,1.0
3,Black,1.0,89.0,New York,66.0,23.0,94.0,281,167.0,21,0.0
4,Black,0.0,137.0,New York,40.0,35.0,168.0,431,2288.0,33,1.0
...,...,...,...,...,...,...,...,...,...,...,...
763,Black,10.0,101.0,New York,76.0,48.0,180.0,329,171.0,63,0.0
764,Black,2.0,122.0,New York,70.0,27.0,0.0,368,34.0,27,0.0
765,Red,5.0,121.0,New York,72.0,23.0,112.0,262,245.0,30,0.0
766,Black,1.0,126.0,New York,60.0,0.0,0.0,301,349.0,47,1.0


In [13]:
# Eliminación registros con ausencias
#¿Porqué realizar este paso?
datoslimpios = datoslimpios.dropna()

In [14]:
# Cantidad de datos y número de variables
datoslimpios.shape

(767, 11)

In [15]:
#Restricciones

#Edad menor a 100 y mayor a 21
datoslimpios = datoslimpios[datoslimpios.Age < 100]
datoslimpios = datoslimpios[datoslimpios.Age >= 21]

#BMI no puede ser 0
datoslimpios = datoslimpios[datoslimpios.BMI >0]

#Glucosa no puede ser 0
datoslimpios = datoslimpios[datoslimpios.Glucose >0]

#BloodPressure no puede ser 0
datoslimpios = datoslimpios[datoslimpios.BloodPressure >0]

#SkinThickness no puede ser 0
datoslimpios = datoslimpios[datoslimpios.SkinThickness> 0]

#Quitar color de pelo y ciudad
datoslimpios = datoslimpios.drop(['HairColor'], axis=1)
datoslimpios = datoslimpios.drop(['City'], axis=1)

datoslimpios

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6.0,148.0,72.0,35.0,0.0,336,627.0,50,1.0
1,1.0,85.0,66.0,29.0,0.0,266,351.0,31,0.0
3,1.0,89.0,66.0,23.0,94.0,281,167.0,21,0.0
4,0.0,137.0,40.0,35.0,168.0,431,2288.0,33,1.0
6,3.0,78.0,50.0,32.0,88.0,31,248.0,26,1.0
...,...,...,...,...,...,...,...,...,...
761,9.0,170.0,74.0,31.0,0.0,44,403.0,43,1.0
763,10.0,101.0,76.0,48.0,180.0,329,171.0,63,0.0
764,2.0,122.0,70.0,27.0,0.0,368,34.0,27,0.0
765,5.0,121.0,72.0,23.0,112.0,262,245.0,30,0.0


## Construcción del modelo

In [16]:
# Se selecciona la variable objetivo, en este caso "Popularity_label".
Y = datoslimpios['Outcome']
# Del conjunto de datos se elimina la variable "Popularity_label"
X = datoslimpios.drop(['Outcome'], axis=1)

In [17]:
# Dividir los datos en entrenamiento y test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [18]:
arbol = DecisionTreeClassifier(criterion='entropy', random_state=0)
arbol = arbol.fit(X_train,Y_train)
y_pred = arbol.predict(X_test)
print('Exactitud: %.2f' % accuracy_score(Y_test, y_pred))
print("Recall: {}".format(recall_score(Y_test,y_pred)))
print("Precisión: {}".format(precision_score(Y_test,y_pred)))
print("Puntuación F1: {}".format(f1_score(Y_test,y_pred)))

Exactitud: 0.73
Recall: 0.4883720930232558
Precisión: 0.75
Puntuación F1: 0.5915492957746479


### Búsqueda de hiperparámetros

In [19]:
# Fijemos el número de particiones. Utilizaremos K = 10.
particiones = KFold(n_splits=10, shuffle=True, random_state = 0)

# Establecemos el espacio de búsqueda para los hiperparámetros que deseamos ajustar. 
param_grid = {'criterion':['gini', 'entropy'],'max_depth':[4,6,8,10,20],'min_samples_split':[2, 3, 4, 5]}

# Definimos el modelo sin ningún valor de estos hiperparámetros
arbol = DecisionTreeClassifier(random_state=0)

In [20]:
# Ahora utilizamos GridSearch sobre el grid definido y con 10 particiones en la validación cruzada.
mejor_modelo = GridSearchCV(arbol, param_grid, cv=particiones)
# Ajuste del modelo
mejor_modelo.fit(X_train, Y_train)

GridSearchCV(cv=KFold(n_splits=10, random_state=0, shuffle=True),
             estimator=DecisionTreeClassifier(random_state=0),
             param_grid={'criterion': ['gini', 'entropy'],
                         'max_depth': [4, 6, 8, 10, 20],
                         'min_samples_split': [2, 3, 4, 5]})

In [21]:
# Podemos ver cuál fue el resultado de la búsqueda (mejores valores de hiperparámetros)
mejor_modelo.best_params_

{'criterion': 'gini', 'max_depth': 4, 'min_samples_split': 2}

In [22]:
# Obtener el mejor modelo.
arbol_final = mejor_modelo.best_estimator_
# Probemos ahora este modelo sobre test.
y_pred_train = arbol_final.predict(X_train)
y_pred_test = arbol_final.predict(X_test)
print('Exactitud sobre entrenamiento: %.2f' % accuracy_score(Y_train, y_pred_train))
print('Exactitud sobre test: %.2f' % accuracy_score(Y_test, y_pred_test))

Exactitud sobre entrenamiento: 0.86
Exactitud sobre test: 0.72
