In [None]:
# Tratamiento de datos
# ------------------------------------------------------------------------------
import numpy as np
import pandas as pd

# Gráficos
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt
import seaborn as sns

# Modelado y evaluación
# ------------------------------------------------------------------------------
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score , cohen_kappa_score, roc_curve,roc_auc_score
from sklearn.model_selection import GridSearchCV

# Configuración warnings
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings('ignore')

# Pair Programming Decision Tree

### Ana G y Ana C

Hasta ahora hemos ajustado el modelo usando una Regresión Logística, pero como hemos aprendido, podemos usar el Decision Tree en este tipo de problemas. 

Los objetivos de este pair programming :

- Ajustad un modelo de Decision Tree a nuestros datos.
-Calculad las métricas a nuestro nuevo modelo.
-Comparad las métricas con el modelo hecho hasta ahora. ¿Cuál es mejor?

In [None]:
df_cod_noest = pd.read_pickle("../data-log/02-df_codifcadas_no_estandarizadas.pickle")
df_cod_noest.head()

In [None]:
df_cod_esta = pd.read_pickle("../data-log/02-df_estandarizadas_codificadas.pickle")
df_cod_esta.head()

In [None]:
df_bal = pd.read_pickle("../data-log/02-bal_est_cod.pickle")
df_bal.head()

---

# 1. Datos  NO estandarizadas, no balanceado,codificadas

In [None]:
# separamos los datos en X e y
X1 = df_cod_noest.drop("TenYearCHD", axis = 1)
y1 = df_cod_noest["TenYearCHD"]

In [None]:
# separamos en train y test
x_train1, x_test1, y_train1, y_test1 = train_test_split(X1, y1, test_size = 0.2, random_state = 42)

In [None]:
# creamos el objeto del modelo, al igual que hacíamos en la regresión lineal
arbol = DecisionTreeClassifier(random_state =0)
# ajustamos el modelo, igual que en la regresión lienal. 
arbol.fit(x_train1, y_train1)

In [None]:
fig = plt.figure(figsize = (10,6))
tree.plot_tree(arbol, feature_names = x_train1.columns, filled = True)
plt.show()

In [None]:
# max features. Como vemos, debemos poner en nuestro modelo una profudidad máxima de 4. 
max_features = np.sqrt(len(x_train1.columns))
max_features

In [None]:
# max depth
print(arbol.tree_.max_depth)

In [None]:
# hacemos las predicciones sobre los dos set de datos el X_test y el X_train
y_pred_test_esta = arbol.predict(x_test1)
y_pred_train_esta = arbol.predict(x_train1)

In [None]:
def metricas(clases_reales_test, clases_predichas_test, clases_reales_train, clases_predichas_train, modelo):
    
    # para el test
    accuracy_test = accuracy_score(clases_reales_test, clases_predichas_test)
    precision_test = precision_score(clases_reales_test, clases_predichas_test)
    recall_test = recall_score(clases_reales_test, clases_predichas_test)
    f1_test = f1_score(clases_reales_test, clases_predichas_test)
    kappa_test = cohen_kappa_score(clases_reales_test, clases_predichas_test)

    # para el train
    accuracy_train = accuracy_score(clases_reales_train, clases_predichas_train)
    precision_train = precision_score(clases_reales_train, clases_predichas_train)
    recall_train = recall_score(clases_reales_train, clases_predichas_train)
    f1_train = f1_score(clases_reales_train, clases_predichas_train)
    kappa_train = cohen_kappa_score(clases_reales_train, clases_predichas_train)
    

    
    df = pd.DataFrame({"accuracy": [accuracy_test, accuracy_train], 
                       "precision": [precision_test, precision_train],
                       "recall": [recall_test, recall_train], 
                       "f1": [f1_test, f1_train],
                       "kapppa": [kappa_test, kappa_train],
                       "set": ["test", "train"]})
    
    df["modelo"] = modelo
    return df

In [None]:
# sacamos las métricas para ver si hay overfitting o unerfitting, para modificar la profundidad en función de estos resultados

dt_results1 = metricas(y_test1, y_pred_test_esta, y_train1, y_pred_train_esta, "Decission Tree NO Esta I")
dt_results1

In [None]:
# lo primero que tenemos que hacer es definir un diccionario con los hiperparámetros que queremos modificar y los valores que queremos 

param = {"max_depth": [2,4, 6, 10, 12, 14], # teniendo en cuenta que teníamos overfitting tendremos que reducir la profundidad del modelo, la nuestra anterior era de 17. Bajaremos mucho este valor ya que teníamos un overfitting muy claro
        "max_features": [1,2,3,4],# calculamos en celdas anteriores, probaremos a hacer el modelo como una variable, 2, 3 y 4. Ponemos como límite el 4 ya que es el resultado de la raiz cuadrada. 
        # estos dos hiperparámetros son más difíciles de definir, pero usualmente se suelen elegir los siguientes valores
        "min_samples_split": [10, 50, 100],
        "min_samples_leaf": [10,50,100]} 


In [None]:
# una vez creado el diccionario iniciaremos el modelo con GridSearch

gs = GridSearchCV(
            estimator=DecisionTreeClassifier(random_state= 42), # tipo de modelo que queremos hacer
            param_grid= param, # que hiperparámetros queremos que testee
            cv=10, # crossvalidation que aprendimos en la lección de regresión lineal intro. 
            verbose=-1) # para que no nos printee ningún mensaje en pantalla


In [None]:
# ajustamos el modelo que acabamos de definir en el GridSearch

gs.fit(x_train1, y_train1)

In [None]:
# este método nos esta diciendo que el mejor modelo es aquel que tiene una profundidad de 6, que usa 4 variables predictoras para construir el modelo y que tiene  un min_samples_leaf y un min_samples_split de 10. 
mejor_modelo = gs.best_estimator_
mejor_modelo

In [None]:
# veamos ahora que pinta tiene nuestro árbol

fig = plt.figure(figsize=(40, 20))
tree.plot_tree(mejor_modelo, feature_names=x_train1.columns, filled=True);

In [None]:
y_pred_test_esta2 = mejor_modelo.predict(x_test1)
y_pred_train_esta2 = mejor_modelo.predict(x_train1)

In [None]:
dt_results2 = metricas(y_test1, y_pred_test_esta2, y_train1,  y_pred_train_esta2, "DecisionTree NO Esta II")
dt_results2



In [None]:
# vamos  a juntar los dataframes de los resultados de los modelos para poder compararlos mejor

df_decision_results = pd.concat([dt_results1, dt_results2], axis = 0)
df_decision_results

In [None]:
# si recodáis, en la clase de métricas guardamos en un csv los resultados de las métricas del modelo
# vamos a cargar ese csv para comparar todos los modelos que hemos hecho, y comparar cuál de ellos es el mejor

df_logistic_results = pd.read_pickle("../data-log/04-df_metricas_resultados.pickle")
df_logistic_results


In [None]:
# concatenamos todos los resultados

df_DT_LR_results = pd.concat([df_logistic_results, df_decision_results], axis = 0).reset_index(drop=True)
df_DT_LR_results

In [None]:
# Utilizaremos si queremos borrar algun ode lso resultados
# df_DT_LR_results.drop([0,1,4,5], axis = 0, inplace = True)
# df_DT_LR_results

In [None]:
# pongamos un poco de color a nuestro dataframe para ver la comparación de los datos de una forma un poco más amigable. 
df_DT_LR_results.style.background_gradient(cmap='seismic')


In [None]:
# ademas vamos a guardar este dataframe en un csv para 

df_DT_LR_results.to_csv("../datos/06-resultados_DTNOEsta_LR_DT.csv")

---

# 2. Estandarizadas y no balanceado,codificadas

In [None]:
# separamos los datos en X e y

X2 = df_cod_esta.drop("TenYearCHD", axis = 1)
y2 = df_cod_esta["TenYearCHD"]

In [None]:
# separamos en train y test
x_train2, x_test2, y_train2, y_test2 = train_test_split(X2, y2, test_size = 0.2, random_state = 42)

In [None]:
# creamos el objeto del modelo, al igual que hacíamos en la regresión lineal
arbol = DecisionTreeClassifier(random_state =0)
# ajustamos el modelo, igual que en la regresión lienal. 
arbol.fit(x_train2, y_train2)

In [None]:
fig = plt.figure(figsize = (10,6))
tree.plot_tree(arbol, feature_names = x_train1.columns, filled = True)
plt.show()

In [None]:
# max features. Como vemos, debemos poner en nuestro modelo una profudidad máxima de 4. 
max_features = np.sqrt(len(x_train2.columns))
max_features

In [None]:
# max depth
print(arbol.tree_.max_depth)

In [None]:
# hacemos las predicciones sobre los dos set de datos el X_test y el X_train
y_pred_test_esta = arbol.predict(x_test2)
y_pred_train_esta = arbol.predict(x_train2)

In [None]:
# sacamos las métricas para ver si hay overfitting o unerfitting, para modificar la profundidad en función de estos resultados
dt_results2 = metricas(y_test1, y_pred_test_esta, y_train1, y_pred_train_esta, "Decission Tree Esta I")
dt_results2

In [None]:
# lo primero que tenemos que hacer es definir un diccionario con los hiperparámetros que queremos modificar y los valores que queremos 

param2 = {"max_depth": [2,4, 6, 10, 12, 14], # teniendo en cuenta que teníamos overfitting tendremos que reducir la profundidad del modelo, la nuestra anterior era de 17. Bajaremos mucho este valor ya que teníamos un overfitting muy claro
        "max_features": [1,2,3,4],# calculamos en celdas anteriores, probaremos a hacer el modelo como una variable, 2, 3 y 4. Ponemos como límite el 4 ya que es el resultado de la raiz cuadrada. 
        # estos dos hiperparámetros son más difíciles de definir, pero usualmente se suelen elegir los siguientes valores
        "min_samples_split": [10, 50, 100],
        "min_samples_leaf": [10,50,100]} 


In [None]:
# una vez creado el diccionario iniciaremos el modelo con GridSearch

gs2 = GridSearchCV(
            estimator=DecisionTreeClassifier(random_state= 42), # tipo de modelo que queremos hacer
            param_grid= param2, # que hiperparámetros queremos que testee
            cv=10, # crossvalidation que aprendimos en la lección de regresión lineal intro. 
            verbose=-1) # para que no nos printee ningún mensaje en pantalla


In [None]:
# ajustamos el modelo que acabamos de definir en el GridSearch

gs2.fit(x_train2, y_train2)

In [None]:
# este método nos esta diciendo que el mejor modelo es aquel que tiene una profundidad de 6, que usa 4 variables predictoras para construir el modelo y que tiene  un min_samples_leaf y un min_samples_split de 10. 
mejor_modelo2 = gs2.best_estimator_
mejor_modelo2

In [None]:
# veamos ahora que pinta tiene nuestro árbol

fig2 = plt.figure(figsize=(40, 20))
tree.plot_tree(mejor_modelo2, feature_names=x_train2.columns, filled=True);

In [None]:
y_pred_test_esta3 = mejor_modelo2.predict(x_test2)
y_pred_train_esta3 = mejor_modelo2.predict(x_train2)

In [None]:
dt_results2 = metricas(y_test2, y_pred_test_esta2, y_train2,  y_pred_train_esta2, "DecisionTree Esta II")
dt_results2



In [None]:
# vamos  a juntar los dataframes de los resultados de los modelos para poder compararlos mejor

df_decision_results = pd.concat([dt_results1, dt_results2], axis = 0)
df_decision_results

In [None]:
# si recodáis, en la clase de métricas guardamos en un csv los resultados de las métricas del modelo
# vamos a cargar ese csv para comparar todos los modelos que hemos hecho, y comparar cuál de ellos es el mejor

df_logistic_results = pd.read_pickle("../data-log/04-df_metricas_resultados.pickle")
df_logistic_results


In [None]:
# concatenamos todos los resultados

df_DT_LR_results = pd.concat([df_logistic_results, df_decision_results], axis = 0).reset_index(drop=True)
df_DT_LR_results

In [None]:
# Utilizaremos si queremos borrar algun ode lso resultados
#df_DT_LR_results.drop([0,1,4,5], axis = 0, inplace = True)
#df_DT_LR_results

In [None]:
# pongamos un poco de color a nuestro dataframe para ver la comparación de los datos de una forma un poco más amigable. 
df_DT_LR_results.style.background_gradient(cmap='seismic')


In [None]:
# ademas vamos a guardar este dataframe en un csv para 

df_DT_LR_results.to_csv("../datos/resultados_DT_est_LR_DT.csv")

---

# 3. Balanceada, estandarizadas, codificadas

In [None]:
# separamos los datos en X e y

X3 = df_bal.drop("TenYearCHD", axis = 1)
y3 = df_bal["TenYearCHD"]

In [None]:
# separamos en train y test
x_train3, x_test3, y_train3, y_test3 = train_test_split(X3, y3, test_size = 0.2, random_state = 42)

In [None]:
# creamos el objeto del modelo, al igual que hacíamos en la regresión lineal
arbol3 = DecisionTreeClassifier(random_state =0)

# ajustamos el modelo, igual que en la regresión lienal. 
arbol3.fit(x_train3, y_train3)



In [None]:
fig = plt.figure(figsize = (10,6))
tree.plot_tree(arbol3, feature_names = x_train3.columns, filled = True)
plt.show()

In [None]:
# max features. Como vemos, debemos poner en nuestro modelo una profudidad máxima de 4. 

max_features3 = np.sqrt(len(x_train3.columns))
max_features3

In [None]:

# max depth

print(arbol3.tree_.max_depth)

In [None]:
# hacemos las predicciones sobre los dos set de datos el X_test y el X_train
y_pred_test_esta3 = arbol3.predict(x_test3)
y_pred_train_esta3 = arbol3.predict(x_train3)

In [None]:
# sacamos las métricas para ver si hay overfitting o unerfitting, para modificar la profundidad en función de estos resultados

dt_results3 = metricas(y_test3, y_pred_test_esta3, y_train3, y_pred_train_esta3, "Decission Tree Balanceada I")
dt_results3

In [None]:
# lo primero que tenemos que hacer es definir un diccionario con los hiperparámetros que queremos modificar y los valores que queremos 

param3 = {"max_depth": [2,4, 6, 10, 12, 14], # teniendo en cuenta que teníamos overfitting tendremos que reducir la profundidad del modelo, la nuestra anterior era de 17. Bajaremos mucho este valor ya que teníamos un overfitting muy claro
        "max_features": [1,2,3,4],# calculamos en celdas anteriores, probaremos a hacer el modelo como una variable, 2, 3 y 4. Ponemos como límite el 4 ya que es el resultado de la raiz cuadrada. 
        # estos dos hiperparámetros son más difíciles de definir, pero usualmente se suelen elegir los siguientes valores
        "min_samples_split": [10, 50, 100],
        "min_samples_leaf": [10,50,100]} 


In [None]:
# una vez creado el diccionario iniciaremos el modelo con GridSearch

gs3 = GridSearchCV(
            estimator=DecisionTreeClassifier(random_state= 42), # tipo de modelo que queremos hacer
            param_grid= param3, # que hiperparámetros queremos que testee
            cv=10, # crossvalidation que aprendimos en la lección de regresión lineal intro. 
            verbose=-1) # para que no nos printee ningún mensaje en pantalla

In [None]:
# ajustamos el modelo que acabamos de definir en el GridSearch

gs3.fit(x_train3, y_train3)

In [None]:
# este método nos esta diciendo que el mejor modelo es aquel que tiene una profundidad de 6, que usa 4 variables predictoras para construir el modelo y que tiene  un min_samples_leaf y un min_samples_split de 10. 
mejor_modelo3 = gs3.best_estimator_
mejor_modelo3

In [None]:
# veamos ahora que pinta tiene nuestro árbol

fig = plt.figure(figsize=(40, 20))
tree.plot_tree(mejor_modelo3, feature_names=x_train3.columns, filled=True);

In [None]:
y_pred_test_esta3 = mejor_modelo3.predict(x_test1)
y_pred_train_esta3 = mejor_modelo3.predict(x_train1)

In [None]:
# vamos  a juntar los dataframes de los resultados de los modelos para poder compararlos mejor

df_decision_results = pd.concat([dt_results1, dt_results2], axis = 0)
df_decision_results

In [None]:
# si recodáis, en la clase de métricas guardamos en un csv los resultados de las métricas del modelo
# vamos a cargar ese csv para comparar todos los modelos que hemos hecho, y comparar cuál de ellos es el mejor

df_logistic_results = pd.read_pickle("../data-log/04-df_metricas_resultados.pickle")
df_logistic_results


In [None]:
# concatenamos todos los resultados

df_DT_LR_results3 = pd.concat([df_logistic_results, df_decision_results], axis = 0).reset_index(drop=True)
df_DT_LR_results3

In [None]:
# Utilizaremos si queremos borrar algun ode lso resultados
#df_DT_LR_results.drop([0,1,4,5], axis = 0, inplace = True)
#df_DT_LR_results

In [None]:
# pongamos un poco de color a nuestro dataframe para ver la comparación de los datos de una forma un poco más amigable. 
df_DT_LR_results3.style.background_gradient(cmap='seismic')


---

# Importancia de las predictoras

In [None]:

# vamos a crearnos un dataframe 
importancia_predictores_esta = pd.DataFrame(
                            {'predictor': x_train1.columns,
                             'importancia': mejor_modelo.feature_importances_}
                            )


# ordenamos de mayor a menor los resultados
importancia_predictores_esta.sort_values(by=["importancia"], ascending=False, inplace = True)

# printeamos los resultados
print("Importancia de los predictores en el modelo")
print("-------------------------------------------")
importancia_predictores_esta


In [None]:
# lo primero que hacemos es crearnos un dataframe con los valores solo de adulto, es decir, la primera y antepenúltima fila
adulto = importancia_predictores_esta.iloc[[2, -2]]
adulto

In [None]:
# hacemos lo mismo para embarque
embarque = importancia_predictores_esta.loc[[5,7]]
embarque

In [None]:
# y para maturity
madurez = importancia_predictores_esta.loc[[8,9]]
madurez

In [None]:
# y por último para saber si viajaban solos o no
# hacemos lo mismo para embarque
solos = importancia_predictores_esta.loc[[12,13]]
solos

In [None]:
# eliminamos esas filas del dataframe donde tenemos los valores de importancia

importancia_predictores_esta.drop(adulto.index, inplace = True)
importancia_predictores_esta.drop(madurez.index, inplace = True)
importancia_predictores_esta.drop(embarque.index, inplace = True)
importancia_predictores_esta.drop(solos.index, inplace = True)

In [None]:
importancia_predictores_esta

In [None]:
# nos creamos nuevas filas con el resultado de la suma

importancia_predictores_esta.loc[5] =  ["adult_male", adulto["importancia"].sum()]
importancia_predictores_esta.loc[6] =  ["maturity", madurez["importancia"].sum()]
importancia_predictores_esta.loc[7] =  ["embark", embarque["importancia"].sum()]
importancia_predictores_esta.loc[8] =  ["alone", solos["importancia"].sum()]

# ordenamos el df

importancia_predictores_esta.sort_values(by = "importancia", ascending = False, inplace = True)
importancia_predictores_esta

In [None]:
# por último ploteamos los resultados para verlo de una forma más amigable. 

plt.figure(figsize=(10,6))
sns.barplot(x = "importancia", y = "predictor", data = importancia_predictores_esta, palette="viridis");
plt.show()