# Árboles de decisiones para predecir si una persona sufrirá de un derrame cerebral

## 1.Leer el archivo stroke.csv

In [None]:
#----------------------------------------------------------
# Se importan las librerias
#----------------------------------------------------------

import numpy as np
import pandas as pd
import sklearn
import warnings

In [None]:
#----------------------------------------------------------
# Url de los datos
#----------------------------------------------------------

url = ("https://raw.githubusercontent.com/Yurani1143/Informe_Inteligencia_Artificial/main/stroke.csv")

#----------------------------------------------------------
# Se cargan los datos
#----------------------------------------------------------
datos = pd.read_csv(url, sep=",")
datos.columns= ["sexo","edad","hipertension","enfermedades_cardiacas","casado","tipo_trabajo","tipo_residencia","nivel_glucosa_promedio","indice_masa_corporal","estado_tabaquismo","derrame_cerebral"]
datos.info()

## 2. Seleccionar aleatoriamente el 80% del conjunto de datos para entrenar y el 20% restante para las pruebas

In [None]:
#----------------------------------------------------------
# Libreria sklearn
#----------------------------------------------------------
from sklearn.model_selection import train_test_split 

N=len(datos) # cantidad de datos
cTrain=int(N*0.8) # 80% para entrenar y 20% para probar
cTest=N-cTrain 

print(N,cTrain,cTest)# cantidad de: datos completos, datos entrenados, datos para probar

train_data,test_data= sklearn.model_selection.train_test_split(datos, train_size=cTrain, test_size=cTest)

700 es el número de observaciones en la base de datos

560 es el 80% de las observaciones de la base de datos que se van a utilizar para entrenar los datos

140 es el 20% de las observaciones de la base de datos que se van a utilizar para probar el modelo de predicción

In [None]:
#----------------------------------------------------------
# Dimensiones de los datos de entrenamiento
#----------------------------------------------------------
train_data.shape

## 3. Utilizar una estrategia para normalizar los datos

## Pipeline para los atributos categóricos

In [None]:
#----------------------------------------------------------
#Librerias sklearn
#----------------------------------------------------------
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

# 5 atributos categóricos
cat_attribs = ['sexo','casado','tipo_trabajo','tipo_residencia','estado_tabaquismo']

cat_pipeline = Pipeline([
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("cat_encoder", OneHotEncoder(sparse=False))
    ])

## Pipeline para los atributos númericos

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler

# 5 atributos numéricos
num_attribs = ['edad','hipertension','enfermedades_cardiacas','nivel_glucosa_promedio','indice_masa_corporal']

num_pipeline = Pipeline([
        ("imputer", SimpleImputer(strategy="median")),
        ("scaler", StandardScaler())

    ])

## Pipeline completo

In [None]:
#----------------------------------------------------------
#Libreria sklearn
#----------------------------------------------------------
from sklearn.compose import ColumnTransformer

full_pipeline = ColumnTransformer([
    ("num", num_pipeline, num_attribs),
    ("cat", cat_pipeline, cat_attribs),
])

In [None]:
#----------------------------------------------------------
# Se transforman los datos entrenados 
# Variables independientes
#----------------------------------------------------------
X_train = full_pipeline.fit_transform(train_data)
X_train.shape

In [None]:
X_train[0,:]

In [None]:
#----------------------------------------------------------
# Variable dependiente -> derrame_cerebral
#----------------------------------------------------------

y_train = train_data["derrame_cerebral"]
y_train

In [None]:
#----------------------------------------------------------
# Se transforman los datos de prueba 
# Variables independientes
#--------------------------------------------------------
X_test = full_pipeline.transform(test_data) 
X_test

In [None]:
#----------------------------------------------------------
# Variable dependiente -> derrame_cerebral
#----------------------------------------------------------
y_test = test_data["derrame_cerebral"]
y_test

## 4. Configurar los hiperparámetros del árbol de decisión de la siguiente manera: criterion=gini, splitter=best, y random_state=123. Obtener 10 árboles de decisión que resultan de modificar el hiperparámetro max_depth desde 5 hasta 50 con incrementos de 5

In [None]:
#----------------------------------------------------------
#Librerias sklearn.tree y sklearn.model_selection
#----------------------------------------------------------
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score


scores=[]
scor=[]
decision_tree = []
accuracies = []
max_depths = range(5, 55, 5)

for max_depth in max_depths: 
    model_tree = DecisionTreeClassifier(criterion="gini", splitter="best", max_depth=max_depth, random_state=123)
    model_tree.fit(X_train, y_train)
    y_pred = model_tree.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred) 
    accuracies.append(accuracy)
    decision_tree.append(model_tree.score(X_test, y_test))
    scores = cross_val_score(model_tree, X_train, y_train, cv=5,scoring='accuracy') 
    scor.append(scores.mean()) 
    print("----------------------------------")
    print("Puntajes de la validación cruzada:")
    print(scores)
    print(f"Promedio de los puntajes con max_depth={max_depth}","->" ,round(scores.mean(),4))
    print("----------------------------------")
    
#----------------------------------------------------------   
# El índice del árbol con mayor exactitud
best_tree_index = np.argmax(scor)
#----------------------------------------------------------

#----------------------------------------------------------
# Se imprime los hiperparámetros del árbol con mayor precisión
print("Los hiperparámetros del árbol con mayor precisión son:")
print("max_depth:", max_depths[best_tree_index])
print("criterion: gini")
print("splitter: best")
print("random_state: 123")

## 5. Incluya en el notebook una tabla con el accuracy para los 10 árboles del punto anterior

In [None]:
#----------------------------------------------------------
#Libreria pandas
#----------------------------------------------------------
import pandas as pd

# Mostrar el accuracy de los 10 arboles construidos
accuracies_CV = pd.DataFrame({"max_depth": range(5, 55, 5), "accuracy": scor})
display(accuracies_CV)

## 6. Repita el mismo procedimiento del punto 4 usando como hiperparámetros criterion=entropy, splitter=best, random_state=123, y variando el hiperparámetro max_depth desde 5 hasta 50 con incrementos de 5

In [None]:
#----------------------------------------------------------
#Librerias sklearn.tree y sklearn.model_selection
#----------------------------------------------------------
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score


scores_2=[]
scor_2 =[]
decision_tree_2 = []
accuracies_7= []
max_depths = range(5, 55, 5)

for max_depth in max_depths: 
    model_tree_2 = DecisionTreeClassifier(criterion="entropy", splitter="best", max_depth=max_depth, random_state=123)
    model_tree_2.fit(X_train, y_train)
    accuracy_7 = accuracy_score(y_test, y_pred) # exactitud de cada árbol
    accuracies_7.append(accuracy_7)
    decision_tree_2.append(model_tree_2.score(X_test, y_test))
    scores_2 = cross_val_score(model_tree_2, X_train, y_train, cv=5,scoring='accuracy')
    scor_2.append(scores_2.mean()) # promedio de los scores
    print("----------------------------------")
    print("Puntajes de la validación cruzada:")
    print(scores_2)
    print(f"Promedio de los puntajes con max_depth={max_depth}","->" ,round(scores_2.mean(),4))
    print("----------------------------------")

#----------------------------------------------------------   
# El índice del árbol con mayor exactitud
best_tree_index_2 = np.argmax(scor_2)
#----------------------------------------------------------

#----------------------------------------------------------
# Se imprime los hiperparámetros del árbol con mayor precisión
print("Los hiperparámetros del árbol con mayor precisión son:")
print("max_depth:", max_depths[best_tree_index_2])
print("criterion: entropy")
print("splitter: best")
print("random_state: 123")

## 7. Incluya en el notebook una tabla con el accuracy para los 10 árboles del punto anterior

In [None]:
#----------------------------------------------------------
#Libreria pandas
#----------------------------------------------------------
import pandas as pd

# Mostrar el accuracy de los 10 arboles construidos 
accuracies_2 = pd.DataFrame({"max_depth": range(5, 55, 5), "accuracy": scor_2})
display(accuracies_2)

## 8. Repita el mismo procedimiento del punto 4 usando como hiperparámetros criterion=entropy, splitter=random, random_state=123, y variando el hiperparámetro max_depth desde 5 hasta 50 con incrementos de 5

In [None]:
#----------------------------------------------------------
#Librerias sklearn.tree y sklearn.model_selection
#----------------------------------------------------------
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score


scores_3=[]
scor_3=[]
decision_tree_3 = []
accuracies_9 = []
max_depths = range(5, 55, 5)

for max_depth in max_depths: 
    model_tree_3 = DecisionTreeClassifier(criterion="entropy", splitter="random", max_depth=max_depth, random_state=123)
    model_tree_3.fit(X_train, y_train)
    accuracy_9 = accuracy_score(y_test, y_pred) 
    accuracies_9.append(accuracy_9)
    decision_tree_3.append(model_tree_3.score(X_test, y_test))
    scores_3 = cross_val_score(model_tree_3, X_train, y_train, cv=5,scoring='accuracy') 
    scor_3.append(scores_3.mean()) 
    print("----------------------------------")
    print("Puntajes de la validación cruzada:")
    print(scores_3)
    print(f"Promedio de los puntajes con max_depth={max_depth}","->" ,round(scores_3.mean(),4))
    print("----------------------------------")
    
#----------------------------------------------------------   
# El índice del árbol con mayor exactitud
best_tree_index_3 = np.argmax(scor_3)
#----------------------------------------------------------

#----------------------------------------------------------
# Se imprime los hiperparámetros del árbol con mayor precisión
print("Los hiperparámetros del árbol con mayor precisión son:")
print("max_depth:", max_depths[best_tree_index_3])
print("criterion: entropy")
print("splitter: random")
print("random_state: 123")

## 9. Incluya en el notebook una tabla con el accuracy para los 10 árboles del punto anterior

In [None]:
#----------------------------------------------------------
#Libreria pandas
#----------------------------------------------------------
import pandas as pd

# Mostrar el accuracy de los 10 arboles construidos 
accuracies_3 = pd.DataFrame({"max_depth": range(5, 55, 5), "accuracy": scor_3})
display(accuracies_3)