In [None]:
#importamos librerias
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

In [None]:
#cargamos nuestra base de datos
datos = "heart_disease.csv"
df = pd.read_csv(datos)

## Analisis exploratorio de los datos

In [None]:
#vemos los primeros registros
df.head()

In [None]:
#vemos los valores de las variables
df.columns.values

In [None]:
#mostramos el total de filas y columnas
df.shape

In [None]:
#vemos los tipos de variables con los cuales trabajaremos
df.dtypes

In [None]:
#hacemos un histograma con la columna edad, en el eje x los años
df['age'].hist(bins=50, figsize=(10, 10))

In [None]:
#hacemos histograma con todas las variables
df.hist(bins=50, figsize=(20, 15))

In [None]:
#hacemos un diagrama de correlacion
from pandas.plotting import scatter_matrix
atributos = ["age","trestbps","chol","thalach"]
scatter_matrix(df[atributos], figsize=(12, 8))

In [None]:
#creamos una matriz de correlacion numerica (coeficiente de correlacion de pearson)
df[atributos].corr(method = 'pearson').round(2)

In [None]:
#cramos la matriz de correlacion visual
plt.matshow(df[atributos].corr())
plt.show()

In [None]:
#ocupamos seaborn (pip install seaborn), y creamos una matriz de correlacion visual
import seaborn as sn
corrMatrix = df[atributos].corr()
sn.heatmap(corrMatrix.round(2), annot = True, cmap='coolwarm')
plt.show()

### PREPARAMOS LOS DATOS PARA  LOS ALGORITMOS DE MACHINE LEARNING

In [None]:
#creamos datos para x (quitamos la columna de target)
X = df.drop('target', axis = 1)
X

In [None]:
# tenemos X ahora vamos a crear Y (osea el nuevo valor para target)
y = df['target']
y

In [None]:
# dividimos nuestros datos para entrenar y testear, antes importamos sklearn
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [None]:
#revisamos el tamaño de las muestras
X_train.shape, X_test.shape, y_train.shape, y_test.shape

### SELECCIONAMOS UN MODELO Y REALIZAMOS EL ENTRENAMIENTO
#### EN ESTE CASO OCUPAMOS DOS DECISION TREE Y RANDOM FOREST  

In [None]:
# modulos del modelo: arbol de decision
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score


In [None]:
# llamamos a una variable que contenga nuestro modelo
model = DecisionTreeClassifier(random_state = 17, max_depth = 5, min_samples_leaf = 5)

In [None]:
# ajustamos el modelo de acuerdo al entrenamiento
model.fit(X_train, y_train)

In [None]:
#hacemos predicciones con las variables test
y_pred = model.predict(X_test)
y_pred

In [None]:
# comparamos con los valores de y que ya teniamos en y_test
y_test.values

In [None]:
# comprobamos donde acerto y donde se equivoco, True es acerto y False es que erro
np.equal(y_pred, y_test.values)

In [None]:
# vemos el Score del modelo numericamente, calculo valores en X_test y compara con y_test
model.score(X_test, y_test)

## AFINAMOS EL MODELO (FINE TUNE)

In [None]:
# definimos dos ciclos uno dentro de otro para iterar i y j y encontrar los mejores parametros
for j in range(1,8,2):
    for i in range(1,8,2):
        print(f'Modelo con {i} max_depth, {j} min_samples_leaf')
        model = DecisionTreeClassifier(random_state = 17, max_depth = i, min_samples_leaf = j)
        model.fit(X_train, y_train)
        print(f'Precision: {model.score(X_test, y_test)}')
        print('-------')

## PROBAMOS CON EL MODELO DE RANDOM FOREST

In [None]:
# MODULOS PARA EL MODELO RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier

In [None]:
# asignamos nuestro modelo a una variable...n:estimators es el numero de arboles
model = RandomForestClassifier (random_state = 17, 
                                max_depth = 5,
                                n_estimators = 10 )

In [None]:
#ajustamos el modelo
model.fit(X_train, y_train)

In [None]:
#vemos nuestra prediccion
y_pred = model.predict(X_test)
y_pred

In [None]:
# comparamos con los valores reales
np.equal(y_pred, y_test.values)

In [None]:
#vemos el Score
model.score(X_test, y_test)

# ajustamos el modelo para intentar mejorarlo

In [None]:
#hacemos una interacion RandomForestClassifier(random_state = 17,max_depth = 5,n_estimators = i)
for i in range(10, 50, 10):
    print(f'Modelo con n_estimators = {i}')
    model = RandomForestClassifier(random_state = 17,
                                   max_depth = 5,
                                   n_estimators = i)
    model.fit(X_train, y_train)
    print(f'Precision: {model.score(X_test, y_test)}')
    print('-------')

## SOLUCION AL PROBLEMA

EN ESTE EJERCICIO OCUPE DOS ALGORITMOS:

ARBOL DE DECISION EL CUAL NOS DIO UNA PREDICCION DEL 0.8289473684210527 (83%) AJUSTANDO LOS PARAMETROS A 3 max_depth, 3 min_samples_leaf

RANDOM FOREST EL CUAL NOS DIO UNA PRECISION DEL 0.8289473684210527 (83%) AJUSTANDO LOS PARAMETROS DEL MODELO A n_estimators = 30

In [None]:
#for j in range(1,50,10):
#    for i in range(1,50,10):
#        print(f'Modelo con {i} max_depth, {j} n_estimators')
#        model = DecisionTreeClassifier(random_state = 20, max_depth = i, min_samples_leaf = j)
#        model.fit(X_train, y_train)
#        print(f'Precision: {model.score(X_test, y_test)}')
#        print('-------')