# Objetivo del Notebook

El principal objetivo a llevar a cabo en este Jupyter Notebook, no es otro que llevar a cabo el proceso desarrollo del modelo de clasificicion, que aprenda la relacion existente entre las diferentes caracteristicas recogidas en el dataset, y la variable dependiente.

El proceso del desarrollo del modelo recoge los pasos de instanciacion y entrenamiento del modelo, y validacion del mismo una vez ha sido entrenado.

# Importar librerias a utilizar

In [1]:
import numpy as np
import pandas as pd

from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.utils import shuffle

In [2]:
# Importo el conjunto de datos desde el archivo .csv
dataset_route = '../../CardioCheck_K-NN/data/processed/cardio_processed.csv'
cardio_df = pd.read_csv(dataset_route, index_col = 'id')

# Muestro los primeros 10 ejemplos del DataFrame
cardio_df.head(10)

Unnamed: 0_level_0,age,gender,height,weight,ap_hi,ap_lo,smoke,alco,active,normal_cholesterol,hi_cholesterol,normal_gluc,hi_gluc,cardio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
0,-0.432957,1.366588,0.230821,-0.917066,-0.297489,-0.268236,-0.310366,-0.23796,0.494877,0.577166,-0.395701,0.419756,-0.28214,0.0
1,0.306638,-0.73175,-0.446892,0.842512,0.785646,1.001388,-0.310366,-0.23796,0.494877,-1.732603,-0.395701,0.419756,-0.28214,1.0
2,-0.240662,-0.73175,-0.33394,-0.764059,-0.004964,-1.53786,-0.310366,-0.23796,-2.020703,-1.732603,-0.395701,0.419756,-0.28214,1.0
3,-0.743587,1.366588,0.419074,0.613002,1.576255,2.271011,-0.310366,-0.23796,0.494877,0.577166,-0.395701,0.419756,-0.28214,1.0
4,-0.802754,-0.73175,-0.446892,-1.376086,-0.297489,-0.103185,-0.310366,-0.23796,-2.020703,0.577166,-0.395701,0.419756,-0.28214,0.0
8,0.987066,-0.73175,-0.446892,-0.534549,-0.795573,-0.268236,-0.310366,-0.23796,-2.020703,-1.732603,2.527159,-2.382338,3.544334,0.0
9,1.075817,-0.73175,-0.446892,1.454539,-0.004964,-0.268236,-0.310366,-0.23796,0.494877,-1.732603,-0.395701,0.419756,-0.28214,0.0
12,1.268112,1.366588,2.113355,1.607546,-0.004964,1.001388,-0.310366,-0.23796,0.494877,-1.732603,-0.395701,-2.382338,-0.28214,1.0
13,-0.728795,-0.73175,-0.446892,-0.228535,-0.297489,-1.53786,-0.310366,-0.23796,0.494877,0.577166,-0.395701,0.419756,-0.28214,0.0
14,0.143927,-0.73175,-0.522193,-0.458045,-0.297489,-0.103185,-0.310366,-0.23796,-2.020703,0.577166,-0.395701,0.419756,-0.28214,0.0


El dataset ya se encuentra preparado para el desarrollo del modelo, por lo que puedo proceder a instanciar el modelo a utilizar.

# Division del conjunto de datos

In [3]:
X = cardio_df.drop(columns = ['cardio'])
y = cardio_df['cardio']

X, y = shuffle(X, y)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2)

In [4]:
X_train.shape

(55204, 13)

In [5]:
X_test.shape

(13801, 13)

In [6]:
y_train.shape

(55204,)

In [7]:
y_test.shape

(13801,)

## Desarrollo del modelo

In [8]:
# Instancio un objeto de la clase KNeighborsClassifier
model = KNeighborsClassifier(n_jobs = -1)

# Defino un hashmap con los parametros que me gustaria optimizar
parameters = {
    'n_neighbors': [3, 5, 8, 10],
    'weights': ['uniform', 'distance'],
    'algorithm':['auto', 'ball_tree', 'kd_tree', 'brute']
    
}

# Instancio un objeto con la clase GridSearchCV
grid_cv = GridSearchCV(model, parameters, n_jobs = -1)

# Entreno el modelo
grid_cv.fit(X_train, y_train)

 0.70844504 0.69806535 0.67308527 0.66585752 0.68788495 0.67924431
 0.70282946 0.69147162 0.70848127 0.69801101 0.67308527 0.66589375
 0.68783061 0.67920808 0.70273889 0.69141728 0.70844504 0.69806535
        nan        nan        nan        nan        nan        nan
        nan        nan]


In [9]:
# Muestro la configuracion del mejor modelo entrenado
best_params = grid_cv.best_params_
best_model = grid_cv.best_estimator_

print('Parametros escogidos para el mejor modelo:', best_params)
print()
# Muestro el coeficiente de puntuacion R2 del mejor modelo entrenado para el conjunto de testing
best_model.score(X_test, y_test)

Parametros escogidos para el mejor modelo: {'algorithm': 'ball_tree', 'n_neighbors': 10, 'weights': 'uniform'}



0.7108180566625607

In [10]:
# Genero predicciones para el conjunto de testing, con el mejor modelo
y_pred = best_model.predict(X_test)

In [11]:
## Evaluo el rendimiento del modelo representando las predicciones en una matriz de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print(conf_matrix)

class_report = classification_report(y_test, y_pred)
print(class_report)

[[5435 1468]
 [2523 4375]]
              precision    recall  f1-score   support

         0.0       0.68      0.79      0.73      6903
         1.0       0.75      0.63      0.69      6898

    accuracy                           0.71     13801
   macro avg       0.72      0.71      0.71     13801
weighted avg       0.72      0.71      0.71     13801



Se puede apreciar como el modelo lograr de manera aproximada, un 70% de precision al momento de clasificar correctamente cualquiera de las dos posibles clases de la variable dependiente, haciendolo algo peor al momento de clasificar como sano a un determinado paciente dado.

Por el momento, para este conjunto de datos procesado, y tras entrenar el modelo de clasificacion mediante optimizacion de hiperparametros por GridSearchCV, no obtenemos un rendimiento demasiado optimo. De hecho, de el modelo basado en K-NN es el que menos rendimiento ha obtenido al momento de clasificar clases correctamente.