# Objetivo del Notebook

El principal objetivo a llevar a cabo en este Jupyter Notebook, no es otro que el analisis de los datos contenidos en el .csv a utilizar, el cual contiene el conjunto de datos recopilados con 70000 ejemplos registrados.

Mediante el analisis de los datos, tratare de averiguar la presencia de posibles patrones en la distribucion de los datos, que puedan mantener relacion con la etiqueta que buscamos predecir (presencia o ausencia de la enfermedad cardiaca), que posteriorme analizaremos de manera visual en el notebook correspondiente.

# Importar las librerias a utilizar

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Importo el conjunto de datos desde el archivo .csv
dataset_route = '../../CardioCheck/data/raw/cardio_train.csv'
cardio_df = pd.read_csv(dataset_route)

# Muestro los primeros 10 ejemplos del DataFrame
cardio_df.head(10)

Unnamed: 0,id;age;gender;height;weight;ap_hi;ap_lo;cholesterol;gluc;smoke;alco;active;cardio
0,0;18393;2;168;62.0;110;80;1;1;0;0;1;0
1,1;20228;1;156;85.0;140;90;3;1;0;0;1;1
2,2;18857;1;165;64.0;130;70;3;1;0;0;0;1
3,3;17623;2;169;82.0;150;100;1;1;0;0;1;1
4,4;17474;1;156;56.0;100;60;1;1;0;0;0;0
5,8;21914;1;151;67.0;120;80;2;2;0;0;0;0
6,9;22113;1;157;93.0;130;80;3;1;0;0;1;0
7,12;22584;2;178;95.0;130;90;3;3;0;0;1;1
8,13;17668;1;158;71.0;110;70;1;1;0;0;1;0
9,14;19834;1;164;68.0;110;60;1;1;0;0;0;0


In [3]:
# El dataset contiene el caracter ';' como separador, por lo que lo defino al momento de cargar el dataset en memoria.

del cardio_df
cardio_df = pd.read_csv(dataset_route, sep = ';', index_col='id')

# Muestro los primeros 10 ejemplos del DataFrame
cardio_df.head(10)

Unnamed: 0_level_0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,17474,1,156,56.0,100,60,1,1,0,0,0,0
8,21914,1,151,67.0,120,80,2,2,0,0,0,0
9,22113,1,157,93.0,130,80,3,1,0,0,1,0
12,22584,2,178,95.0,130,90,3,3,0,0,1,1
13,17668,1,158,71.0,110,70,1,1,0,0,1,0
14,19834,1,164,68.0,110,60,1,1,0,0,0,0


In [4]:
cardio_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 70000 entries, 0 to 99999
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   age          70000 non-null  int64  
 1   gender       70000 non-null  int64  
 2   height       70000 non-null  int64  
 3   weight       70000 non-null  float64
 4   ap_hi        70000 non-null  int64  
 5   ap_lo        70000 non-null  int64  
 6   cholesterol  70000 non-null  int64  
 7   gluc         70000 non-null  int64  
 8   smoke        70000 non-null  int64  
 9   alco         70000 non-null  int64  
 10  active       70000 non-null  int64  
 11  cardio       70000 non-null  int64  
dtypes: float64(1), int64(11)
memory usage: 6.9 MB


In [5]:
# La ejecucion anterior nos indica que el conjunto de datos contiene 70000 ejemplos registrados, y que no se registran valores nulos para ninguna de las columnas (12 en total).
# Por otro lado, las caracteristicas del conjunto de datos vienen reflejadas en dos tipos de datos diferentes.

# Es crucial, al momento de entrenar un modelo de Machine Learning, poder proporcionarle datos que se encuentren normalizados y escalados, de forma que el modelo pueda hallar
# rapidamente la relacion latente entre las diferentes caracteristicas del dataset, y enfocarse en reducir el coste de entrenamient/perdida en nuevas predicciones.

In [6]:
# Muestro un DataFrame de resumen de mi conjunto de datos
cardio_df.describe()

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
count,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0
mean,19468.865814,1.349571,164.359229,74.20569,128.817286,96.630414,1.366871,1.226457,0.088129,0.053771,0.803729,0.4997
std,2467.251667,0.476838,8.210126,14.395757,154.011419,188.47253,0.68025,0.57227,0.283484,0.225568,0.397179,0.500003
min,10798.0,1.0,55.0,10.0,-150.0,-70.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,17664.0,1.0,159.0,65.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
50%,19703.0,1.0,165.0,72.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
75%,21327.0,2.0,170.0,82.0,140.0,90.0,2.0,1.0,0.0,0.0,1.0,1.0
max,23713.0,2.0,250.0,200.0,16020.0,11000.0,3.0,3.0,1.0,1.0,1.0,1.0


In [7]:
# El metodo .describe() muestra informacion estadistica muy util y descriptiva acerca del dataframe sobre el que se ejecuta (en este caso, el dataframe contiene nuestro
# conjunto de datos).

# Informacion que puede resultar de interes puede ser:
#   - La variable 'age' registra valores demasiado elevados. Esto se debe a que la edad de una persona viene registrada en Dias. Este formato no suele ser habitual, y ademas, 
#     la distancia entre diferentes valores registrados, y los valores para el resto de columnas con respecto al registro de un determinado paciente en la columna 'age' puede
#     ser demasiado grande. Seria conveniente aplicar alguna transformacion a esta columna, previo a la normalizacion de los datos.
#   - La columna 'weight' (peso), registra un valor minimo de 10kg en el dataset. Teniendo en cuenta que la edad minima registrada en el conjunto de datos es de 10798 dias, es
#     muy improbable que el registro de 10kg para un determinado paciente sea correcto. Trataremos de representar graficos de cajas y bigotes (boxplots) para hallar posibles 
#     outliers, y veremos como tratar de reducir su impacto en el desarrollo del modelo.
#   - Las variables 'ap_hi' y 'ap_lo' registran valores minimos negativos, y valores maximos demasiado elevados. Muy probablemente se traten de errores en el registro de los 
#     valores, por lo que se deberan procesar en el momento previo al desarrollo del modelo.