# Limpieza de datos

## Descripción de datos

Hay 3 tipos de características de entrada:

* **Objetivo**: información fáctica;
* **Examen**: resultados del examen médico;
* **Subjetivo**: información dada por el paciente.

## Características

| CARATERÍSTICA | TIPO | CAMPO EN EL DATSET | TIPO DATO|
|:--|:--|:--|:--|
| Edad | Característica objetiva | edad | entero (días) |
| Altura | Característica objetiva | altura | entero (cm) |
| Peso | Característica objetiva | peso | flotante (kg) |
| Género | Característica objetiva | género | código categórico |
| Presión arterial sistólica | Función de examen | ap_hola | entero |
| Presión arterial diastólica | Función de examen | ap_lo | entero |
| Colesterol | Función de examen | colesterol | 1: normal |
|  |  |  | 2: por encima de lo normal |
|  |  |  | 3: muy por encima de lo normal |
| Glucosa | Función de examen | gluc | 1: normal |
|  |  |  | 2: por encima de lo normal |
|  |  |  | 3: muy por encima de lo normal |
| Fumar | Característica subjetiva | humo | binario |
| Consumo de alcohol | Característica subjetiva | alcohol | binario |
| Actividad física | Característica subjetiva | activo | binario |
| Presencia o ausencia de enfermedad cardiovascular | Variable objetivo | cardio | binario |

Todos los valores del conjunto de datos se recopilaron en el momento del examen médico.


## Descomentar para probar

Este primer paso se debe descomentar para poder probar el cuaderno de forma individual, es decir, para probarlo; de lo contrario, se debe mantener comentado para evitar posibles fallos por reprocesar los ficheros.

**NOTA**: _Tener mucho cuidado de no crear un bucle de ejecución de los cuadernos_. Si se van a realizar pruebas sobre este cuaderno, comentar la linea correspondiente a este cuaderno en el cuaderno principal (**0_all_steps.jpnb**)

Esta es línea a buscar:

~~~ shell
%run /content/drive/My\ Drive/Proyecto03/Notebooks_Proyecto/2_clean_data.ipynb
~~~

El inicio de este script es a partir del titulo **Limpieza de los datos**

~~~ python
# cargar datos
from google.colab import drive
drive.mount('/content/drive')
%run /content/drive/My\ Drive/Proyecto03/Notebooks_Proyecto/0_all_steps.ipynb
~~~

## Limpieza de los datos

In [None]:
print('*******************************************************************************************************')
print(' Limpiando los datos ....')

In [None]:
# importar las bibliotecas que nos facilitarán la limpieza de los datos
import pandas as pd

In [None]:
# Comprobamos que el fichero esta dsiponible
cardio_origin = pd.read_csv('/content/datasets/cardio_train.csv', sep=';', index_col = 0)

In [None]:
# Comprobamos la estructura de los datos
cardio_origin.shape

(70000, 12)

In [None]:
# Comprobamos las columnas y sus nombres
cardio_origin.columns.to_list()

['age',
 'gender',
 'height',
 'weight',
 'ap_hi',
 'ap_lo',
 'cholesterol',
 'gluc',
 'smoke',
 'alco',
 'active',
 'cardio']

In [None]:
# Vemos una breve descripcion de los datos para ver su valores extremos y su tipo
cardio_origin.describe(include='all')

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
count,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0
mean,19468.865814,1.349571,164.359229,74.20569,128.817286,96.630414,1.366871,1.226457,0.088129,0.053771,0.803729,0.4997
std,2467.251667,0.476838,8.210126,14.395757,154.011419,188.47253,0.68025,0.57227,0.283484,0.225568,0.397179,0.500003
min,10798.0,1.0,55.0,10.0,-150.0,-70.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,17664.0,1.0,159.0,65.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
50%,19703.0,1.0,165.0,72.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
75%,21327.0,2.0,170.0,82.0,140.0,90.0,2.0,1.0,0.0,0.0,1.0,1.0
max,23713.0,2.0,250.0,200.0,16020.0,11000.0,3.0,3.0,1.0,1.0,1.0,1.0


In [None]:
# Verificar si hay cmapos nulos
cardio_origin.isnull().sum()

age            0
gender         0
height         0
weight         0
ap_hi          0
ap_lo          0
cholesterol    0
gluc           0
smoke          0
alco           0
active         0
cardio         0
dtype: int64

In [None]:
# Vemos la variación de los valores de los campos
print('age: '+str(cardio_origin['age'].nunique()))
print('gender: '+str(cardio_origin['gender'].nunique()))
print('height: '+str(cardio_origin['height'].nunique()))
print('weight: '+str(cardio_origin['weight'].nunique()))
print('ap_hi: '+str(cardio_origin['ap_hi'].nunique()))
print('ap_lo: '+str(cardio_origin['ap_lo'].nunique()))
print('cholesterol: '+str(cardio_origin['cholesterol'].nunique()))
print('gluc: '+str(cardio_origin['gluc'].nunique()))
print('smoke: '+str(cardio_origin['smoke'].nunique()))
print('alco: '+str(cardio_origin['alco'].nunique()))
print('active: '+str(cardio_origin['active'].nunique()))

age: 8076
gender: 2
height: 109
weight: 287
ap_hi: 153
ap_lo: 157
cholesterol: 3
gluc: 3
smoke: 2
alco: 2
active: 2


## Limpieza de los datos

In [None]:
# Ajustamos las edades para que se muestren en años y no en días
cardio_nuevo = cardio_origin
cardio_nuevo['age_years'] = cardio_nuevo['age']/365
cardio_nuevo['age'] = cardio_nuevo['age_years'].astype(int)
cardio_nuevo = cardio_nuevo.drop(columns=['age_years'])
cardio_nuevo.describe(include='all')

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
count,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0,70000.0
mean,52.840671,1.349571,164.359229,74.20569,128.817286,96.630414,1.366871,1.226457,0.088129,0.053771,0.803729,0.4997
std,6.766774,0.476838,8.210126,14.395757,154.011419,188.47253,0.68025,0.57227,0.283484,0.225568,0.397179,0.500003
min,29.0,1.0,55.0,10.0,-150.0,-70.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,48.0,1.0,159.0,65.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
50%,53.0,1.0,165.0,72.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
75%,58.0,2.0,170.0,82.0,140.0,90.0,2.0,1.0,0.0,0.0,1.0,1.0
max,64.0,2.0,250.0,200.0,16020.0,11000.0,3.0,3.0,1.0,1.0,1.0,1.0


In [None]:
# Excluimos las alturas que estan fuera de los rangos típicos para adultos
cardio_nuevo = cardio_nuevo[cardio_nuevo.height>140]
cardio_nuevo = cardio_nuevo[cardio_nuevo.height<200]
cardio_origin.shape[0]-cardio_nuevo.shape[0]

203

In [None]:
# Excluimos los pesos que estan fuera de los rangos típicos para adultos
cardio_nuevo = cardio_nuevo[cardio_nuevo.weight>40]
cardio_nuevo = cardio_nuevo[cardio_nuevo.weight<200]
cardio_origin.shape[0]-cardio_nuevo.shape[0]

289

In [None]:
# Excluimos las Presiones arteriales sistólicas que estan fuera de los rangos típicos para adultos
# https://www.mayoclinic.org/es-es/diseases-conditions/high-blood-pressure/diagnosis-treatment/drc-20373417
cardio_nuevo = cardio_nuevo[cardio_nuevo.ap_hi>80]
cardio_nuevo = cardio_nuevo[cardio_nuevo.ap_hi<200]
cardio_origin.shape[0]-cardio_nuevo.shape[0]

808

In [None]:
# Excluimos las Presiones arteriales diastólica que estan fuera de los rangos típicos para adultos
# https://www.mayoclinic.org/es-es/diseases-conditions/high-blood-pressure/diagnosis-treatment/drc-20373417
cardio_nuevo = cardio_nuevo[cardio_nuevo.ap_lo>40]
cardio_nuevo = cardio_nuevo[cardio_nuevo.ap_lo<160]
cardio_origin.shape[0]-cardio_nuevo.shape[0]

1801

In [None]:
# Guardamos el dataset limpio en un nuevo .csv
cardio_nuevo.to_csv('/content/datasets/cardio_nuevo.csv')

In [None]:
print('Datos limpios!')
print('*******************************************************************************************************')