# Análisis Bivariado del Proyecto
Integrantes: Andrea Olivera Medina, Bruno Cruz Franchi, Facundo Miglio, Ines Lagos

In [None]:
# Importo las librerias necesarias
import pandas as pd
import numpy as np
import seaborn as sb
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [None]:
# Hago el import del dataset por medio de un repositorio de github
dataset = pd.read_csv("https://raw.githubusercontent.com/brunocruzfranchi/Cardiovascular_Disease/main/dataset/cardio_train.csv", delimiter=";")

In [None]:
dataset.head()

NameError: ignored

## Exploración de Datos

Hay 3 tipos de características de entrada:
* Objetivo: información fáctica;
* Examen: resultados del examen médico;
* Subjetivo: información dada por el paciente.

| Parametro | Tipo Variable | Variable      | Tipo Valor |
|---------|--------------|---------------|------------|
| Id | - | id | int |
| Age | Característica objetiva | age | int (dias) |
| Height | Característica objetiva | height | int (cm) |
| Weight | Característica objetiva | weight | float (kg) |
| Gender | Característica objetiva | gender | categorical code |
| Systolic blood pressure | Característica examen | ap_hi | int |
| Diastolic blood pressure | Característica examen | ap_lo | int |
| Cholesterol | Característica examen | cholesterol | 1: normal, 2: above normal, 3: well above normal |
| Glucose | Característica examen | gluc | 1: normal, 2: above normal, 3: well above normal |
| Smoking | Característica subjetiva | smoke | binary |
| Alcohol intake | Característica subjetiva | alco | binary |
| Physical activity | Característica subjetiva | active | binary |
| Presence or absence of cardiovascular disease | Variable Resultado | cardio | binary |

Medidas a tomar:

1. Deteminar si el dataset cuenta con datos nulos
2. Determinar si el dataset cuenta con datos duplicados
3. Determinar si los datos que contiene el dataset son consistentes con la realidad

### Datos Duplicados y Nulos

In [None]:
# TODO: podriamos hacer un metodo for para que vaya columna a columna recolectando los datos nulos y ver la cant total
dataset.isna().sum()

id             0
age            0
gender         0
height         0
weight         0
ap_hi          0
ap_lo          0
cholesterol    0
gluc           0
smoke          0
alco           0
active         0
cardio         0
dtype: int64

In [None]:
# Realizamos el drop() de la columan "id" ya que en este caso no aporta ningun tipo de valor al analisis a realizar 
dataset.drop(labels = "id", axis = 1, inplace = True)

In [None]:
# Determinamos la cantidad de datos duplicados
cant_duplicados = dataset.duplicated().sum()
if(cant_duplicados):
  print('La cantidad de datos duplicados en el dataset es {0}'.format(cant_duplicados))
else:
  print('El dataset no cuenta con datos duplicados')

La cantidad de datos duplicados en el dataset es 24


In [None]:
# TODO: explicar pq
# Veamos los datos duplicados
duplicados = dataset[dataset.duplicated(keep = False)] # Hacemos keep = false para que marque todos los duplicados como true
duplicados = duplicados.sort_values(by = ['age', 'gender']) # Ordenamos para deteminar bien los datos duplicados
duplicados

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
6325,14552,1,158,64.0,120,80,1,1,0,0,1,0
40365,14552,1,158,64.0,120,80,1,1,0,0,1,0
17101,16160,1,168,65.0,120,80,1,1,0,0,1,1
64169,16160,1,168,65.0,120,80,1,1,0,0,1,1
1204,16793,1,165,68.0,120,80,1,1,0,0,1,0
21784,16793,1,165,68.0,120,80,1,1,0,0,1,0
28300,16805,1,157,67.0,120,80,1,1,0,0,1,0
60474,16805,1,157,67.0,120,80,1,1,0,0,1,0
10494,16937,2,170,70.0,120,80,1,1,0,0,0,0
44653,16937,2,170,70.0,120,80,1,1,0,0,0,0


In [None]:
# Eliminamos los datos duplicados del dataset
dataset.drop_duplicates(keep = 'first', inplace = True)

In [None]:
print("El dataset ahora posee {0} datos despues de haber eliminado los duplicados".format(dataset.shape[0]))

El dataset ahora posee 69976 datos despues de haber eliminado los duplicados


### Analisis de la consistencia de los datos numericos

In [None]:
dataset.describe()

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
count,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0,69976.0
mean,19468.950126,1.349648,164.359152,74.208519,128.820453,96.636261,1.366997,1.226535,0.088159,0.05379,0.803718,0.499771
std,2467.37462,0.476862,8.211218,14.397211,154.037729,188.504581,0.680333,0.572353,0.283528,0.225604,0.397187,0.500004
min,10798.0,1.0,55.0,10.0,-150.0,-70.0,1.0,1.0,0.0,0.0,0.0,0.0
25%,17664.0,1.0,159.0,65.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
50%,19703.0,1.0,165.0,72.0,120.0,80.0,1.0,1.0,0.0,0.0,1.0,0.0
75%,21327.0,2.0,170.0,82.0,140.0,90.0,2.0,1.0,0.0,0.0,1.0,1.0
max,23713.0,2.0,250.0,200.0,16020.0,11000.0,3.0,3.0,1.0,1.0,1.0,1.0


Anotaciones:
* Se puede ver presiones tanto sistolicas (ap_hi) como diastolicas (ap_lo) que tiene valores negativos.
* El peso minimo registrado es de 10 kg por lo que es sospechoso y se debe investigar.
* Tanto la altura minima y maxima son sospechosas por lo que tambien se deben investigar

#### Analisis de Variables

##### Variables asociadas a las presiones

In [153]:
# Creamos una copia del dataset original para realizar la limpieza de datos
clean_presiones = dataset

# Elimino los datos negativos
clean_presiones = clean_presiones[clean_presiones['ap_lo'] >= 0]
clean_presiones = clean_presiones[clean_presiones['ap_hi'] >= 0]

# Cantidad de datos eliminados
print('La cantidad de datos negativos eliminados fueron: {0}'.format(dataset.shape[0] - clean_presiones.shape[0]))

La cantidad de datos negativos eliminados fueron: 8


In [144]:
# Se puede observar un max muy anormal
clean_presiones['ap_hi'].describe()

count    69968.000000
mean       128.847044
std        154.025612
min          1.000000
25%        120.000000
50%        120.000000
75%        140.000000
max      16020.000000
Name: ap_hi, dtype: float64

In [159]:
fig = px.histogram(clean_presiones, x="ap_hi")
fig.show()

In [146]:
# Se puede observar un max muy anormal
clean_presiones['ap_lo'].describe()

count    69968.000000
mean        96.640450
std        188.514207
min          0.000000
25%         80.000000
50%         80.000000
75%         90.000000
max      11000.000000
Name: ap_lo, dtype: float64

In [147]:
fig = px.histogram(clean_presiones, x='ap_lo')
fig.show()

Según el ciertas fuentes (agregar) se deben tener las siguientes criterios para las presiones:
*   Presiones sistolicas pueden encontrarse menor a: 260 mmHg
*   Presiones distolicas pueden encontrarse menor a: 150 mmHg 

In [162]:
#TODO: Verificar con el grupo 
clean_presiones = clean_presiones[clean_presiones['ap_hi'] <= 260]
clean_presiones = clean_presiones[clean_presiones['ap_lo'] <= 150]

In [163]:
clean_presiones['ap_hi'].describe()

count    68953.000000
mean       126.326266
std         17.685162
min          7.000000
25%        120.000000
50%        120.000000
75%        140.000000
max        240.000000
Name: ap_hi, dtype: float64

In [None]:
clean_presiones['ap_lo'].describe()

count    68953.000000
mean        81.306267
std          9.746274
min          0.000000
25%         80.000000
50%         80.000000
75%         90.000000
max        150.000000
Name: ap_lo, dtype: float64

In [164]:
fig = make_subplots(rows=1, cols=2)

fig.add_trace(go.Histogram(x=clean_presiones['ap_hi'], name="Sistolica"),row=1, col=1,)
fig.add_trace(go.Histogram(x=clean_presiones['ap_lo'], name="Diastolica"),row=1, col=2,)

fig.update_layout(height=600, width=1600, 
                  title_text="Presion sistolica y diastolica",
                  )
fig.show()

In [165]:
# Verificar que las presiones sistolicas sean mayores que las diastolicas
if((clean_presiones['ap_lo']>clean_presiones['ap_hi']).sum()):
  print('La cantidad de pacientes que tiene una presion sistolica menor a diastolica es {0}'.format((clean_presiones['ap_lo']>clean_presiones['ap_hi']).sum()))
else:
  print('Las presiones se encuentran bien')

La cantidad de pacientes que tiene una presion sistolica menor a diastolica es 257


In [None]:
clean_presiones[(clean_presiones['ap_lo']>clean_presiones['ap_hi'])]

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
474,19099,1,156,65.0,120,150,2,1,0,0,1,0
567,21281,1,168,78.0,14,90,2,1,0,0,1,1
636,20457,2,169,68.0,70,110,1,1,0,0,1,0
927,21867,2,175,70.0,14,90,3,1,0,0,1,1
979,18225,1,172,65.0,11,80,1,3,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
68630,21217,1,160,59.0,12,80,1,1,0,0,1,0
68742,18755,1,158,74.0,14,90,1,1,0,0,1,1
68998,19107,1,154,77.0,14,90,1,1,0,0,1,0
69137,15442,2,176,65.0,12,80,1,1,0,0,1,0


In [None]:
clean_presiones = clean_presiones[(clean_presiones['ap_lo']<clean_presiones['ap_hi'])]
clean_presiones

Unnamed: 0,age,gender,height,weight,ap_hi,ap_lo,cholesterol,gluc,smoke,alco,active,cardio
0,18393,2,168,62.0,110,80,1,1,0,0,1,0
1,20228,1,156,85.0,140,90,3,1,0,0,1,1
2,18857,1,165,64.0,130,70,3,1,0,0,0,1
3,17623,2,169,82.0,150,100,1,1,0,0,1,1
4,17474,1,156,56.0,100,60,1,1,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...
69995,19240,2,168,76.0,120,80,1,1,1,0,1,0
69996,22601,1,158,126.0,140,90,2,2,0,0,1,1
69997,19066,2,183,105.0,180,90,3,1,0,1,0,1
69998,22431,1,163,72.0,135,80,1,2,0,0,0,1


##### Analisis del peso y altura

In [None]:
# Creamos una copia del dataset original para realizar la limpieza de datos
clean_wandh = dataset

# Una forma visual de poder ver los valores outliers es por medio del boxplot
fig = make_subplots(rows=1, cols=2)

fig.add_trace(go.Box(x=clean_wandh['height'], name="Height"),row=1, col=1,)
fig.add_trace(go.Box(x=clean_wandh['weight'], name="Weight"),row=1, col=2,)

fig.update_layout(height=450, width=1600, 
                  title_text="Boxplots asociados a la altura y peso",
                  )
fig.show()

In [None]:
datos_height = clean_wandh['height'].describe()
datos_height['media+2std'] = datos_height['mean'] + 2*datos_height['std']
datos_height['media-2std'] = datos_height['mean'] - 2*datos_height['std']
datos_height

count         69976.000000
mean            164.359152
std               8.211218
min              55.000000
25%             159.000000
50%             165.000000
75%             170.000000
max             250.000000
media+2std      180.781588
media-2std      147.936715
Name: height, dtype: float64

In [None]:
datos_weight = clean_wandh['weight'].describe()
datos_weight['media+2std'] = datos_weight['mean'] + 2*datos_weight['std']
datos_weight['media-2std'] = datos_weight['mean'] - 2*datos_weight['std']
datos_weight

count         69976.000000
mean             74.208519
std              14.397211
min              10.000000
25%              65.000000
50%              72.000000
75%              82.000000
max             200.000000
media+2std      103.002940
media-2std       45.414097
Name: weight, dtype: float64

In [None]:
# Una forma visual de poder ver los valores outliers es por medio del boxplot
fig = go.Figure()

fig.add_trace(go.Histogram(x=clean_wandh['height'], name="Height"),)
fig.add_vline(x=datos_height['mean'], line_dash = 'dash', line_color = 'firebrick', name = "Media")
fig.add_vline(x=datos_height['media+2std'], line_dash = 'dash', line_color = 'royalblue', name = "+2STD")
fig.add_vline(x=datos_height['media-2std'], line_dash = 'dash', line_color = 'peachpuff', name = "-2STD")
fig.update_layout(
    height=500, width=1000, 
    title_text="Histogramas y desvios",
                  )
fig.show()

In [None]:
# Una forma visual de poder ver los valores outliers es por medio del boxplot
fig = go.Figure()

fig.add_trace(go.Histogram(x=clean_wandh['weight'], name="Weight"),)
fig.add_vline(x=datos_weight['mean'], line_dash = 'dash', line_color = 'firebrick', name = "Media")
fig.add_vline(x=datos_weight['media+2std'], line_dash = 'dash', line_color = 'royalblue', name = "+2STD")
fig.add_vline(x=datos_weight['media-2std'], line_dash = 'dash', line_color = 'peachpuff', name = "-2STD")
fig.update_layout(
    height=500, width=1000, 
    title_text="Histogramas y desvios",
                  )
fig.show()

In [None]:
weight_plus2std = clean_wandh['weight']>datos_weight['media+2std']
weight_minus2std = clean_wandh['weight']<datos_weight['media-2std']
clean_wandh.loc[weight_plus2std|weight_minus2std].shape[0]
clean_wandh.shape[0]
print('La cantidad de datos sin outliers de weight es: {0}'.format(clean_wandh.shape[0]-clean_wandh.loc[weight_plus2std|weight_minus2std].shape[0]))

La cantidad de datos sin outliers de weight es: 66975


In [None]:
height_plus2std = clean_wandh['height']>datos_height['media+2std']
height_minus2std = clean_wandh['height']<datos_height['media-2std']
clean_wandh.loc[height_plus2std|height_minus2std].shape[0]
clean_wandh.shape[0]
print('La cantidad de datos sin outliers de height es: {0}'.format(clean_wandh.shape[0]-clean_wandh.loc[height_plus2std|height_minus2std].shape[0]))

La cantidad de datos sin outliers de height es: 67641


##### Limpieza de datos

Utilizamos todos los parametro obtenidos anteriormente para realizar un dataset limpio

In [170]:
clean_dataset = dataset
# Eliminamos los valores negativos de presiones
clean_dataset = clean_dataset[clean_dataset['ap_lo'] >= 0]
clean_dataset = clean_dataset[clean_dataset['ap_hi'] >= 0]
cant_eliminados_neg = dataset.shape[0]-clean_dataset.shape[0] 

# Eliminamos los outliers de las variables de presion
pre_outliers = clean_dataset.shape[0]
clean_dataset = clean_dataset[clean_dataset['ap_hi'] <= 260]
clean_dataset = clean_dataset[clean_dataset['ap_lo'] <= 150]
cant_eliminados_outliers = pre_outliers-clean_dataset.shape[0] 

# Eliminamos los datos que tiene una presion sistolica < presion diastolica
pre_eliminacion_ap_anormal = clean_dataset.shape[0]
clean_dataset = clean_dataset[(clean_dataset['ap_lo']<clean_dataset['ap_hi'])]
cant_eliminados_ap_anormal = pre_eliminacion_ap_anormal - clean_dataset.shape[0] 

# Eliminamos los valores de altura y pesos que sea considerados anormales
pre_eliminacion_wandh_anormal = clean_dataset.shape[0]
clean_dataset = clean_dataset.loc[~(weight_plus2std|weight_minus2std|height_plus2std|height_minus2std)]
cant_eliminacion_wandh_anormal = pre_eliminacion_wandh_anormal - clean_dataset.shape[0] 

In [171]:
print('Cantidad de valores negativos eliminados: {0} \
\nCantidad de outliers de presion eliminados: {1}\
\nCantidad de presiones sistolica < diastolicas eliminadas: {2}\
\nCantidad de altura y peso anomalos: {3}\
'.format(cant_eliminados_neg, cant_eliminados_outliers, 
         cant_eliminados_ap_anormal, cant_eliminacion_wandh_anormal))

Cantidad de valores negativos eliminados: 8 
Cantidad de outliers de presion eliminados: 1015
Cantidad de presiones sistolica < diastolicas eliminadas: 259
Cantidad de altura y peso anomalos: 4841


In [172]:
clean_dataset.shape

(63853, 12)