# Data Frames

El `data frame` es quizá la estructura de datos que más utilizaremos en ciencia de datos debido a que podemos almacenar datos de distintas clases.

Podríamos entener esta estructura de datos como una `matrix` mucho más flexible, debido a que podemos mezclar tipos de datos y podemos acceder a sus columnas por los nombres que le asignemos.

Por regla general vamos a almacenar por cada fila una observación y en las columnas tendremos cada atributo que describe esa observación, pueden imaginarse que cada fila representa un paciente y cada columna puede representar un signo vital distinto.

Una de las formas más fáciles de generar un data frame es generarlo desde un grupo de vectores utilizando la función `data.frame()` con la siguiente sintaxis:

`data.frame(<column name> = vector, <column name> = vector)`

In [1]:
# Creamos un data frame desde un par de vectores.

the_vector = c(120,121,125,130,119,88,135,85,118,132,125,81,120,150,115,140,120)
the_vector_2 = c(80 ,83, 87, 85, 74, 99, 78, 83, 90, 77, 76, 78, 86, 98, 78, 69, 65)

blood_pressure = data.frame(systolic = the_vector, diastolic = the_vector_2)
blood_pressure

systolic,diastolic
120,80
121,83
125,87
130,85
119,74
88,99
135,78
85,83
118,90
132,77


In [2]:
# Si queremos obtener sólo los valores de la presión sistólica podemos hacerlo a través del nombre de la columna.

blood_pressure$systolic

In [3]:
# Agreguemos una columna nueva al data frame.
# Atención que el vector que le concatenamos es del tipo character y antes la estructura tenía datos numeric.

blood_pressure$patient_name = c("josé", "juan", "pedro", "pablo", "josé", "victoria", "pedro", "pablo", "josé", "juana", "pedro", "pablo", "josé", "juan", "pedro", "pablo", "maría")
blood_pressure

systolic,diastolic,patient_name
120,80,josé
121,83,juan
125,87,pedro
130,85,pablo
119,74,josé
88,99,victoria
135,78,pedro
85,83,pablo
118,90,josé
132,77,juana


In [4]:
# Podemos acceder al dataframe usando su índice, al igual que una matrix

blood_pressure[5,]

Unnamed: 0,systolic,diastolic,patient_name
5,119,74,josé


In [5]:
blood_pressure[5,2]

In [6]:
blood_pressure[,2]

Para poder filtrar un grupo de observaciones en un `data frame` podemos pasar un vector de índices que queremos recuperar o un vector lógico creado a través de aplicar un operador relacional a una fila o columna.

In [7]:
# Extrayendo sólo la fila 1 y 3
blood_pressure[c(1,3),]

Unnamed: 0,systolic,diastolic,patient_name
1,120,80,josé
3,125,87,pedro


In [8]:
# Extrayendo sólo la columna 1 y 3
blood_pressure[,c(1,3)]

systolic,patient_name
120,josé
121,juan
125,pedro
130,pablo
119,josé
88,victoria
135,pedro
85,pablo
118,josé
132,juana


In [9]:
# Creemos un vector lógico que encienda sólo los valores de presión sistólica mayores a 130
systolic_hypertension = blood_pressure$systolic > 130
systolic_hypertension

In [10]:
# Filtremos sólo las observaciones con presión arterial sistólica mayor a 130 utilizando el vector creado antes

blood_pressure[systolic_hypertension,]

Unnamed: 0,systolic,diastolic,patient_name
7,135,78,pedro
10,132,77,juana
14,150,98,juan
16,140,69,pablo


In [11]:
# Filtremos sólo las observaciones con presión arterial sistólica mayor a 130
# y presión diastólica mayor a 90

blood_pressure[systolic_hypertension & blood_pressure$diastolic > 90,]

Unnamed: 0,systolic,diastolic,patient_name
14,150,98,juan


In [12]:
# Filtremos el data frame para que sólo nos devuelva los pacientes que se llamen josé

blood_pressure[blood_pressure$patient_name == "josé",]

Unnamed: 0,systolic,diastolic,patient_name
1,120,80,josé
5,119,74,josé
9,118,90,josé
13,120,86,josé


## Funciones en R

Se llama presión arterial media a la presión promedio (no es sencillamente una media aritmética) en las grandes arterias durante el ciclo cardiaco. Esta presión se puede estimar utilizando la siguiente ecuación:

$PAM \approx PAD + \frac{1}{3} (PAS - PAD) $,

donde

$PAM$: Presión arterial media

$PAS$: Presión arterial sistólica

$PAD$: Presión arterial diastólica



Para poder realizar el cálculo de una manera más sencilla y empaquetar el cálculo para poder ser reproducido en el código, podemos utilizar una función. La sintaxis para crear una función en `R` es la siguiente:

<code>my_function = function(argument1, argument2) {
    response = argument1 + argument2
    return(response)
}</code>

In [13]:
# Función que calcula la PAM desde la PAS y PAD

pam = function(pas,pad) {
    pam = pad + (1/3) * (pas - pad)
    return(pam)
}

# Sólo acabamos de declarar la función, aún no la hemos ejecutado

In [14]:
# Calculemos la PAM de maría

pam(120,65)

In [15]:
blood_pressure[c("systolic","diastolic")]

systolic,diastolic
120,80
121,83
125,87
130,85
119,74
88,99
135,78
85,83
118,90
132,77


Si necesitamos aplicar nuestra función que recibe dos parámetros a todas las observaciones de nuestro `data frame`, podemos utilizar la función `mapply(function,argument1,argument2)`

In [16]:
pam = mapply(pam,blood_pressure$systolic,blood_pressure$diastolic)
pam

Esta función nos retorna un `vector`, el cual podemos concatenar a nuestro data frame como cualquier otro `vector`, utilizando el método señalado anteriormente en la clase.

In [17]:
blood_pressure$pam = pam
blood_pressure

systolic,diastolic,patient_name,pam
120,80,josé,93.33333
121,83,juan,95.66667
125,87,pedro,99.66667
130,85,pablo,100.0
119,74,josé,89.0
88,99,victoria,95.33333
135,78,pedro,97.0
85,83,pablo,83.66667
118,90,josé,99.33333
132,77,juana,95.33333


Como sabemos que `R` es un programa vectorial, hagamos el mismo cálculo utilizando sólo operaciones vectoriales.

In [18]:
# Obtenemos los mismos resultados al aplicar la función y al hacer el mismo cálculo de manera vectorial.

blood_pressure$diastolic + (1/3) * (blood_pressure$systolic - blood_pressure$diastolic)

## MIMIC - III e importación de un csv

`MIMIC - III` es una base de datos disponible abiertamente (al pasar una serie de evaluaciones bioéticas) de datos deidentificados de alrededor de 60.000 ingresos de pacientes a una Unidad de Paciente Crítico.

Una descripción completa de todas las tablas contenidas en la base de datos se encuentra en la documentación oficial de la misma en https://mimic.physionet.org/about/mimic/ .

Esta base de datos está disponible para descarga inmediata una muestra de la base de datos completa en formato `csv`, el cual es un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas.

`R` tiene cuenta con la función `read.csv()` para importar estos datos y devolver un `data frame`.

Importaremos la tabla `D_ITEMS`, la cual contiene la definición de todos los ítems disponibles en la base de datos, la documentación completa de esta tabla está disponible en https://mimic.physionet.org/mimictables/d_items/ .

In [19]:
# Importamos el archivo D_ITEMS.csv desde la carpeta data
# Prueba importar otra tabla desde la base de datos y lee su documentación
d_items = read.csv("data/D_ITEMS.csv")
d_items

row_id,itemid,label,abbreviation,dbsource,linksto,category,unitname,param_type,conceptid
1,1435,Sustained Nystamus,,carevue,chartevents,,,,
2,1436,Tactile Disturbances,,carevue,chartevents,,,,
3,1437,Tremor,,carevue,chartevents,,,,
4,1438,Ulnar Pulse [Right],,carevue,chartevents,,,,
5,1439,Visual Disturbances,,carevue,chartevents,,,,
6,1447,Transpulmonary Pres,,carevue,chartevents,,,,
7,1448,Vd/Vt:,,carevue,chartevents,,,,
8,1449,Arterial BP(Rad),,carevue,chartevents,,,,
9,1450,level one,,carevue,chartevents,,,,
10,1451,L girth size,,carevue,chartevents,,,,


## Exploración de un data frame

El primer paso en cualquier proyecto de ciencia de datos es explorar los conjuntos de datos a los que tenemos acceso, aquí se enumeran algunas de las funciones más utilizadas en la exploración inicial de datos:
* `head(x)`: Muestra las observaciones de las primeras filas del conjunto de datos `x`.
* `tail(x)`: Muestra las observaciones de las últimas filas del conjunto de datos `x`. 

In [20]:
head(d_items)

row_id,itemid,label,abbreviation,dbsource,linksto,category,unitname,param_type,conceptid
1,1435,Sustained Nystamus,,carevue,chartevents,,,,
2,1436,Tactile Disturbances,,carevue,chartevents,,,,
3,1437,Tremor,,carevue,chartevents,,,,
4,1438,Ulnar Pulse [Right],,carevue,chartevents,,,,
5,1439,Visual Disturbances,,carevue,chartevents,,,,
6,1447,Transpulmonary Pres,,carevue,chartevents,,,,


Según la documentación, la columna `itemid` contiene el identificador único del ítem y la columna `label` contiene describe el concepto.

In [21]:
tail(d_items)

Unnamed: 0,row_id,itemid,label,abbreviation,dbsource,linksto,category,unitname,param_type,conceptid
12482,15669,228574,Incision #4- Treatment,Incision #4- Treatment,metavision,chartevents,Skin - Incisions,,Text,
12483,15670,228575,Incision #5- Treatment,Incision #5- Treatment,metavision,chartevents,Skin - Incisions,,Text,
12484,15671,228576,Incision #6- Treatment,Incision #6- Treatment,metavision,chartevents,Skin - Incisions,,Text,
12485,15672,228577,Impaired Skin #2- Type,Impaired Skin #2- Type,metavision,chartevents,Skin - Impairment,,Text,
12486,15673,228578,Impaired Skin #3- Type,Impaired Skin #3- Type,metavision,chartevents,Skin - Impairment,,Text,
12487,15674,228579,Impaired Skin #4- Type,Impaired Skin #4- Type,metavision,chartevents,Skin - Impairment,,Text,


Busquemos un signo vital interesante para explorar. Filtremos todos los ítems que tengan la unidad de medida _bpm_.

In [22]:
d_items[d_items$unitname == "bpm",]

Unnamed: 0,row_id,itemid,label,abbreviation,dbsource,linksto,category,unitname,param_type,conceptid
9525,12712,220045,Heart Rate,HR,metavision,chartevents,Routine Vital Signs,bpm,Numeric,
9526,12713,220046,Heart rate Alarm - High,HR Alarm - High,metavision,chartevents,Alarms,bpm,Numeric,
9527,12714,220047,Heart Rate Alarm - Low,HR Alarm - Low,metavision,chartevents,Alarms,bpm,Numeric,
9573,12760,223764,Orthostatic HR lying,Orthostatic HR lying,metavision,chartevents,Routine Vital Signs,bpm,Numeric,
9574,12761,223765,Orthostatic HR sitting,Orthostatic HR sitting,metavision,chartevents,Routine Vital Signs,bpm,Numeric,
9583,12770,223775,VAD Beat Rate R,VAD Beat Rate R,metavision,chartevents,Hemodynamics,bpm,Numeric,
9941,13128,224363,VAD Beat Rate L,VAD Beat Rate L,metavision,chartevents,Hemodynamics,bpm,Numeric,
10103,13290,224751,Temporary Pacemaker Rate,Temp Pacemaker Rate,metavision,chartevents,Cardiovascular (Pacer Data),bpm,Numeric,
10152,13339,224422,Spont RR,Spont RR,metavision,chartevents,Respiratory,bpm,Numeric,
10240,13427,224647,Orthostatic HR standing,Orthostatic HR standing,metavision,chartevents,Routine Vital Signs,bpm,Numeric,


El `itemid` _220045_ parece ser el indicado para extraer la frecuencia cardiaca de un paciente, recordemos ese código:

In [23]:
hr_id = 220045

Importaremos otra tabla de la base de datos.

La tabla `CHARTEVENTS` contiene todos los datos de las tablas de enfermería de todos los pacientes de la base de datos. La documentación completa la encuentras acá https://mimic.physionet.org/mimictables/chartevents/ .

In [24]:
chartevents = read.csv("data/CHARTEVENTS.csv")

In [25]:
# Exploremos cómo se ven los datos de esta tabla
head(chartevents)

row_id,subject_id,hadm_id,icustay_id,itemid,charttime,storetime,cgid,value,valuenum,valueuom,warning,error,resultstatus,stopped
5279021,40124,126179,279554,223761,2130-02-04 04:00:00,2130-02-04 04:35:00,19085,95.9,95.9,?F,0,0,,
5279022,40124,126179,279554,224695,2130-02-04 04:25:00,2130-02-04 05:55:00,18999,2222221.7,2222221.7,cmH2O,0,0,,
5279023,40124,126179,279554,220210,2130-02-04 04:30:00,2130-02-04 04:43:00,21452,15.0,15.0,insp/min,0,0,,
5279024,40124,126179,279554,220045,2130-02-04 04:32:00,2130-02-04 04:43:00,21452,94.0,94.0,bpm,0,0,,
5279025,40124,126179,279554,220179,2130-02-04 04:32:00,2130-02-04 04:43:00,21452,163.0,163.0,mmHg,0,0,,
5279026,40124,126179,279554,220180,2130-02-04 04:32:00,2130-02-04 04:43:00,21452,81.0,81.0,mmHg,0,0,,


In [26]:
# Filtremos sólo las observaciones de frecuencia cardiaca

hr = chartevents[chartevents$itemid == hr_id,]
head(hr)

Unnamed: 0,row_id,subject_id,hadm_id,icustay_id,itemid,charttime,storetime,cgid,value,valuenum,valueuom,warning,error,resultstatus,stopped
4,5279024,40124,126179,279554,220045,2130-02-04 04:32:00,2130-02-04 04:43:00,21452,94,94,bpm,0,0,,
22,5279042,40124,126179,279554,220045,2130-02-04 05:01:00,2130-02-04 05:33:00,21452,88,88,bpm,0,0,,
25,5279045,40124,126179,279554,220045,2130-02-04 06:00:00,2130-02-04 06:08:00,21452,82,82,bpm,0,0,,
58,5279078,40124,126179,279554,220045,2130-02-04 07:00:00,2130-02-04 07:39:00,21304,89,89,bpm,0,0,,
64,5279084,40124,126179,279554,220045,2130-02-04 08:00:00,2130-02-04 07:46:00,21304,84,84,bpm,0,0,,
94,5279114,40124,126179,279554,220045,2130-02-04 09:00:00,2130-02-04 08:53:00,21304,95,95,bpm,0,0,,


Según la documentación, la columna `valuenum` contiene el valor numérico medido en esa observación, por lo que es la columna que utilizaremos para explorar la frecuencia cardiaca de los pacientes.

Algunas funciones útiles para explorar valores numéricos son las siguientes:

* `summary(x)`: Con esta función podemos obtener algunos estadísticos que resumen del vector `x`.
* `min(x)`: Obtenemos el valor mínimo del vector `x`.
* `max(x)`: Obtenemos el valor máximo del vector `x`.
* `mean(x)`: Obtenemos el valor promedio del vector `x`.
* `quantile(x,probs)`: Obtenemos el valor del percentil probs del vector `x`. 

In [27]:
summary(hr$valuenum)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   0.00   77.00   88.00   88.71  101.00  157.00 

In [28]:
min(hr$valuenum)

In [29]:
max(hr$valuenum)

In [30]:
mean(hr$valuenum)

In [31]:
quantile(hr$valuenum,0.05)

In [32]:
quantile(hr$valuenum,0.95)

Al analizar los valores que obtuvimos las celdas anteriores podemos concluir que son consistentes con la literatura. Las frecuencias cardiacas, efectivamente pueden oscilar entre 60 y 120 _lpm_.