# Introducción a R

## Operando con números

El procedimiento más básico que podemos realizar con R es utilizarlo como una calculadora en donde los operadores `+`, `-`, `*` o `/` pueden ser utilizados para operar sobre números, como también podemos utilizar paréntesis redodondos `()` tal como lo hacemos en álgebra. Al ejecutar la operación, se retornará el resultado.

In [3]:
2 + 2

In [2]:
2 * 3

In [6]:
2 * 3 - 2

In [7]:
2 * ( 3 - 2 )

## Variables y tipos de datos

Una variable está formada un espacio que podemos utilizar en la memoria del computador para almacenar un valor y este espacio de memoria le podemos asignar un nombre simbólico o al que nos referiremos como nombre de la variable.

In [97]:
# Este es un comentario y en la línea de abajo tenemos el nombre de la variable junto con su valor.
number = 1
number

A una variable le podemos asignar distintos tipos de datos, los más básicos en R son:
* `character`: Una cadena de caracteres. Podemos darnos cuenta que una variable es de este tipo, porque siempre estará entre comillas (`'foo'`).
* `numeric`: Un número que puede ser entero o decimal.
* `logical`: Un valor dicotómico (`TRUE`, `FALSE`)

In [9]:
the_character = "foo"

Cuando le asignamos un valor a una variable R no retornará nada hasta que nosotros llamemos a la misma.

In [10]:
# Estoy llamando a la variable.
the_character

In [11]:
# Una variable del tipo character no es exclusivo para letras.
also_character = '11'
also_character

In [15]:
# Esta variable es de la clase numeric.
the_numeric = 11
the_numeric

In [14]:
also_numeric = 11.1
also_numeric

In [16]:
# Atención a que la variable logical sólo recibe los valores TRUE o FALSE, exactamente en mayúsculas
# y sin comillas
the_logical = TRUE
the_logical

In [17]:
also_logical = FALSE
also_logical

## Operadores relacionales y lógicos

Los operadores relacionales son símbolos que se utilizan para comparar dos valores. Estos operadores devuelven un objeto de clase `logical` y el cual es `TRUE` cuando la relación es verdadera y `FALSE` cuando la relación es falsa.

Algunos operadores relacionales son los siguientes:
* `==`: Devuelve `TRUE` cuando ambos valores son iguales.
* `!=`: Devuelve `TRUE` cuando ambos valores son distintos.
* `>`: Devuelve `TRUE` cuando el valor a la izquierda es mayor al de la derecha.
* `>=`: Devuelve `TRUE` cuando el valor a la izquierda es mayor o igual al de la derecha.

In [12]:
# Esto es verdadero.
0 < 1

In [13]:
# Esto es falso.
0 > 1

In [14]:
# Atención, aquí se usa doble signo igual, no como cuando definimos una variable donde utilizamos sólo un signo igual.
0 == 0

In [15]:
0 != 0

In [16]:
'a' != 'b'

In [17]:
'a' == 'b'

In [20]:
# Prueben más relaciones, a veces los resultados son intuitivos, otras veces no.
'a' < 'b'

In [24]:
# Mucho cuidado con los operadores relacionales, a veces no se comportan como lo esperamos.
'1' == 1

Los operadores lógicos, similar a los relacionales, sirven para comparar valores `logical`. Estos operadres también devuelven un objeto del tipo `logical`.

Estos operadores son:
* `|`: Este operador `or` devuelve `TRUE` cuando uno o ambos valores son `TRUE`.
* `&`: Este operador `and` devuelve `TRUE` cuando ambos valores son `TRUE`.
* `!`: Este operador invierte el valor lógico que está a su derecha.

In [25]:
TRUE | TRUE

In [26]:
TRUE | FALSE

In [27]:
FALSE | FALSE

In [28]:
FALSE & TRUE

In [29]:
TRUE & TRUE

In [30]:
FALSE & FALSE

In [37]:
!TRUE

In [33]:
# Los ejemplos son anteriores son demasiado simples y quizá poco útiles.
# La primera relación es verdadera y la segunda es falsa.
# Esto va a ser útil cuando después queramos componer varias condiciones para filtrar una estructura de datos.

0 < 1 & 0 > 1

In [35]:
# Ambas relaciones son verdaderas. Además podemos agregar paréntesis para visualizarlo mejor
(0 < 1) & (2 > 1)

In [36]:
# Este es exactamente el mismo ejemplo anterior, pero se invirtió el valor lógico de la primera relación.
!(0 < 1) & (2 > 1)

## Estructuras de datos

Cuando necesitamos tratar a un conjunto de datos aislados como uno sólo, podemos utilizar estructuras de datos. Las estructuras de datos básicas en R son:
* `vector`: Un conjunto unidimensional de datos de la misma clase.
* `matrix`: Un conjunto bidimensional de datos de la misma clase.
* `data frame`: Conjunto bidimensional de datos, donde cada columna puede contener datos de distintas clases y además una de las ventajas es que por defecto podemos añadir un nombre a cada columna.

Para inicializar un vector podemos hacerlo con la función `c()`, la cual concatena todos los elementos contenidos en los parametros que le pasemos.

In [2]:
# Este es un vector de números.
the_vector = c(120,121,125,130,119,88,135,85,118,132,125,81,120,150,115,140,120)
the_vector

In [19]:
# Si a la función le pasamos elementos de distinta clase, todos se convertirán a character
c(1,2,"a")

Para acceder a un elemento o un grupo de elementos específico dentro de un vector, podemos utilizar el índice o índices de los elementos dentro de paréntesis cuadrados `[]`. Los índices parten desde el 1, distinto a otros lenguajes de programación, como por ejemplo en `Python`, donde se parte desde el 0.

In [4]:
the_vector[1]

In [5]:
the_vector[0]

In [6]:
# Para acceder a más de un elemento podemos utilizar un vector de índices.
the_vector[c(1,8)]

In [43]:
# También podemos acceder a los valores del vector con un vector de valores lógicos.
# Una intuición de esto es que estamos encendiendo o apagando valores en el vector.
the_vector[c(TRUE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,FALSE,TRUE)]

Cuando necesitemos estructurar nuestros datos de manera bidimensional, podemos utilizar la función `matrix()`, de manera similar a la función `c()`. La función `matrix()` nos devolverá un objeto de la clase `matrix`.

La función `matrix()` recibe un vector y además podemos especificar el parámetro `ncol` o `nrow` para especificar el número de columnas o filas que debe tener la matriz.

In [29]:
matrix(c(1,2,3,4,5,6),nrow=2)

0,1,2
1,3,5
2,4,6


In [3]:
# Inventamos un vector nuevo.
the_vector_2 = c(80 ,83, 87, 85, 74, 99, 78, 83, 90, 77, 76, 78, 86, 98, 78, 69, 65)
# Concatenamos con la función c() los 2 vectores que tenemos creados.
the_matrix = matrix(c(the_vector,vector_2),ncol=2)
the_matrix

0,1
120,80
121,83
125,87
130,85
119,74
88,99
135,78
85,83
118,90
132,77


De un objeto de la clase `matrix` podemos obtener una columna como un `vector`, una fila como un `vector` o un elemento en específico utilizando la siguiente sintaxis.

`matrix[ row, column ]`

In [9]:
# Seleccionando sólo la fila con el índice 2
# Atención con que se debe escribir la coma (,), pero se deja el valor de las columnas en blanco
the_matrix[2,]

In [10]:
# Seleccionando sólo la columna con el índice 2
the_matrix[,2]

In [11]:
# Seleccionando el elemento en la columna 2 y la fila 2
the_matrix[2,2]

### Data frames

El `data frame` es quizá la estructura de datos que más utilizaremos en ciencia de datos debido a que podemos almacenar datos de distintas clases.

Podríamos entener esta estructura de datos como una `matrix` mucho más flexible, debido a que podemos mezclar tipos de datos y podemos acceder a sus columnas por los nombres que le asignemos.

Por regla general vamos a almacenar por cada fila una observación y en las columnas tendremos cada atributo que describe esa observación, pueden imaginarse que cada fila representa un paciente y cada columna puede representar un signo vital distinto.

Una de las formas más fáciles de generar un data frame es generarlo desde un grupo de vectores utilizando la función `data.frame()` con la siguiente sintaxis:

`data.frame(<column name> = vector, <column name> = vector)`

In [57]:
# Creamos un data frame desde los vectores que habíamos creado antes.

blood_pressure = data.frame(systolic = the_vector, diastolic = the_vector_2)
blood_pressure

systolic,diastolic
120,80
121,83
125,87
130,85
119,74
88,99
135,78
85,83
118,90
132,77


In [58]:
# Si queremos obtener sólo los valores de la presión sistólica podemos hacerlo a través del nombre de la columna.

blood_pressure$systolic

In [65]:
# Agreguemos una columna nueva al data frame.
# Atención que el vector que le concatenamos es del tipo character y antes la estructura tenía datos numeric.

blood_pressure$patient_name = c("josé", "juan", "pedro", "pablo", "josé", "victoria", "pedro", "pablo", "josé", "juana", "pedro", "pablo", "josé", "juan", "pedro", "pablo", "maría")
blood_pressure

systolic,diastolic,patient_name
120,80,josé
121,83,juan
125,87,pedro
130,85,pablo
119,74,josé
88,99,victoria
135,78,pedro
85,83,pablo
118,90,josé
132,77,juana


In [68]:
# Podemos acceder al dataframe usando su índice, al igual que una matrix

blood_pressure[5,]

Unnamed: 0,systolic,diastolic,patient_name
5,119,74,josé


In [69]:
blood_pressure[5,2]

In [70]:
blood_pressure[,2]

# MIMIC - III e importación de un csv

MIMIC - III es una base de datos disponible abiertamente (al pasar una serie de evaluaciones bioéticas) de datos deidentificados de alrededor de 60.000 ingresos de pacientes a una Unidad de Paciente Crítico.

Una descripción completa de todas las tablas contenidas en la base de datos se encuentra en la documentación oficial de la misma en https://mimic.physionet.org/about/mimic/ .

Esta base de datos está disponible para descarga inmediata una muestra de la base de datos completa en formato `csv`, el cual es un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las que las columnas se separan por comas.

`R` tiene cuenta con la función `read.csv()` para importar estos datos y devolver un `data frame`.

Importaremos la tabla `D_ITEMS`, la cual contiene la definición de todos los ítems disponibles en la base de datos, la documentación completa de esta tabla está disponible en https://mimic.physionet.org/mimictables/d_items/ .

In [74]:
# Importamos el archivo D_ITEMS.csv desde la carpeta data
# Prueba importar otra tabla desde la base de datos y lee su documentación
d_items = read.csv("data/D_ITEMS.csv")
head(d_items) # En la siguiente clase conversaremos sobre la función head()

row_id,itemid,label,abbreviation,dbsource,linksto,category,unitname,param_type,conceptid
1,1435,Sustained Nystamus,,carevue,chartevents,,,,
2,1436,Tactile Disturbances,,carevue,chartevents,,,,
3,1437,Tremor,,carevue,chartevents,,,,
4,1438,Ulnar Pulse [Right],,carevue,chartevents,,,,
5,1439,Visual Disturbances,,carevue,chartevents,,,,
6,1447,Transpulmonary Pres,,carevue,chartevents,,,,


Según la documentación, la columna `itemid` contiene el identificador único del ítem y la columna `label` contiene describe el concepto.