# Objetos en R
La información que manipulamos en R se estructura en forma de objetos. Para trabajar con R resulta importante conocer los principales tipos de objetos y sus propiedades básicas. En general, cada tipo de objeto viene definido por una serie de atributos. Las funciones genéricas (como por ejemplo `summary` o `plot`) reconocen estos atributos y llevan a cabo distintos tipos de acciones en función del tipo de objeto. Aquí nos vamos a centrar sólo en los objetos más utilizados: 
- vectores
- matrices
- listas
- data frames

Es importante saber con qué tipo de objeto estamos trabajando para realizar distintas acciones sobre ellos (obtener gráficos, medidas estadísticas, etc.).

## Vectores

Un vector es la estructura de datos más sencilla en R. Un vector es una colección de uno o más datos del mismo tipo. Si recuerda, en una práctica anterior definió un vector con el número de piezas dentales perdidas de 50 pacientes.

In [None]:
piezas_perdidas <- c(1, 3, 0, 3, 2, 0, 2, 0, 0, 2, 0, 1, 0, 0, 1, 
                     0, 1, 4, 0, 0, 1, 4, 0, 1, 0, 0, 1, 0, 0, 2, 
                     5, 4, 2, 1, 1, 0, 0, 0, 5, 1, 3, 0, 1, 0, 1, 
                     2, 0, 2, 1, 0)

Así, se utiliza el comando `c()` para concatenar sucesivamente elementos, 50 números en este caso. Así, `piezas_perdidas` es un vector de longitud 50 cuyos elementos son números.

De este modo, un número cualquiera (como el número 3) es, a todos los efectos, un vector de longitud 1.

In [None]:
# Veamos que el número 3 es un vector
3

In [None]:
# Preguntamos si 3 es un vector
is.vector(3)

Y nos dice que sí (`TRUE`), es decir, que el número 3 es un vector. 
### Creación de vectores

Como hemos comentado, creamos vectores usando el comando `c()` (combinar).

Usando ese comando, le damos como argumento los elementos que deseamos combinar en el vector, separados por comas.

In [None]:
# Vector numérico
c(1, 2, 3, 5, 8, 13)

También podemos crear vectores cuyos elementos sean texto.

In [None]:
# Vector de cadena de texto
c("alto", "medio", "bajo")

Podemos encadenar dos vectores también con el comando `c()`.

In [None]:
# Definimos los vectores x e y
x <- c(2, 4, 6)
y <- c(3, 7)
# Los encadenamos en uno solo (llamado z)
z <- c(x, y)
# Vemos el vector z
z

In [None]:
# Vemos la longitud del vector z
length(z)

#### Reciclaje

Es muy importante para operar con vectores tener en cuenta la **regla del reciclaje**: si usamos vectores que no alcanzan la dimensión adecuada para ciertas operaciones, R automáticamente recicla el vector (repite los valores) hasta llegar a la dimensión requerida.

In [None]:
# Sumamos 2 vectores de distinta longitud
c(1, 2) + c(7, 8, 9)

Evidentemente, hemos obtenido un aviso. Vemos que R ha sumado al número 9 (tercer valor del segundo vector) un 1 (primer valor del primer vector) ya que "se quedó sin números para sumar" y volvió al principio del primer vector.

Como decíamos anteriormente, R lleva a cabo distintos tipos de acciones en función del tipo de objeto que emplea. El reciclaje será deseable en la medida en que nuestros datos permitan este ajuste pero podría ser peligroso y conducir a error en otros muchos casos. De ahí la importancia de conocer los atributos de los objetos que empleamos. Como podemos observar, el sistema nos advierte que las dimensiones de los vectores no son las adecuadas mediante un `Warning message`
aunque aplicará el reciclaje y llevará a cabo la operación.

#### Valores especiales

Existen una serie de expresiones que  están reservadas para valores especiales:
- `NA`: Not Available
- `NaN`: Not a Number
- `Inf`: Infinity
- `NULL`: Null

En próximas prácticas veremos cómo trabajar con valores de este tipo.

## Matrices

Las matrices son también vectores pero con dos atributos adicionales: número de filas y número de columnas. Sin embargo, los vectores no son matrices con una fila o con una columna. 

Hay que tener en cuenta que **una matriz únicamente puede contener datos de un sólo tipo**.

Podemos crear matrices en R con la función `matrix()` que acepta dos argumentos
- `nrow`: número de filas
- `ncol`: número de columnas

In [None]:
# Creamos una secuencia de números del uno al doce
1:12

In [None]:
# Con esos 12 valores, vamos a crear una matriz con 3 filas y 4 columnas
matrix(1:12, nrow = 3, ncol = 4)

Observe que R va colocando los valores por columnas.

In [None]:
# Ahora, con esos 12 valores, creamos una matriz con 2 filas y 6 columnas
matrix(1:12, nrow = 2, ncol = 6)

### Funciones `rbind` y `cbind`

Otro procedimiento para crear matrices es mediante la unión vectores con las siguientes funciones:

- `cbind()`: para unir vectores, usando cada uno como una columna.
- `rbind()`: para unir vectores, usando cada uno como una fila.

Como ejemplo, vamos a crear cuatro vectores y unirlos para formar una matriz. Cada vector será una fila en esta matriz.

In [None]:
# Creamos 4 vectores de longitud 4 (1:4 indica números del 1 al 4)
vector_1 <- 1:4
vector_2 <- 5:8
vector_3 <- 9:12
vector_4 <- 13:16

# Usamos rbind() para crear un matriz, en la que cada vector será una fila
matriz <- rbind(vector_1, vector_2, vector_3, vector_4)

# Resultado
matriz

Estas funciones se pueden utilizar para añadir filas o columnas a una matriz. Imaginemos que tenemos 3 pacientes mayores de 50 años (p1, p2 y p3) a los que les hemos medido la tensión arterial en 5 visitas sucesivas.

In [None]:
# Datos de la presión arterial de 3 pacientes en 5 visitas
p1 <- c(115, 100, 107, 109, 112)
p2 <- c(125, 122, 118, 113, 117)
p3 <- c(82, 89, 94, 97, 103)

Ahora, queremos disponer esos datos en forma de matriz y añadir una columna con el valor medio de los 5 valores de cada paciente.

In [None]:
# Creamos la matriz con rbind (cada vector será una fila)
matriz <- rbind(p1, p2, p3)

# Creamos un vector con los valores medios (mean) de cada paciente
medias <- c(mean(p1), mean(p2), mean(p3))
# Añadimos una columna con los valores medios
matriz2 <- cbind(matriz, medias)

# Vemos el resultado
matriz2

Cuando trabajemos con miles de datos, estas funciones implementadas con una sencilla línea de código en R serán de especial utilidad para sistematizar operaciones que, de otro modo y con otras herramientas (hojas de cálculo como Excel®) resultan bastante tediosas.

#### Selección de entradas de una matriz

Usando **corchetes** es posible extraer submatrices (subconjuntos de una matriz). Dentro del corchete, separadas por una coma, se indican las filas y columnas que queremos extraer (o eliminar si usamos números negativos). Si no se pone nada antes o después de la coma se extraen todas las filas o columnas, respectivamente.

Volvamos al ejemplo anterior con nuestros 3 pacientes. Vamos a seleccionar los datos de la segunda visita (columna 2) y, posteriormente, calcular la media de las tensiones arteriales de los 3 pacientes en esa segunda visita.

In [None]:
# Seleccionamos la segunda columna (la llamamos v2: visita 2)
v2 <- matriz[, 2]
v2
# Calculamos la media de los valores de v2
mean(v2)

En el código, dentro del corchete, vemos una coma y un 2: la coma indica la separación fila/columna. Al no haber nada delante de la coma y un 2 después de la coma. le estamos diciendo a R que queremos la segunda columna. Por ejemplo, si queremos seleccionar la tensión del paciente 3 en la visita 4 (la llamamos p3.v4):

In [None]:
p3.v4 <- matriz[3,4]
p3.v4

## Listas

Una lista es un **vector de objetos de tipos distintos** que, por la razón que sea, conviene agrupar en la misma estructura.

Es importante comprender sus propiedades porque muchas funciones de R devuelven los resultados en forma de lista. Para crearlas se usa el comando `list`. En el siguiente ejemplo creamos una lista para el paciente_1 del ejemplo anterior (llamada lista_1) con tres elementos:
- `nombre`: nombre del paciente. Al ser caracteres, se escriben entre comillas
- `edad`: edad del paciente (en años)
- `tension`: tensiones arteriales en cada visita (vector de longitud 5):

In [None]:
# Lista con datos del paciente 1
lista_1 <- list(nombre = "paciente_1", 
                edad = 63, 
                tension = c(115, 100, 107, 109, 112))

La estructura de una lista (los objetos que contiene la caja y de qué tipo son) se puede conocer con el comando `str()`.

In [None]:
str(lista_1)

Vemos que el elemento nombre es del tipo `chr`(character) mientras que los elementos edad y tensión son `num` (number).

#### Extraer elementos de una lista

Para extrer un elemento de una lista se usa el símbolo de dólar (**$**) con esta sintaxis: `nombre_lista$nombre_objeto` si los elementos de la lista tienen un nombre asignado.

In [None]:
# Obtenemos el nombre
lista_1$nombre
# Obtenemos la edad
lista_1$edad

También se puede usar un doble corchete y el número de orden del objeto dentro de la lista.

In [None]:
# Obtenemos el nombre (valor 1)
lista_1[1]
# Obtenemos la edad (valor 2)
lista_1[2]

Por tanto, siguiendo nuestro ejemplo, podremos extraer los valores de la tensión arterial de dos maneras:

In [None]:
# Obtenemos los valores del objeto tension de 2 formas
lista_1$tension
lista_1[3]

## Data frames

Los data frames son estructuras de datos de dos dimensiones (rectangulares) **que pueden contener datos de diferentes tipos**. Podemos entender a los data frames como una versión más flexible de una matriz. Mientras que en una matriz todas las celdas deben contener datos del mismo tipo, las filas de un data frame admiten datos de distintos tipos aunque sus columnas conservan la restricción de contener datos de un sólo tipo.

Esta estructura de datos es la más usada para realizar análisis de datos. En las prácticas sucesivas, se les facilitarán los dataframes para trabajar.

Vamos a crear un dataframe llamado `df` con los datos de tensión de nuestros 3 pacientes en sus 5 visitas. Para ello, usamos la función `data.frame`. Esta función nos pedirá un número de vectores igual al número de columnas que deseemos. Todos los vectores que proporcionemos deben tener el mismo largo.

Esto es muy importante: **un data frame está compuesto por vectores**.

In [None]:
# Datos
nombre <- c("paciente_1", "paciente_2", "paciente_3")
edad <- c(63, 71, 58)
sexo <- c(1, 0, 0) # 1: hombre, 0: mujer
v1 <- c(115, 125, 82)
v2 <- c(100, 122, 89)
v3 <- c(107, 118, 94)
v4 <- c(109, 113, 97)
v5 <- c(112, 117, 103)

# Creamos el dataframe
df <- data.frame(nombre, edad, sexo, v1, v2, v3, v4, v5)

# Vemos el resultado
df

De este modo, tenemos los datos estructurados de forma que es muy sencillo trabajar con ellos.

In [None]:
# Dimensión del dataframe (filas y columnas)
dim(df)

Para obtener un resumen de la estructura del dataframe que hemos creado (`df`) ejecutamos la siguiente instrucción:

In [None]:
# Estructura de los datos
str(df)

Vemos que en el dataframe, la variable nombre aparece como factor en vez de como caracter. Podemos cambiarlo con la función `as.character`.

In [None]:
# Cambiamos el tipo de variable
df$nombre <- as.character(df$nombre)
# Vemos el resultado
str(df)

Finalmente, vemos que la variable sexo es numérica. Generalmente, nos va a interesar considerar una variable cualitativa (como el sexo) como factor, es decir, como una etiqueta o nivel y, por ejmplo, obtener datos estadísticos o gráficas distintas en base a dicho factor. En nuestro ejemplo con `femenino` y `masculino` tendríamos dos niveles.

In [None]:
# Convertimos la variable sexo en un factor, 
df$sexo <- as.factor(df$sexo)
# Vemos el resultado
str(df)

## Arrays

Finalmente y a título informativo, comentamos que existe otro tipo de objeto en R , los arrays que son matrices que pueden tener un número arbitrario de dimensiones. Pueden ser cubos (3 dimensiones), hipercubos (4 o más dimensiones) y otras formas. Su uso no es muy común en R, aunque a veces es deseable contar con objetos n-dimensionales para manipular datos. Como los arrays tienen la restricción de que todos sus datos deben ser del mismo tipo, no importando en cuántas dimensiones se encuentren, esto limita sus usos prácticos.

En general, es preferible usar listas en lugar de arrays,