<a name = "inicio"></a>

***

<div style="font-size: 30px;text-align: center;height:60px;padding:10px;margin:10px 0 0 0;">Notebook 1.2 Objetos y tipos de estructuras de datos en R </div>

<table>
  <tr>
    <td>
<div>
<img src="attachment:image-2.png" width="135"/>
<td>&nbsp;</td><td>&nbsp;</td>
</div>
    </td>
    <td>
<div>
<img src="attachment:image-3.png" width="350"/>
</div>       
</td>
  </tr>
<table>
    
<u>Índice de contenidos<u>:

1. [Vectores: objetos, estructuras y operaciones](#topic1)
2. [Matrices: objetos, estructuras y operaciones](#topic2)
3. [Dataframes: objetos, estructuras y operaciones](#topic3)
4. [Listas: objetos, estructuras y operaciones](#topic4) 
5. [Contenido adicional: la familia de funciones $\tt apply$](#topic5)

***

# 1. Vectores: objetos, estructuras y operaciones <a id="topic1"></a>&nbsp;&nbsp;<a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

## 1.1 Definir un vector

Un **vector** es un conjunto de valores básicos del mismo tipo. La forma más sencilla de crear vectores es a través de la función `c()` que se usa para combinar (concatenar) valores.

In [None]:
# Creamos un vector x numérico
x <- c(3, 5, 7)
x

In [None]:
# Creamos un vector y numérico
y <- c(8, 9)
y

In [None]:
# Creamos un vector a partir de dos vectores
c(x, y)

In [None]:
# Creamos un vector z categórico o tipo cadena
z <- c("Hola", "Adios")
z

## 1.2 Generación de secuencias numéricas

Existen varias funciones que pemiten obtener **secuencias de números**:

In [None]:
# Creamos un vector x numérico con el operador :
x <- 1:5
x

In [None]:
# Creamos un vector x numérico con la función seq
seq(1, 5, 0.5)

In [None]:
# Creamos un vector x numérico con la función seq (incluyendo los parámetros)
seq(from=1, to=5, length=9)

In [None]:
# Creamos un vector x numérico con la función rep
rep(1, 5)

## 1.3 Generación de secuencias numéricas aleatorias

A continuación se obtiene una **secuencia aleatoria de números** tras simular 10 lanzamientos de un dado

In [None]:
# Lanzamiento de un dado
sample(1:6, size=10, replace = T) 

Para simular el lanzamiento de una moneda con **etiquetas de valor** podemos escribir

In [None]:
# Se le han asignado nombres al objeto
resultado <- c(cara=1,cruz=0) 
# Visualizamos los resultados
print(resultado)

In [None]:
# Obtenemos la clase del objeto
class(resultado)

In [None]:
# Obtenemos los atributos del objeto
attributes(resultado)

In [None]:
# Obtenemos los nombres de los valores del objeto
names(resultado)

In [None]:
# Otro lanzamiento de un dado utilizando los valores definidos previamente
lanz <- sample(resultado, size=10, replace = T)
# Visualizamos los resultados
lanz

In [None]:
# Obtenemos la frecuancia de cada valor
table(lanz)

In [None]:
# Otros ejemplos. Recordar que si simulamos números aleatorios tenemos que fijar 
# la semilla para poder replicar los resultados.
set.seed(34)
rnorm(10)  # rnorm(10, mean = 0, sd = 1)

Podéis utilizar la función **help()** para obtener la ayuda de las funciones anteriores.

In [None]:
help(rnorm) # o de forma alternativa ?rnorm

## 1.4 Seleccionar los elementos de un vector

Para acceder a los elementos de un vector se **indica entre corchetes** el correspondiente vector de subíndices (enteros positivos).

In [None]:
# Creamos un vector numérico
x <- seq(-3, 3, 1)
x

In [None]:
x[1] # primer elemento

In [None]:
ii <- c(1, 5, 7)
x[ii] # posiciones 1, 5 y 7

In [None]:
ii <- x>0; ii

In [None]:
x[ii]  # valores positivos

In [None]:
ii <- 1:3
x[-ii]  # elementos de x salvo los 3 primeros

## 1.5 Operaciones fundamentales con vectores

In [None]:
# Creamos un vector numérico
x <- c(65, 18, 59, 18, 6, 94, 26)
x

In [None]:
# Ordenamos de menor a mayor
sort(x)

In [None]:
# Ordenamos de mayor a menor
sort(x, decreasing = T)

In [None]:
# Otra posibilidad es utilizar un índice de ordenación
ii <- order(x)
ii  # índice de ordenación

In [None]:
x[ii]  # valores ordenados

In [None]:
# La función rev() devuelve los valores del vector en orden inverso
rev(x)

In [None]:
# Determinar si el objeto o la variable 'x' es un vector
is.vector(x)

## 1.6 Valores perdidos

Los **valores perdidos** aparecen normalmente cuando algún dato NO ha sido registrado. Este tipo de valores se registran como `NA` (abreviatura de Not Available). 

Supongamos que **tenemos registrado las alturas de 5 personas pero desconocemos la altura de la cuarta persona**. El vector sería registrado de la siguiente forma:

In [None]:
# Creamos el vector numérico
altura <- c(165, 178, 184, NA, 175)
# Visualizamos
altura

**Es importante notar que cualquier operación aritmética sobre un vector que contiene algún `NA` dará como resultado otro `NA`**.

In [None]:
# Si quisiéramos calcular la altura media
mean(altura)

In [None]:
# Para forzar a R a que ignore los valores perdidos se utliza la opción na.rm = TRUE
mean(altura, na.rm = TRUE)

R permite gestionar otros tipos de valores especiales:

+ `NaN` (Not a Number): es resultado de una indeterminación.
+ `Inf`: R representa valores no finitos $±∞$ como Inf y -Inf.

In [None]:
5/0  # Infinito

In [None]:
log(0)  # -Infinito

In [None]:
0/0  # Not a Number

## 1.7 Vectores no numéricos

Los vectores pueden ser **no numéricos**, aunque **todas las componentes deben ser del mismo tipo**:

In [None]:
# Creamos un vector z categórico o tipo cadena
a <- c("A Coruña", "Lugo", "Ourense", "Pontevedra")
a

In [None]:
letters[1:10]  # primeras 10 letas del abecedario

In [None]:
LETTERS[1:10]  # lo mismo en mayúscula

In [None]:
month.name[1:6]  # primeros 6 meses del año en inglés

## 1.8 Factores

Los **factores** se utilizan para representar **datos categóricos**. Se puede pensar en ellos como **vectores de enteros en los que cada entero tiene asociada una etiqueta (label)**. Los factores son muy importantes en la modelización de datos ya que los trata de forma especial. Utilizar factores con etiquetas es preferible a utilizar enteros porque las etiquetas son auto-descriptivas.

**Ejemplo** Supongamos que el vector sexo indica el `género` de un persona codificado como 0 si es hombre y 1 si es mujer.

In [None]:
# Creamos el vector numérico
sexo <- c(0, 1, 1, 1, 0, 0, 1, 0, 1)
# Visualizamos
sexo

In [None]:
# Obtenemos la frecuancia de cada valor
table(sexo)

El problema de introducir así los datos es que **NO queda reflejado la etiqueta** y por ende, el significado de los mismos. Para ello guardaremos los datos en una estructura **tipo factor**:

In [None]:
# Transformamos la variable anterior a una variable tipo factor
sexo2 <- factor(sexo, labels = c("hombre", "mujer")); sexo2

In [None]:
levels(sexo2)  # devuelve los niveles de un factor

In [None]:
unclass(sexo2)  # representación subyacente del factor

In [None]:
# Obtenemos la frecuancia de cada valor
table(sexo2)

Veamos **otro ejemplo**, en el que inicialmente tenemos datos categóricos. Los niveles se toman automáticamente por orden alfabético.

In [None]:
# Definimos los valores de la variable
respuestas <- factor(c('si', 'si', 'no', 'si', 'si', 'no', 'no'), levels = c('si', 'no'))
# Visualizamos
table(respuestas)
respuestas

# 2. Matrices: objetos, estructuras y operaciones <a id="topic2"></a>&nbsp;&nbsp;<a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

## 2.1 Definir una matriz

Las **matrices** son la extensión natural de los vectores a **dos dimensiones**. Su **generalización a más dimensiones** se llama **array**. Las matrices se pueden crear concatenando vectores con las funciones `cbind` o `rbind`:

In [None]:
# Creamos un vector numérico x
x <- c(3, 7, 1, 8, 4)
x

In [None]:
# Creamos un vector numérico y
y <- c(7, 5, 2, 1, 0)
y

In [None]:
# Creamos una matriz concatenando los vectores por columnas
cbind(x, y)  

In [None]:
# Creamos una matriz concatenando los vectores por filas
rbind(x, y)

Una matriz se puede crear con la función `matrix` donde el parámetro `nrow` indica el número de filas y `ncol` el número de columnas. **Por defecto, los valores se colocan por columnas**.

In [None]:
# Creamos una matriz aplicando la función matrix
matrix(1:8, nrow = 2, ncol = 4)  # equivalente a matrix(1:8, nrow=2)

Los **nombres de los parámetros se pueden acortar** siempre y cuando no haya ambigüedad, por lo que es habitual escribir.

In [None]:
# Creamos una matriz aplicando la función matrix (nombres acortados)
matrix(1:8, nr = 2, nc = 4)

In [None]:
# Creamos una matriz aplicando la función matrix (Si queremos indicar que los valores se escriban por filas)
matrix(1:8, nr = 2, byrow = TRUE)

## 2.2 Nombrar las filas y columnas en las matrices

Se pueden dar nombres a las filas y columnas de una matriz del siguiente modo:

In [None]:
# Creamos una matriz aplicando la función matrix
x <- matrix(c(1, 2, 3, 11, 12, 13), nrow = 2, byrow = TRUE)
# Visualizamos
x

In [None]:
# Creamos nombres de las filas con la función rownames
rownames(x) <- c("fila 1", "fila 2")
# Visualizamos
x 

In [None]:
# Creamos nombres de las columnas con la función colnames
colnames(x) <- c("col 1", "col 2", "col 3")
# Visualizamos
x 

In [None]:
# Obtenemos el mismo resultado si escribimos
colnames(x) <- paste("col", 1:ncol(x), sep=" ")
# Visualizamos
x

In [None]:
# Internamente, las matrices son vectores con un atributo especial: la dimensión.
attributes(x)

## 2.3 Acceder a los elementos de una matriz

El **acceso a los elementos de una matriz** se realiza de forma análoga al acceso ya comentado para los vectores tal que,

In [None]:
# Creamos una matriz
x <- matrix(1:6, 2, 3); x

In [None]:
# Accedemos al valor de la 1º fila y columna
x[1, 1]

In [None]:
x[2, ]  # segunda fila

In [None]:
x[ ,2]  # segunda columna

In [None]:
x[1, 1:2]  # primera fila, columnas 1ª y 2ª

## 2.4 Ordenación por filas y columnas

En ocasiones, interesará **ordenar los elementos de una matriz** por los valores de una determinada columna o fila. Por ejemplo, supongamos la matriz:

In [None]:
# Creamos el vector numéricos de valores
x <- c(79, 100, 116, 121, 52, 134, 123, 109, 80, 107, 66, 118); x

In [None]:
# Transformamos el vector numérico en una matriz
x <- matrix(x, ncol=4, byrow=T); x

In [None]:
# La matriz ordenada por los valores de la primera columna viene dada por
ii <- order(x[ ,1])
ii

In [None]:
# Ordenación columna 1
x[ii, ]  

In [None]:
# De igual modo, si queremos ordenar por los valores de la cuarta columna:
ii <- order(x[ ,4]); x[ii, ]  # ordenación columna 4

## 2.5 Operaciones fundamentales con matrices 

A continuación se muestran algunas funciones que se pueden emplear con matrices para **realizar operaciones matriciales**:

![image.png](attachment:image.png)

## 2.6 Inversa de una matriz

Veamos un ejemplo de **cómo obtener la inversa de una matriz** utilizando algunas de las funciones antes mencionadas.

In [None]:
# Creamos una matriz A
A <- matrix(c(2, 4, 0, 2), nrow = 2); A

In [None]:
# Obtenemos el determinante de la matriz A
det(A)

In [None]:
# Obtenemos la traspuesta de la matriz A
t(A)

In [None]:
# Obtenemos la adjunta de la matriz A
adj <- matrix(c(2, -4, 0, 2), nrow = 2); adj

In [None]:
# Obtenemos la inversa de la matriz A
inv <- (1/det(A))*adj
inv

In [None]:
# Obtenemos la inversa de la matriz A DIRECTAMENTE
B <- solve(A)
B  

In [None]:
A %*% B  # comprobamos que está bien calculada 

# 3. Dataframes: objetos, estructuras y operaciones <a id="topic3"></a>&nbsp;&nbsp;<a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

## 3.1 Definir una dataframe

Los **data.fames (marcos de datos) son el objeto más habitual para el almacenamiento de datos**. En este tipo de objetos cada individuo de la muestra se corresponde con una fila y cada una de las variables con una columna. Para la creación de estas estructuras se utiliza la función `data.frame()`.

Este tipo de estructuras son en apariencia **muy similares a las matrices**, con la ventaja de que permiten que los valores de las distintas columnas sean de tipos diferentes. Por ejemplo, supongamos que tenemos registrados los siguientes valores.

In [16]:
# Creamos una serie de vectores numéricos y categóricos
Producto <- c("Zumo", "Queso", "Yogourt")
Seccion <- c("Bebidas", "Lácteos", "Lácteos")
Unidades <- c(2, 1, 10)

In [11]:
# Los valores anteriores se podrían guardar en una única matriz
x <- cbind(Producto, Seccion, Unidades)
class(x)

In [12]:
# Visualizamos los resultados
x

Producto,Seccion,Unidades
Zumo,Bebidas,2
Queso,Lácteos,1
Yogourt,Lácteos,10


Sin embargo, el resultado anterior **NO es satisfactorio** ya que todos los valores se han **transformado en caracteres**. Una solución mejor es utilizar un `data.frame`, con lo cual se **mantiene el tipo original de las variables**.

In [13]:
# Creamos el data frame
lista.compra <- data.frame(Producto, Seccion, Unidades)
# Vemos la clase
class(lista.compra)

In [14]:
# Visualizamos
lista.compra

Producto,Seccion,Unidades
Zumo,Bebidas,2
Queso,Lácteos,1
Yogourt,Lácteos,10


## 3.2 Acceder a los elementos de un dataframe

El **acceso a los elementos de un dataframe** se realiza de forma similar al acceso ya comentado para las matrices tal que,

In [None]:
# Accedemos a la 3º variable (utilizamos el signo $ nombre de la variable)
lista.compra$Unidades

In [None]:
lista.compra[ ,3]  # de manera equivalente

In [None]:
# Accedemos a la 2º variable
lista.compra$Seccion

In [None]:
lista.compra$Unidades[1:2]  # primeros dos valores de Unidades

In [None]:
names(lista.compra)

In [None]:
lista.compra[2,]  # segunda fila

## 3.3 Dataframes precargados en R

Varios conjuntos de datos tabulados o data sets se icluyen en la instalación de R (en la librería `datasets`) y por defecto se ecuentran cargados para su uso. La funcion **data()** lista todos los datasets de R.

In [None]:
# Vemos todos los dataset precargados en R en la librería datasets
data()

Con el comandando `data(package = .packages(all.available = TRUE))` podemos obtener un **listado de todas las bases de datos** disponibles en el repositorio [Comprehensive R Archive Network (CRAN)](https://cran.r-project.org/). 

In [None]:
data(package = .packages(all.available = TRUE))

Para cargar una base de datos concreta se utiliza el comando `data(nombre)` (aunque en algunos casos se cargan automáticamente al emplearlos).  Por ejemplo, `data(cars)` carga la base de datos llamada `cars` y `?cars` muestra la ayuda correspondiente con la descripición de la base de datos.

In [None]:
# Cargamos la base de datos cars
data(cars)
# Visualizamos su estructura
str(cars)

In [None]:
# Documentación de una base de datos
?cars

In [None]:
head(cars) # primeras observaciones
nrow(cars) # no. de filas que contiene el dataframe

Veamos un ejemplo con el **dataset iris** (Edgar Anderson’s Iris Data).

![image.png](attachment:image.png)

In [4]:
# Si quieremos cargar una base de datos en concreto
data(iris)
# Vemos las primeras observaciones
head(iris)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [None]:
# Vemos la estructura de los datos
str(iris)

In [None]:
iris[, "Species"] # obtenemos todas las observaciones de la columna 'Species'

In [None]:
# Se utiliza el caracter ‘$’ para acceder a los campos o columnas (forma alternativa)
iris$Species      

In [None]:
# Cuando queremos extraer datos del dataframe según una condición tendríamos que escribir
# iris[iris[,"Species"]=="setosa", ] otra alternativa
iris[iris$Species=="setosa", ]

In [None]:
# Si se desea obtener las observaciones donde el ancho del sépalo sea menor a 3 y la especie sea “setosa”
iris[iris[,"Sepal.Width"]<=3 & iris[,"Species"]=="setosa", ]

La función **subset()** nos facilita el recuperar datos cuando queremos que se cumplan ciertas condiciones.

In [None]:
subset(iris, Sepal.Width <= 3  & Species == "setosa")

## 3.4 Manipulación de dataframes

A menudo se dice que gran parte del análisis de datos se gasta en el **proceso de limpieza y preparación de los datos**. El artículo de Hadley Wickham sobre [Tidy Data](http://vita.had.co.nz/papers/tidy-data.html) proporciona una acertada explicación detrás del concepto de **datos ordenados** o **tidy data**. 

En este sentido, [tidyverse](https://www.tidyverse.org/) es una **colección de paquetes de R** diseñados para la **ciencia de datos**. Todos los paquetes comparten una filosofía de diseño, una gramática y unas estructuras de datos subyacentes. 

### 3.4.1 La librería dplyr

El paquete `dplyr` fue desarrollado por Hadley Wickham de RStudio y es un **versión optimizada de su paquete plyr**. La librería dplyr **NO proporciona ninguna nueva funcionalidad a R per se**, en el sentido que todo aquello que podemos hacer con dplyr lo podríamos hacer con la sintaxis básica de R. En particular, contiene un conjunto de herramientas (funciones) sumamente intuitivas y poderosas para una **rápida y fácil manipulación y procesamiento de los datos**. 

Una **importante contribución del paquete dplyr** es que **proporciona una "gramática"** (particularmente verbos) para la manipulación y operaciones con dataframes. Con esta gramática podemos comunicar mediante nuestro código que es lo que estamos haciendo en los dataframes a otras personas (asumiendo que conozcan la gramática). 

Además, cabe destacar que **las funciones del paquete dplyr son muy rápidas**, puesto que están implementadas con el lenguaje C++. Todas las funciones de dicha librería tienen en común una serie de argumentos. En particular,

+ El **primer argumento es el dataframe**.
+ Los **otros argumentos describen qué hacer con el dataframe** especificado en el primer argumento, podemos referirnos a las columnas en el data frame directamente sin utilizar el operador `$`, es decir sólo con el nombre de la columna/variable.
+ El **valor de retorno es un nuevo dataframe**.
+ Los data frames **deben estar bien organizados/estructurados**, es decir debe existir una observación por columna y, cada columna representar una variable, medida o característica de esa observación. 

Las posibilidades de dplyr son muy extensas, os recomiendo que miréis el capítulo 5 del libro [R for Data Science](https://r4ds.had.co.nz/transform.html). Veamos simplemente un pequeño ejemplo de su uso siguiendo el dataset anterior. Algunas de los **principales "verbos"** de la librería dplyr son:

In [1]:
# Instalamos la librería dplyr
install.packages("dplyr")

also installing the dependencies 'cli', 'lifecycle', 'pillar', 'rlang', 'tibble', 'tidyselect', 'vctrs'




  There are binary versions available but the source versions are later:
           binary source needs_compilation
cli         2.5.0  3.6.1              TRUE
lifecycle   1.0.0  1.0.3             FALSE
pillar      1.6.0  1.9.0             FALSE
rlang      0.4.11  1.1.1              TRUE
tibble      3.1.1  3.2.1              TRUE
tidyselect  1.1.1  1.2.0             FALSE
vctrs       0.3.8  0.6.3              TRUE
dplyr       1.0.6  1.1.3              TRUE

  Binaries will be installed
package 'cli' successfully unpacked and MD5 sums checked
package 'rlang' successfully unpacked and MD5 sums checked
package 'tibble' successfully unpacked and MD5 sums checked
package 'vctrs' successfully unpacked and MD5 sums checked
package 'dplyr' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\josua\AppData\Local\Temp\RtmpyAUjGT\downloaded_packages


installing the source packages 'lifecycle', 'pillar', 'tidyselect'

"installation of package 'tidyselect' had non-zero exit status"

In [None]:
# Esta función también sirve para cargar las librerías es equivalente a 'library'
require(dplyr)

+ `select`: selecciona el subconjunto del dataset que cumpla ciertas características.

In [None]:
# elige un subconjunto de las variables (columnas) 
select(iris, Sepal.Length, Sepal.Width)

+ `filter`: devuelve un conjunto de filas según una o varias condiciones lógicas.

In [None]:
# selecciona todos los lirios de la especie setosa
filter(iris, Species=='setosa')

+ `arrange`: reordena filas de un dataframe.

In [2]:
# ordena de acuerdo con la longitud del sépalo
arrange(iris, Sepal.Length)

ERROR: Error in arrange(iris, Sepal.Length): no se pudo encontrar la función "arrange"


+ `%>%` : el operador "pipe" es usado para conectar múltiples acciones en una única "pipeline" (tubería). Por ejemplo, si queremos seleccionar las variables que contienen las medidas del pétalo, seleccionar los lirios para los que la longitud del pétalo es mayor que 4 mm y ordenarlos de menor a mayor longitud del pétalo.

In [None]:
# Sintaxis en cadena
iris %>%
  select(contains('Petal'))  %>%
  filter(Petal.Length > 4)   %>%
  arrange(Petal.Length)

**Nota.** El término a la izquierda de cada operador %>% es el primer argumento del término de la derecha (y por lo tanto el primer argumento se puede omitir).

In [None]:
# Podemos comparar el código anterior con el código anidado habitual:
arrange(filter(select(iris, contains('Petal')), Petal.Length > 4), Petal.Length)

+ `mutate`: añade nuevas variables/columnas o transforma variables existentes. Por ejemplo, creamos una variable que corresponde al cociente entre la anchura y la longitud del pétalo (que podría corresponder a algún aspecto de la forma del pétalo).

In [3]:
iris %>%
  mutate(forma = Petal.Width/Petal.Length)

ERROR: Error in iris %>% mutate(forma = Petal.Width/Petal.Length): no se pudo encontrar la función "%>%"


+ `summarise`: para aplicar comandos a variables. Normalmente se usa en combinación con `group_by` de manera que se calculen estadísticos para subgrupos de observaciones. En el siguiente ejemplo se calcula la media de la longitud del pétalo para los lirios de cada una de las especies.

In [None]:
iris %>%
  group_by(Species) %>%
  summarise(mean(Petal.Length))

![image.png](attachment:image.png)

![image.png](attachment:image.png)

### 3.4.2 La librería data.table

Cuando tenemos **grandes bases de datos** la librería `data.table` es un paquete que **lleva la eficiencia al siguiente nivel**. La sintaxis es **algo menos intuitiva que el lenguaje tidyverse** pero todo sea por la eficiencia. No es objeto de estudio de esta materia pero por si a algun@ le resulta útil en sus quehaceres os dejo el siguiente resumen con los principales comandos y funciones.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 4. Listas: objetos, estructuras y operaciones <a id="topic4"></a>&nbsp;&nbsp;<a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

## 4.1 Definir una lista

Las **listas** son **colecciones ordenadas de cualquier tipo de objetos** (en R las listas son un tipo especial de vectores). Así, mientras que los **elementos de los vectores, matrices y arrays deben ser del mismo tipo**, en el caso de las **listas se pueden tener elementos de tipos distintos**. Luego, por esos motivos simplemente pondremos un pequeño ejemplo ya que la mayoría de cuestiones vistas en cada uno de los objetos anteriores las podemos aplicar en el caso de las listas.

In [5]:
# Creamos vectores numéricos, categóricos y una matriz
x <- c(1, 2, 3, 4); x
y <- c("Hombre", "Mujer"); y
z <- matrix(1:12, ncol = 4); z

0,1,2,3
1,4,7,10
2,5,8,11
3,6,9,12


In [6]:
# Creamos una lista a partir de los objetos previos
datos <- list(A=x, B=y, C=z)
datos

0,1,2,3
1,4,7,10
2,5,8,11
3,6,9,12


Supongamos que queremos **guardar en una lista un vector, su nombre, su media, y su vector de sumas acumuladas**. En este caso, tendríamos que hacerlo en forma de lista heterogénea usando la función `list`.

In [7]:
# Creamos un vector numérico
x=c(1,2,-3,-4,5,6)

In [8]:
# Creamos una lista a partir de valores del vector
listas=list(nombre="x", vector=x, media=mean(x), sumas=cumsum(x))
# Visualizamos
listas

Observar la **sintaxis de la función $\tt list$**: le hemos metido como argumento los diferentes objetos que van a formar la lista heterogénea, poniendo a cada uno un nombre adecuado. Este nombre es interno de la `lista`: por ejemplo, pese a que `listas` contiene un objeto llamado `sumas`, en el entorno de trabajo de R no tenemos definida ninguna variable con ese nombre (a no ser que la hayamos definido previamente durante la sesión).

In [None]:
# El objeto sumas NO existe
sumas

## 4.2 Acceder a los elementos de una lista

Para referirnos o usar una componente concreta de una `lista`, tenemos que añadir al nombre de la `lista` el sufijo formado por un signo `$` y el nombre de la componente.

In [None]:
# Accedemos a la 1º variable de la lista
listas$nombre

In [None]:
# Accedemos a la 2º variable de la lista
listas$vector

In [None]:
# Accedemos a la 3º variable de la lista
listas$media

También podemos **indicar el objeto** por su posición en la lista **usando dobles corchetes** `[[ ]]`. Si usamos sólo un par de corchetes, como en los vectores, lo que obtenemos es una lista formada por esa única componente, no el objeto que forma la componente.

In [None]:
# Accedemos a la 1º variable de la lista
listas[[1]]

In [None]:
# Accedemos a la 4º variable de la lista
listas[[4]]  # Esto es un vector

In [None]:
3*listas[[4]] # Y podemos operar con él

In [None]:
listas[4]   # Esto es una lista, no un vector

In [None]:
3*listas[4]   # NO podemos operar con él

## 4.3 Operaciones fundamentales con listas 

A continuación se muestran algunas funciones que se pueden emplear con listas para **realizar operaciones**:

Para conocer la **estructura interna de una `lista`**, es decir, los nombres de los objetos que la forman y su naturaleza, podemos usar la función `str`. Si sólo queremos saber sus nombres, podemos usar la función `names`.

In [None]:
# Vemos la estructura del objeto listas
str(listas)

In [None]:
# Vemos los nombres del objeto listas
names(listas)

Finalmente, comentar que la función `c` también se puede usar para **concatenar listas** o para **añadir miembros a una lista**:

In [None]:
# Incluimos una nueva variable en la lista
listas=c(listas, numero.pi=pi)
listas

# 5. Contenido adicional: la familia de funciones $\tt apply$ <a id="topic5"></a>&nbsp;&nbsp;<a href="#index"><i class="fa fa-list-alt" aria-hidden="true"></i></a>

La familia de **funciones de tipo $\tt apply$** es usada para *aplicar una función a cada elemento de una estructura de datos dada*. En particular, es usada para aplicar funciones sobre los objetos que acabamos de ver como son las matrices, los data frames, los arrays o las listas. Con esta familia de funciones podemos automatizar tareas complejas usando pocas líneas de código y es una de las características distintivas de R como lenguaje de programación.

**La familia de funciones apply NO sólo recibe datos como argumentos, también recibe funciones**. Para entender más fácilmente el uso de la familia apply, recordemos la vectorización de operaciones. Hay operaciones que, si las aplicamos a un vector, son aplicadas a todos sus elementos.

In [None]:
# Creamos un vector x con números del 1 al 10
x=1:10
x

In [None]:
# Esto sería un ejemplo de vectorización de operaciones. En este caso, de la operación potencia.
x^2

Lo anterior es, generalmente, preferible a escribir una operación para cada elemento. Luego, podemos decir que al **vectorizar** estamos aplicando una función a cada elemento de un vector. **La familia de funciones ${\tt apply}$ nos permite implementar esto en estructuras de datos distintas a los vectores**. 

<mark>**Todas las funciones de esta familia tienen una característica en común reciben como argumentos a un objeto y al menos una función**</mark>. 

Hasta ahora, todas las funciones que hemos usado han recibido como argumentos estructuras de datos, sean vectores, dataframes o matrices, por ejemplo. Las funciones de la familia ${\tt apply}$ tienen la particularidad que pueden recibir a otra función como un argumento.

La familia ${\tt apply}$ está formada por las siguientes 8 funciones (ordenadas alfabéticamente):

+ ${\tt apply()}$
+ ${\tt eapply()}$
+ ${\tt lapply()}$
+ ${\tt mapply()}$
+ ${\tt rapply()}$
+ ${\tt sapply()}$
+ ${\tt tapply()}$
+ ${\tt vapply()}$

Nosotros repasaremos la función más general y de uso común de esta familia: la función ${\tt apply()}$. Esta función nos permitirá solucionar casi todos los problemas que nos encontremos. Además, conociendo su uso, las demás funciones de la familia ${\tt apply}$ serán relativamente fáciles de entender. **La sintaxis de esta función es**:

In [None]:
# apply(X, MARGIN, FUN, ...)

+ `X`: una matriz o cualquier elemento que podamos convertir a una matriz, es decir, un dataframe o un vector normalmente.
+ `MARGIN`: la dimensión que agrupará los elementos de la matriz `X`, para aplicarles una función. Son identificadas con números, 1 son filas y 2 son colummnas.
+ `FUN`: la función que aplicaremos a la matriz `X` en su dimensión `MARGIN`.
+ `...`: argumentos opcionales que serán usados por `FUN`.

 Por ejemplo, podemos usar ${\tt apply()}$ para obtener la suma de los elementos de una matriz por filas.

In [None]:
# Creamos una matriz de cuatro filas tal que
matriz <- matrix(1:16, nrow = 4)
# Visualizamos la matriz creada 
print(matriz)

In [None]:
# Aplicamos la función apply para obtener la suma de los elementos de una matriz por filas
apply(X = matriz, MARGIN = 1, FUN = sum) # En el argumento FUN la función va sin paréntesis ()

In [None]:
# Probamos otra alternativa sin la función apply
c(sum(matriz[1, ]),sum(matriz[2, ]),sum(matriz[3, ]),sum(matriz[4, ])) # Equivalente

In [None]:
# Aplicamos la función apply para obtener la suma de los elementos de una matriz por columnas
apply(X = matriz, MARGIN = 2, FUN = sum)

Recordar que **podemos dar como argumento cualquier nombre de función, siempre y cuando ésta acepte vectores como argumentos** (los elementos de una matrix o dataframe son vectores). Probemos cambiando el argumento ${\tt FUN}$. 

In [None]:
# Aplicamos la función apply para obtener la media de cada fila
apply(matriz, 1, mean) 

In [None]:
# Aplicamos la función apply para obtener la media de cada columna
apply(matriz, 2, mean) 

In [None]:
# Aplicamos la función apply para obtener el máximo de cada fila
apply(matriz, 1, FUN = max) # Se ejecuta sin necesidad de especificar argumentos

<mark>**Por lo tanto, ${\tt apply}$ sólo puede ser usado con funciones que esperan vectores numéricos como argumentos.**</mark> Si proporcionamos un argumento inválido, la función NO se ejecutará y ${\tt apply}$ fallará.

<div style = "float:right"><a style="text-decoration:none" href = "#inicio">Inicio</a></div>