<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#Introducción" data-toc-modified-id="Introducción-0.1"><span class="toc-item-num">0.1&nbsp;&nbsp;</span>Introducción</a></span></li></ul></li><li><span><a href="#Apply()" data-toc-modified-id="Apply()-1"><span class="toc-item-num">1&nbsp;&nbsp;</span><code>Apply()</code></a></span></li><li><span><a href="#lapply()-y-sapply()" data-toc-modified-id="lapply()-y-sapply()-2"><span class="toc-item-num">2&nbsp;&nbsp;</span><code>lapply()</code> y <code>sapply()</code></a></span><ul class="toc-item"><li><ul class="toc-item"><li><span><a href="#sapply()" data-toc-modified-id="sapply()-2.0.1"><span class="toc-item-num">2.0.1&nbsp;&nbsp;</span><code>sapply()</code></a></span></li></ul></li></ul></li><li><span><a href="#mapply()" data-toc-modified-id="mapply()-3"><span class="toc-item-num">3&nbsp;&nbsp;</span><code>mapply()</code></a></span></li><li><span><a href="#Otras-funciones:-rapply(),-tapply()-y-vapply()" data-toc-modified-id="Otras-funciones:-rapply(),-tapply()-y-vapply()-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Otras funciones: <code>rapply()</code>, <code>tapply()</code> y <code>vapply()</code></a></span><ul class="toc-item"><li><span><a href="#Nota-Final" data-toc-modified-id="Nota-Final-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Nota Final</a></span></li><li><span><a href="#¿Cuándo-paralelizar?" data-toc-modified-id="¿Cuándo-paralelizar?-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>¿Cuándo paralelizar?</a></span></li></ul></li></ul></div>

# La Familia Apply



Profesor: Mikel N. Legasa (legasam@unican.es)

### Introducción

`apply()` y sus variantes (`lapply()`, `sapply()`, `mapply()`...) son funciones para manipular matrices, arrays, listas y dataframes de manera repetitiva de distintas maneras, y permiten evitar el uso de ciclos `for` y `while`. Es decir, cuando se trata de aplicar de manera iterativa una función a una estructura de datos, en `R` esta serie de funciones permite hacerlo de manera concisa y rápida.

Comenzamos con un ejemplo sencillo, supongamos que queremos poner en minúsculas las letras de todos los nombres de un vector. La función de `R` que lo hace es `tolower()`. La forma habitual y primera aproximación para hacerlo es utilizar un ciclo for, como sigue:

In [29]:
nombres <- c("Paco","Álvaro","María", "Alex")
for (i in 1:length(nombres)){
    nombres[i] <- tolower(nombres[i])
}
nombres

Pero podemos escribirlo de manera más concisa usando la función `lapply()`:

In [30]:
nombres <- c("Paco","Álvaro", "María", "Alex")
nombres <- lapply(nombres, tolower)
nombres

Nota: Hay que tener en cuenta que muchas funciones de `R` están *vectorizadas*, lo que significa que pueden aplicarse directamente sobre vectores:

In [31]:
tolower(nombres)

Por supuesto, para cualquier función no vectorizada, o para navegar sobre tipos de datos más complejos, la familia Apply será muy útil.

En la siguiente sección veremos en detalle las diferencias entre las diferentes funciones de la familia, esencialmente cada una de ellas está indicada para operar sobre un tipo de estructura distinta. Nos centraremos en `apply()`, pensada para recorrer matrices sobre sus dimensiones; `lapply()`, pensada para recorrer listas y vectores; `sapply()`, que equivale a `lapply()` pero trata de simplificar en un array el resultado, y `mapply()` permite iterar sobre varias listas o vectores a la vez.

## `Apply()`

Esta primera función opera sobre arrays multidimensionales, en particular matrices. Sus tres principales argumentos son 

- `X`: Array sobre el que se desea operar.
- `MARGIN`: Dimensión sobre la que se desea aplicar la función indicada en `FUN`. Escribiendo `MARGIN = 1` aplicaremos la función a las filas de la matriz y escribiendo `MARGIN = 2` sobre las columnas. Notar que si `X` tiene más de dos dimensiones `MARGIN = 3` opera sobre la tercera dimensión, etc...
- `FUN`: Función a aplicar.


Vamos a trabajar con la matriz `A`:

In [32]:
set.seed(1) # resultados reproducibles
A <- replicate(expr = sample(1:15, size = 6),n = 6) # replicate() evalua la expresión expr n veces
A

0,1,2,3,4,5
9,11,5,9,5,3
4,14,15,5,2,6
7,2,10,14,10,10
1,15,6,15,9,13
2,3,13,12,1,14
13,1,7,13,4,4


**Ejemplo:** calcular el máximo de cada fila de la matriz:

In [33]:
apply(X = A, MARGIN = 1, FUN = max)

**Ejemplo:** calcular el mínimo de cada columna de la matriz:

In [34]:
apply(X = A, MARGIN = 2, FUN = min)

`apply()` también permite pasar argumentos adicionales a la función especificada en `FUN`. Es decir, en nuestro último ejemplo `apply()` aplica a las columnas de la matriz `A` la función `min()`, para la cual podemos querer especificar algún argumento adicional (las columnas de `A` entran como primer argumento). En efecto, `min()` tiene el argumento `na.rm`, que permite ignorar los `NA` en el cálculo del mínimo, si los hubiera. Veamos un ejemplo:

**Ejemplo:** Calcular el mímimo de cada columna de la matriz `A`, a la que hemos introducido dos `NA`:

In [35]:
# Introducimos unos NA
A[1,2] <- NA
A[3,2] <- NA
A[4,6] <- NA

apply(X = A, MARGIN = 2, FUN = min)

Como vemos, al haber `NA`s en la matriz, el mínimo de alguna columna es `NA` también. Si queremos evitarlo, debemos pasarle el argumento `na.rm = TRUE` a la función `min()`. Esto se hace pasándoselo directamente a `apply()` (Si consultas la ayuda (`?apply`), puedes ver el argumento `...`, argumentos opcionales para `FUN`):

In [36]:
apply(X = A, MARGIN = 2, FUN = min, na.rm = TRUE)

También podemos usar `apply()` sobre matrices de más dimensiones, por ejemplo:

**Ejemplo:** Calcular la media para de las submatrices sobre la dimensión $3$:

In [37]:
A3 <- replicate(replicate(expr = sample(1:15, size = 5),n = 5), n= 10) # A3 es de dimensiones 5x5x10
print(A3[,,10]) # ejemplo
apply(A3, MARGIN = 3, FUN = mean)

     [,1] [,2] [,3] [,4] [,5]
[1,]    7   12    1    2    5
[2,]    9    4   12   10   15
[3,]    5   14   14    1    6
[4,]   12   10   13   13    9
[5,]   15    8   10    4    8


Hay que tener en cuenta que podemos escribir nuestra propia función dentro de la función `apply()` (y su familia), lo que será muy útil para funciones que requieran algo más de complejidad. Es decir, el ejemplo anterior equivale a 

In [38]:
apply(A3, MARGIN = 3, FUN = function(x) {return(mean(x))})

**Ejercicio:** Obtén la media por filas de la matriz `A`:

**Ejercicio:** En la matriz `A`, queremos saber cuantos `NA` hay en cada columna (recordar funciones `sum()` e `is.na()`):

**Ejercicio:** Obtén la matriz resultado de sumar a cada columna de la matriz `A` el vector `y`:

`apply()` puede utilizarse también sobre `data.frame`s, tratándolos como si fuera una matriz.

Por último, nótese que `apply()` puede producir resultados inesperados. La ayuda de `apply()` especifica "Si la llamada a la función devuelve un vector de longitud $n$, entonces `apply()` devuelve un array de dimensión `c(n, dim(X)[MARGIN])`. Compruébalo:

**Ejercicio:** Obtén la **matriz resultado** de sumar a cada **fila** de la matriz `A` el vector `y`:

En `R` ya existen las funciones `rowMeans()`, `rowSums()`, `colMeans()`, `colSums()`. Éstas están ya precompiladas en `C` y son mucho más rápidas que sus equivalentes utilizando bien `apply()` o ciclos for. Comprueba como cambian los tiempos de cómputo según usemos un bucle, una función `apply` o la implementación de `R`. Puedes usar la evaluación con la función `system.time()` o las heredadas de Matlab `tic-toc` (https://www.rdocumentation.org/packages/pracma/versions/1.9.9/topics/tic%2Ctoc).

## `lapply()` y `sapply()`

`lapply()` es la función indicada para trabajar con listas. También permite iterar sobre vectores, como vimos en la introducción, y sobre `data.frame`s. Sus dos argumentos principales son, análogamente a `apply()`,

- `X`: Lista sobre la que se desea iterar.
- `FUN`: Función a aplicar.

E idénticamente a ésta, también permite especificar argumentos adicionales (`...`).

**Ejercicio:** De la lista siguiente obtén la media de cada vector

In [39]:
lista.vec <- list(c(9,10,5,6), 
                    c(9,9,8,4),
                    c(4,3,6,6))

**Ejercicio:** De la lista de matrices siguientes, obtén las medias por columnas de cada matriz.

In [40]:
lista.mat <- replicate(replicate(expr = sample(1:15, size = 6),n = 6,), n = 4 , simplify = F) # simplify = FALSE no simplifica en un array


Debe tenerse en cuenta que: 

1. El objeto devuelto siempre es una lista, incluso aunque el objeto sobre el que iteramos no lo sea. Lo podemos ver con nuestro ejemplo inicial:

In [41]:
is.list(lapply(nombres, tolower))

2. Si se aplica `lapply()` a una matriz esta tratará como un vector, i.e. elemento a elemento.

**Ejemplo:**

In [42]:
lapply(A, mean)

3. Si se aplica sobre un `data.frame` éste se iterará por columnas.

**Ejercicio:** Del `data.frame` `alumnos`, verifica si hay alguien que se llame "jose" e identifica la clase en la que se encuentra, esta vez utilizando `lapply()`:

In [43]:
alumnos <-
data.frame(fisica = c("juan", "rodrigo", "maria", "jose"),
           matematicas = c("joaquin", "maialen", "jose", NA),
           biologia = c("ana", "daniel", "markel", "adriana"))


**Ejercicio:** La lista siguiente no es homogénea. Verifica elemento a elemento si el segundo elemento de la sublista es un `data.frame`. Si no lo es, conviértelo en uno y marca la primera variable de cada lista como `"ndf"`. Si lo es, márcala como `"df"`.

In [44]:
lista.vars <-list(
             list("df", as.data.frame(replicate(sample(1:15, 6),n = 6))),
             list("var3", replicate(sample(1:15, 6),n = 6)),
             list("t", as.data.frame(replicate(sample(1:15, 6),n = 6))),
             list("loc", replicate(sample(1:15, 6),n = 6))
             )



---
#### `sapply()` 

La función `sapply()` es idéntica a `lapply()`, pero trata de simplificar el resultado a un vector, matriz o array. Si la salida es de una dimensión, lo convertirá a un vector, si es una matriz a una matriz (utiliza internamente la función `simplify2array()`). Como **ejemplo:**

In [45]:
sapply(nombres, tolower)

`sapply()` tiene dos argumentos adicionales respecto a `lapply()`:
- `simplify` Si se especifica `simplify = FALSE`, entonces es idéntico a `lapply()`.
- `USE.NAMES` Si se especifica `USE.NAMES = TRUE` (por defecto), y `X` es de tipo `character`, se usan estos como nombres para el output.

**Ejercicio:** Verifica el output de los dos ejercicios anteriores cuando en vez de `lapply()` se utiliza `sapply()`

## `mapply()`

Hasta ahora hemos visto cómo vectorizar sobre una lista, matriz, vector. `mapply()`  (*multivariate apply*) permite vectorizar más de un argumento, es decir, aplicar una función sobre múltiples argumentos de manera vectorizada. 

Sus argumentos son:
- `FUN`,	Función a aplicar
- `...` , Argumentos sobre los que vectorizar.
- `MoreArgs`, Lista de argumentos adicionales (no vectorizados).
- `SIMPLIFY`, Si se marca como `TRUE`, se intentará *simplificar* el resultado a un vector, matriz o array multidimensional. Funciona análogamente al simplificado de `sapply()`

Veamos como funciona con un **ejemplo**:

En este caso tenemos dos listas de vectores, y queremos sumar vector a vector. Podemos hacerlo con `mapply()`:

In [46]:
lista.vec1 <- list(c(1,1,10,20), c(-1,12,122,44), c(34,12,65,23), c(1,1,2,4))
lista.vec2 <- list(c(100,200,100,210), c(400,120,1220,104), c(-530,-320,630,-650), c(-1,-1,2,-4))
mapply(FUN = function(x,y) x+y, lista.vec1, lista.vec2)

0,1,2,3
101,399,-496,0
201,132,-308,0
110,1342,695,4
230,148,-627,0


Por defecto `mapply()` simplifica el resultado en una matriz. Podemos evitarlo si especificamos `SIMPLIFY = FALSE`:

In [47]:
mapply(FUN = function(x,y) x+y, lista.vec1, lista.vec2, SIMPLIFY = FALSE)

La manera de asignar argumentos adicionales es mediante el argumento `MoreArgs` (Cuidado, debe ser una lista). 

**Ejemplo:** Supongamos que tenemos una función que suma y admite un tercer argumento `absoluto`, que hace que sume y tome el valor absoluto si éste es igual a `TRUE`. Queremos especificarlo como `TRUE`, para todas las sumas que haga la función:

In [48]:
mapply(FUN = function(x,y, absoluto = FALSE) {
                if (absoluto) return(abs(x+y))
                else return(x+y)
             },
       lista.vec1, lista.vec2, SIMPLIFY = FALSE, MoreArgs = list(absoluto = TRUE)
      )

**Ejercicio:** De la lista `mi.lista.1`, obtén del vector $1$ el elemento $5$, del $2$ el elemento $4$, del $3$ el elemento $3$, del $4$ el $2$ y del $5$ el $1$:

In [49]:
mi.lista.1 <- replicate(sample(1:10, size = 5, replace = T),n = 5, simplify = F)



**Ejercicio:** Las listas `mi.lista.1` y `mi.lista.2` contienen el mismo número de vectores. Obtén el máximo elemento de la combinación de los pares de vectores, i.e. si `mi.lista.1 = {v11, v12, ...}`, `mi.lista.2 = {v21, v22, ...}`, obtén `{max(max(v11,v21)), max(max(v12,v22)), ...}`

In [50]:
mi.lista.2 <- replicate(sample(1:100, size = 4, replace = T),n = 5, simplify = F)


**Ejercicio:** Repite el ejercio anterior. Esta vez los vectores pueden tener `NA`s y queremos ignorarlos:

In [51]:
mi.lista.1[[1]][3] <- NA
mi.lista.2[[5]][4] <- NA



**Ejercicio:** Repite el ejercicio anterior sin utilizar ciclos ni `mapply()` (Pista: por ejemplo con dos `sapply()` un `cbind()` y un `apply()`

**Ejercicio:** Verifica usando `mapply()`, del data.frame alumnos de más atrás, si en la primera clase hay alguien que se llame "rodrigo", en la segunda alguien que se llame "maialen" y en la tercera alguien que se llame "mikel":

**Ejercicio:** Se ha intentado aplicar la función `mi.suma` a las dos listas para sumar en valor absoluto los vectores. ¿Por qué falla la siguiente instrucción? Arregla la instrucción `mapply()` (sin tocar `mi.suma()`):

In [52]:
mi.suma <- 
    function(  z = "Sumando...", x , y = NULL) {
               print(z)
               return(abs(x+y))
             }

mapply(mi.suma,
       lista.vec1, lista.vec2, SIMPLIFY = FALSE
      )



[1]  1  1 10 20
[1]  -1  12 122  44
[1] 34 12 65 23
[1] 1 1 2 4


## Otras funciones: `rapply()`, `tapply()` y `vapply()`

Existen más funciones en la familia Apply diseñadas para tareas más específicas. En esta sección cubriremos algunas de ellas someramente con un par de ejemplos. La primera, `rapply()`, está pensada para operar **recursivamente** sobre listas. Es especialmente útil cuando nos encontramos con listas mal formateadas que contienen sublistas mezcladas con, por ejemplo, números:

**Ejemplo:** La siguiente lista contiene números y listas de números, en lugar de ser una lista de números. Supongamos que queremos asignar un `NA` a todos los elementos de la lista que sean negativos, observa lo que ocurre si se utiliza `lapply()`:

In [53]:
lista.e <- list(1,2,-1, list(10,12,-1), 4,-4, list(1,1), list(-1,-1,-2,5),3,6,1 ,-1)
lapply(lista.e, function(x){
                    if(x<0) return(NA)
                    else return(x)
    } )

“la condición tiene longitud > 1 y sólo el primer elemento será usado”
“la condición tiene longitud > 1 y sólo el primer elemento será usado”
“la condición tiene longitud > 1 y sólo el primer elemento será usado”


`rapply()` permite precisamente operar de manera recursiva sobre la lista sin preocuparnos del mal formato:

In [54]:
rapply(lista.e, function(x){
                    if(x<0) return(NA)
                    else return(x)
                })

No sólo eso, también permite especificar el tipo de argumento sobre el que se quiere operar utilizando el comando `clases`. Por ejemplo, podemos encontrarnos con un vector que contenga números con algún caracter, etc... Y querer solamente aplicar una función a los números:

In [55]:
lista.e2 <- list(2, 1, 2, NA, 12, "err", list("err", 1, 3), 5, NA, list(), NULL, 2)

rapply(lista.e2, f = function(x) x^2, classes = "numeric")

**Ejercicio:** Eleva al cuadrado los números de la lista `lista.e2` y devuelve la misma estructura que arriba, sin usar `rapply()`. Usa `lapply()` o `sapply()`:

**Ejercicio:** Vuelve a hacerlo, esta vez sin usar `rapply()`, `lapply()` ni `sapply()`, i.e. usa un ciclo:

---

Otra función útil es `tapply()`, indicada cuando hay que aplicar una función a una variable, dividiendo ésta en grupos según dicta otra variable. La variable sobre la que iterar es, como viene siendo habitual, `X`, y el argumento por el que queremos agrupar es `INDEX`.

Veámoslo con un **ejemplo** del dataset `iris`. El objetivo es obtener la media de la variable `iris$Sepal.Length` pero agrupando por las diferentes especies (`iris$Species`), i.e. obtener la media de la variable $Sepal.Length$ para cada especie:

In [56]:
media.Sepal.Length.por.Species <-
    tapply(X = iris$Sepal.Length, INDEX = iris$Species, FUN = mean) # ignora el error, es un error de jupyter, no de R. El resultado es correcto
t(media.Sepal.Length.por.Species)

setosa,versicolor,virginica
5.006,5.936,6.588


---

La última función que veremos es `vapply()`. Esta función es similar a `sapply()`, con la diferencia de que es posible controlar la clase del output, razón por la cual esta función es considerada más robusta que `sapply()`, ya que evita resultados inesperados a la hora de trabajar con estructuras complejas. No sólo eso, también puede ser ligeramente más eficiente, puesto que no tiene que decidir la estructura de salida sinó que viene dada. Veámoslo con un par de **ejemplos:**

Queremos, de `lista1`, devolver `TRUE` si la sublista contiene alguna `FALSE` si no. Programamos nuestra función `busca.e`:

In [57]:
lista1 <- list( c("a","e","i","o","u"), c("m","n","l","r"), c("f","e","r","m","e"))
busca.e <- function(x) x=="e"

Buscamos un vector de tres elementos que contenga `TRUE` si la lista contenía alguna `"e"` y `FALSE` si no.

In [58]:
sapply(lista1, busca.e )

Sin embargo, como `busca.e` no la hemos hecho del todo bien, obtenemos una lista que no es lo que esperamos. Es más robusto controlar la estructura especificándole que nos devuelva específicamente un objeto de tipo `logical` de longitud 1, lo que puede hacerse con `vapply()`:

In [59]:
vapply(lista1, busca.e, logical(1))

ERROR: Error in vapply(lista1, busca.e, logical(1)): Los valores deben ser de longitud 1, 
pero el resultado FUN(X [[1]]) es la longitud 5 


`vapply()` comprueba el output y nos avisa de que estamos intentando devolver resultados de longitud $5$ en lugar de resultados de longitud $1$ (*`values must be length 1`*). Podemos verlo con otro ejemplo. Queremos multiplicar a los elementos de `mi.lista3` por $100$. 

Esperamos que la entrada sea una lista de números, pero alguien ha programado mal la función de la que vienen los datos y no lo es, ya que contiene también vectores:

In [None]:
mi.lista3 <- list(1,3.14,1.51,2.111,c(-1,-404,-1),14)
vapply(mi.lista3, FUN = function(x) x*100, FUN.VALUE = 1)

`vapply()` nos avisa de nuevo de que hay un error en los datos. Obsérvese como si lo aplicamos a la siguiente lista, que si tiene el formato esperado, el resultado es correcto:

In [None]:
mi.lista4 <- list(1,3.14,1.51,2.111,1,404,1,14)
vapply(mi.lista4, FUN = function(x) x*100, FUN.VALUE = 1)

### Nota Final

Utilizar las funciones de la familia Apply permite escribir código de `R` de manera concisa y eficiente. Se debe tener en cuenta que utilizarlas no es *per se* más rápido que utilizar un ciclo `for`. En ese sentido, `apply()` y sus variantes simplemente encapsulan el ciclo. (Existen casos en los que sí son más eficientes, por ejemplo, cuando hay que entrelazar varios cilos for). La razón por la que son habitualmente y en la práctica más rápidas que un ciclo `for` en `R` es porque éstas reservan espacio en memoria de antemano de manera implícita. Si se hace esto manualmente y se programa correctamente el ciclo `for`, puede comprobarse que los tiempos de ejecución son similares.

Nótese por último que si existe una función vectorizada para la operación que estuvieras intendando hacer, sea con `apply()` o un ciclo, deberías usar dicha función. Por ejemplo, calcular la media por columnas de una matriz puede hacerse con un ciclo y mediante el comando `apply(foo, 2, mean)`, pero es más eficiente si se utiliza la función de `colMeans(foo)`.

Por último, las funciones de la familia Apply abren la puerta a **paralelizar el proceso** de manera inmediata.



# Paralelizando con la librería *parallel*

Cualquier ciclo que programemos se ejecuta de manera secuencial, lo que implica que se está usando un solo procesador. Paralelizar implica subdividir la tarea en subtareas para que sean procesadas por los diferentes núcleos (o procesadores, si nuestra máquina tiene más de uno).

Las funciones y metodología que hemos visto hasta ahora permiten paralelizar procesos de manera muy sencilla. Precisamente porque se está repitiendo una tarea múltiples veces de manera independiente, todas ellas son de naturaleza paralelizable. Para hacerlo, basta tener en cuenta que, a excepción de `mapply()`, las funciones que hemos visto tienen su equivalente en la librería parallel: `parApply()` `parLapply()`, `parSapply()`.  

Funcionan exactamente igual, pero requieren como primer argumento un objeto de tipo *cluster* de `parallel`, que podemos iniciar con la función `makeCluster()`.

En Mac/Linux la sintaxis básica para iniciar este objeto es `makeCluster(numero_nodos, type="FORK")`, que inicia un *cluster* de tipo *FORK* con `numero_nodos` nodos (la cantidad de *workers* para el proceso a paralelizar).

Este tipo de *cluster* no está disponible en Windows, con lo que se debe usar un cluster de tipo *PSOCK* (Parallel Socket Cluster), con `type = PSOCK`. La diferencia principal reside en que con *FORK* todas las variables y funciones quedan automáticamente exportadas al *cluster*, con lo que no tenemos que preocuparnos de hacerlo manualmente.

Vamos a ilustrar esto con un **ejemplo**. Además de la librería `parallel`, también vamos a cargar la librería `microbenchmark`, para hacer pruebas de rendimiento:

In [None]:
library(parallel) 
library(microbenchmark)

La función `detectCores()` permite ver la cantidad de hilos disponibles en el sistema:

In [None]:
detectCores()

Lo ideal es siempre dejar libre al menos uno para el sistema, de modo que la práctica más habitual es utilizar como número de nodos `detectCores()-1`, 

In [None]:
cl <- makeCluster(spec = detectCores()-1, type = "FORK") # iniciamos el cluster
cl

Vamos a coger uno de los ejemplos iniciales y utilizar la paralelización (Creamos una lista de matrices algo más grandes):

In [None]:
A.list <- replicate(replicate(expr = sample(1:50, size = 50, replace = T),n = 50), n = 100, simplify = F) # matriz 500x500

In [None]:
cmean <- parLapply(cl = cl, X = A.list,  mean) # media de cada matriz
# equivale a 
# cmean <- lapply(X = A.list,  mean) # media de cada matriz

Conviene tener en cuenta que no todo es ideal paralelizarlo. De hecho, la operación que acabamos de hacer no tiene sentido a nivel de rendimiento. Comprobemos el rendimiento de `parApply()` contra `apply()`:

In [None]:
mbp <- microbenchmark(parLapply(cl = cl, X = A.list,  mean), times = 10)
mb <- microbenchmark(lapply(X = A.list,  mean), times = 10)

In [None]:
mean(mbp$time)/10^9 # segundos

In [None]:
mean(mb$time)/10^9 # segundos

Siempre que acabemos de paralelizar hay que deterner el cluster que creamos, utilizando `stopCluster()`:

In [None]:
stopCluster(cl)

 Nota: La función `parMapply()` no existe, por lo que si se quiere paralelizar un `mapply()` se debe acudir a `mcmapply()`. También existe `mclapply()`, que funciona análogamente a `lapply()`. En éstas no hay que iniciar el *cluster* de antemano, pero no están disponibles en Windows.
 
 Usando `mclapply()` paralelizar es tan sencillo como:

In [None]:
mclapply(X = A.list, FUN = mean, mc.cores = 19)

Nótese que `mclapply()` abre y cierra el *cluster* automáticamente.

### ¿Cuándo paralelizar?

Aunque en teoría cada procesador debería reducir linealmente el tiempo de cómputo, en la práctica hay trabajo adicional que reduce la eficiencia. Tanto el código como los datos necesitan ser transferidos a cada núcleo y se deben crear los subprocesos, lo que suma tiempo. Es por ello que vemos que paralelizar en el ejemplo de arriba no merece la pena, ya que si el tiempo de computación es muy corto para cada subtarea, el coste de preparar los recursos para la paralelización es más grande que el ahorro conseguido. 

A continuación vamos a ver un ejemplo de un caso en el que la paralelización disminuye sustancialmente el tiempo de computación. Tenemos una lista de 19 vectores de tamaño 1000 con números obtenidos de una distribución uniforme, `unif`, al que queremos aplicar la función `mi.funcion()`, que definimos a continuación:

In [None]:
unif <- replicate(runif(n = 1000), n = 19, simplify = F)
mi.funcion <- function(x) {
    sort(x)
    d.tipica <- sd(x)
    media <- mean(x)
    
    error.rel.media <- 1
    error.rel.d.tipica <- 1
    while(error.rel.media > 0.01 || error.rel.d.tipica > 0.001){
        muestra <- sample(x, size = 10)
        error.rel.media <- abs(mean(muestra) - media)/media
        error.rel.d.tipica <- abs(sd(muestra) - d.tipica)/d.tipica
    }
    return(muestra)
}

La función `mi.funcion()` extrae muestras de $10$ elementos de cada vector hasta que obtiene una con la media y desviación típica razonablemente cerca.

**Ejercicio:** Utiliza la función `microbenchmark()` para medir el tiempo de ejecución de aplicar la función `mi.funcion` a cada elemento de la lista `unif`, primero sin paralelizar y después paralelizando.