# Funciones Apply

## Contexto

En muchos lenguajes de programación con los que se trabaja de manera ardua el análisis de datos, estadística o análisis numérico, se deben usar algoritmos predeterminados acorde a cada problema; sin embargo, surge la disyuntiva principal: ¿Qué manera de implementar el algoritmo es la más eficiente?

Para ello, se propuso crear funciones **nativas**, las cuales podrían usarse sin necesidad de implementarlas y tendrían un desempeño aceptable. Una vez que esta propuesta fuera tomada en cuenta, comenzaron a surgir diferentes usuarios de los lenguajes que obtendrían la forma de implementar los algoritmos de manera más eficiente que su forma nativa: Con esto surge la idea de comunidad para los lenguajes de programación. Python, por ejemplo, siempre tiene funciones nativas cuyo performance promedio es, por lo general, mejor que cualquier implementación que un usuario promedio pueda usar.

Este concepto, de una manera un poco más avanzada, también fue aplicado en R, sobretodo porque este tipo de lenguajes de programación suelen ser robustos y con una ejecución pesada.

## Familia de funciones Apply

La familia de funciones `apply` fueron creadas con el fin de evitar los bucles explicitamente dentro del codigo en R. Se usa para aplicar funciones a una partición uniforme de un arreglo (o lista) de objetos.

Con partición uniforme nos referimos a que en todos los elementos se manejará la misma selección de datos; mientras que las funciones que se pueden usar como argumentos son funciones nativas, de transformación o algunas otras vectorizadas diseñadas por el usuario.

Hay muchas funciones en esta familia, entre ellas las más importantes son:

- `apply`
- `lapply`
- `sapply`
- `mapply`

## Funcion Apply

Es la principal función de la familia, opera sobre `arrays`. Los principales parámetros de esta función son:

<center>`apply(X, MARGIN, FUN)`</center>

Donde:

- `X` es un array o una matriz si tiene 2 dimensiones
- `MARGIN` es la selección que se hace de los elementos de la matriz: MARGIN=1 significa que se aplicará sobre las filas, `MARGIN=2` aplicará sobre las columnas y `MARGIN=c(1,2)` aplicará a tanto filas como columnas
- `FUN` es la función que se aplicará a las selecciones.

Ahora supongamos que generaremos una matriz aleatoria de $5 \times 6$ y aplicaremos la función apply para obtener algunos datos:

In [75]:
M <- matrix(rnorm(30),nrow=5,ncol=6) # RNORM genera 30 elementos de una distribución normal con media = 0 y desviacion estandar = 1
print(M)
# Si queremos la suma de todas las filas:
Suma_por_filas <- apply(M,MARGIN=1,sum)
cat(sprintf("Las sumas por fila son:\n"))
print(Suma_por_filas)
print(class(Suma_por_filas))
# Si queremos la suma de todas las columnas:
Suma_por_columnas <- apply(M,MARGIN=2,sum)
cat(sprintf("La sumas por columna son:\n"))
print(Suma_por_columnas)
print(class(Suma_por_columnas))
# Si queremos los valores maximos por fila:
Max_por_filas <- apply(M,MARGIN=1,max)
cat(sprintf("Los maximos por fila son:\n"))
print(Max_por_filas)
print(class(Max_por_filas))
# Si queremos los valores maximos por columna:
Max_por_columnas <- apply(M,MARGIN=2,max)
cat(sprintf("Los maximos por columna son:\n"))
print(Max_por_columnas)
print(class(Max_por_columnas))

           [,1]       [,2]       [,3]       [,4]       [,5]       [,6]
[1,]  0.6517275 -0.2677514 -1.6082079  0.6966528 -0.8279822 -1.6247439
[2,] -2.0306915  1.1317656  0.2606013  0.1437460 -1.1536057  0.9220256
[3,]  0.3768053 -0.6406452 -0.6910837 -1.5265233  2.2641039  0.8583521
[4,] -0.8424653 -0.1548293 -0.5960485 -0.6961922  1.4070634 -0.2982610
[5,]  0.3775786  0.1887049  1.1519240  1.7263453  0.2293935 -1.1087681
Las sumas por fila son:
[1] -2.9803052 -0.7261587  0.6410092 -1.1807330  2.5651782
[1] "numeric"
La sumas por columna son:
[1] -1.4670454  0.2572445 -1.4828149  0.3440285  1.9189729 -1.2513953
[1] "numeric"
Los maximos por fila son:
[1] 0.6966528 1.1317656 2.2641039 1.4070634 1.7263453
[1] "numeric"
Los maximos por columna son:
[1] 0.6517275 1.1317656 1.1519240 1.7263453 2.2641039 0.9220256
[1] "numeric"


Ahora, ¿Qué pasa si queremos la posición del máximo de cada fila o columna?

Ya no nos servirá usar alguna función nativa, así que podremos definir nosotros la función `max_position`

In [74]:
max_position <- function(x){
    return(match(max(x),x)) # Devolvemos el primer indice tal que su valor en x sea igual al valor de max(x)
}
print(M)
# Ahora si podemos obtener la posicion del maximo por fila
Maxpos_por_fila <- apply(M,MARGIN=1,max_position)
cat(sprintf("Posiciones de los maximos por fila:\n"))
print(Maxpos_por_fila)
print(class(Maxpos_por_fila))
# Lo mismo para columnas
Maxpos_por_columnas <- apply(M,MARGIN=2,max_position)
cat(sprintf("Posiciones de los maximos por columna:\n"))
print(Maxpos_por_columnas)
print(class(Maxpos_por_columnas))

            [,1]        [,2]       [,3]       [,4]       [,5]       [,6]
[1,]  2.49551039 -0.67477347 -0.2362984 -1.1996117  0.1586882 -1.1580950
[2,]  1.29786687 -0.37595572 -0.7253767  0.1554891 -1.4477336 -1.0914911
[3,] -0.07987337 -0.47422462  0.9155899 -0.1784996  1.1538951 -0.3964608
[4,]  0.41220411  0.63274043 -0.3432091  1.1892513 -0.1837801 -1.3455930
[5,]  1.12132863 -0.05349911 -1.6211114  1.7186832 -0.2565127 -1.2914099
Posiciones de los maximos por fila:
[1] 1 1 5 4 4
[1] "integer"
Posiciones de los maximos por columna:
[1] 1 4 3 5 3 3
[1] "integer"


Con esto pudimos ver una aplicación simple de `apply` sobre una matriz. Se pueden definir las funciones de manera vectorizada para poder usarlas como argumentos.

## Funcion Lapply

Esta función es una variación de la función `apply` original, su principal diferencia es que esta vez trabajaremos todo como `listas`.

In [32]:
A <- matrix(sample(2:100,20,replace=F),nrow=4,ncol=5,byrow=T)
B <- matrix(sample(2:100,30,replace=F),nrow=5,ncol=6,byrow=T)
C <- matrix(sample(50:200,15,replace=F),nrow=3,ncol=5,byrow=T)
Lista_de_matrices <- list(A,B,C)
print(Lista_de_matrices)

[[1]]
     [,1] [,2] [,3] [,4] [,5]
[1,]   14   43   45   35   21
[2,]   69   90   29   47    8
[3,]   41   37   73   22   86
[4,]   31   51   32   49   55

[[2]]
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]   96   82   73   81   89   92
[2,]   44   98  100   84   28   72
[3,]   20   34   12   29   35   18
[4,]   40   61   42   55    8   51
[5,]   33   25   59   95    7   13

[[3]]
     [,1] [,2] [,3] [,4] [,5]
[1,]   80   60  188   99  116
[2,]  192   88   86  117   51
[3,]   59  144  122   87   90



Notamos como ahora los elementos se ven con la notación `[[i]]`, esta es propia de las listas.

Ahora, notemos que vamos a tratar a cada elemento de la lista de manera independiente, por lo que la función que usábamos antes para `apply` ya no será una selección de un elemento, sino una selección que se aplicará sobre varios elementos no necesariamente de la misma clase.

Esta observación es muy importante, pues la función que usemos como argumento debe tener el objetivo de trabajar correctamente con cada elemento para no generar errores.

Supongamos que hallaremos lo mismo que el último ejemplo con `apply`: la posicion del elemento con valor máximo del objeto, pero esta vez trabajaremos con la matriz completa, ya no solo con vectores. ¿Cómo poder hallar la solución?

La manera más sencilla sería buscar en internet y foros cómo realizarlo; pero si uno desea aprender correctamente, primero debe experimentar con el lenguaje para ver su comportamiento e intentar formar una solución. Posteriormente, si no se halló solución o se halló una, buscar en internet por una solución (en caso no haya) o por una manera más eficiente de lograr el objetivo.

In [35]:
# Primero veamos como trabaja la funcion match y max con una matriz:
print(match(max(A),A))

[1] 6


Comportamiento extraño, pero si nos damos cuenta, la función está analizando la matriz como si fuera un array formado por la concatenación de las columnas de `A`, así que ya podemos determinar la posición en coordenadas de la matriz:

In [72]:
transformar_a_xy <- function(a,A){
    n <- dim(A)[1] # Extraemos la cantidad de filas de la matriz
    a <- a-1 # Para trabajar "nominalmente" con indexacion 0 (para usar residuos y ubicar correctamente en la matriz)
    # Si tiene posicion a en el vector concatenado, x = a mod n + 1, y = floor(a/n) + 1.
    # El +1 es para devolver de indexacion 0 a indexacion 1
    coord <- c((a %% n)+1,(a%/%n) + 1)
    return(coord)
}
# Con esta subfuncion podemos diseñar max_position2:

max_position2 <- function(A){
    pos <- match(max(A),A)
    return(transformar_a_xy(pos,A))
}

print(Lista_de_matrices)
# Posiciones por matriz de maximos:
Maximos_por_matriz <- lapply(Lista_de_matrices,max_position2)
cat(sprintf("Las coordenadas (fila-columna) de los maximos por matriz son:\n"))
print(Maximos_por_matriz)
print(class(Maximos_por_matriz))

[[1]]
     [,1] [,2] [,3] [,4] [,5]
[1,]   14   43   45   35   21
[2,]   69   90   29   47    8
[3,]   41   37   73   22   86
[4,]   31   51   32   49   55

[[2]]
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]   96   82   73   81   89   92
[2,]   44   98  100   84   28   72
[3,]   20   34   12   29   35   18
[4,]   40   61   42   55    8   51
[5,]   33   25   59   95    7   13

[[3]]
     [,1] [,2] [,3] [,4] [,5]
[1,]   80   60  188   99  116
[2,]  192   88   86  117   51
[3,]   59  144  122   87   90

Las coordenadas (fila-columna) de los maximos por matriz son:
[[1]]
[1] 2 2

[[2]]
[1] 2 3

[[3]]
[1] 2 1

[1] "list"


Otra función que también es clásica es la selección de filas o columnas en particular, para esto usamos la función `[`, que es especial (especificado en la documentación de las funciones `apply`).

In [71]:
# El uso de la función [ es como si se hiciera en un elemento cualquiera
# Es decir, A[1,] selecciona toda la primera fila
# A[,1] selecciona toda la primera columna

# Seleccionamos la primera columna de cada matriz:
Columnas <- lapply(Lista_de_matrices,"[", ,1)
cat(sprintf("Primera columna de cada matriz:\n"))
print(Columnas)
print(class(Columnas))
# Seleccionamos la primera fila de cada matriz:
Filas <- lapply(Lista_de_matrices,"[",1,)
cat(sprintf("Primera fila de cada matriz:\n"))
print(Filas)
print(class(Filas))
# ¿Que tal si seleccionamos la fila numero 5 de las matrices?
cat(sprintf("Intentamos tomar la fila 5 de cada matriz:\n"))
Fila_5 <- lapply(Lista_de_matrices,"[",5,)
print(Fila_5)

Primera columna de cada matriz:
[[1]]
[1] 14 69 41 31

[[2]]
[1] 96 44 20 40 33

[[3]]
[1]  80 192  59

[1] "list"
Primera fila de cada matriz:
[[1]]
[1] 14 43 45 35 21

[[2]]
[1] 96 82 73 81 89 92

[[3]]
[1]  80  60 188  99 116

[1] "list"
Intentamos tomar la fila 5 de cada matriz:


ERROR: Error in FUN(X[[i]], ...): subíndice fuera de  los límites


Y este es el criterio que mencionamos al inicio: La función debe ser aplicable considerando los elementos a los que les será aplicada.

Para poder obtener la última fila de cada matriz deberemos implementar una función que pueda sostener casos irregulares:

In [70]:
ultima_fila <- function(A){
    return(A[dim(A)[1],])
}
# Obtenemos la ultima fila de cada matriz
Last_row <- lapply(Lista_de_matrices,ultima_fila)
cat(sprintf("La ultima fila de cada columna es:\n"))
print(Last_row)
print(class(Last_row))

La ultima fila de cada columna es:
[[1]]
[1] 31 51 32 49 55

[[2]]
[1] 33 25 59 95  7 13

[[3]]
[1]  59 144 122  87  90

[1] "list"


## Función Sapply

Esta función es muy similar a `lapply`, pero la diferencia principal es que `sapply` automáticamente toma los datos del argumento, los procesa con la función deseada y la salida la devuelve pero en la estructura más simple que se pueda (se puede mantener la estructura original colocando como argumento extra `simplify=FALSE`) 

In [64]:
# Usemos los mismos ejemplos que en lapply:
print(Lista_de_matrices)
Maximos_por_matriz_sapply <- sapply(Lista_de_matrices,max_position2)
cat(sprintf("Las coordenadas (fila-columna) de los maximos por matriz son:\n"))
print(Maximos_por_matriz_sapply)
print(class(Maximos_por_matriz_sapply))

[[1]]
     [,1] [,2] [,3] [,4] [,5]
[1,]   14   43   45   35   21
[2,]   69   90   29   47    8
[3,]   41   37   73   22   86
[4,]   31   51   32   49   55

[[2]]
     [,1] [,2] [,3] [,4] [,5] [,6]
[1,]   96   82   73   81   89   92
[2,]   44   98  100   84   28   72
[3,]   20   34   12   29   35   18
[4,]   40   61   42   55    8   51
[5,]   33   25   59   95    7   13

[[3]]
     [,1] [,2] [,3] [,4] [,5]
[1,]   80   60  188   99  116
[2,]  192   88   86  117   51
[3,]   59  144  122   87   90

Las coordenadas (fila-columna) de los maximos por matriz son:
     [,1] [,2] [,3]
[1,]    2    2    2
[2,]    2    3    1
[1] "matrix"


Notamos que ahora la clase ya no es `list`, sino `matrix`. Viendo los demás ejemplos, encontramos lo mismo:

In [69]:
Last_row_sapply <- sapply(Lista_de_matrices,ultima_fila)
cat(sprintf("Ultima fila de cada matriz:\n"))
print(Last_row_sapply)
print(class(Last_row_sapply))

Ultima fila de cada matriz:
[[1]]
[1] 31 51 32 49 55

[[2]]
[1] 33 25 59 95  7 13

[[3]]
[1]  59 144 122  87  90

[1] "list"
 [1]  31  51  32  49  55  33  25  59  95   7  13  59 144 122  87  90


Ahora notamos que el comportamiento es que, si se devuelve un elemento único, intenta volver a un array o matriz si es posible, pero en caso contrario, mantiene la estructura de lista.

Hay mucho más que ver en el mundo de `apply`, pero esto es todo por ahora.

## Referencias

- [DataCamp Tutorials](https://www.datacamp.com/community/tutorials/r-tutorial-apply-family#codelapplycode)