# Introducción a la Programación para Ciencia de Datos
## Lenguaje de programación R
_Rocío Romero Zaliz_ - rocio@decsai.ugr.es

# Estructuras de programación

* R es un lenguaje estructurado en bloques (como C, C++, Python, Perl, etc.).
* Los bloques están delimitados por llaves, mientras que las sentencias están separadas por caracteres de nueva línea u, opcionalmente, por punto y coma.
* Al igual que con muchos lenguajes de scripting, no "declaramos" variables en R, por lo tanto tenemos que tener cuidado con los posibles problemas de alcance de variables.

## Operadores básicos de R
![basic.png](attachment:basic.png)

## Sentencias de control: if-else

La sintaxis para if-else es la siguiente:

><pre>if (r == 4) {  
     x <- 1  
 } else {  
     x <- 3  
     y <- 4 
 }
</pre>

In [1]:
r <- 3
x <- 0
y <- 0

if (r == 4) {  
 x <- 1  
} else {  
 x <- 3  
 y <- 4 
}

print(x)
print(y)

[1] 3
[1] 4


Una sentencia if-else funciona como una llamada a una función, y como tal, devuelve el último valor asignado.

In [2]:
print(if (x == 2) y <- x else y <- x+1)

[1] 4


In [3]:
y <- if(x == 2) x else x+1 # Recomendación: esta es la forma más elegante... usad esta porfaplis
y

In [4]:
# Error!
x <- 1:10
y <- if (x == 2) x else x+1
y

ERROR: Error in if (x == 2) x else x + 1: the condition has length > 1


In [8]:
x == 2

Cuando trabajamos con vectores, utilizamo la función `ifelse`.

La forma es: `ifelse(b,u,v)` donde `b` es un vector booleano, y `u` y `v` son vectores.

El valor de retorno es a su vez un vector: el elemento `i` es `u[i]` si `b[i]` es verdadero, o `v[i]` si `b[i]` es falso.

In [9]:
x <- 1:10
y <- ifelse(x == 2, x, x+1)
y

In [10]:
x <- 1:10
ifelse(x %% 2 == 0, "par", "impar")

In [11]:
x <- c(5,2,9,12)
ifelse(x > 6, 2*x, 3*x)

## Declaraciones de control: ciclos

Uno de los temas principales de la programación en R es evitar los ciclos si es posible; si no, mantener los ciclos lo más simple posible.

Tenemos:
* Ciclos For
* Ciclos While
* Ciclos de repetición

### For loops

In [12]:
# Sólo un ejemplo, por favor no codifiques así en R... Por faaaaaaaa... :'(
for (n in 1:5) print(n) 

[1] 1
[1] 2
[1] 3
[1] 4
[1] 5


In [13]:
# In R use print(1:5)
print(1:5)

[1] 1 2 3 4 5


In [14]:
# Sólo un ejemplo, por favor no codifiques así en R... Por faaaaaaaa...
print(x)

k <- 0
for (n in x) {
   if (n %% 2 == 1) k <- k+1  
} 
k

[1]  5  2  9 12


In [15]:
# In R use...
sum(x %% 2 == 1)

In [16]:
# He aquí el porque...
k <- 0
x <- 1:10000000
system.time(for (n in x) if (n %% 2 == 1) k <- k+1)
system.time(sum(x %% 2 == 1))

   user  system elapsed 
  2.062   0.019   2.092 

   user  system elapsed 
  0.320   0.058   0.388 

### While loops

In [19]:
# Sólo un ejemplo, por favor no codifiques así en R... Por faaaaaaaa...
print(x[1:10])

i <- 1
while ((i < length(x)) && (x[i] != 9)) {
    i <- i+1
}
i

 [1]  1  2  3  4  5  6  7  8  9 10


In [22]:
# In R use...
which(x == 9)

In [25]:
# He aquí el porque...
i <- 1
x <- 1:1000000
system.time(while ((i < length(x)) && (x[i] != 999999)) i <- i+1)
system.time(which(x == 999999))

   user  system elapsed 
  0.166   0.003   0.173 

   user  system elapsed 
  0.003   0.001   0.004 

### Repeat loops

In [27]:
# Sólo un ejemplo, por favor no codifiquéis así en R...
# Honestamente odio los repeats en R... Odio el `break` en cualquier lenguaje de programación
# Llamadme "negacionista del break"

i <- 1
repeat {
    i <- i+1
    if ((i > length(x)) || (x[i] == 9)) break
}
i 

In [28]:
# In R use...
which(x == 9)

In [30]:
# This is why:
i <- 1
x <- 1:100000
system.time(repeat {
    i <- i+1
    if ((i > length(x)) || (x[i] == 99999)) break
    })
system.time(which(x == 99999)[1])

   user  system elapsed 
  0.034   0.000   0.035 

   user  system elapsed 
  0.000   0.001   0.001 

### Looping: the R way

En R tienes más opciones a la hora de hacer cálculos de repetición:

![Apply](applies.png)

#### La función apply

Esta es la forma general de apply para matrices: 

`apply(m, dimcode, f, fargs)` 

donde:
* `m` es la matriz. 
* Dimcode` es la dimensión, igual a 1 si la función se aplica a las filas o a 2 si se aplica a las columnas.
* f` es la función a aplicar. 
* `fargs` es un conjunto opcional de argumentos a suministrar a `f`. 

In [31]:
z <- matrix(c(1,1,2,2,3,3), nrow=3, byrow=TRUE)
z

0,1
1,1
2,2
3,3


In [32]:
apply(z, 1, mean)

In [35]:
apply(z, 1, mean, na.rm = TRUE)

In [36]:
apply(z, 2, mean)

In [37]:
apply(z, 1:2, mean)

0,1
1,1
2,2
3,3


In [38]:
apply(z, 1, function(x) x ^ 2)

0,1,2
1,4,9
1,4,9


#### La función lapply

Devuelve una lista de la misma longitud que los datos de entrada X, cada uno de cuyos elementos es el resultado de aplicar una función al elemento correspondiente de X.

In [39]:
w <- list(vector=c(1,2,3), matriz=matrix(1,nrow=2,ncol=2))
w

0,1
1,1
1,1


In [40]:
lapply(w, mean)

In [41]:
suma <- function(x = 1, y = 5) {
    x + y
}

In [42]:
lapply(1:10, suma, x = 2)

In [43]:
lapply

#### La función sapply

Se aplica sobre un objeto y devuelve un objeto simplificado (un vector) si es posible.

In [44]:
z

0,1
1,1
2,2
3,3


In [45]:
out1 <- lapply(z, mean)
out1

In [46]:
out <- sapply(z, mean)
out

In [47]:
?sapply

0,1
lapply {base},R Documentation

0,1
X,a vector (atomic or list) or an expression object. Other objects (including classed objects) will be coerced by base::as.list.
FUN,"the function to be applied to each element of X: see ‘Details’. In the case of functions like +, %*%, the function name must be backquoted or quoted."
...,optional arguments to FUN.
simplify,"logical or character string; should the result be simplified to a vector, matrix or higher dimensional array if possible? For sapply it must be named and not abbreviated. The default value, TRUE, returns a vector or matrix if appropriate, whereas if simplify = ""array"" the result may be an array of “rank” (=length(dim(.))) one higher than the result of FUN(X[[i]])."
USE.NAMES,"logical; if TRUE and if X is character, use X as names for the result unless it had names already. Since this argument follows ... its name cannot be abbreviated."
FUN.VALUE,a (generalized) vector; a template for the return value from FUN. See ‘Details’.
n,integer: the number of replications.
expr,"the expression (a language object, usually a call) to evaluate repeatedly."
x,"a list, typically returned from lapply()."
higher,"logical; if true, simplify2array() will produce a (“higher rank”) array when appropriate, whereas higher = FALSE would return a matrix (or vector) only. These two cases correspond to sapply(*, simplify = ""array"") or simplify = TRUE, respectively."


In [48]:
out <- unlist(lapply(z, mean))
print(out)
class(out)

[1] 1 2 3 1 2 3


In [49]:
df1 <- data.frame(uno=1:4, dos=c("hola", "mundo", "muy", "cruel"))
df1

uno,dos
<int>,<chr>
1,hola
2,mundo
3,muy
4,cruel


In [50]:
apply(df1, 1, mean)

“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”


In [51]:
apply(df1, 2, mean)

“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”


In [52]:
apply(df1, 1:2, mean)

“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”
“argument is not numeric or logical: returning NA”


uno,dos
,
,
,
,


In [53]:
df1

uno,dos
<int>,<chr>
1,hola
2,mundo
3,muy
4,cruel


In [54]:
as.list(df1)

In [55]:
lapply(df1, mean)

“argument is not numeric or logical: returning NA”


# Mejora del rendimiento: velocidad y memoria

* Para tener un programa que funcione rápido, puede que necesites utilizar más espacio de memoria.
* Por otro lado, para conservar espacio de memoria, puede que tenga que conformarse con un código más lento.
* R es un lenguaje interpretado.
* Muchos de los comandos están escritos en C y por lo tanto se ejecutan en código máquina rápido. Pero otros comandos, y su propio código R, son R puro y por lo tanto interpretado.
* Todos los objetos de una sesión de R se almacenan en memoria.
* Más precisamente, todos los objetos se almacenan en el espacio de direcciones de memoria de R.
* Optimice su código R a través de la vectorización, el uso de la compilación byte-code y otros enfoques. 
* Escriba las partes clave, intensivas en CPU, de su código en un lenguaje compilado como C/C++.
* Escriba su código en alguna forma de R paralelo. 

## Vectorización

### Ciclos:
 * Es importante entender que simplemente reescribir el código para evitar bucles no necesariamente hará que el código sea más rápido.
 * Sin embargo, en algunos casos, se puede conseguir un aumento drástico de la velocidad, normalmente a través de la vectorización. 
 
Compare estas dos líneas de código:

> `for (i in 1:length(x)) z[i] <- x[i] + y[i]`

vs.

> `z <- x + y `

In [56]:
x <- runif(1000000)
y <- runif(1000000)
z <- vector(length=1000000)
system.time(for (i in 1:length(x)) z[i] <- x[i] + y[i])

   user  system elapsed 
  0.071   0.004   0.075 

In [57]:
system.time(z <- x + y)

   user  system elapsed 
  0.002   0.002   0.005 

* Ejemplos de otras funciones vectorizadas que pueden acelerar el código son `ifelse()`, `which()`, `any()`, `all()`, `cumsum()`, y `cumprod()`.
* En el caso de matrices, puede utilizar `rowSums()`, `colSums()`, etc.
* En configuraciones del tipo "todas las combinaciones posibles", `combn()`, `outer()`, `lower.tri()`, `upper.tri()`, o `expand.grid()` pueden ser justo lo que necesitas. 
* Aunque `apply()` elimina un bucle explícito, en realidad está implementada en R en lugar de en C, por lo que normalmente no acelerará su código. Sin embargo, las otras funciones apply, como `lapply()`, pueden ser muy útiles para acelerar su código. 

## Mejora del rendimiento

<b>Ejemplo 1</b>: Algoritmo lento en R

In [58]:
xs <- runif(10000)
print(xs)
res <- c()

# This is slow!
system.time(for (x in xs) res <- c(res, sqrt(x)))

    [1] 3.829825e-01 2.257327e-02 6.835879e-02 2.538723e-01 9.516119e-01
    [6] 8.959591e-01 4.554948e-01 8.611417e-01 5.901872e-01 3.062667e-01
   [11] 3.983772e-01 2.612607e-01 2.739539e-02 2.722184e-01 9.441491e-01
   [16] 5.145166e-01 5.212934e-01 6.806548e-01 4.699943e-01 6.930907e-01
   [21] 3.849111e-01 5.453224e-01 4.697578e-01 9.381422e-02 6.235475e-02
   [26] 6.707958e-01 3.090461e-01 2.611788e-01 1.056212e-01 1.627958e-01
   [31] 7.674612e-01 3.601303e-01 9.584115e-01 5.802426e-01 9.746086e-01
   [36] 5.483205e-01 4.306760e-01 3.683064e-01 2.239197e-01 8.332120e-01
   [41] 3.204897e-01 7.624827e-01 5.542051e-02 2.264688e-01 7.506435e-01
   [46] 8.844749e-01 2.274799e-01 6.854204e-01 9.226953e-01 5.011308e-01
   [51] 7.493271e-01 2.763130e-01 3.943580e-01 2.592771e-01 6.444949e-01
   [56] 9.498864e-01 7.910124e-02 6.737878e-01 9.167527e-01 6.220426e-02
   [61] 2.581271e-03 3.005338e-01 7.474848e-01 4.620148e-01 1.364846e-01
   [66] 8.812499e-01 5.187057e-01 9.108653e-01 1.15

   user  system elapsed 
  0.201   0.149   0.363 

<b>Ejemplo 1</b>: Algoritmo rápido en R

In [60]:
res <- numeric(length(xs))

system.time(for (i in seq_along(xs)) res[i] <- sqrt(xs[i]))

   user  system elapsed 
  0.008   0.001   0.009 

In [61]:
seq_along(xs)

<b>Ejemplo 2</b>: Algoritmo lento en R

In [63]:
amat <- matrix(1:20, nrow=4)
bmat <- matrix(NA, nrow(amat)/2, ncol(amat))

print(amat)
print(bmat)

system.time(for(i in 1:nrow(bmat)) bmat[i,] <- amat[2*i-1,] * amat[2*i,])
            
print(bmat)

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20
     [,1] [,2] [,3] [,4] [,5]
[1,]   NA   NA   NA   NA   NA
[2,]   NA   NA   NA   NA   NA


   user  system elapsed 
  0.015   0.001   0.020 

     [,1] [,2] [,3] [,4] [,5]
[1,]    2   30   90  182  306
[2,]   12   56  132  240  380


<b>Ejemplo 1</b>: Algoritmo rápido en R

In [64]:
system.time(bmat2 <- amat[seq(1, nrow(amat), by=2),] * amat[seq(2, nrow(amat), by=2),])

print(bmat2)

   user  system elapsed 
  0.000   0.000   0.001 

     [,1] [,2] [,3] [,4] [,5]
[1,]    2   30   90  182  306
[2,]   12   56  132  240  380


<b>Ejemplo 3</b>: Algoritmo lento en R

* Supongamos que queremos encontrar todos los conjuntos de tres enteros positivos que suman 6, donde el orden importa:

In [65]:
the.seq <- 1:3

In [66]:
#for (x in the.seq) {
#    for (y in the.seq) {
#        for (z in the.seq) {
#            if (x + y + z == 6) cat(x, y, z, "\n")
#        }
#    }
#}
#
#cat("\n")

system.time(for (x in the.seq) { for (y in the.seq) { for (z in the.seq) { if (x + y + z == 6) cat(x, y, z, "\n")}}})

1 2 3 
1 3 2 
2 1 3 
2 2 2 
2 3 1 
3 1 2 
3 2 1 


   user  system elapsed 
  0.004   0.000   0.006 

In [67]:
?outer

0,1
outer {base},R Documentation

0,1
"X, Y",First and second arguments for function FUN. Typically a vector or array.
FUN,"a function to use on the outer products, found via match.fun (except for the special case ""*"")."
...,optional arguments to be passed to FUN.


In [68]:
print(outer(the.seq, the.seq, "+"))

     [,1] [,2] [,3]
[1,]    2    3    4
[2,]    3    4    5
[3,]    4    5    6


In [69]:
print(outer(outer(the.seq, the.seq, "+"), the.seq, "+"))

, , 1

     [,1] [,2] [,3]
[1,]    3    4    5
[2,]    4    5    6
[3,]    5    6    7

, , 2

     [,1] [,2] [,3]
[1,]    4    5    6
[2,]    5    6    7
[3,]    6    7    8

, , 3

     [,1] [,2] [,3]
[1,]    5    6    7
[2,]    6    7    8
[3,]    7    8    9



In [71]:
which(outer(outer(the.seq, the.seq, "+"), the.seq, "+") == 6)

In [72]:
which(outer(outer(the.seq, the.seq, "+"), the.seq, "+") == 6, arr.ind=TRUE)

dim1,dim2,dim3
3,2,1
2,3,1
3,1,2
2,2,2
1,3,2
2,1,3
1,2,3


In [73]:
system.time(which(outer(outer(the.seq, the.seq, "+"), the.seq, "+") == 6, arr.ind=TRUE))

   user  system elapsed 
      0       0       0 

## Vectorizar en exceso

* Es bueno querer vectorizar cuando no hay una manera efectiva de hacerlo. Es malo intentarlo de todos modos.
* Un reflejo común es usar una función de la familia apply. **Esto no es vectorización, es ocultar bucles.**
* Utilice un bucle for explícito cuando cada iteración sea una tarea no trivial. Pero un bucle simple puede expresarse de forma más clara y compacta usando una función apply.

## Reflexiones finales

* Algunas cosas no son posibles de vectorizar. 
* Si necesitas usar un bucle, entonces:
    * Ponga todo lo que pueda fuera de los bucles como sea posible.
    * Haz el número de iteraciones lo más pequeño posible.

# References

* Gaston Sanchez. Handling and Processing Strings in R. https://www.gastonsanchez.com/Handling_and_Processing_Strings_in_R.pdf
* Norman Matloff. 2011. The Art of R Programming: A Tour of Statistical Software Design (1st ed.). No Starch Press, San Francisco, CA, USA.
* Patrick Burns. 2011. The R Inferno.

# Ejercicios extra
http://r-tutorials.com

## Víctimas del Titanic - Utiliza el conjunto de datos estándar `titanic`

In [74]:
help(Titanic)

0,1
Titanic {datasets},R Documentation

0,1,2
No,Name,Levels
1,Class,"1st, 2nd, 3rd, Crew"
2,Sex,"Male, Female"
3,Age,"Child, Adult"
4,Survived,"No, Yes"


In [75]:
dim(Titanic)

In [76]:
Titanic

, , Age = Child, Survived = No

      Sex
Class  Male Female
  1st     0      0
  2nd     0      0
  3rd    35     17
  Crew    0      0

, , Age = Adult, Survived = No

      Sex
Class  Male Female
  1st   118      4
  2nd   154     13
  3rd   387     89
  Crew  670      3

, , Age = Child, Survived = Yes

      Sex
Class  Male Female
  1st     5      1
  2nd    11     13
  3rd    13     14
  Crew    0      0

, , Age = Adult, Survived = Yes

      Sex
Class  Male Female
  1st    57    140
  2nd    14     80
  3rd    75     76
  Crew  192     20


* Utiliza la función de apply adecuada para obtener la suma de hombres y mujeres a bordo.

In [77]:
apply(Titanic, 2, sum)

* Obtener una tabla con la suma de supervivientes vs sexo.

In [78]:
apply(Titanic, c(2,4), sum)

Unnamed: 0,No,Yes
Male,1364,367
Female,126,344


* Obtener una tabla con la suma de pasajeros por sexo vs edad.

In [79]:
apply(Titanic, 2:3, sum)

Unnamed: 0,Child,Adult
Male,64,1667
Female,45,425


## Extraer elementos de una lista de matrices

In [80]:
first = matrix(38:67, 3)
second = matrix(56:91, 3)
third = matrix(82:147, 3)
fourth = matrix(46:95, 5)

listobj = list(first, second, third, fourth)
listobj

0,1,2,3,4,5,6,7,8,9
38,41,44,47,50,53,56,59,62,65
39,42,45,48,51,54,57,60,63,66
40,43,46,49,52,55,58,61,64,67

0,1,2,3,4,5,6,7,8,9,10,11
56,59,62,65,68,71,74,77,80,83,86,89
57,60,63,66,69,72,75,78,81,84,87,90
58,61,64,67,70,73,76,79,82,85,88,91

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
82,85,88,91,94,97,100,103,106,109,⋯,118,121,124,127,130,133,136,139,142,145
83,86,89,92,95,98,101,104,107,110,⋯,119,122,125,128,131,134,137,140,143,146
84,87,90,93,96,99,102,105,108,111,⋯,120,123,126,129,132,135,138,141,144,147

0,1,2,3,4,5,6,7,8,9
46,51,56,61,66,71,76,81,86,91
47,52,57,62,67,72,77,82,87,92
48,53,58,63,68,73,78,83,88,93
49,54,59,64,69,74,79,84,89,94
50,55,60,65,70,75,80,85,90,95


* Extraer la segunda columna de la lista de matrices (de cada matriz individual).

In [81]:
listobj[[1]][,2]

In [82]:
lapply(listobj, `[`, , 2)

* Extraer la tercera fila de la lista de matrices.

In [83]:
lapply(listobj, `[`, 3, )

## Usando la familia 'apply' para trabajar con clases de data.frames

* Averiguar qué columna del iris no es numérica.

In [84]:
iris

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


In [85]:
which(unlist(lapply(iris, class)) != 'numeric')

In [86]:
which(lapply(iris, is.numeric) == FALSE)

In [87]:
lapply(iris, function(x) !is.numeric(x))

## Cálculo de módulo en una matriz

In [88]:
mymatrix <- matrix(data = c(6,34,923,5,0, 112:116, 5,9,34,76,2, 545:549), nrow = 5)
mymatrix

0,1,2,3
6,112,5,545
34,113,9,546
923,114,34,547
5,115,76,548
0,116,2,549


* Utilice `apply` para calcular el módulo 10 en cada valor de la matriz. La nueva matriz contiene el resto de la división módulo.

In [89]:
apply(mymatrix, 1:2, `%%`, 10)

0,1,2,3
6,2,5,5
4,3,9,6
3,4,4,7
5,5,6,8
0,6,2,9


## Aplicando nuestras propias funciones...

* Imprime para cada elemento en `mymatrix` si es menor que 100 (True) o no (False).

In [90]:
apply(mymatrix, 1:2, function(x) x < 100)

0,1,2,3
True,False,True,False
True,False,True,False
False,False,True,False
True,False,True,False
True,False,True,False


## Ejercicios
Se pueden hacer todos sin necesidad de bucles explícitos... pensad... pensad...

1. Crear una función "creciente" que indique si los elementos de un array dado son estrictamente crecientes. No se permite ordenar el vector.
2. Crear una función "montecarlo" que calcule la estimación de la integral dada:
 >$\int_{0}^{1} x^2 dx$<br/>
   
   El algoritmo Monte Carlo en pseudocódigo es el siguiente:
>hits=0<br/>
 for i from 1 to N<br/>
 &nbsp;&nbsp;&nbsp;&nbsp;Generate two random numbers r1 and r2 between 0 and 1<br/>
 &nbsp;&nbsp;&nbsp;&nbsp;If r2<r1^2 then hits=hits+1<br/>
 end for<br/>
 return hits/N

    HINT: Use las funciones `runif()` y `rnorm()`.
3. Crea una lista de cinco matrices numéricas y ordénalas tras su creación.
4. Calcula el valor mínimo de cada columna de una matriz, pero suponiendo que los números impares son negativos y los pares positivos.
5. Dada una matriz devuelve una lista de todos los valores mayores que 7 de cada fila.

# Programación con Tidyverse (paquete `purrr`)
* `map()`: permite aplicar una función con un único argumento a un vector
* `map2()`: permite aplicar una función con dos argumentos a un vector
* `pmap()`: permite aplicar una función con múltiples argumentos a un vector

https://dcl-prog.stanford.edu/purrr-basics.html

In [91]:
?map

In [92]:
library(tidyverse)

starwars %>% select(height, mass) %>% map(mean, na.rm=TRUE)

── [1mAttaching core tidyverse packages[22m ──────────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.3     [32m✔[39m [34mreadr    [39m 2.1.4
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.0
[32m✔[39m [34mggplot2  [39m 3.4.4     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.0
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [93]:
starwars %>% select(height, mass) %>% mean(na.rm=TRUE)

“argument is not numeric or logical: returning NA”


In [94]:
starwars %>% select(height, mass) %>% map_dbl(mean, na.rm=TRUE)

In [95]:
starwars %>% map_if(is.numeric, mean, na.rm=TRUE)

In [96]:
starwars %>% select(height, mass) %>% map(function(df) class(df))

In [97]:
starwars %>% select(height, mass) %>% 
    mutate(resultado=map2_dbl(height, mass, `-`)) %>% 
    head(5)

height,mass,resultado
<int>,<dbl>,<dbl>
172,77,95
167,75,92
96,32,64
202,136,66
150,49,101


In [98]:
starwars %>% select(height, mass) %>% 
    mutate(resultado=map2_dbl(height, mass, \(x, y) x - y)) %>% 
    head(5)

height,mass,resultado
<int>,<dbl>,<dbl>
172,77,95
167,75,92
96,32,64
202,136,66
150,49,101


In [99]:
starwars %>% select_if(is.numeric) %>% head(5)

height,mass,birth_year
<int>,<dbl>,<dbl>
172,77,19.0
167,75,112.0
96,32,33.0
202,136,41.9
150,49,19.0


In [100]:
starwars %>% select_if(is.numeric) %>% pmap_dbl(mean) %>% head(5)

ERROR: [1m[33mError[39m in `pmap_dbl()`:[22m
[1m[22m[36mℹ[39m In index: 1.
[1mCaused by error in `mean.default()`:[22m
[33m![39m el argumento "x" está ausente, sin valor por omisión
