***
# **Práctico 2**
***

<img src="../figures/Rlogo.png" width="500" height="500" />

R es un lenguaje y ambiente especialmente diseñado para la computación estadística y creación de gráficos.  
R se utiliza entre ingenieros de datos, bioinformáticos y estadísticos para el análisis de datos y desarrollo de software estadístico.  
R es libre, de código abierto, lanzado como parte del Proyecto GNU y disponible bajo la Licencia Pública General GNU. 

En este práctico vamos a hacer una introducción a la programación en R.

- **Aclaración:** el contenido de este práctico está muy muy lejos de cubrir comprehensivamente el manejo y la programación en R, es sólo una primera aproximación para que los estudiantes tengan una idea de qué es posible hacer, y puedan empezar a trabajar y aprender más por su cuenta.  
- **Aclaración2:** la terminología en inglés se vuelve muy práctica en esta temática y será usada en cuando sea pertinente (no debe tener ninguna connotación ideológica).
- **Aclaración3**: Las secciones algo más avanzadas aparecen marcadas con la imagen: <img src="../figures/uphill.png" width="50" height="50" />  Estas secciones pueden resultar algo compleja para quienes son nuevos en el área. No pretendemos que entiendan finamente cómo funcionan los comandos, la intención es que tengan una comprensión general y código disponible para tareas potencialmente útiles.

---
**Las secciones de este tutorial son las siguientes**:
1. Tipos de datos  
2. Estructuras de datos
3. Operadores  
4. Bucles
5. Instalación de paquetes
6. Funciones
7. Tidyverse
---

---
#### **1. Tipos de datos**
---

En R existen cinco tipos básicos de tipos de datos más utilizados son:

 - character
 - numeric (real or decimal)
 - integer
 - logical
 - complex

Elementos de estos tipos de datos pueden ser combinados para formar estructuras de datos. La estructura de datos más simple es lo que se conoce como ___atomic vectors___. Estos son vectores con un único elemento y es lo que utilizaremos a continuación para mostrar ejemplos de estos tipos de datos. 

In [1]:
# character
c <- "abc"
# numeric
n <- 123.4
# intiger
i <- 123
# logical
l <- TRUE
# complex
co <- 1 + 2i

Notar:  
Todo lo que quede después de`#` quedará comentado, es decir, esto será ignorado por R, sirviendo únicamente como comentario para ser interpretado por humanos.  
`<-` es un operador de asignación y es utilizado para asignarle un valor a una variable. También es posible utilizar `=` en lugar de `<-`, pero como buena práctica se prefiere utilizar este último para definir variables.

Para saber el tipo de datos de un objeto podemos utilizar la función `class()`.

In [2]:
class(c)

In [3]:
class(l)

---
#### **2. Estructuras de datos**
---

Las estructuras de datos nos permiten guardar distintos tipos de información (o a veces la misma información) de distinta forma y son los objetos manipuladas en R (todo en R es un objeto).

Los principales tipos de estructuras de datos son los siguientes:

 - Vectors
 - Lists
 - Dataframes
 - Matrices
 - Arrays
 - Factors

- **Vectors**

Un vector es una colección ordenada de un tipo de datos básico de una longitud determinada. Todos los elementos de un vector deben ser del mismo tipo de datos. Los vectores son estructuras de datos homogéneas y unidimensionales.  
Por ejemplo:

In [4]:
x <- c(1,2,3)

En este ejemplo lo que estamos haciendo es asignar el vector `(1, 2, 3)` a la variables `x`.  
Nota:  
`c` es una función que combina todos los elementos de entrada para formar (por defecto) un vector).  
Siempre que llamamos a una función en R lo hacemos con la siguiente sintaxis: `function_name(input_data, parameters)`

Nuestra variable `x` la podemos imprimir con la función `print()`.

In [5]:
print(x)

[1] 1 2 3


- **Lists**

Una lista es un objeto compuesto de una colección ordenada de otros objetos. Las listas son estructuras de datos heterogéneas y unidimensionales. Los objetos que componen una lista pueden ser cualquier tipo de objetos, ej., otras listas, vectores, funciones, etc.  
Por ejemplo:

In [6]:
y <- list(x, "this is a string of characters", TRUE, 1:100)

Al hacer `print(y)` podemos ver qué hay en cada posición de la lista `y`.

In [7]:
print(y)

[[1]]
[1] 1 2 3

[[2]]
[1] "this is a string of characters"

[[3]]
[1] TRUE

[[4]]
  [1]   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
 [19]  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
 [37]  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
 [55]  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
 [73]  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
 [91]  91  92  93  94  95  96  97  98  99 100



También podríamos hacer:

In [8]:
print(y[1])

[[1]]
[1] 1 2 3



de forma de extraer e imprimir sólo el primer elemento de la lista. 

Notar:
1. Todas las cadenas de caracteres debemos ponerlas entre paréntesis, de otro modo R intentará encontrar algún objeto llamado como nuestra cadena (o la primera palabra si hay espacios).
2. El operador `:` nos permite crear una secuencia numérica, en este caso de 1 a 100.
3. El valor `TRUE` es un tipo de datos lógico que veremos más abajo.

- **Dataframes**

Los `dataframes` son objetos de R que se utilizan para almacenar datos tabulares y son especialmente populares. Son estructuras de datos bidimensionales y heterogéneas.  
Estas estructuras de datos tienen las siguientes restricciones:  

1. Deben tener nombres de columnas y cada fila debe tener un nombre único.
2. Cada columna debe tener el mismo número de elementos.
3. Cada elemento de una sola columna debe ser del mismo tipo de datos.
4. Diferentes columnas pueden tener diferentes tipos de datos.

Esencialmente, los `dataframes` son listas de vectores de iguales longitudes.

Por ejemplo:


In [9]:
x1 <- 1:5
x2 <- c("a", "b", "c", "d", "e")
x_df <- data.frame(column1 = x1, column2 = x2)

In [10]:
print(x_df)

  column1 column2
1       1       a
2       2       b
3       3       c
4       4       d
5       5       e


In [11]:
colnames(x_df)

In [12]:
rownames(x_df)

Notar: Las funciones `colnames()` y `rownames()` nos permiten extraer (y también definir) los nombres de las columnas y las filas, respectivamente. 

Para extraer una columna de un `dataframe` podemos utilizar el nombres de las columnas con el operador `$`.

In [13]:
x_df$column2

- **Matrices**

Una matriz es una estructura de datos compuesta por un arreglo rectangular de números (o algún otro tipo de datos), que se organizan en filas y columnas. Estas son bidimensionales y homogéneas.  
Las matrices son similares a los `dataframes`, en el sentido que son representaciones rectangulares de los datos, no obstante tiene diferencias importantes, principalmente esto es: en las matrices todos los datos deben de ser del mismo tipo y no es necesario que las filas y las columnas tengan nombres asignados.
Vemos el ejemplo:

In [14]:
x <- matrix(nrow = 3, ncol = 3, data = 1:9)

Con `?` puedes ver la ayuda la función `matrix()` (o cualquier otra función). Para esto debes escribir `?matrix`.

Para extraer elementos de una matriz debemos utilizar el operador `[]` (este operador también puede ser utilizado en `dataframes`, `vectors` y `lists`).  
En particular, al trabajar con matrices debemos utilizar una coma en el medio (i.e., `[,]`). La primera y segunda posición (antes y después de la coma) representan el índice de la fila y columna, respectivamente.
Como regla general, el número de índices que estaremos utilizando en este operador (siempre separados por una coma) será el mismo que la dimensión de nuestro objeto.

In [15]:
print(x)

     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9


In [16]:
print(x[2,2])

[1] 5


¿Sabes cómo podemos utilizar el operador `[]` para extraer toda una fila o columna?

- **Arrays**

Las matrices son estructuras de datos que pueden tener más de dos dimensiones. Son estructuras de datos homogéneas y n-dimensionales.  
Por ejemplo:

In [17]:
a <- array(data = 1:27, dim = c(3,3,3))

In [18]:
print(a)

, , 1

     [,1] [,2] [,3]
[1,]    1    4    7
[2,]    2    5    8
[3,]    3    6    9

, , 2

     [,1] [,2] [,3]
[1,]   10   13   16
[2,]   11   14   17
[3,]   12   15   18

, , 3

     [,1] [,2] [,3]
[1,]   19   22   25
[2,]   20   23   26
[3,]   21   24   27



¿Te das cuenta cómo podemos utilizar el operador `[]` para extraer elementos de un `array`? ¿Puedes extraer únicamente el número 18? 

- **Factors**

`Factors` son estructuras de datos diseñadas para representar variables categóricas ordinales. Los distintos niveles pueden estar representados por números o letras.  
Por ejemplo:

In [19]:
x <- factor(c(1,2,3,4))

In [20]:
print(x)

[1] 1 2 3 4
Levels: 1 2 3 4


Un ejemplo un poco más interesante:

In [21]:
x <- factor(c(1,2,3,4), levels = rev(c(1,2,3,4)))

In [22]:
print(x)

[1] 1 2 3 4
Levels: 4 3 2 1


Te das cuenta qué estamos haciendo en el comando `x <- factor(c(1,2,3,4), levels = rev(c(1,2,3,4)))`?

---
#### **3. Operadores**
---

En R tenemos una serie de operadores para ser aplicados sobre las distintas estructuras de datos que nos permiten realizar todo tipo de operaciones.

Veamos primero que nada los **operadores aritméticos**: como suma, resta, multiplicación, exponente, división y módulo.  
Estos operadores actúan en cada elemento (los cuales deben ser números enteros, decimales, reales o complejos en una estructura de datos dada.

 - Suma: `+`  
 - Resta: `-`  
 - Multiplicación: `*`  
 - Exponente: `^`  
 - Módulo: `%%`

Veamos algunos ejemplos:

In [23]:
x <- 1:10
y <- 20:11

In [24]:
x + y

También tenemos la función `sum()` que nos permite sumar todos los elementos (siempre que sean sumables) que hay en una objecto (i.e., `vector`, `matrix`, `dataframe`, `array`) 

In [25]:
sum(x + y)

Curiosidad: La suma de 1 a 20 es 21 * 10. ¿Esto te recuerda a algo? [¿Suma de una serie de números de Gauss?](https://matematicascercanas.com/2014/05/05/12345-100/).

Los operadores de suma, resta, multiplicación, exponente y módulo tienen el mismo comportamiento. Puedes probarlo por tu cuenta.

Otro tipo de operadores son los **operadores lógicos**: `AND`, `OR`, `NOT`, `greater than`, `less than`, `greater than or equal to`, `less than or equal to`, `equal`, `not equal`.  
Las operaciones lógicas nos dan como resultado uno o más valores lógicos (`TRUE` o `FALSE`), y nos permiten nos permiten tomar comparar de distintas formas nuestros datos.  
Nota: Todo número mayor a cero es considerado `TRUE`, mientras que cero es considerado `FALSE`.

 - AND (element-wise): `&`
 - OR (element-wise): `|`
 - AND: `&&`
 - OR: `||`
 - NOT: `!`

Veamos un ejemplo:

In [26]:
x <- c(0, 0.1)
y <- c(T, F)

Nota: los datos lógicos `TRUE` y `FALSE`, pueden ser escritos simplemente como `T` y `F`, respectivamente. 

In [27]:
x & y

¿Qué elementos de las variables `x` e `y` debes seleccionar con `[]` para obtener un `TRUE` como resultado al utilizar `&`?

Por último, veamos los **Operadores relacionales**: `greater than`, `less than`, `greater than or equal to`, `less than or equal to`, `equal`, `not equal`.  
Los operadores relacionales nos permiten comparar objetos. Al igual que los operadores lógicos, como resultado de estas comparaciones lo que obtenemos es un valor de `TRUE` o `FALSE`.

 - greater than: `>` 
 - less than: `<`
 - greater than or equal to: `>=`
 - less than or equal to: `<=`
 - equal: `==`
 - not equal `!=`

Veamos el ejemplo:

In [28]:
x <= y

Notar que variables `y` tiene valores lógicos:

In [29]:
class(y)

¿Te das cuenta qué es lo que está realmente comparando R acá?

Por último vemos dos operadores que aparecen en la categoría de **Miscellaneous Operators**: `%in%` y `%*%`.  
El primero de estos nos permite saber qué elementos de un objeto están presentes en un segundo objeto. Para este operador lo que obtenemos son valores de `TRUE` y `FALSE`.
El segundo es para realizar multiplicaciones entre matrices conformables. 

Veamos un ejemplo del operador `%in%`:

In [30]:
x <- c("a", "b", "c")
y <- c("b","c", "d")

In [31]:
x %in% y

¿Sabes interpretar la salida de esta comparación?

---
#### **4. Bucles**
---

Los bucles (o loops in inglés), nos permiten ejecutar un bloque de código un número determinado de veces o hasta que determinada condición se cumpla, es decir, iterar sobre un bloque de código.
La ventaja de un bucle, es permitirnos repetir una operación de forma idéntica sobre distintos objetos, o subsecciones de un mismo objeto.
La lógica es esencialmente la misma a lo visto en BASH, pero la sintaxis es diferente.

En R tenemos tres tipos de bucles: `for`, `while` y `repeat`. Vemos cómo funcionan.

 - **`for`**

La sintaxis básica es:

```
for (value in sequence)
{
  statement
}
```

Lo que hacemos en este caso, es que por cada valor de nuestra secuencia, ejecutamos el código en el cuerpo del bucle (i.e., _statement_). Veamos el ejemplo que realizamos en BASH, ahora en R.

In [32]:
numbers <- c(1:10)

In [33]:
for (i in numbers) { 
  print(i)
}

[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10


En R bucle `for` es particularmente útil para recorrer una `matrix`, `dataframe` o `list` utilizando el operador `[]`.

Vemos un ejemplo de esto, utilizando el `dataframe` que construimos arriba: `x_df`. Primero vamos a ver qué dimensiones tiene con la función `dim()`.  

In [34]:
dim(x_df)

Esto es, 5 filas y 2 columnas. En este ejemplo vamos a iterar sobre las filas. Podemos extraer el número de filas con `[]`.

In [35]:
dim(x_df)[1]

In [36]:
for (i in 1:dim(x_df)[1]) {
    print(x_df[i,]) 
}       

  column1 column2
1       1       a
  column1 column2
2       2       b
  column1 column2
3       3       c
  column1 column2
4       4       d
  column1 column2
5       5       e


¿Te das cuenta cómo podemos construir un for anidado para recorrer todos los elementos de nuestra `dataframe`, uno a uno?

 - **`while`**

Como mencionamos en el práctico de BASH, este bucle lo que hace es evaluar una condición en cada iteración y mientras esta expresión sea verdadera, el bucle seguirá ejecutándose.

La sintaxis del `while` en R es la siguiente:

```
while ( condition ) 
{
  statement
}
```

Veamos exactamente el primer ejemplo del práctico de BASH, pero en R:

In [37]:
i <- 1
while (i <= 10) {
  print(i)
  i <- i +1
}

[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10


¿Te das cuenta cómo puedes hacer que un bucle `while` itere infinitamente?

 - **`repeat`**

Este bucle, como su nombre lo indica, lo que hace es repetir un bloque de código. Lo que es importante notar es que este bloque te código debe de contener una condición que nos permita terminar con las repeticiones, de otra forma, el bucle se repetirá infinitamente.

La sintaxis básica es:

```
repeat 
{ 
   statement
 
   if (condition) 
   {
      break
   }
}
```

Veamos el mismo ejemplo anterior, pero codificado en un bucle `repeat`.

In [38]:
i <- 1
repeat {
  print(i)
  i <- i +1 
  if (i > 10) {
    break
  }    
}

[1] 1
[1] 2
[1] 3
[1] 4
[1] 5
[1] 6
[1] 7
[1] 8
[1] 9
[1] 10


Es importante resaltar la palabra clave (o control de flujo) `break`, la cual nos permite terminar un bucle bajo una condición determinada (también puede ser aplicado en un bucle `while` o `for`).

---
#### **5. Instalación de paquetes**
---

Una de las fortalezas de R es que cuenta con una gran comunidad de desarrolladores, y existen paquetes o librerías para todo tipo de análisis.  
Para poder instalar estos paquetes simplemente utilizamos el comando `install.packages()`. Este comando, nos permite instalar paquetes del [Comprehensive R Archive Network (CRAN)](https://cran.r-project.org/index.html).  
El CRAN contiene las versiones anteriores y más recientes de la distribución de R, la documentación y los paquetes de R aportados.

Como ejemplo, podemos instalar el paquete [vegan](https://cran.r-project.org/web/packages/vegan/index.html) que siempre es bueno tenerlo (si es que no lo tienes ya instalado).

In [39]:
# install.packages("vegan")

Alternativamente, en el caso de paquetes desarrollados por el proyecto [Bioconductor](https://www.bioconductor.org/), es necesario realizar las instalaciones utilizando el paquet [BiocManager](https://cran.r-project.org/web/packages/BiocManager/index.html), como se detalla [acá](https://www.bioconductor.org/install/).

Por último, también es posible instalar paquetes directamente desde [GitHub]((https://github.com/) utilizando la función[install_github()](https://www.rdocumentation.org/packages/devtools/versions/1.13.6/topics/install_github) del paquete [devtools](https://cran.r-project.org/web/packages/devtools/index.html).

Una vez que tenemos un paquete instalado, debemos cargarlo en nuestra sesión de R. Esto lo podemos hacer con la función `library()`.

In [40]:
library(vegan)

Loading required package: permute

Loading required package: lattice

This is vegan 2.6-4



---
#### **6. Funciones**
---

Una función es simplemente un conjunto de instrucciones que realizan una tarea determinada sobre un un objecto de entrada, para luego devolvernos un resultado de dicha tareaforma

Además de todas las funciones que existen en R y la gran cantidad de paquetes disponibles, podemos nosotros mismos crear nuestras propias funciones. Esto es especialmente útil cuando queremos realizar determinada tarea varias veces, y esta tarea implica varias líneas de código. De esta forma, definir nuestras propias funciones nos permite tener el código mejor organizado, facilitando su lectura, y evitar potenciales errores. 

En R la sintaxis para definir una función es la siguiente:

```
function_name <- function(arg1 = valoue1, arg2 = value2, ...) {
   statements
   return(output)
}
```

Cuando definimos una función podemos también definir qué argumentos toma esta función (i.e., arg1, arg2) y sus valores por defecto en caso de que estos no sean especificados al llamar la función (i.e., value1, value2). 

Una vez que una función fue definida podremos utilizarla dentro de nuestro ambiente como cualquier otra función de R.

Vamos al ejemplo: Una función que tome como entrada un número y nos devuelva todos sus factores (i.e., divisores para los cuales no hay un resto).

In [41]:
find_divisors <- function(input = 10) {
    
    input_seq <- seq_len(input)
    divisors <- input_seq[ input%%input_seq == 0 ]
    return(divisors)
}

In [42]:
find_divisors(77)

¿Entiendes cómo funciona esta función?

¿Puedes crear una función que tome un número entero como entrada y nos indique si este número es primo o no?

---
#### **7. Tidyverse**
---

El paquete [tidyverse](https://www.tidyverse.org/) es sumamente importante por lo que le vamos a dedicar una subsección de este tutorial para introducir los principales conceptos, operadores, funciones, y tipos de datos.  
Tidyverse es un metapaquete de R diseñado para la ciencia de datos. Todos los paquetes que este metapaquete incluye comparten una filosofía de diseño, gramática y estructura.

- **Pipies**

Una de las importantes ventajas de este paquete es que nos permite utilizar el _pipeline_ en `%>%` (aunque R tiene su propio operador de _pipe_ desde la versión 4.1.0: `|>`).  
De esta forma, utilizando `%>%` podemos encadenar funciones, una tras otra, sin la necesidad de asignar variables intermedias o paréntesis profundamente anidados.

Para poder empezar a usar este metapaquete, primero debemos instalarlo y cargarlo. La instalación puede dar algunos problemas de dependencia. Hay que tener paciencia e ir instalando las dependencias una a una.  

Nota: Para los estudiantes trabajando en el servidor `oceania.cure.edu.uy` no será necesario instalar ningún paquete. 

In [43]:
# install.packages("tidyverse")

In [44]:
library(tidyverse)

── [1mAttaching core tidyverse packages[22m ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.2     [32m✔[39m [34mreadr    [39m 2.1.4
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.0
[32m✔[39m [34mggplot2  [39m 3.4.2     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.2     [32m✔[39m [34mtidyr    [39m 1.3.0
[32m✔[39m [34mpurrr    [39m 1.0.1     
── [1mConflicts[22m ───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-

Veamos un ejemplo. En lugar de:

In [45]:
sqrt(abs(-2))

ahora podemos hacer:

In [46]:
-2 %>% abs %>% sqrt

Esto empieza a tener más sentido cuando tenemos que aplicar varias funciones, como veremos más adelante.

Puedes encontrar alguna diferencia en el comportamiento del _pipe_ nativo de R `|>` vs. `%>%`.

- **tibbles**

Tibbles son una versión mejorada de los `data.frames` que vimos arriba.

Una de las principales ventajas está en cómo definimos una tabla en formato `tibble`. La función `tibble()` reciclará automáticamente las entradas de longitud 1 y permitirá hacer referencia a las variables que acabamos de crear, como se muestra a continuación.

In [47]:
tibble(
  column1 = 1:10, 
  column2 = "a", 
  column3 = column1 + which(letters == unique(column2))
)

column1,column2,column3
<int>,<chr>,<int>
1,a,2
2,a,3
3,a,4
4,a,5
5,a,6
6,a,7
7,a,8
8,a,9
9,a,10
10,a,11


¿Puedes intentar definir esta misma tabla como un `data.frame`?

Otra ventaja es que los `tibbles` tienen un método de impresión más refinado que muestra sólo las primeras 10 filas y todas las columnas que caben en la pantalla, incluyendo para cada columna el tipo de dato (como se observa en la tabla que generamos arriba).

Existen varias otras ventajas de los tibbles que puedes ver [acá](https://r4ds.had.co.nz/tibbles.html).

- **tidy data**

`tidy data` son tablas que están organizados de forma _tidy_. Este formato permite trabajar más fácilmente con las tablas, y pueden ser más rápidamente procesadas por R en el caso de contar de que exista una gran número de columnas (ej., tablas de abundancias de ASVs). El paquete `tidyverse` tiene muchas facilidades para trabajar con datos _tidy_, permitiendo tanto el formateo de una tabla tradicional (ej., una tabla donde tenemos las observaciones como una única fila y cada variable registrada como una columna distinta) a formato _tidy_, como la manipulación de tablas _tidy_. 

Veamos más concretamente a qué refiere el formato _tidy_. Para esto vamos a definir una tabla tradicional.

In [48]:
X <- data.frame(
  nombre = c("Juan", "Carlos", "Raul"),
  edad = c(22, 24, 89),
  altura = c(1.8, 1.75, 1.85),
  nota = c(1, 2, 3)
)

In [49]:
X

nombre,edad,altura,nota
<chr>,<dbl>,<dbl>,<dbl>
Juan,22,1.8,1
Carlos,24,1.75,2
Raul,89,1.85,3


Este tipo de tabla tiene, para cada observación (i.e., nombre), las variables registradas (i.e., edad, altura, nacionalidad). Para convertir esta tabla a formato _tidy_ utilizamos la función [pivot_longer](https://www.rdocumentation.org/packages/tidyr/versions/1.3.0/topics/pivot_longer) de `tidyverse`.

In [50]:
X_tidy <- X %>% pivot_longer(names_to = "variable", 
                             values_to = "values", 
                             cols = c(edad, altura, nota))

In [51]:
X_tidy

nombre,variable,values
<chr>,<chr>,<dbl>
Juan,edad,22.0
Juan,altura,1.8
Juan,nota,1.0
Carlos,edad,24.0
Carlos,altura,1.75
Carlos,nota,2.0
Raul,edad,89.0
Raul,altura,1.85
Raul,nota,3.0


¿Se entiende en qué consiste el formato _tidy_?

Ahora la misma observación queda representada en varias filas, y los nombres de las variables originales quedan organizadas en un nueva columna y sus valores en otra (i.e., `variable` y `values`, respectivamente, en nuestro ejemplo). Esto es lo que estamos especificando con las argumentos `names_to` y `values_to` en la función `pivot_longer`, mientras que con el argumento `cols` especificamos qué columnas vamos a dejar formateadas como _tidy_.

¿Puedes probar qué sucede si dejamos la variable `nota` fuera del formato _tidy_?

Por supuesto, también podemos convertir una tabla _tidy_ a un formato tradicional (_messy_ como se dice algunas veces). Para esto `tidyverse` cuenta con la función [pivot_wider](https://www.rdocumentation.org/packages/tidyr/versions/1.3.0/topics/pivot_wider).

¿Puedes convertir la tabla X_tidy a su formato original?

Si quieres seguir aprendiendo sobre _tidy data_ [acá tienes más material](https://r4ds.had.co.nz/tidy-data.html).

- **select y filter**

[select](https://www.rdocumentation.org/packages/dplyr/versions/1.0.10/topics/select) y [filter](https://www.rdocumentation.org/packages/dplyr/versions/0.7.8/topics/filter) son dos funciones muy prácticas dentro del paquete `tidyverse`. Mientras que `select` nos permite seleccionar variables de una `data.frame` o `tibble`, `filter`, nos permite seleccionar observaciones que cumplan determinado condición en una o más variables.  

Un ejemplo de `select` muy simple sobre nuestra tabla X puede ser:

In [52]:
select(X, !nombre)

edad,altura,nota
<dbl>,<dbl>,<dbl>
22,1.8,1
24,1.75,2
89,1.85,3


La función `select` puede resultar muy conveniente en combinación de las funciones [starts_with](https://www.rdocumentation.org/packages/tidyselect/versions/1.2.0/topics/starts_with) y [ends_with](https://www.rdocumentation.org/packages/metacoder/versions/0.3.6/topics/ends_with).  
¿Te imaginas cómo puedes utilizar estas otras funciones para seleccionar columnas?

Como ejemplo de `filter` vamos a seleccionar de nuestra tabla `X` aquellos individuos con una altura mayor a 1.8.  

In [53]:
X %>% filter(altura > 1.8)

nombre,edad,altura,nota
<chr>,<dbl>,<dbl>,<dbl>
Raul,89,1.85,3


Como era de esperar, `Raul` es el único que cumple esta condición.

- **group_by, mutate y summarize**

Estos son otro par de funciones de `tidyverse` que comúnmente se utilizan juntas para realizar operaciones sobre tablas, idealmente, en formato _tidy_. La función [group_by](https://www.rdocumentation.org/packages/dplyr/versions/1.0.10/topics/group_by) nos permite definir grupos dentro de una tabla en base a una o más variables, de tal forma que con la función [mutate](https://www.rdocumentation.org/packages/dplyr/versions/0.5.0/topics/mutate) definamos una nueva variable en base a una operación en cada grupo, o definamos una variable resúmen con [summarize](https://www.rdocumentation.org/packages/Hmisc/versions/5.1-1/topics/summarize)

La mejor forma de entender cómo funcionan es con un ejemplo. Para esto, primero vamos a crear una nueva tabla (la tabla X de arriba es demasiado simple como para que los ejemplos tengan algo de gracia). Para ya irnos aclimatando, vamos a simular una tabla de ASVs (y de paso vemos un ejemplo de la función [tribble](https://www.rdocumentation.org/packages/tibble/versions/1.2/topics/tribble)).

In [54]:
X_asvs <- tribble(
    ~sample, ~asv1, ~asv2, ~asv3, ~asv4, ~asv5, ~asv6, ~asv7, ~asv8, ~asv9, ~asv10,
    "sample_1", 1, 0, 0, 0, 10, 10, 15, 0 ,1 ,3,
    "sample_2", 0, 1, 10, 0, 30, 1, 4, 0 ,0 ,2,
    "sample_3", 10, 12, 11, 20, 50, 1, 6, 0 ,0 ,0
)

In [55]:
X_asvs

sample,asv1,asv2,asv3,asv4,asv5,asv6,asv7,asv8,asv9,asv10
<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
sample_1,1,0,0,0,10,10,15,0,1,3
sample_2,0,1,10,0,30,1,4,0,0,2
sample_3,10,12,11,20,50,1,6,0,0,0


Como podemos ver, nuestra tabla de ASVs está en un formato _messy_. Vamos a formatearla como _tidy_.

In [56]:
X_asvs_tidy <- X_asvs %>%
               pivot_longer(names_to = "asv_id", 
                            values_to = "abund", 
                            cols = asv1:asv10)

Vemos cómo se ve:

In [57]:
X_asvs_tidy

sample,asv_id,abund
<chr>,<chr>,<dbl>
sample_1,asv1,1
sample_1,asv2,0
sample_1,asv3,0
sample_1,asv4,0
sample_1,asv5,10
sample_1,asv6,10
sample_1,asv7,15
sample_1,asv8,0
sample_1,asv9,1
sample_1,asv10,3


Ahora utilizando la funciones `group_by` y `mutate` vamos a computar la abundancia relativa.

In [58]:
X_asvs_tidy %>% 
    group_by(sample) %>% 
    mutate(abund_rel = abund/sum(abund))

sample,asv_id,abund,abund_rel
<chr>,<chr>,<dbl>,<dbl>
sample_1,asv1,1,0.025
sample_1,asv2,0,0.0
sample_1,asv3,0,0.0
sample_1,asv4,0,0.0
sample_1,asv5,10,0.25
sample_1,asv6,10,0.25
sample_1,asv7,15,0.375
sample_1,asv8,0,0.0
sample_1,asv9,1,0.025
sample_1,asv10,3,0.075


Ahora utilizando la funciones `group_by` y `mutate` vamos a computar la abundancia relativa.
Como ejemplo de `summarize` vamos a computar la abundancia promedio de cada ASV por muestra.

In [59]:
X_asvs_tidy %>% 
    group_by(sample) %>% 
    summarize(abund_mean = mean(abund))

sample,abund_mean
<chr>,<dbl>
sample_1,4.0
sample_2,4.8
sample_3,11.0


Te proponemos como ejercicio seleccionar todos los ASVs con una abundancia mayor a 1 y computar la riqueza  por muestra (es decir, el número de ASVs distintos).

**left_join, right_join, inner_join y full_join**

Las funciones [join](https://dplyr.tidyverse.org/reference/mutate-joins.html) del paquete `tidyverse` son otras de las funciones especialmente útiles que merecen ser destacadas. Estas nos permiten cruzar tablas, es decir, juntar dos tablas utilizando una o más variables que permitan identificar cómo se corresponden fila a fila estas dos tablas.

Supongamos que vamos a cruzar las tablas `X` e `Y`, el comportamiento de cada uno de estos _joins_ es el siguiente:

 - `inner_join(x = X, y = Y)`, mantiene sólo las observaciones de `X` identificadas en `Y`.  
 - `left_join(x = X, y = Y)`, mantiene todas las observaciones de `X`, independientemente si estas pueden ser identificadas en `Y`.
 - `right_join(x = X, y = Y)`, mantiene todas las observaciones de `Y`, independientemente si estas pueden ser identificadas en `X`.
 - `full_join(x = X, y = Y)`, mantiene todas las observaciones de `X` e `Y`.  

¿Se entiende?

Vamos al ejemplo: Supongamos que para nuestra tabla de `X_asvs` tenemos una tabla de metadata llamada `Y` que nos indica si la muestra fue tomada de una laguna o un arroyo.

In [60]:
Y <- data.frame(sample = c("sample_1", "sample_2", "sample_3"), 
                sistema = c("laguna", "laguna", "arroyo"))

Ahora vamos a mapear el ambiente a la tabla `X_asvs_tidy`.

In [61]:
left_join(x = X_asvs_tidy, y = Y, by = "sample")

sample,asv_id,abund,sistema
<chr>,<chr>,<dbl>,<chr>
sample_1,asv1,1,laguna
sample_1,asv2,0,laguna
sample_1,asv3,0,laguna
sample_1,asv4,0,laguna
sample_1,asv5,10,laguna
sample_1,asv6,10,laguna
sample_1,asv7,15,laguna
sample_1,asv8,0,laguna
sample_1,asv9,1,laguna
sample_1,asv10,3,laguna


¿Cambiaría el resultado si utilizamos algún otro de las funciones _join_?

Estudiar las funciones y facilidades que ofrece `tidyverse` es una inversión de tiempo que verás compensada rápidamente. Existe mucha documentación en internet, pero posiblemente lo más conveniente sea comenzar por la [documentación oficial](https://www.tidyverse.org/).  