# <span style="color: blue">Laboratorio 0: Introducción a R</span> <a class="tocSkip"> 

### <span style="color: green">Prof. Andrés Arguedas - XS-0300 - II 2020 con colaboraciones de Andrea Vargas</span> <a class="tocSkip"> 

*Este laboratorio es parte del curso XS-0300 Estadística para Biología I de la Escuela de Estadística de la Universidad de Costa Rica, y se presenta con una licencia [CC-BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).*

**ATENCIÓN:** Antes de entregar este laboratorio, asegúrese que todo corre como se espera. Para hacer esto, primero **reinice el kernel**, esto lo puede hacer seleccionado **Kernel** en el menú y luego **Restart**:
    
![restart-img.gif](attachment:restart-img.gif)

Habiendo reiniciado el kernel, **corra todas las celdas**, esto lo puede hacer seleccionando **Cell** en el menú y luego **Run All**:
    
![runall-img.gif](attachment:runall-img.gif)

Por último, recuerde rellenar cualquier lugar donde diga `ESCRIBA SU CÓDIGO AQUÍ` o "ESCRIBA SU RESPUESTA AQUI", así como escribir su nombre y carné a continuación:

In [None]:
NOMBRE = ""
CARNE = ""

---

## Preparación para este laboratorio
    
El presente laboratorio tiene como objetivos de aprendizaje:
    
1. Saber que son R, RStudio y Jupyter Notebooks
2. Ser capaz de utilizar la línea de comando para realizar operaciones matemáticas y sobre datos
3. Saber qué son y como utilizar funciones en R
4. Saber qué son paquetes en R, como instalarlos y cargarlos
5. Conocer el paquete `dplyr` y el operador `%>%`

Adicionalmente, no es necesario descargar ningún conjunto de datos o paquetes adicionales.

## Introducción a las herramientas

Para empezar este laboratorio, vamos a hacer una pequeña presentación de las principales herramientas que usaremos durante los laboratorios y para realizar los análisis a lo largo del curso. Además de una breve explicación de cada herramiento, también tendrán acceso al link para descargarlo en sus computadoras, si quisieran.
    
### ¿Qué es R?

[R](https://www.r-project.org) es un lenguaje de programación creado por John Chambers, entre otros, y basado originalmente en el lenguaje de programación S, creado también por Chambers mientras trabajaba para Bell Laboratories. R es software libre y, por lo tanto, puede ser utilizado, modificado y compilado por cualquier persona, lo cual presenta la ventaja de ser altamente utilizado y con muchas ocpiones de modificaciones y mejoras de sus capacidades, pero al ser software libre, no tiene ningún tipo de garantía, aunque su amplio uso a lo largo de décadas y en muchas diferentes áreas del saber le han dado un gran respaldo y credibilidad dentro del ambiente científico. 

Además de esto, R tiene muy buenas capacidades gráficas y puede realizar casi cualquier análisis estadístico imaginable, por lo general gracias a aportes por investigadores en distintas áreas, lo cual lo ha promovido a una posición como el lenguaje de programación, o software estadístico, más utilizado para realizar análisis estadísticos. Aun en otros lenguajes de programación utilizados para análisis de datos, como Python, los mejores gráficos se crean mediante un paquete de R, `ggplot2`. Por lo anterior, para efectos de publicación de artículos científicos, y para análisis de datos con otros objetivos, R siempre es una de las principales opciones a utilizar. 

Para instalar R en su computadora, pueden seguir el siguiente [enlace para instalarlo en Windows](https://cran.r-project.org/bin/windows/base/) o este [enlace para instalarlo en MacOSX](https://cran.r-project.org/bin/macosx/), aunque probablemente también tengan que instalar [XQuartz](https://www.xquartz.org) antes de instalar R si están usando Mac.

Para abrir R en su computadora deben buscar el siguiente ícono:
<a title="Hadley Wickham and others at RStudio / CC BY-SA (https://creativecommons.org/licenses/by-sa/4.0)" href="https://commons.wikimedia.org/wiki/File:R_logo.svg"><img width="32" alt="R logo" src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1b/R_logo.svg/32px-R_logo.svg.png"></a> 
Y al abrirlo les debería salir la siguiente pantalla:

![r-img.png](attachment:r-img.png)

donde la ventana denominada **R Console** es la línea de comando, o terminal de R, la cual veremos más adelante. Como se puede notar, visualmente R es bastante plano y, por lo general no utilizamos R como tal sino una interfaz gráfica conocida como RStudio.

### ¿Qué es RStudio?

[RStudio](https://www.rstudio.com) es una interfaz gráfica desarrollado para R, la cual se ha vuelto sinónimo de este lenguaje de programación y es, casi por default, la forma más usual de utilizar R. RStudio, como compañia, fue fundado en 2009 por J.J. Allaire y publicaron por primera vez la interfaz gráfica, por la cual son más conocidos, en el 2011 y a partir de entonces han sacado distintas versiones de dicha interfaz gráfica, agregando distintas funcionalidades y características útiles.

Para instalar RStudio, primero deben instalar R y luego descargar RStudio del [siguiente enlace](https://rstudio.com/products/rstudio/download/#download) escogiendo **RStudio Desktop** en la versión gratuita. Una vez descargado e instalado, pueden buscar RStudio en sus computadoras mediante el siguiente ícono:

<img width="128" alt="RStudio logo" src="https://rstudio.com/wp-content/uploads/2018/10/RStudio-Logo-flat.svg">

Una vez abierto RStudio, les debería aparecer lo siguiente en su pantalla:

![rstudio-img.png](attachment:rstudio-img.png)

Como pueden ver hay tres ventanas principales, a la izquierda está la consola o terminal, que es lo mismo que salía en el programa de R, pero ahora hay otras dos ventanas: arriba a la derecha está la pestaña de *Environment*, o ambiente, que despliega lo que se tenga guardado en memoria, y abajo a la derecha está la pestaña donde se pueden ver los gráficos que se van creando, junto con los paquetes instalados, la ayuda de R y los archivos de la computadora, entre otros. En resumen, realmente no hay razón para usar R sin utilizar RStudio. Pero entonces, si RStudio es la forma por default de usar R, ¿por qué no estamos usando RStudio para este laboratorio? Esto lo vamos a contestar en la siguiente sección.

### ¿Qué es Jupyter Noteboooks?

Los [Jupyter Notebooks](https://jupyter.org) fueron creados originalmente para el lenguaje de programación [Python](https://www.python.org), especificamente utilizando una mejora visual a la consola llamada [IPython](https://ipython.org), como una forma de mejorar la legibilidad del código, además de agregar la función de poder agregar texto e interpretaciones después de haber corrido comandos o creado gráficos. Durante los años distintas versiones de los Jupyter Notebooks han sido sacadas al público y también, por la popularidad misma de R, ahora es posible correr código de R en estos notebooks, no solamente Python, que es lo que vamos a utilizar durante los laboratorios de este curso. Aunque es posible correr todos estos laboratorios en RStudio, para efectos de revisión y ejecución unificada de los laboratorios por todos los estudiantes, sin preocuparse por la versión de R utilizada, o de los paquetes descargados, además de descargar los datos, es más sencillo utilizar un documento creado mediante Jupyter Notebooks a crear un script en R para cada estudiante, con posibles errores debido a utilizar entornos o sistemas operativos distintos.

La instalación de los Jupyter Notebooks no es tan sencilla como la de R y RStudio, ya que la forma más sencilla es primero instalar [Anaconda](https://www.anaconda.com/products/individual), un manejador de paquetes de Python, y luego con base en Anaconda instalar los Jupyter Notebooks, como se menciona en este [enlace](https://jupyter.org/install). Por lo anterior, este laboratorio, y todos los demás del curso, aunque están corriendo en un Jupyter Notebook, lo están haciendo desde la nube, es decir, no necesitan instalar los Jupyter Notebooks para poder trabajar con los laboratorios y entregarlos, solamente necesitan una conexión a internet y los podrán acceder en cualquier momento desde cualquier dispositivo.

## Línea de comando y R como calculadora

Habiendo discutido sobre las distintas herramientas que utilizaremos en los laboratorios del curso, vamos a empezar a trabajar con la consola, o la línea de comando de R, junto con algunos comandos básicos de Jupyter para poder hacer operaciones matemáticas sencillas. El rectángulo que se presenta a continuación se denomina una "celda", que contiene código de R, en este caso, `2 + 2`, que nos debería dar como respuesta 4, o el resultado de sumar dos más dos. Como nota aclaratoria, siempre que se presente texto en un recuadro gris, `como esto`, se está haciendo referencia a un comando o algo que se puede ejecutar en R, no a texto común y corriente. Habiendo aclarado esto, procedamos a correr nuestra primera línea de código:

In [None]:
2 + 2

Por ahora, no se muestra ningún resultado debajo de la celda; esto se debe a que todo el código debe ser ejecutado, o corrido, antes de poder obtener una respuesta. En RStudio y R, por lo general el código se corre presionando **Enter** o **Ctrl + r**, pero en Jupyter para poder correr una celda hay varias formas distintas de hacerlo. La forma más usual es presionando **Shift + Enter** posicionado sobre una celda, como se muestra a continuación:

![runshiftenter-img.gif](attachment:runshiftenter-img.gif)

Como se puede ver, al presionar **Shift + Enter** se agregó un 4 debajo de la celda, que es el resultado de correr el comando `2 + 2` y, además, a la izquierda de la celda pasó de mostrar `In [ ]:` a `In [1]:`. En este caso, cuando no hay nada entre los paréntesis cuadrados significa que la celda todavía no se ha ejecutado, es decir, no se ha corrido el código, mientras que, cuando aparece un número, indica que ya la celda se corrió y el número indica el orden en el cual se corrió el código. Esto quiere decir que, si una celda muestra `In [2]:` esta fue ejecutada después de una celda que tenga `In [1]:` por lo que, por lo general, esperamos que, conforme bajemos en el notebook, el código sea ejecutado sequencialmente.

Otra forma de correr las celdas es mediante los botones del menú, específicamente el botón que dice $\blacktriangleright |$ Run, como se muestra a continuación:

![runbutton-img.gif](attachment:runbutton-img.gif)

Cualquiera de las dos formas de correr las celdas de código da el mismo resultado, así que todo depende de la preferencia personal.

Volviendo al ejemplo de código presentado anteriormente, una de las utilidades más básicas de R es que este se puede usar como una calculadora, como en el ejemplo anterior, donde calculamos $2+2=4$. Aun así, la suma no es la única operación matemática que podemos realizar, sino que podemos hacer uso de otras operaciones:

|Operación|Comando|Ejemplo|Ejemplo en R|
|:-:|:-:|:-:|:-:|
|Suma|`+`| $x + y$ | `x + y` |
|Resta|`-`| $x - y$ | `x - y`|
|Multiplicación|`*`| $x * y$ | `x * y` |
|División|`/`| $x / y$ | `x / y`|
|Potencia|`^`| $x^y$ | `x^y`|

Como podemos ver, todas las operaciones matemáticas básicas están por defecto en R, así que podemos utilizarlas para manipular números de forma sencilla. Pero, ¿qué pasa si queremos utilizar el resultado de una operación en otro momento? Por ejemplo, supongamos que queremos hacer las siguientes operaciones:

$$
x = 3; \quad y = x * 2; \quad z = y ^ 3
$$

¿Cómo podemos hacer esto en R? Mediante el operador `<-`, u operador de asignación, podemos guardar un resultado obtenido en la memoria de la computadora y podemos manipularla y llamarla dentro de R. Para el ejemplo que mencionamos anteriormente, podemos hacer lo siguiente:

In [None]:
x <- 3
y <- x * 2
z <- y^3

*Recuerde correr la celda anterior antes de seguir, por lo que debería mostrar un número dentro de los paréntesis cuadrados al lado del `In`*. Habiendo definido las variables `x`, `y` y `z` en la memoria, ¿cómo hacemos para verlas? Si escribimos las variables en la consola y corremos la celda, podemos ver el resultado que está guardado en dichas variables:

In [None]:
x
y
z

Si corrieron las dos celdas anteriores, el resultado de la celda debería ser el siguiente:

![res1-img.png](attachment:res1-img.png)

aunque el número dentro del `In []:` puede variar dependiendo de lo que hayan hecho. Otra forma de ver cuales variables están guardadas en el entorno se puede hacer mediante una extensión de Jupyter, presentada como un botón en el menú en forma de una retícula, como se presenta en la siguiente imagen:

![variableinspector-img.png](attachment:variableinspector-img.png)

Si presionan ese botón les debería sacar un pequeño recuadro con todas las variables guardadas en la memoria, que deberían ser `x`, `y` y `z`.

Ahora si, verifiquemos que el resultado que obtuvo R realmente era el apropiado. Desarrollemos las fórmulas que teníamos:

$$
x = 3 \Rightarrow y = x * 2 = 3 * 2 = 6 \Rightarrow z = y^3 = 6^3 = 216
$$

Por lo que el resultado que obtuvimos de R es el que esperabamos obtener. Esto también lo pudimos haber obtenido como:

$$
z = y^3 = (x * 2)^3 = (3 * 2)^3 = 216
$$

Cuando escribimos operaciones matemáticas en R, las leyes de los paréntesis se mantienen al igual que en la matemática, por lo tanto, podríamos escribir `(3 * 2)^3` y obtendríamos el mismo valor de 216, pero si escribimos `3 * 2^3` obtendríamos 24.

### Ejercicio (3 pts.)

Con base en lo visto sobre las operaciones matemáticas en R, además del operador de asignación `<-`, guarde cada una de las siguientes operaciones en las respectivas variables, utilizando el bloque de código presentado a continuación. *Recuerde: Si ocupa ayuda con cualquier ejercicio se espera que le pregunte al profesor.*

- `a`: $\sqrt{2}$
- `g`: $\left((2 * 3) + 5 \right)/6$
- `u`: $\pi$

In [None]:
# ESCRIBA SU CÓDIGO AQUÍ
testthat::fail() # No respuesta - elimine esta línea si escribió una respuesta

Corra las siguientes celdas para ver su respuesta y verifique que sea correcta:

In [None]:
a

In [None]:
g

In [None]:
u

Como nota general, R fue creado y pensado con el inglés como idioma original y en un ambiente anglo-sajón, por lo tanto, aunque en español lo correcto es usar la "," para separar decimales y el "." para separar millares, en R se utiliza el estándar anglo-sajón, es decir, el "." para separar decimales y la "," para los millares. Aunque R no muestra millares por default, es importante hacer esta aclaración para no crear más confusión con los resultados obtenidos al momento de interpretarlos. Por lo tanto, para poder escribir el número 2,5, es decir dos y medio, necesitamos usar `2.5` en lugar de `2,5` en R, ya que el segundo nos da un error.

## Funciones

Aunque las operaciones matemáticas nos pueden ayudar a manipular ciertos números, R es mucho más que una calculadora y, mediante funciones, nos permite extender sus características y usos para lograr muchos resultados distintos. La forma más sencilla de pensar en las funciones es como se trabajan con las funciones matemáticas en cálculo. Entonces, por ejemplo, si definimos:

$$
f(x) = x^2
$$

de fondo lo que estamos haciendo es pasando un cierto número, denominado $x$, por la función $f()$ y obteniendo un cierto resultado, en este caso $x^2$. En el caso de las funciones en R la lógica es básicamente la misma, si hubieramos definida una función `f()` que eleva un cierto número al cuadrado, entonces esperamos que `f(x)` nos devuelva `x^2`. Por lo general, podemos separar el comando que usaríamos `f(x)` en dos partes principales:

- `f` es el nombre de la función, por lo general, cuando nos refiramos a una función en los laboratorios la presentaremos con paréntesis, es decir `f()` en lugar de `f`. Lo anterior con el objetivo de diferenciar una variable de una función, dado que las funciones tienen paréntesis, mientras que las variables no.
- `x` es el argumento, o lo que estamos pasando o transformando a través de la función `f()`. Una misma función puede tener varios argumentos, los cuales se separan mediante una `,`, y dichos argumentos pueden tener nombres específicos, los cuales veremos más adelante.

Un ejemplo de una función en R es `sqrt()` la cual, como su nombre lo dice, calcula la raíz cuadrada de un cierto número. Como es de esperar, esta función solamente tiene un argumento, que es el número al cual queremos sacar su raíz cuadrada. Por lo tanto, si escribimos `sqrt(2)` nos devuelve la raíz cuadrada de $2$, mientras que `sqrt(2,2)` nos devuelve un error, ya que hay más argumentos que los especificados. Escriba en la siguiente celda el comando para obtener la raíz cuadrada de 10 y corralo. Verifique que el resultado es $3.16$, aproximadamente.

In [None]:
# ESCRIBA SU CÓDIGO AQUÍ

Si en algún momento tiene alguna duda sobre una función en R, puede preguntarle al profesor, buscar la documentación en internet, o acceder a la documentación directamente desde la consola. Esto lo puede hacer agregando un `?` antes del nombre de la función y ejecutándolo. Por ejemplo, si quisieramos ver la ayuda de la función `sqrt()`, podemos correr el comando `?sqrt` y, dentro de esta misma página, nos mostrará una ventana emergente en la parte inferior de la pantalla con la información o documentación de la función que queremos.

### Ejercicio (2 pts.):

Otra función de R que se puede utilizar para realizar cálculos matemáticos es `log()`, que calcula el logaritmo de un cierto número, por default, el logaritmo natural. Corra el comando presente en la siguiente celda y lea la documentación de dicha función:

In [None]:
?base::log

*En el comando anterior, utilizamos `base::` para indicar que es la función `log()` del paquete `base`, es decir, de las funcionalidades originales de R. Esto lo hacemos porque pueden existir funciones con el mismo nombre, pero por lo general lo omitimos*

Con base en la documentación de la función `log()`, conteste las siguientes preguntas:

1. ¿Cuáles son los argumentos de la función `log()`? ¿Qué significa, en la función `log()`, que `base = exp(1)`? *Sugerencia: recuerde cual era el logaritmo que calculabamos, por default, con esta función y si ocupa ayuda, también puede leer la documentación de la función `exp()`*
2. Si quisieramos obtener el logaritmo con base 5 de un número $x$, escriba el comando que se debería utilizar.

*Para escribir su respuesta, de doble click sobre el texto "ESCRIBA SU RESPUESTA AQUI" y cambielo por su respuesta. Puede escribir en esa celda como en cualquier editor de texto y, si quiere ver su resultado, puede correr la celda nuevamente.*

ESCRIBA SU RESPUESTA AQUI

## Tipos de variables y datos en R

### Tipos de variables

Hasta ahora, hemos visto como trabajar con números en R, pero realmente hay muchos distintas formas en que podemos manipular nuestros datos en R. Las principales formas se presentan a continuación:

- **Numéricos:** Representa un número, puede ser natural, entero, real o hasta imaginario. Son el tipo de variable que más vamos a usar, y por lo general la mayor parte de las funciones están diseñadas para números, pero no son el único tipo de variable que usaremos.
- **Caracteres** o **strings:** Representan texto en general, sin ningún orden, y pueden aceptar casi cualquier tipo de información como texto. Es una de las formas más versátiles de guardar información en R, pero tiene el inconveniente que, al ser tan libre, es poco estructurado y se puede volver difícil trabajar con estas.
- **Factores:** Son un tipo especial de variable de texto o numérica, donde la variable solamente puede tomar ciertas valores. Por ejemplo, si tenemos una cocina que solamente tiene tres niveles de calor: Alto, Medio y Bajo, podríamos definir una variable de factor, donde los *niveles* de dicha variable sean los posibles calores: `Alto`, `Medio` y `Bajo`. Cuando trabajemos con datos reales en el próximo laboratorio, veremos cómo funcionan los factores con mayor profundidad.
- **Lógicos:** Se utilizan para denominar variables que son verdaderas (`TRUE` o `T`) o falsas (`FALSE` o `F`). Por lo general, se utilizan para determinar, dentro de las funciones, si ciertas condiciones se están cumpliendo, para poder aplicar los procedimientos adecuados.

Además de los mencionados anteriormente, R también soporta distintos tipos de variables como fechas, imagenes, sitios web, coordenadas geográficas, mapas y se pueden definir más tipos mediante distintos paquetes. Con respecto a la forma en la cual podemos almacenar dichos datos, las dos formas más comúnes para hacerlo son mediante *vectores* o *data frames*.

### Vectores

En primer lugar, los vectores son una serie de elementos de un cierto tipo (numéricos, caracteres, fechas, etc.) que se guardan como una sola variable. Por ejemplo, supongamos que los de tres estudiantes son 70, 80 y 50 kg, respectivamente. En este caso, podemos guardar esta información como tres variables distintas (`peso1`, `peso2` y `peso3`) o podemos guardar los tres pesos en una sola variable (`peso`), que sería un vector. Primero guardemos los pesos como tres variables distintas:

In [None]:
peso1 <- 70
peso1
peso2 <- 80
peso2
peso3 <- 50
peso3

En este caso, tanto `peso1`, `peso2` como `peso3` son variables numéricas que contiene solamente un valor, el peso de cada estudiante. Ahora, si quisieramos hacer un vector con los pesos de los 3 estudiantes, podemos usar la función `c()` para crear un vector, donde los argumentos de dicha función son los valores de los pesos, como se muestra a continacuión:

In [None]:
peso <- c(70, 80, 50)
peso

Como podemos ver, el resultado de `peso` es distinto al de las tres variables que definimos anteriormente, dado que obtuvimos los tres valores en una sola línea. Esto se debe a que la variable `peso` tiene tres "posiciones" distintas, que son los "espacios" correspondientes a cada uno de los pesos de los estudiantes. Por lo anterior, el peso del primer estudiante ocupa la primer posición, el peso del segundo estudiante la segunda posición y el peso del tercer estudiante la tercera posición. Si queremos obtener solamente algunos de los pesos de los estudiantes, podemos agregar `[]` al final de `peso` y especificar la posición, o las posiciones, que queramos obtener. Veamos el siguiente ejemplo:

In [None]:
# Peso del primer estudiante
peso[1]
# Peso del segundo estudiante
peso[2]
# Peso del tercer estudiante
peso[3]
# Peso del segundo y tercer estudiante
peso[2:3] # En este caso 2:3 devuelve los números del 2 al 3
# Peso del primer y tercer estudiante
peso[c(1, 3)] # Podemos definir un vector dentro de paréntesis cuadrados

En la celda anterior, note que hay cierto texto en verde después de un signo numeral (`#`), esto se conoce como un comentario y cualquier cosa en una línea que se escriba después de un `#` no será ejecutado. Por lo tanto, para efectos prácticos, R está ejecutando lo siguiente cuando lee la celda anterior:

```{r}
peso[1]
peso[2]
peso[3]
peso[2:3]
peso[c(1, 3)]
```

sin tomar en cuenta el texto en verde. Con respecto a los resultados obtenidos, cómo se puede ver, si queremos guardar información de varios sujetos para una misma variable, es más eficiente utilizar un vector que guardar cada dato como una variable distinta.

### Data frames

Un data frame es la forma de almacenar datos más usado en R y una de las principales razones por las cuales este lenguaje es uno de los más usados para análisis estadísticos a lo largo de distintas disciplinas. De forma general, un data frame es una agrupación de vectores del mismo tamaño, por ejemplo, si ahora tenemos la siguiente información de los estudiantes:

|Estudiante|Peso|Altura|Edad|
|:--------:|:--:|:----:|:--:|
|1         |70  |180   |20  |
|2         |80  |160   |18  |
|3         |50  |150   |22  |

podríamos definir tres vectores distintos, uno para cada una de las variables deseadas (`peso`, `altura` y `edad`), o podemos crear un data frame que contenga toda la información de los estudiantes (`estudiantes`). En el caso de los tres vectores, uno para cada variable, haríamos lo siguiente:

In [None]:
peso <- c(70, 80, 50)
peso
altura <- c(180, 160, 150)
altura
edad <- c(20, 18, 22)
edad

Como podemos ver, tenemos tres vectores distintos, de tamaño tres, donde el primer valor de cada vector corresponde a información del primer estudiante y así con todos los demás estudiantes. Si lograramos juntar todos estos vectores en un solo objeto, podríamos tener las variables como columnas y los estudiantes como filas, y esto es lo que hace un data frame. Para crear un data frame, usamos la función `data.frame` y agregamos como argumentos a dicha función los nombres de las variables, junto con los datos para dicha columna, es decir, los vectores que creamos anteriormente. Esto lo podemos hacer como se muestra a continuación:

In [None]:
estudiantes <- data.frame(Peso = peso, Altura = altura, Edad = edad)
estudiantes

El resultado de la celda anterior es distinto al obtenido mediante los tres vectores, ya que aparece como una table, donde nos dice el nombre de las columnas (que son las variables que nosotros definimos como argumentos) y cada fila de esa tabla representa a un estudiante. Además, si presionan sobre los nombres de las variables, pueden ordenar las filas según dicha variable, de mayor a menor o vice versa. Por último, debajo del nombre de las variables está viene un `<dbl>`, esto nos indica de que tipo es la variable presentada y, en este caso, eso se le conoce como un *double*, que es simplemente una variable numérica.

Ahora, los data frames tienen ciertas ventajas y capacidades únicas que son útiles de conocer. La primera de estas es que, para obtener solamente una de las variables, o columnas, del data frame, la podemos llamar agregando un `$` después del nombre del data frame y agregando el nombre de la variable que nos interesa. Por ejemplo, si queremos obtener las edades de los estudiantes, podemos hacer lo siguiente:

In [None]:
estudiantes$Edad

En este caso, lo que no está devolviendo es un vector con las edades de los estudiantes, que es igual al objeto `edad` que definimos anteriormente, por lo que podemos aplicar lo que ya conocemos sobre vectores a este objeto. Ahora, ¿qué pasa si queremos solamente la información del primer estudiante? Esto lo podemos lograr utilizando nuevamente los `[]`:

In [None]:
# Información del primer estudiante
estudiantes[1, ]
# Información del segundo estudiante
estudiantes[2, ]
# Información del tercer estudiante
estudiantes[3, ]
# Información del segundo y tercer estudiante
estudiantes[2:3, ]
# Información del primer y tercer estudiante
estudiantes[c(1, 3), ]

La forma de utilizar los `[]` es igual a como lo vimos para los vectores, solamente que ahora tenemos que tomar en cuenta que los data frames tienen filas y columnas, por lo que tenemos que escribir `[fila, columna]`. Si dejamos la fila o la columna vacía, como hicimos en los ejemplos anteriores, R toma por defecto todas las columnas o filas, respectivamente, pero también podríamos hacer selecciones más complejas de datos dependiendo de las filas y columnas que querramos obtener.

#### Ejercicio:

El Índice de Masa Corporal (IMC) es una medida que combina el peso y la altura de una persona, para determinar, de forma sencilla pero no exacta, el umbral de peso en el que está una persona. El IMC se puede calcular utilizando la siguiente fórmula:

$$
IMC = \frac{peso}{altura^2} \rightarrow \frac{kg}{m^2}
$$

donde el peso se mide en kilogramos y la altura de la persona en metros.

Ya hemos construido un objeto llamado `estudiantes` que contiene el peso y la altura de tres estudiantes, además de su edad, en un data frame. Por lo tanto, con base en lo visto hasta el momento, cree una nueva variable, llamada `IMC` en el data frame `estudiantes` que contenga el IMC calculado para cada uno de los tres estudiantes, con base en la fórmula presentada anteriormente.

*Sugerencia: Originalmente `estudiantes$Peso` está medida en centímetros, no metros, por lo que ocupa convertir esas unidades para poder calcular el IMC adecuadamente. Además, para crear una nueva variable, o columna, en un data frame necesita agregarla mediante un `$`, de modo que, si queremos crear una variable que se llame `IMC` en el data frame `estudiantes`, necesitamos escribir, antes de las operaciones matemáticas, `estudiantes$IMC <-`*

In [None]:
# ESCRIBA SU CÓDIGO AQUÍ
testthat::fail() # No respuesta - elimine esta línea si escribió una respuesta

Puede correr el siguiente bloque de código para verificar su respuesta:

In [None]:
estudiantes$IMC

## Paquetes de R

Como hemos visto, R tiene una gran variedad de funciones tanto para hacer operaciones matemáticas como para guardar datos y manipularlos, pero todavía podemos agregar incluso más funciones a R. Esto lo hacemos mediante **paquetes** o **bibliotecas** (**libraries** en inglés), los cuales son conjuntos de funciones y datos que logran extender las capacidades de R, agregando nuevas funcionalidades y compatibilidad con otros programas. Hay una gran cantidad de paquetes libres en internet, la mayoría disponibles mediante CRAN (The **C**omprehensive **R** **A**rchive **N**etwork), un repositorio de paquetes de R, pero también hay paquetes creados por empresas o individuos para uso personal o comercial. Una lista de los paquetes disponibles en CRAN se puede consultar en [este enlace](https://cran.r-project.org/web/packages/available_packages_by_name.html). 

### Instalar un paquete

Para instalar un paquete en R, usamos la función `install.packages()`, especificando el paquete que queremos instalar como el argumento de la función. Para la mayoría de los laboratorios del curso, usaremos un paquete llamado `dplyr`, del cual pueden obtener mayor información en [este enlace](https://dplyr.tidyverse.org), por lo que, si lo quieren instalar en sus computadoras, pueden hacerlo corriendo el siguiente comando en la consola:

```{r}
install.packages(dplyr)
```

o, si han instalado RStudio en su computadora, pueden presionar el botón de **Install** en la pestaña inferior derecha:

![install-img.png](attachment:install-img.png)

y escribir `dplyr` en la línea de **Packages** y luego presionar en el botón de **Install**:

![library-img.png](attachment:library-img.png)

El ambiente en la nube en la cual vamos a ejecutar los laboratorios ya tiene todos los paquetes que ocupamos instalados, por lo que no es necesario instalar dichos paquetes si están corriendo este notebook en internet, a menos que quieran correr los laboratorios en su computadora.

### Cargar un paquete

Ya habiendo instalado un paquete, ocupamos cargarlo a R, dado que no tiene sentido que todos los paquetes estén corriendo en todo momento, sino simplemente cuando los ocupamos. Por lo tanto, para cargar un paquete en R, siempre ocupamos correr el comando `library()`, agregando como argumento a dicha función el nombre del paquete que queremos cargar. Por lo tanto, si queremos cargar el paquete `dplyr`, ocupamos correr el siguiente comando:

In [None]:
library(dplyr)

Cada vez que queramos utilizar una función de un paquete, primero lo ocupamos cargar, para que R sepa que lo puede usar. En caso de no cargarlo, R dará un error y no correrá el comando, por lo que **siempre hay que correr el comando `library()` para utilizar una función de un paquete.**

### El paquete `dplyr` y el operador `%>%`

El paquete que acabamos de cargar `dplyr` fue creado con el objetivo de mejorar la legibilidad de los códigos producidos en R, sobre todo en lo referente a la manipulación de conjuntos de datos y es parte de un gran conjunto de paquetes, denominado el [`tidyverse`](https://www.tidyverse.org), donde todos buscan mejorar la experiencia de trabajar con R. A lo largo del curso veremos varias funciones de `dplyr`, y de otros paquetes del `tidyverse`, pero para este laboratorio nos vamos a enfocar en la función `%>%` u operador **pipe**, como es conocido en inglés. Para agregar este operador en la consola de R, pueden presionar **Ctril + Shift + Enter** y automáticamente agrega el operador a la consola.

Dicho operador se utiliza de la siguiente forma. Supongamos que tenemos un cierto objeto `x` y le queremos aplicar una función `f()`, entonces podríamos escribir lo siguiente:

```{r}
f(y)
```

Usando el operador pipe, lo mismo se puede escribir de la siguiente forma:

```{r}
y %>% f()
```

¿Cuál es la ventaja de utilizar un pipe? Tal vez no es tan aparente con una sola función, pero veamos un ejemplo más complicado. Queremos aplicarle al objeto `y` la función `f()`, luego la función `g()`, posteriormente la función `h()` y, por último, la función `k()`. Escribiendo esto, lo podemos hacer de la siguiente forma:

```{r}
k(h(g(f(y))))
```

O, usando el operador pipe, lo podemos escribir así:

```{r}
y %>% f() %>% g() %>% h() %>% k()
```

Como podemos ver, el comando usando pipes se entiende de forma más sencilla como lo que queremos realizar: aplicarle a `y` las funciones `f()`, `g()`, `h()` y `k()`, respectivamente, mientras que, escribiendolo sin un pipe, se vuelve confuso lo que estamos haciendo. Ahora, si las funciones tuvieran otros argumentos, el primer código se volvería ilegible, mientras que usando el pipe se seguiría viendo legible y se entendería de mejor forma. El resultado de ambas formas de escribir el código es igual, por lo que, como hemos visto, podemos utilizar el operador de asignación `<-` para guardar un resultado de un comando usando pipes. Por lo tanto, si quisieramos calcular algo como $x = \sqrt{e^2}$, lo podríamos calcular de la siguiente forma:

In [None]:
x <- 2 %>% exp() %>% sqrt()
x

**Recuerde que ocupa correr el comando `library(dplyr)` antes de ejecutar un pipe, o sino le dará un error.**

Como podemos ver, estamos guardando en una variable, llamada `x`, el resultado de la operación `2 %>% exp() %>% sqrt()`, que la podemos leer como que a 2 le estamos aplicando la función exponencial, $e^2$, y a esto le estamos sacando la raíz cuadrada, $\sqrt{e^2}$, que es lo que queríamos obtener. Este resultado sería igual a si corrieramos `x <- sqrt(exp(2))`, pero es más fácil de entender mediante pipes.

---

## <span style="color: blue">Entrega del laboratorio</span> <a class="tocSkip"> 

Para hacer entrega de este laboratorio, debe descargarlo presionando en **File**, luego **Download as** y, por último, **Notebook (.ipynb)**, en el menú superior, debajo del logo de Jupyter, como se muestra a continuación.

![download-img.gif](attachment:download-img.gif)

Luego de haber localizado el archivo descargado, debe cambiar el nombre del archivo descargado por su número de carné, de forma que, si su carné es **B12345**, su archivo debería llamarse `B12345.ipynb`. Una vez le haya cambiado el nombre al archivo, lo puede subir a Mediación Virtual, en el apartado correspondiente a este laboratorio.

<a href="https://creativecommons.org/licenses/by-sa/4.0/">
    <img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-sa.png" width="88" height="31" />
</a>