![imagenes](logo.png)

# Otros verbos

Aquí hay algunos otros verbos útiles para procesamiento de datos:

* ``select()`` selecciona solo un subconjunto de variables/columnas.
* ``rename()`` renombra variables/columnas para tener nuevos nombres.
* ``top_n`` devuelve solo los valores *top* de una variable.

In [None]:
library(tidyverse)
library(nycflights13)

## Seleccionar algunas columnas

![imagenes](im012.png)

Hemos visto que el dataframe ``flights`` de ``nycflights13`` contiene 19 variables diferentes. Puede identificar los nombres de estas 19 variables ejecutando la función ``names()``:

In [None]:
names(flights)

Sin embargo, supongamos que solo necesitas dos de estas 19 variables, por ejemplo, la aerolínea ``carrier`` y el vuelo ``flight``. Utilizamos ``select()`` con estas dos variables:

In [None]:
flights %>%
    select(carrier,flight)

Esta función facilita la exploración de grandes conjuntos de datos, ya que nos permite limitar el alcance solo a aquellas variables que más nos interesan. Por ejemplo, si hacemos ``select()`` a solo un número menor de variables, hará que la visualización del conjunto de datos en el visor de hojas de cálculo de **RStudio** sea más digerible.

Digamos que, en cambio, desea eliminar o anular la selección de ciertas variables. Por ejemplo, considere la variable ``year`` en el ``flights``. Esta variable no es exactamente una "variable" porque siempre es 2013 y, por lo tanto, no cambia. Digamos que desea eliminar esta variable del dataframe. Podemos deseleccionar el año usando el signo ``-``:

In [None]:
flights_no_year <- flights %>% select(-year)

flights_no_year

Otra forma de seleccionar columnas/variables es especificando un rango de columnas:

In [None]:
flights %>% 
    select(month:day, arr_time:arr_delay)

La función ``select()`` también se puede usar para reordenar columnas cuando se usa con la función auxiliar ``everything()``. Por ejemplo, supongamos que queremos que las variables ``hour``, ``minute`` y ``time_hour`` aparezcan inmediatamente después de las variables ``year``, ``month`` y ``day``, sin descartar el resto de las variables. En el siguiente código, ``everything()`` recogerá todas las variables restantes:

In [None]:
flights_reorder <- flights %>% 
  select(year, month, day, hour, minute, time_hour, everything())

flights_reorder

Por último, las funciones auxiliares ``starts_with()``, ``ends_with()`` y ``contains()`` se pueden usar para seleccionar variables/columnas que coincidan con esas condiciones. Como ejemplos:

In [None]:
flights %>% select(starts_with("a"))

In [None]:
flights %>% select(ends_with("delay"))

In [None]:
flights %>% select(contains("time"))

## Renombrar variables

Otra función útil es ``rename()``, que como habrás adivinado cambia el nombre de las variables. Supongamos que queremos centrarnos solo en ``dep_time`` y ``arr_time`` y cambiar ``dep_time`` y ``arr_time`` para que se llamen ``departure_time`` y ``arrival_time``:

In [None]:
fligths_new_names <- flights %>%
  select(dep_time, arr_time) %>%
  rename(departure_time = dep_time , arrival_time = arr_time)

fligths_new_names

Tenga en cuenta que en este caso usamos un solo signo ``=`` dentro del ``rename()``. Por ejemplo, ``departure_time = dep_time`` cambia el nombre de la variable ``dep_time`` por el nuevo nombre ``departure_time``. Esto se debe a que no estamos probando la igualdad como lo haríamos con ``==``.

Además, observa que el nuevo nombre de la variable viene antes del signo igual.

## top de n valores de una variable

También podemos devolver los primeros $n$ valores de una variable usando la función ``top_n()``. Por ejemplo, podemos devolver un dataframe de los 10 principales aeropuertos de destino usando el ejemplo de la Sección **C03.08**. Observa que establecemos el número de valores ``n = 10`` para devolver y ``wt = num_flights`` para indicar que queremos las filas correspondientes a los 10 valores principales de ``num_flights``. Consulta el archivo de ayuda de ``top_n()`` ejecutando ``?top_n`` para obtener más información.

In [None]:
named_dests <- flights %>%
  group_by(dest) %>%
  summarize(num_flights = n()) %>%
  inner_join(airports, by = c("dest" = "faa")) %>%
  rename(airport_name = name) 

named_dests

In [None]:
named_dests %>% top_n(n = 10, wt = num_flights)

Ordenemos con ``arrange()`` estos resultados en orden descendente de ``num_flights``:

In [None]:
named_dests %>% 
    top_n(n = 10, wt = num_flights) %>%
    arrange(desc(num_flights))

---
---

**Ejercicios.**

**3.9.1.** ¿Cuáles son algunas formas de seleccionar las tres variables destino ``dest``, tiempo en el aire ``air_time`` y distancia ``distance`` de los vuelos? Proporcione el código que muestra cómo hacer esto en al menos tres formas diferentes.

**3.9.2.**  ¿Cómo podría uno usar ``starts_with()``, ``ends_with()`` y ``contains()`` para seleccionar columnas del datafame de vuelos? Proporcione tres ejemplos diferentes en total: uno para ``starts_with()``, otro para ``ends_with()`` y otro para ``contains()``.

**3.9.3.** ¿Por qué querríamos usar la función de selección en un dataframe?

**3.9.4.** Cree un nuevo dataframe que muestre los 5 principales aeropuertos con los mayores retrasos en las llegadas desde la ciudad de Nueva York en 2013.

---
---