# <center> **Manipulación de datos I**

- **%>%**      : Operador pip
- **select()**  : nos sirve para seleccionar variables.
- **filter()**  : nos sirve para seleccionar filas dada una expresión lógica.
- **arrange()** : nos sirve para ordenar valors de una (varias) varible(s) de forma ascendente o descendente.
- **mutate()**  : nos sirve para crear o modificar nuevas variables a partir de variables existente.

## select()

> **select()** : Función para seleccionar variable(s) (columna(s)) de un data frame. Dentro de está función se pueden emplear funciones auxiliares como:
> - starts_with() 
> - ends_with()
> - contains()
> - num_range()
> - one_of()
> - everything()

<img src="./images/fig01.png">

## filter()

> **filter()** : Función para filtrar observaciones (filas) de una variable(s) (columna(s)) de un data frame dada una condición.

<img src="./images/fig02.png">

## arrange()

> **arrange()** : Función para ordenar una variable (s) (columna(s)) de un data frame. Por defecto ordena de forma ascendente (menor a mayor), para indicar el orden de forma descendente emplemos la función auxiliar **desc(variable)**

<img src="./images/fig03.png">

# Ejemplo:

In [122]:
library('nycflights13')
library("tidyverse")
options(repr.plot.width=16, repr.plot.height=8)

In [123]:
# read dataset
flights = read.csv('./datasets/flights.csv')
head(flights, 3)

Unnamed: 0_level_0,dep_time,sched_dep_time,dep_delay,arr_time,sched_arr_time,arr_delay,carrier,flight,tailnum,origin,dest,air_time,distance,hour,minute,time_hour
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<chr>,<int>,<chr>,<chr>,<chr>,<int>,<int>,<int>,<int>,<chr>
1,517,515,2,830,819,11,UA,1545,N14228,EWR,IAH,227,1400,5,15,01/01/2013 05:00
2,533,529,4,850,830,20,UA,1714,N24211,LGA,IAH,227,1416,5,29,01/01/2013 05:00
3,542,540,2,923,850,33,AA,1141,N619AA,JFK,MIA,160,1089,5,40,01/01/2013 05:00


| Variable         | Descripción |
| :--- | :--- |
| dep_time         | Hora real de salida |
| sched_dep_time   | Horario de salida y llegada programado |
| dep_delay        | Retraso de salida, en minutos. Los tiempos negativos representan salidas tempranas |
| arr_time         | Hora real de salida y de llegada |
| sched_arr_time   | Horario de llegada programado |
| arr_delay        | Retraso de llegada, en minutos. Los tiempos negativos representan llegadas tempranas |
| carrier          | Abreviación de la auerolínea |
| flight           | Número de vuelo |
| tailnum          | Número de avión |
| origin           | Origen |
| dest             | Destino |
| air_time         | Cantidad de tiempo en el aire, en minutos |
| distance         | Distancia entre aeropuertos, en millas |
| hour             | Hora de salida prevista desglosada en hora  |
| minute           | Hora de salida prevista desglosada en minutos |
| time_hour        | Fecha y hora prevista del vuelo |

[**Ejercicio 1**] crear varibles año, mes y día, y seleccionar las variables <span style="color:blue"> flight </span>,  <span style="color:blue"> air_time </span>, y <span style="color:blue"> distance </span>. 

In [124]:
# crear varibles año, mes y día, y seleccionar flight, air_time, y distance
flights2 <- flights %>% 
    mutate(year = as.numeric(substring(time_hour, 7, 10)),
           month = as.numeric(substring(time_hour, 4, 5)),
           day = as.numeric(substring(time_hour, 1, 2))) %>%
    select(time_hour, year, month, day, flight, air_time, distance)

In [125]:
head(flights2, 4)

Unnamed: 0_level_0,time_hour,year,month,day,flight,air_time,distance
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<int>,<int>,<int>
1,01/01/2013 05:00,2013,1,1,1545,227,1400
2,01/01/2013 05:00,2013,1,1,1714,227,1416
3,01/01/2013 05:00,2013,1,1,1141,160,1089
4,01/01/2013 05:00,2013,1,1,725,183,1576


[**Ejercicio 2**] Eliminar la variable  <span style="color:blue"> time_hour </span>.

In [126]:
# eliminar la variable time_hour
flights3 <- flights2 %>% select(-time_hour)
flights3

year,month,day,flight,air_time,distance
<dbl>,<dbl>,<dbl>,<int>,<int>,<int>
2013,1,1,1545,227,1400
2013,1,1,1714,227,1416
2013,1,1,1141,160,1089
2013,1,1,725,183,1576
2013,1,1,461,116,762
2013,1,1,1696,150,719
2013,1,1,507,158,1065
2013,1,1,5708,53,229
2013,1,1,79,140,944
2013,1,1,301,138,733


In [15]:
dim(flights3)

[**Ejercicio 3**] Filtrar mes de enero.

In [59]:
# filtrar por mes de enero
jan <- flights3 %>% filter(month == 1)
head(jan, 4)

year,month,day,flight,air_time,distance
<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>
2013,1,1,1545,227,1400
2013,1,1,1714,227,1416
2013,1,1,1141,160,1089
2013,1,1,725,183,1576


In [57]:
dim(jan)

[**Ejercicio 4**] Filtrar por mes de enero y día primero.

In [60]:
# filtrar por mes de enero y primer día
jan1 <- flights3 %>% filter(month == 1, day == 1)
head(jan1, 4)

year,month,day,flight,air_time,distance
<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>
2013,1,1,1545,227,1400
2013,1,1,1714,227,1416
2013,1,1,1141,160,1089
2013,1,1,725,183,1576


[**Ejercicio 5**] Filtrar por los meses de enero a marzo.

In [61]:
# filtrar por mes de enero a marzo
jan_feb_mar <- flights3 %>% filter(month %in% c(1,2,3))
head(jan_feb_mar, 4)

year,month,day,flight,air_time,distance
<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>
2013,1,1,1545,227,1400
2013,1,1,1714,227,1416
2013,1,1,1141,160,1089
2013,1,1,725,183,1576


In [62]:
unique(jan_feb_mar$month)

[**Ejercicio 6**] Filtrar por mes de enero a marzo y ordenar el día de forma descendente.

In [63]:
# filtrar por mes de enero a marzo y ordenar el día de forma descendente
jan_feb_mar <- flights3 %>% 
    filter(month %in% c(1,2,3)) %>%
    arrange(desc(day))
head(jan_feb_mar, 4)

year,month,day,flight,air_time,distance
<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>
2013,1,31,530,127,725
2013,1,31,739,206,1617
2013,1,31,727,197,1576
2013,1,31,30,60,264


[**Ejercicio 7**] Filtrar por los meses de enero a marzo y ordenar mes y día de forma descendente.

In [64]:
# filtrar por mes de enero a marzo y ordenar mes y día de forma descendente
jan_feb_mar <- flights3 %>% 
    filter(month %in% c(1,2,3)) %>%
    arrange(desc(month), desc(day))

head(jan_feb_mar, 4)

year,month,day,flight,air_time,distance
<dbl>,<int>,<dbl>,<int>,<dbl>,<dbl>
2013,3,31,128,59,266
2013,3,31,1113,82,529
2013,3,31,258,208,1400
2013,3,31,725,201,1576
