# 6.3 Dplyr

Dplyr es uno de los paquetes más importantes dentro del universo Tidyverse, y, a su vez, de R. Nos permite manipular datos de forma muy sencilla, ya que utiliza una lógica muy similar a la de SQL. 

Además, es muy sencillo usar dplyr con otros paquetes del universo, como ggplot, lo que permite, por ejemplo, hacer gráficos muy chulos de forma sencilla y sin tener que haber creado objetos intermedios

In [1]:
# Cargando la librería
library(dplyr)


Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



Nota: el nombre "tidyverse" proviene de las _tidy tables_, que es el formato más común (y hay quienes dicen, que mejor), para trabajar en análisis.
Las características son:
1. Cada columna corresponde a una variabla distinta.
2. Cada renglón corresponde a un registro distinto (una persona, un país, etc.)

Y sí; hasta ahora, sólo hemos trabajado con _tidy tables_.

# Piping
La forma más sencilla de trabajar con dplyr es usando _pipes_. Este es un _operador_ (un símbolo especial en programación, como: `+, >, &`).

¿Cómo se ve el _pipe_? Presiona las siguientes teclas al mismo tiempo:

* Ctrl
* Shift 
* m

O puedes escribirlo directamente; como te acomodes mejor.

¿Para qué sirve?

¿Recuerdas los _argumentos_ de las funciones?

Aquí hay una, para que te acuerdes:

```
filter(tabla, condicion)
```

Pues bueno, los pipes **insertan** lo que se encuentra a la izquierda, como **primer argumento** de la función de la derecha.

Aquí hay un ejemplo de dos códigos que funcionan igual:

In [6]:
filter(mtcars,  cyl==8)

mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3
10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
15.5,8,318.0,150,2.76,3.52,16.87,0,0,3,2
15.2,8,304.0,150,3.15,3.435,17.3,0,0,3,2


In [7]:
mtcars %>% filter(cyl==8)

mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
15.2,8,275.8,180,3.07,3.78,18.0,0,0,3,3
10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
15.5,8,318.0,150,2.76,3.52,16.87,0,0,3,2
15.2,8,304.0,150,3.15,3.435,17.3,0,0,3,2


Bueno, pero, si hacen lo mismo, ¿para qué ocupar los _pipes_?

Imagínate que tienes que usar todos estos cambios:

1. Seleccionar unas columnas
2. Filtrar ciertos valores
3. Ordenar la tabla resultante.

Con funciones de dplyr (ahorita hablamos de ellas), se vería así:

In [12]:
arrange(filter(select(mtcars, mpg, hp, wt), hp>200), wt)

mpg,hp,wt
<dbl>,<dbl>,<dbl>
15.8,264,3.17
14.3,245,3.57
15.0,335,3.57
13.3,245,3.84
10.4,205,5.25
14.7,230,5.345
10.4,215,5.424


En cambio, con las mismas funciones, pero usando el _pipe_, se vería así:

In [15]:
mtcars %>% 
    select(mpg, hp, wt) %>% 
    filter(hp>200) %>% 
    arrange(wt)

mpg,hp,wt
<dbl>,<dbl>,<dbl>
15.8,264,3.17
14.3,245,3.57
15.0,335,3.57
13.3,245,3.84
10.4,205,5.25
14.7,230,5.345
10.4,215,5.424


Mismo resultado, pero ¡código más claro!

Por ello, las funciones de dplyr están pensadas para ser usadas con pipes (aunque no es forzoso).

Por cierto, _pipes_: tuberías. _Piping_: "conectar tuberías".

Ahora sí, algunas de las funciones más importantes de dplyr son:

## Select

¿Qué columnas de la tabla quiero conservar?

```
tabla  %>% select(columna1, columna2, columna3)
```

También, puedo especificar qué columnas _no_ quiero conservar:

```
tabla  %>% select(-columna4, -columna5)
```

In [21]:
mtcars %>% 
    select(mpg, hp, wt) %>% 
    head()

Unnamed: 0_level_0,mpg,hp,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
Mazda RX4,21.0,110,2.62
Mazda RX4 Wag,21.0,110,2.875
Datsun 710,22.8,93,2.32
Hornet 4 Drive,21.4,110,3.215
Hornet Sportabout,18.7,175,3.44
Valiant,18.1,105,3.46


## Filtrar

Cuando quiero conservar sólo algunos registros (renglones) según alguna condición:

```
tabla  %>% filter(condicion1, condicion2, ...)
```

La tabla puede ser alguna que en la que ya haya seleccionado columnas:

```
tabla  %>% 
    select(columna1, columna2, ...)
    filter(condicion1, condicion2, ...)
```


In [23]:
mtcars %>% 
    select(mpg, hp, wt) %>% 
    filter(hp>200)  %>% 
    head()

mpg,hp,wt
<dbl>,<dbl>,<dbl>
14.3,245,3.57
10.4,205,5.25
10.4,215,5.424
14.7,230,5.345
13.3,245,3.84
15.8,264,3.17


## Ordenar

Puedo acomodar mis datos según orden alfabético, o de menor/mayor (dependiendo el tipo de dato):

```
tabla  %>% arrrange(columna1, columna2, ...)
```
O también, podría hacer alguna en orden _descendiente_:

```
tabla  %>% arrrange(desc(columna1), columna2, ...)
```

In [25]:
mtcars %>% 
    select(mpg, hp, wt) %>% 
    filter(hp>200) %>% 
    arrange(wt) %>% 
    head()

mpg,hp,wt
<dbl>,<dbl>,<dbl>
15.8,264,3.17
14.3,245,3.57
15.0,335,3.57
13.3,245,3.84
10.4,205,5.25
14.7,230,5.345


## Agregar nuevas columnas

Sí, se pueden calcular nuevas columnas a la forma antigua. Pero, para agregarlos a un _pipeline_, dplyr también nos proporciona una forma.

En vez de:

```
tabla["nueva_columna1"] = nuevos_valores1
tabla["nueva_columna2"] = nuevos_valores2
```

Con dplyr se puede hacer así:

```
tabla %>% mutate(nueva_columna1 = nuevos_valores1,
                 nueva_columna1 = nuevos_valores2...)
```


In [30]:
mtcars %>% 
    select(mpg, hp, wt) %>% 
    filter(hp>200) %>% 
    arrange(wt) %>% 
    mutate(hp_wt = hp * wt)  %>% # Nota cómo sólo especificamos el nombre de columna y sin comillas.
    head()

mpg,hp,wt,hp_wt
<dbl>,<dbl>,<dbl>,<dbl>
15.8,264,3.17,836.88
14.3,245,3.57,874.65
15.0,335,3.57,1195.95
13.3,245,3.84,940.8
10.4,205,5.25,1076.25
14.7,230,5.345,1229.35


## Resumir
También, podemos sacar algunas métricas de resumen. Por ejemplo, el valor promedio, máximos, mínimos, etc.

```
tabla %>% summarise(resumida1 = metrica1(columna1),
                    resumida1 = metrica2(columna2))
```

Nota: _summarise_ y _summarize_ hacen lo mismo.

In [31]:
mtcars %>% 
    select(mpg, hp, wt) %>% 
    filter(hp>200) %>% 
    arrange(wt) %>% 
    mutate(hp_wt = hp * wt)  %>% 
    summarise(mean_hp = mean(hp),
              max_weight = max(wt),
              var_hp_wt = var(hp_wt))

mean_hp,max_weight,var_hp_wt
<dbl>,<dbl>,<dbl>
248.4286,5.424,25935.7


Es especialmente útil cuando agrupamos según categorías... así como lo hacíamos con Pandas.

```
tabla %>% 
    group_by(columna_categorica)  %>% 
    summarise(resumida1 = metrica1(columna1),
                    resumida1 = metrica2(columna2))
                    
```

In [33]:
head(iris)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [40]:
iris  %>% 
    group_by(Species) %>% 
    summarize(mean_s_len = mean(Sepal.Length), 
              min_p_width = min(Petal.Width))

Species,mean_s_len,min_p_width
<fct>,<dbl>,<dbl>
setosa,5.006,0.1
versicolor,5.936,1.0
virginica,6.588,1.4


Faltaría ver los _joins_, para combinar más de una tabla. Estas funciones básicas de SQL se pueden hacer en dplyr y en Pandas, pero quedarán pendiente para otra ocasión.

## Bonus: Relación con SQL

¿Recuerdas este código de dplyr?

```
mtcars %>% 
    select(mpg, hp, wt) %>% 
    filter(hp > 200) %>% 
    arrange(wt)
```

Bueno...el equivalente en SQL es muy parecido:

```
SELECT mpg, hp, wt
FROM mtcars
WHERE hp > 200
ORDER BY wt
```



También, el último código en dplyr:

```
iris  %>% 
    group_by(Species) %>% 
    summarize(mean_s_len = mean(Sepal.Length), 
              min_p_width = min(Petal.Width))
```

Se vería así en SQL:

```
SELECT
    mean(Sepal.Length) AS mean_s_len,
    min(Petal.Width) AS min_p_width
FROM iris
GROUP BY Species
```