<a href="https://colab.research.google.com/github/fralfaro/r_intro/blob/main/docs/dplyr.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Dplyr

## Introducción

<img src="https://raw.githubusercontent.com/tidyverse/dplyr/main/man/figures/logo.png" width = "200">


La librería [dplyr](https://github.com/tidyverse/dplyr) en R es una herramienta poderosa para realizar operaciones de manipulación y transformación de datos de manera eficiente. Fue desarrollada por Hadley Wickham y se basa en una gramática coherente y fácil de usar para trabajar con datos en R. Dplyr se enfoca en proporcionar un conjunto de funciones optimizadas para realizar operaciones comunes de limpieza, filtrado, transformación y resumen de datos.

Las principales características y beneficios de dplyr son:

* **Sintaxis intuitiva**: Dplyr utiliza una sintaxis clara y legible que facilita la comprensión y escritura de código. Esto permite a los usuarios expresar fácilmente las operaciones que desean realizar sobre los datos.

* **Rendimiento eficiente**: Dplyr ha sido diseñado para ofrecer un rendimiento óptimo, especialmente al trabajar con grandes conjuntos de datos. Utiliza técnicas de optimización y aprovecha las funciones de bajo nivel en R para mejorar la velocidad de procesamiento.

* **Operaciones verbales**: Las funciones de dplyr están diseñadas con nombres verbales intuitivos que reflejan las acciones que realizan. Esto hace que el código sea más legible y facilita la comprensión de las operaciones realizadas.

* **Manipulación de datos**: Dplyr proporciona funciones para seleccionar columnas específicas (select), filtrar filas basadas en condiciones lógicas (filter), agregar nuevas columnas o transformar columnas existentes (mutate) y ordenar los datos según una o varias columnas (arrange).

* **Operaciones de agregación**: Dplyr permite realizar operaciones de agregación por grupos utilizando las funciones group_by() y summarize(). Esto permite calcular estadísticas resumidas, como la media, suma, conteo, etc., para diferentes grupos de datos.

* **Combinación de datos**: Dplyr ofrece funciones para combinar diferentes conjuntos de datos basándose en columnas comunes utilizando las funciones join(). Esto permite realizar uniones internas, externas, izquierdas y derechas entre los conjuntos de datos.

## Ejemplo 

Mostraremos unejemplo completo de cómo utilizar `dplyr` con el conjunto de datos "**mtcars**" incorporado en R:

```R
# Cargar el paquete dplyr
library(dplyr)

# Ver una vista previa del conjunto de datos mtcars
head(mtcars)
```

**Seleccionar columnas específicas**:


```R
# Seleccionar las columnas "mpg", "cyl" y "gear"
mtcars_select <- select(mtcars, mpg, cyl, gear)
head(mtcars_select)
```

**Filtrar filas basadas en una condición**:

```R
# Filtrar las filas donde el número de cilindros (cyl) es igual a 6
mtcars_filter <- filter(mtcars, cyl == 6)
head(mtcars_filter)
head(mtcars)
```
**Agregar una nueva columna calculada**:

```R
# Agregar una nueva columna "km_l" que calcule el consumo de combustible en km por litro
mtcars_mutate <- mutate(mtcars, km_l = 1.60934 * mpg / 3.78541)
head(mtcars_mutate)
```

**Ordenar el conjunto de datos por una columna específica**:

```R
# Ordenar las filas por el número de cilindros (cyl) en orden descendente
mtcars_arrange <- arrange(mtcars, desc(cyl))
head(mtcars_arrange)
```

**Realizar una operación de agregación por grupo**:

```R
# Agrupar el conjunto de datos por el número de cilindros (cyl) y calcular la media del consumo de combustible (mpg) y la potencia bruta (hp)
mtcars_group <- group_by(mtcars, cyl)
mtcars_summary <- summarize(mtcars_group, media_mpg = mean(mpg), media_hp = mean(hp))
mtcars_summary
```
