<h1 align=center> Funciones útiles en manipulación de datos </h1>

<h2 align=center bottom:5px> Instalamos las librerias tidyverse y nycflights13 </h2>

In [None]:
require(tidyverse)
require(nycflights13)

<h2 align=center bottom:5px> Observamos la base de datos </h2>

In [None]:
flights

In [None]:
str(flights)

<h2 align=center> Filtar filas con filter() </h2>


<h3 align=left> Permite separar observaciones de acuerdo con valores dados </h3>

<h3 align=left> filter(data, condition1, condition2) </h3>

<img src="https://d33wubrfki0l68.cloudfront.net/01f4b6d39d2be8269740a3ad7946faa79f7243cf/8369a/diagrams/transform-logical.png" 
width="900px" style="margin: 20px auto;">

<h3 align=left> Ejercicio 1: Filtrar los datos recolectados durante el primer dia del mes de enero </h3>

In [None]:
jan1 = filter(flights, month == 1, day == 1)
jan1 = filter(flights, month == 1 & day == 1)

In [None]:
jan1

<h3 align=left> Ejercicio 2: Filtrar los datos recolectados durante todos los dias del mes de enero, excepto el primer dia </h3>

In [None]:
jan2 = filter(flights, month == 1, !(day == 1))

In [None]:
jan2

<h2 align=center> Ordenar filas con arrange() </h2>

<h3 align=left> Ordena las filas de acuerdo con las columnas seleccionadas </h3>

<h3 align=left> arrange(data, column1, column2) </h3>

<h3 align=left> Ejercicio 3: Ordenar los datos de acuerdo con el año, el mes y el dia.</h3>

In [None]:
jan3 = arrange(flights, year, month, day)

In [None]:
jan3

<h2 align=center> Seleccionar columnas con Select() </h2>

<h3 align=left> Selecciona las columnas deseadas </h3>

<h3 align=left> select(data, column1, column2) </h3>

<h3 align=left> Ejercicio 4: Extraer el año, mes y dia para crear una nueva base de datos.</h3>

In [None]:
jan4 = select(flights, year, month, day)

In [None]:
jan4

<h3 align=left> Ejercicio 5: Extraer las variables desde el año(year) hasta el tiempo de arrivo(arr_time)</h3>

In [None]:
jan5 = select(flights, year:arr_time)

In [None]:
jan5

<h3 align=left> Ejercicio 6: Extraer todas las variables excepto las anteriores</h3>

In [None]:
jan6 = select(flights, -(year:arr_time))

In [None]:
jan6

<h3 align=left> Ejercicio 7: Renombrar la columna llamada "tailnum" por "tail_num"</h3>

In [None]:
jan7 = rename(flights, tail_num = tailnum)

In [None]:
jan7

<h3 align=left> Ejercicio 8: Ubicar las columnas "time_hour" y "air_time" al inicio y despues el resto de columnas </h3>

In [None]:
jan8 = select(flights, time_hour, air_time, everything())

In [None]:
jan8

<h2 align=center> Adherir nuevas variables con mutate() </h2>

<h3 align=left> Crea nuevas columnas </h3>

<h3 align=left> mutate(data, newcolumn1, newcolumn2) </h3>

<h3 align=left> Ejercicio 9: Crear 2 nuevas columnas apartir de las ya existentes </h3>

In [None]:
jan9 = mutate(flights,
       gain = arr_delay - dep_delay,
       speed = distance / air_time * 60
       )

In [None]:
jan9

<h3 align=left> Ejercicio 10: Crear 2 columnas apartir de las ya existentes y otra nueva apartir de las recien creadas</h3>

In [None]:
mutate(flights,
       gain = arr_delay - dep_delay,
       hours = air_time / 60,
       gain_per_hour = gain / hours
      )

<h3 align=left> Ejercicio 11: Crear una base de datos que solo incluya las columnas creadas</h3>

In [None]:
transmute(flights,
          gain = arr_delay - dep_delay,
          hours = air_time / 60,
          gain_per_hour = gain / hours
          )

<h2 align=center> Resumenes agrupados con summarize() </h2>

<h3 align=left> Resume datos en una fila mediante un calculo </h3>

<h3 align=left> summarize(data, calculation) </h3>

<h3 align=left> Ejercicio 12: Calcular la media de dep_delay</h3>

In [None]:
summarize(flights, delay = mean(dep_delay, na.rm = TRUE))

<h3 align=left> Ejercicio 13: Calcular la media de dep_delay por año, mes y dia </h3>

In [None]:
by_day <- group_by(flights, year, month, day)
summarize(by_day, delay = mean(dep_delay, na.rm = TRUE))

<h2 align=center> Separar y unir columnas con separate() y unite() </h2>

<h3 align=left> separate(data, column, sep="") <br> <br>
unite(data, newcolumn, column1, column2, sep="")</h3>

<h2 align=center bottom:5px> Observamos la base de datos </h2>

In [None]:
table3

<h3 align=left> Ejercicio 14: Separar la columna rate en 2 nuevas columnas </h3>

In [None]:
separate(table3, rate, into = c("cases", "population"), sep="/")

<h3 align=left> Ejercicio 15: Separar la columna year en dos columnas, con las dos primeras cifras y con las dos últimas cifras  </h3>

In [None]:
jan.1 = separate(table3, year, into = c("century", "year"), sep = 2)
jan.1

<h3 align=left> Ejercicio 16: Unir nuevamente la columna separada anteriormente</h3>

In [None]:
unite(jan.1, new, century, year, sep="")

<h2 align=center> Función apply en R – apply, lapply y sapply </h2>

<h3 align=left> Son funciones útiles para manipular vectores o matrices de forma iterativa. El objetivo es evitar el uso explicito de ciclos.</h3>

## apply

## apply(x, 1, function)

### Ejercicio 17: Determinar el promedio de las siguientes columnas

In [None]:
Age <- c(56, 33, 67, 33, 56, 28)
Weight <- c(78, 67, 56, 44, 56, 89)
Height < -c(165, 171, 167, 167, 166, 181)

vars = cbind(Age, Weight, Height)
vars

In [None]:
apply(vars, 2, mean)

## lapply

## lapply(x, function)

### Ejercicio 18: Pasar la estatura de metros a centimetros

In [None]:
lapply(Height, function(Height) Height/100)


## sapply

## sapply(x, function)

### Ejercicio 19: Pasar el peso de kilos a gramos

In [None]:
sapply(Weight, function(Weight) Weight * 1000)