Transformación de datos
===

#### Contenido

> 
  * [Tamaño del `data.frame` ](#Tamaño-del-data.frame)
  * [Indexación por nombres de filas y columnas](#Indexación-por-nombres-de-filas-y-columnas)
  * [Indexación numérica](#Indexación-numérica)
  * [Indexación booleana](#Indexación-booleana)
  * [Adición de filas](#Adición-de-filas)
  * [Inserción de filas](#Inserción-de-filas)
  * [Borrado de filas](#Borrado-de-filas)
  * [Ordenación](#Ordenación)
  * [Subconjuntos y particionamiento](#Subconjuntos-y-particionamiento)
  * [Apilado](#Apilado)
  * [Agregación](#Agregación)
  * [Unión](#Unión)
  * [Casos duplicados y casos faltantes](#Casos-duplicados-y-casos-faltantes)
  * [Estadísticos descriptivos](#Estadísticos-descriptivos)
  * [R dummy](#R-dummy)
  * [R reshape](#R-reshape)
  * [R reshape2](#R-reshape2)
  * [R plyr](#R-plyr)
  * [R dplyr](#R-dplyr)
  * [R tidyr](#R-tidyr)
  * [data.table](#data.table)
  * [sqldf](#sqldf)

**Datos de ejemplo.**

In [None]:
x <- iris # copia del dataframe `iris`.
str(x)    # información basica del dataframe.

# Tamaño del `data.frame` 

[Contenido](#Contenido)

In [None]:
## número de filas del dataframe
nrow(x) 

In [None]:
## número de columnas del dataframe
ncol(x) 

In [None]:
## número de columnas del dataframe
length(x) 

# Indexación por nombres de filas y columnas

[Contenido](#Contenido)

In [None]:
## parte inicial del dataframe
head(x)

In [None]:
## parte inicial del dataframe
head(x, n = 3)

In [None]:
## parte final del dataframe
tail(x)

In [None]:
## parte final del dataframe
tail(x, n = 3)

In [None]:
## nombres de las columnas 
names(x)

In [None]:
## nombres de las filas
row.names(x)

In [None]:
## creación de una nueva columna
x$n <- 1  
head(x)

In [None]:
## creación de una nueva columna
x <- cbind(x, m = 1)
head(x)

In [None]:
## modificación de una columna
x$n <- 1:150
head(x)

In [None]:
## borrado de la columna
x <- x[,-c(6,7)]
head(x)

In [None]:
## nombres de las filas. los nombres deben ser únicos
u <- paste('case_', 1:150, sep = '')
head(u)

In [None]:
## cambia los nombres de las filas 
row.names(x) <- u
head(x)

In [None]:
## todas las filas y la columna Species
head(x[,'Species'], 10)

In [None]:
## valor para una fila y columna particular
x[3, 'Sepal.Length']

In [None]:
## valor para una fila y columna particular
x[3, c('Species', 'Sepal.Length')]

In [None]:
## selección por nombre de la fila
x['case_3',]

In [None]:
## selección por nombre de la fila
x[c('case_3', 'case_5'),]

In [None]:
## selección por nombres de fila y columna
x['case_3', 'Sepal.Length']

In [None]:
## selección por nombres de fila y columna
x[c('case_3', 'case_5'), c('Sepal.Length', 'Sepal.Width')]

In [None]:
## selección por nombre de la fila y número de las columnas
x[c('case_3', 'case_5'), 3:5]

In [None]:
## selección por nombres de fila y columna
x[1:3, c('Sepal.Length', 'Sepal.Width')]

# Indexación numérica

[Contenido](#Contenido)

In [None]:
## selección de las primeras tres columnas
head(x[,1:3])

In [None]:
## selección de las últimas tres columnas
head(x[,-(1:(ncol(x)-3))])

In [None]:
## selección de algunas columnas
head(x[,c(1,5)])

In [None]:
## selección de las primeras 3 filas
x[1:3,]

In [None]:
## desde la tercera hasta la última fila
head(x[-(1:2),])

In [None]:
## selección por intervalos
u <- seq(from = 1, to = nrow(x), by = 15)
x[u,]

In [None]:
## orden inverso
head(x[nrow(x):1,])

In [None]:
## todas las filas excepto la última
tail(x[-nrow(x),])

In [None]:
## valores para una fila particular
x[2,]

In [None]:
## indices como vector
x[c(2,4,6),]

In [None]:
## indices como vector
x[c(2,4,6), c(1, 5)]

# Indexación booleana

[Contenido](#Contenido)

In [None]:
## selección condicional
head(x$Species == 'virginica', 30)

In [None]:
## selección condicional
z <- x[x$Species == 'virginica',]
head(z)

In [None]:
## selección condicional
z <- x[x$Petal.Length > 3.2,] 
head(z)

In [None]:
## conteo de casos
table(z$Species)

# Adición de filas

[Contenido](#Contenido)

In [None]:
## adición de una fila (al final)
u <- rbind(x, 
           c(1, 1, 1, 1, 'setosa'))
tail(u)

# Inserción de filas

[Contenido](#Contenido)

In [None]:
## inserción en medio del data.frame
u <- rbind(u[1:150,], 
           c(2, 2, 2, 2, 'setosa'),
           u[151,])

tail(u)

# Borrado de filas

[Contenido](#Contenido)

In [None]:
## borrado de las dos últimas filas
u <- u[-c(151, 152),]
tail(u)

In [None]:
## borrado de las dos últimas columnas
w <- u[,-(4:5)]
head(w)

# Ordenación

[Contenido](#Contenido)

In [None]:
## ordena por varias columnas
## devuelve los indices de las filas
## ordena primero por Sepal.Width y luego por Sepal.Length
u <- order(x$Sepal.Width, x$Sepal.Length)  
head(u)                                   

In [None]:
head(x[u,], n = 10)

# Subconjuntos y particionamiento

[Contenido](#Contenido)

In [None]:
## selecciona un subconjunto de los datos.
y <- subset(x, Species == 'virginica')
head(y)

In [None]:
## partición por los valores de la columna `Species`
y <- split(x, x$Species)
names(y)

In [None]:
## cantidad de grupos
length(names(y))

In [None]:
## acceso a la información de cada subgrupo
head(y$setosa)

In [None]:
## acceso a la información de cada subgrupo
head(y$virginica)

# Apilado

[Contenido](#Contenido)

In [None]:
## se crea un nuevo data.frame a partir de 
## los grupos obtenidos con split.
## no es posible apilar data.frames con diferentes
## columnas
z <- rbind(y$virginica, 
           y$setosa, 
           y$versicolor)
head(z)
table(z$Species)

# Agregación

[Contenido](#Contenido)

> [`table {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/table.html) 

In [None]:
## conteo de casos.
## número de casos por `Species`
table(x$Species)

In [None]:
## conteo de casos por `Sepal.Length`
table(x$Sepal.Length)

> [`lapply {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/lapply.html)

In [None]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
u <- lapply(X = x[, c('Sepal.Length', 'Sepal.Width')], 
            FUN = mean)

u

In [None]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
u <- sapply(X = x[, c('Sepal.Length', 'Sepal.Width')], 
            FUN = mean)

u

In [None]:
## aplica la función a la columna especificada por grupos
y <- split(x, x$Species)
u <- sapply(y, 
            function(x) mean(x$Sepal.Length))
u

In [None]:
## aplica la función a la columna especificada por grupos
y <- split(x, x$Species)
u <- sapply(y, 
            function(x) c(mean(x$Sepal.Length),
                          mean(x$Sepal.Width),
                          mean(x$Petal.Length),
                          mean(x$Petal.Width)))
u

In [None]:
## agregación usando una fórmula
aggregate(. ~ Species, 
          data = x, 
          mean)

# Unión

[Contenido](#Contenido)

In [None]:
## no es una unión estrictamente.
## solo funciona cuando un dataframe tiene un número de
## filas múltiplo del otro.
d1 <- data.frame(x = 1:5, y = runif(5))
d2 <- data.frame(z = 1:10, w = runif(10))
cbind(d1, d2)

# Casos duplicados y casos faltantes

[Contenido](#Contenido)

In [None]:
## se crea un vector aleatorio de indices
u <- sample(1:150,            # población
            size = 20,        # tamaño de la muestra
            replace = TRUE)   # se puede repetir elementos?

print(sort(u))

In [None]:
## submuestra del data.frame original `x`
y <- x[u,]  
str(y)

In [None]:
## cambia los nombres de las filas 
row.names(y) <- 151:170
head(y)

In [None]:
## de la submuestra `y` se hacen varios registros incompletos
## cambiando varios valores en la columna `Sepal.Length` por NA
y$Sepal.Length[sample(1:20, 10, replace = FALSE)] <- NA
str(y)

In [None]:
## casos con datos faltantes 
head(y, n = 20)

In [None]:
## apilado de dataframes 
## los casos 151 a 170 contienen casos duplicados o
## casos con datos faltantes
x <- rbind(x, y)  
str(x)

In [None]:
## parte final del nuevo data.frame
tail(x, n = 10)

In [None]:
## casos únicos o no duplicados 
## incluye los casos con valores NA como únicos
## note que se eliminaron varios casos entre el 151 y el 170
tail(unique(x), n = 20)

In [None]:
## casos completos (sin faltantes)
table(complete.cases(x))  

In [None]:
## selección de casos incompletos
x[!complete.cases(x),]  

In [None]:
## selección de casos duplicados
x[duplicated(x),]

In [None]:
## ops! el registro 143 aparece duplicado?
## se verifica en el data.frame original
iris[duplicated(iris),]

In [None]:
u <- x[!duplicated(x),]      ## selecciona los casos no duplicados
u <- u[complete.cases(u),]   ## y que estén completos
str(u)

In [None]:
## número de casos completos (sin datos faltantes)
table(complete.cases(u))  

# Estadísticos descriptivos

[Contenido](#Contenido)

In [None]:
## resumen de estadísticos descriptivos
summary(iris)

# R dummy

[Contenido](#Contenido)

> [`R dummy`](https://cran.r-project.org/web/packages/dummies/)  
`Create dummy/indicator variables flexibly and efficiently`

In [None]:
library(dummy)

In [None]:
## crea una variable dummy por cada valor de una variable categórica
y <- dummy(iris)
print(y$Species_setosa)
print(y$Species_virginica)

# R reshape

[Contenido](#Contenido)

> [`R reshape`](https://cran.r-project.org/web/packages/reshape/index.html)  
`Flexibly reshape data`  

In [None]:
library(reshape)

In [None]:
## Tablas dinámicas
m <- data.frame(key1    = rep(letters[1:3], each = 2),
                key2    = rep(LETTERS[1:2], 3),
                values1 = 1:6,
                values2 = 7:12,
                stringsAsFactors = FALSE)

m

In [None]:
#Sirve para realizar pivot de una tabla
cast(data = m, 
     formula = key2~key1, 
     value = 'values2')

In [None]:
cast(data = m, 
     formula = key1~key2, 
     value = 'values2')

# R reshape2

[Contenido](#Contenido)

> [`R reshape2`](https://cran.r-project.org/web/packages/reshape2/index.html)  
`Flexibly Reshape Data: A Reboot of the Reshape Package`

In [None]:
library(reshape2)

In [None]:
# reshape2 convierte los nombres de las columnas a campos 
# de la columna `variable` y los correspondientes valores 
# de las columnas los apila en la columna `value` y 
# viceversa.

x <- iris # copia del dataframe `iris`.

# agrega una columna de indices.
x$n = 1:nrow(x)  

# los campos `Species` y `n` conforman una clave para la tabla.
g <- melt(x, id.vars = c('Species', 'n'))
head(g, n = 10)
cat('\n')
tail(g, n = 10)

In [None]:
## hace el proceso inverso de `melt`
## note que se cambio el orden de las columnas
head(dcast(g, Species + n ~ variable ), 10)

#  R plyr

[Contenido](#Contenido)

> [`R plyr`](https://cran.r-project.org/web/packages/plyr/index.html)  
`Tools for Splitting, Applying and Combining Data`

In [None]:
library(plyr)  

In [None]:
## suma la columna `Sepal.Length` por cada valor diferente en `Species` 
print(ddply(iris, ~Species, summarise, sum.Sepal.Length = sum(Sepal.Length)))

In [None]:
## ordena por las `Species` y luego `Sepal.Length`
print(head(arrange(iris, Species, Sepal.Length), n = 10))

In [None]:
## hace un `join` a dos dataframes.
keys <- rep(x = LETTERS[1:2], times = 2)
x.values <- paste('x', 1:4, sep = '.')
x <- data.frame(keys, 
                x.values,
                stringsAsFactors = FALSE)

keys <- rep(x = LETTERS[2:3], each = 2)
y.values <- paste('y', 1:4, sep = '.')
y <- data.frame(keys, 
                y.values, 
                stringsAsFactors = FALSE)

cat('-- data.frame x --\n')
print(x)
cat('\n')
cat('-- data.frame y --\n')
print(y)

In [None]:
## operacion left_join
w <- join(x = x, 
          y = y, 
          by = 'keys')

print(w)

In [None]:
## operacion left_join
w <- join(x = y, 
          y = x, 
          by = 'keys')

print(w)

#  R dplyr

[Contenido](#Contenido)

> [`R dplyr`](https://cran.r-project.org/web/packages/dplyr/index.html)  
`A Grammar of Data Manipulation`

In [None]:
library(dplyr)

In [None]:
## nombres de las filas del data.frame `x`
print(row.names(x))

In [None]:
## convierte los nombres de las filas en una
## variable del data.frame
y <- add_rownames(x, var = 'nombre_')
print(head(y, 10))

In [None]:
## ordenación del data.frame
print(head( arrange(iris, Sepal.Length, Sepal.Width) ))

In [None]:
## Operaciones join.
## se crean dos dataframes

keys <- rep(x = LETTERS[c(1,3)], times = 2)
x.values <- paste('x.row', 1:4, sep = '_')
groups <- c(rep(1,3), 2)
x <- data.frame(keys, 
                groups,
                x.values,
                stringsAsFactors = FALSE)

keys <- rep(x = LETTERS[3:4], each = 2)
y.values <- paste('y.row', 1:4, sep = '_')
y <- data.frame(keys, 
                y.values, 
                stringsAsFactors = FALSE)

cat('-- data.frame x --\n')
print(x)
cat('\n')
cat('-- data.frame y --\n')
print(y)

In [None]:
## intersección de los registros en `x` y en `y`
print( inner_join(x, y, by = 'keys') )

In [None]:
## todos los registros en `x`, y los 
## correspondientes valores en `y`
print( left_join(x, y, by = 'keys') )

In [None]:
## todos los registros en `y` y 
## los valores correspondientes en `x`
print( right_join(x, y, by = 'keys') )

In [None]:
## claves en `x`  para las que hay claves en `y`
print( semi_join(x, y, by = 'keys') )

In [None]:
## registros que no están en `y`
print( anti_join(x, y, by = 'keys') )

In [None]:
## todos los registros en `x` y en `y` 
print( full_join(x, y, by = 'keys') )

In [None]:
## filtrado
w <- full_join(x, y, by = 'keys')
print(filter(w, keys == 'C'))

In [None]:
## select
print(select(w, keys, groups))

In [None]:
## muestreo aleatorio de filas
print(sample_n(w, 4))

In [None]:
## agregación
by_keys <- group_by(w, keys)
print(summarise(by_keys, count = n()))
head(w)

#  R tidyr

[Contenido](#Contenido)

> [`R tidyr`](https://cran.r-project.org/web/packages/tidyr/index.html)  
`Easily Tidy Data with 'spread()' and 'gather()' Functions`

In [None]:
library(tidyr)

In [None]:
z <- as_data_frame(x)
print(z)

In [None]:
## completa la secuencia (con valores unicos)
## para cada cada una de las columnas
w <- z %>% expand(keys, groups)
print(w)

In [None]:
## hace explicita la secuencia llenando con NAs 
## las combinaciones faltantes
print(z)
cat('\n\n')
w <- z %>% complete(keys, groups)
print(w)

In [None]:
## completa las secuencias
w <- z %>% expand(keys, groups)
print(w)

In [None]:
## completa las secuencias
w <- z %>% expand(keys = LETTERS[1:4], groups = 1:3)
print(w)

In [None]:
## reescribe el dataset
print(z)
cat('\n\n')
w <- z %>% gather(keys, groups, -x.values)
print(w)

In [None]:
## convierte valores en columnas y viceversa.
print(z)
cat('\n\n')
print(z %>% spread(groups, keys))

In [None]:
## convierte valores en columnas y viceversa.
print(z %>% spread(keys, groups))

# data.table

[Contenido](#Contenido)

> [`R data.table`](https://cran.r-project.org/web/packages/data.table/index.html)  
`Extension of Data.frame`

Este paquete presenta una funcionalidad similar a los data.frame y esta optimizada para el manejo de grandes cantidades de datos.

In [None]:
library(data.table)

In [None]:
DT <- data.table(A = rep(1:3, each=4), 
                 B = rep(1:4, each=3), 
                 C = rep(1:2, 6), 
                 key = "A,B") 
print(DT)

In [None]:
## casos duplicados
w <- DT[duplicated(DT),]
print(w)

In [None]:
w <- DT[duplicated(DT, by="B"),]
print(w)

In [None]:
## casos únicos
print(unique(DT))

In [None]:
print( unique(DT, by=c("A", "C")) )

# sqldf

[Contenido](#Contenido)

> [`R sqldf`](https://github.com/ggrothendieck/sqldf)  
`Perform SQL Selects on R Data Frames`

  
Los ejemplos presentados son adaptados de la página web del paquete.  

In [None]:
## carga la librería
library(sqldf)

In [None]:
## selección de un conjunto de registros ordenados
sqldf('select * from iris order by "Sepal.Length" desc limit 3')

In [None]:
## agrupamiento
sqldf('select Species, avg("Sepal.Length") from iris group by Species')

In [None]:
## selección condicional
sqlquery = 'select * from iris where species = "setosa" and "Sepal.Length" > 5.2' 
sqldf(sqlquery, stringsAsFactors = FALSE)

In [None]:
## lectura desde un archivo csv
sqlquery = 'select * from iris where species = "setosa" and "Sepal.Length" > 5.2' 
read.csv.sql(file='files/iris.csv', 
             sql = sqlquery)

---

[Contenido](#Contenido)