Transformación de Datos
===

* *30 min* | Última modificación: Junio 22, 2019

**Bibliografía**.

> [An introduction to R](https://cran.r-project.org/doc/manuals/R-intro.pdf) by W. N. Venables, D. M. Smith and the R Core Team  
[Data wrangling with R and RStudio - dplyr](https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/) 

**Datos de ejemplo.**

In [1]:
x <- iris # copia del dataframe `iris`.
str(x)    # información basica del dataframe.

'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


## Tamaño del `data.frame` 

In [2]:
## número de filas del dataframe
nrow(x) 

In [3]:
## número de columnas del dataframe
ncol(x) 

In [4]:
## número de columnas del dataframe
length(x) 

## Indexación por nombres de filas y columnas

In [5]:
## parte inicial del dataframe
head(x)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [6]:
## parte inicial del dataframe
head(x, n = 3)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa


In [7]:
## parte final del dataframe
tail(x)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
145,6.7,3.3,5.7,2.5,virginica
146,6.7,3.0,5.2,2.3,virginica
147,6.3,2.5,5.0,1.9,virginica
148,6.5,3.0,5.2,2.0,virginica
149,6.2,3.4,5.4,2.3,virginica
150,5.9,3.0,5.1,1.8,virginica


In [8]:
## parte final del dataframe
tail(x, n = 3)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
148,6.5,3.0,5.2,2.0,virginica
149,6.2,3.4,5.4,2.3,virginica
150,5.9,3.0,5.1,1.8,virginica


In [9]:
## nombres de las columnas 
names(x)

In [10]:
## nombres de las filas
row.names(x)

In [11]:
## creación de una nueva columna
x$n <- 1  
head(x)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,n
5.1,3.5,1.4,0.2,setosa,1
4.9,3.0,1.4,0.2,setosa,1
4.7,3.2,1.3,0.2,setosa,1
4.6,3.1,1.5,0.2,setosa,1
5.0,3.6,1.4,0.2,setosa,1
5.4,3.9,1.7,0.4,setosa,1


In [12]:
## creación de una nueva columna
x <- cbind(x, m = 1)
head(x)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,n,m
5.1,3.5,1.4,0.2,setosa,1,1
4.9,3.0,1.4,0.2,setosa,1,1
4.7,3.2,1.3,0.2,setosa,1,1
4.6,3.1,1.5,0.2,setosa,1,1
5.0,3.6,1.4,0.2,setosa,1,1
5.4,3.9,1.7,0.4,setosa,1,1


In [13]:
## modificación de una columna
x$n <- 1:150
head(x)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species,n,m
5.1,3.5,1.4,0.2,setosa,1,1
4.9,3.0,1.4,0.2,setosa,2,1
4.7,3.2,1.3,0.2,setosa,3,1
4.6,3.1,1.5,0.2,setosa,4,1
5.0,3.6,1.4,0.2,setosa,5,1
5.4,3.9,1.7,0.4,setosa,6,1


In [14]:
## borrado de la columna
x <- x[,-c(6,7)]
head(x)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [15]:
## nombres de las filas. los nombres deben ser únicos
u <- paste('case_', 1:150, sep = '')
head(u)

In [16]:
## cambia los nombres de las filas 
row.names(x) <- u
head(x)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_1,5.1,3.5,1.4,0.2,setosa
case_2,4.9,3.0,1.4,0.2,setosa
case_3,4.7,3.2,1.3,0.2,setosa
case_4,4.6,3.1,1.5,0.2,setosa
case_5,5.0,3.6,1.4,0.2,setosa
case_6,5.4,3.9,1.7,0.4,setosa


In [17]:
## todas las filas y la columna Species
head(x[,'Species'], 10)

In [18]:
## valor para una fila y columna particular
x[3, 'Sepal.Length']

In [19]:
## valor para una fila y columna particular
x[3, c('Species', 'Sepal.Length')]

Unnamed: 0,Species,Sepal.Length
case_3,setosa,4.7


In [20]:
## selección por nombre de la fila
x['case_3',]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_3,4.7,3.2,1.3,0.2,setosa


In [21]:
## selección por nombre de la fila
x[c('case_3', 'case_5'),]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_3,4.7,3.2,1.3,0.2,setosa
case_5,5.0,3.6,1.4,0.2,setosa


In [22]:
## selección por nombres de fila y columna
x['case_3', 'Sepal.Length']

In [23]:
## selección por nombres de fila y columna
x[c('case_3', 'case_5'), c('Sepal.Length', 'Sepal.Width')]

Unnamed: 0,Sepal.Length,Sepal.Width
case_3,4.7,3.2
case_5,5.0,3.6


In [24]:
## selección por nombre de la fila y número de las columnas
x[c('case_3', 'case_5'), 3:5]

Unnamed: 0,Petal.Length,Petal.Width,Species
case_3,1.3,0.2,setosa
case_5,1.4,0.2,setosa


In [25]:
## selección por nombres de fila y columna
x[1:3, c('Sepal.Length', 'Sepal.Width')]

Unnamed: 0,Sepal.Length,Sepal.Width
case_1,5.1,3.5
case_2,4.9,3.0
case_3,4.7,3.2


## Indexación numérica

In [26]:
## selección de las primeras tres columnas
head(x[,1:3])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length
case_1,5.1,3.5,1.4
case_2,4.9,3.0,1.4
case_3,4.7,3.2,1.3
case_4,4.6,3.1,1.5
case_5,5.0,3.6,1.4
case_6,5.4,3.9,1.7


In [27]:
## selección de las últimas tres columnas
head(x[,-(1:(ncol(x)-3))])

Unnamed: 0,Petal.Length,Petal.Width,Species
case_1,1.4,0.2,setosa
case_2,1.4,0.2,setosa
case_3,1.3,0.2,setosa
case_4,1.5,0.2,setosa
case_5,1.4,0.2,setosa
case_6,1.7,0.4,setosa


In [28]:
## selección de algunas columnas
head(x[,c(1,5)])

Unnamed: 0,Sepal.Length,Species
case_1,5.1,setosa
case_2,4.9,setosa
case_3,4.7,setosa
case_4,4.6,setosa
case_5,5.0,setosa
case_6,5.4,setosa


In [29]:
## selección de las primeras 3 filas
x[1:3,]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_1,5.1,3.5,1.4,0.2,setosa
case_2,4.9,3.0,1.4,0.2,setosa
case_3,4.7,3.2,1.3,0.2,setosa


In [30]:
## desde la tercera hasta la última fila
head(x[-(1:2),])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_3,4.7,3.2,1.3,0.2,setosa
case_4,4.6,3.1,1.5,0.2,setosa
case_5,5.0,3.6,1.4,0.2,setosa
case_6,5.4,3.9,1.7,0.4,setosa
case_7,4.6,3.4,1.4,0.3,setosa
case_8,5.0,3.4,1.5,0.2,setosa


In [31]:
## selección por intervalos
u <- seq(from = 1, to = nrow(x), by = 15)
x[u,]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_1,5.1,3.5,1.4,0.2,setosa
case_16,5.7,4.4,1.5,0.4,setosa
case_31,4.8,3.1,1.6,0.2,setosa
case_46,4.8,3.0,1.4,0.3,setosa
case_61,5.0,2.0,3.5,1.0,versicolor
case_76,6.6,3.0,4.4,1.4,versicolor
case_91,5.5,2.6,4.4,1.2,versicolor
case_106,7.6,3.0,6.6,2.1,virginica
case_121,6.9,3.2,5.7,2.3,virginica
case_136,7.7,3.0,6.1,2.3,virginica


In [32]:
## orden inverso
head(x[nrow(x):1,])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_150,5.9,3.0,5.1,1.8,virginica
case_149,6.2,3.4,5.4,2.3,virginica
case_148,6.5,3.0,5.2,2.0,virginica
case_147,6.3,2.5,5.0,1.9,virginica
case_146,6.7,3.0,5.2,2.3,virginica
case_145,6.7,3.3,5.7,2.5,virginica


In [33]:
## todas las filas excepto la última
tail(x[-nrow(x),])

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_144,6.8,3.2,5.9,2.3,virginica
case_145,6.7,3.3,5.7,2.5,virginica
case_146,6.7,3.0,5.2,2.3,virginica
case_147,6.3,2.5,5.0,1.9,virginica
case_148,6.5,3.0,5.2,2.0,virginica
case_149,6.2,3.4,5.4,2.3,virginica


In [34]:
## valores para una fila particular
x[2,]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_2,4.9,3,1.4,0.2,setosa


In [35]:
## indices como vector
x[c(2,4,6),]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_2,4.9,3.0,1.4,0.2,setosa
case_4,4.6,3.1,1.5,0.2,setosa
case_6,5.4,3.9,1.7,0.4,setosa


In [36]:
## indices como vector
x[c(2,4,6), c(1, 5)]

Unnamed: 0,Sepal.Length,Species
case_2,4.9,setosa
case_4,4.6,setosa
case_6,5.4,setosa


## Indexación booleana

In [37]:
## selección condicional
head(x$Species == 'virginica', 30)

In [38]:
## selección condicional
z <- x[x$Species == 'virginica',] 
head(z)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_101,6.3,3.3,6.0,2.5,virginica
case_102,5.8,2.7,5.1,1.9,virginica
case_103,7.1,3.0,5.9,2.1,virginica
case_104,6.3,2.9,5.6,1.8,virginica
case_105,6.5,3.0,5.8,2.2,virginica
case_106,7.6,3.0,6.6,2.1,virginica


In [39]:
## selección condicional
z <- x[x$Petal.Length > 3.2,] 
head(z)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_51,7.0,3.2,4.7,1.4,versicolor
case_52,6.4,3.2,4.5,1.5,versicolor
case_53,6.9,3.1,4.9,1.5,versicolor
case_54,5.5,2.3,4.0,1.3,versicolor
case_55,6.5,2.8,4.6,1.5,versicolor
case_56,5.7,2.8,4.5,1.3,versicolor


In [40]:
## conteo de casos
table(z$Species)


    setosa versicolor  virginica 
         0         49         50 

## Adición de filas

In [41]:
## adición de una fila (al final)
u <- rbind(x, 
           c(1, 1, 1, 1, 'setosa'))
tail(u)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_146,6.7,3.0,5.2,2.3,virginica
case_147,6.3,2.5,5.0,1.9,virginica
case_148,6.5,3.0,5.2,2.0,virginica
case_149,6.2,3.4,5.4,2.3,virginica
case_150,5.9,3.0,5.1,1.8,virginica
151,1.0,1.0,1.0,1.0,setosa


## Inserción de filas

In [42]:
## inserción en medio del data.frame
u <- rbind(u[1:150,], 
           c(2, 2, 2, 2, 'setosa'),
           u[151,])

tail(u)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_147,6.3,2.5,5.0,1.9,virginica
case_148,6.5,3.0,5.2,2.0,virginica
case_149,6.2,3.4,5.4,2.3,virginica
case_150,5.9,3.0,5.1,1.8,virginica
151,2.0,2.0,2.0,2.0,setosa
1511,1.0,1.0,1.0,1.0,setosa


## Borrado de filas

In [43]:
## borrado de las dos últimas filas
u <- u[-c(151, 152),]
tail(u)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_145,6.7,3.3,5.7,2.5,virginica
case_146,6.7,3.0,5.2,2.3,virginica
case_147,6.3,2.5,5.0,1.9,virginica
case_148,6.5,3.0,5.2,2.0,virginica
case_149,6.2,3.4,5.4,2.3,virginica
case_150,5.9,3.0,5.1,1.8,virginica


## Ordenación

In [44]:
## ordena por varias columnas
## devuelve los indices de las filas
## ordena primero por Sepal.Width y luego por Sepal.Length
u <- order(x$Sepal.Width, x$Sepal.Length)  
head(u)                                   

In [45]:
head(x[u,], n = 10)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_61,5.0,2.0,3.5,1.0,versicolor
case_63,6.0,2.2,4.0,1.0,versicolor
case_120,6.0,2.2,5.0,1.5,virginica
case_69,6.2,2.2,4.5,1.5,versicolor
case_42,4.5,2.3,1.3,0.3,setosa
case_94,5.0,2.3,3.3,1.0,versicolor
case_54,5.5,2.3,4.0,1.3,versicolor
case_88,6.3,2.3,4.4,1.3,versicolor
case_58,4.9,2.4,3.3,1.0,versicolor
case_81,5.5,2.4,3.8,1.1,versicolor


## Subconjuntos y particionamiento

In [46]:
## selecciona un subconjunto de los datos.
y <- subset(x, Species == 'virginica')
head(y)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_101,6.3,3.3,6.0,2.5,virginica
case_102,5.8,2.7,5.1,1.9,virginica
case_103,7.1,3.0,5.9,2.1,virginica
case_104,6.3,2.9,5.6,1.8,virginica
case_105,6.5,3.0,5.8,2.2,virginica
case_106,7.6,3.0,6.6,2.1,virginica


In [47]:
## partición por los valores de la columna `Species`
y <- split(x, x$Species)
names(y)

In [48]:
## cantidad de grupos
length(names(y))

In [49]:
## acceso a la información de cada subgrupo
head(y$setosa)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_1,5.1,3.5,1.4,0.2,setosa
case_2,4.9,3.0,1.4,0.2,setosa
case_3,4.7,3.2,1.3,0.2,setosa
case_4,4.6,3.1,1.5,0.2,setosa
case_5,5.0,3.6,1.4,0.2,setosa
case_6,5.4,3.9,1.7,0.4,setosa


In [50]:
## acceso a la información de cada subgrupo
head(y$virginica)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_101,6.3,3.3,6.0,2.5,virginica
case_102,5.8,2.7,5.1,1.9,virginica
case_103,7.1,3.0,5.9,2.1,virginica
case_104,6.3,2.9,5.6,1.8,virginica
case_105,6.5,3.0,5.8,2.2,virginica
case_106,7.6,3.0,6.6,2.1,virginica


## Apilado

In [51]:
## se crea un nuevo data.frame a partir de 
## los grupos obtenidos con split.
## no es posible apilar data.frames con diferentes
## columnas
z <- rbind(y$virginica, 
           y$setosa, 
           y$versicolor)
head(z)
table(z$Species)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_101,6.3,3.3,6.0,2.5,virginica
case_102,5.8,2.7,5.1,1.9,virginica
case_103,7.1,3.0,5.9,2.1,virginica
case_104,6.3,2.9,5.6,1.8,virginica
case_105,6.5,3.0,5.8,2.2,virginica
case_106,7.6,3.0,6.6,2.1,virginica



    setosa versicolor  virginica 
        50         50         50 

## Agregación

> [`table {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/table.html) 

In [52]:
## conteo de casos.
## número de casos por `Species`
table(x$Species)


    setosa versicolor  virginica 
        50         50         50 

In [53]:
## conteo de casos por `Sepal.Length`
table(x$Sepal.Length)


4.3 4.4 4.5 4.6 4.7 4.8 4.9   5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9   6 6.1 6.2 
  1   3   1   4   2   5   6  10   9   4   1   6   7   6   8   7   3   6   6   4 
6.3 6.4 6.5 6.6 6.7 6.8 6.9   7 7.1 7.2 7.3 7.4 7.6 7.7 7.9 
  9   7   5   2   8   3   4   1   1   3   1   1   1   4   1 

> [`lapply {base}`](https://stat.ethz.ch/R-manual/R-devel/library/base/html/lapply.html)

In [54]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
u <- lapply(X = x[, c('Sepal.Length', 'Sepal.Width')], 
            FUN = mean)

u

In [55]:
## aplicación de una funcion a columnas especificas 
## de un data.frame
u <- sapply(X = x[, c('Sepal.Length', 'Sepal.Width')], 
            FUN = mean)

u

In [56]:
## aplica la función a la columna especificada por grupos
y <- split(x, x$Species)
u <- sapply(y, 
            function(x) mean(x$Sepal.Length))
u

In [57]:
## aplica la función a la columna especificada por grupos
y <- split(x, x$Species)
u <- sapply(y, 
            function(x) c(mean(x$Sepal.Length),
                          mean(x$Sepal.Width),
                          mean(x$Petal.Length),
                          mean(x$Petal.Width)))
u

setosa,versicolor,virginica
5.006,5.936,6.588
3.428,2.77,2.974
1.462,4.26,5.552
0.246,1.326,2.026


In [58]:
## agregación usando una fórmula
aggregate(. ~ Species, 
          data = x, 
          mean)

Species,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
setosa,5.006,3.428,1.462,0.246
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


## Unión

In [59]:
## no es una unión estrictamente.
## solo funciona cuando un dataframe tiene un número de
## filas múltiplo del otro.
d1 <- data.frame(x = 1:5, y = runif(5))
d2 <- data.frame(z = 1:10, w = runif(10))
cbind(d1, d2)

x,y,z,w
1,0.4841273,1,0.3173697
2,0.6963084,2,0.7154739
3,0.9415711,3,0.118538
4,0.7621488,4,0.6878867
5,0.9907074,5,0.6428192
1,0.4841273,6,0.6320456
2,0.6963084,7,0.0825287
3,0.9415711,8,0.1832091
4,0.7621488,9,0.2026116
5,0.9907074,10,0.827835


## Casos duplicados y casos faltantes

In [60]:
## se crea un vector aleatorio de indices
u <- sample(1:150,            # población
            size = 20,        # tamaño de la muestra
            replace = TRUE)   # se puede repetir elementos?

print(sort(u))

 [1]   2   3  19  20  21  23  28  30  34  41  43  64  67  67  79  80  84  98 112
[20] 145


In [61]:
## submuestra del data.frame original `x`
y <- x[u,]  
str(y)

'data.frame':	20 obs. of  5 variables:
 $ Sepal.Length: num  4.6 6.4 6.7 4.4 5 4.7 5.7 5.7 5.6 5.4 ...
 $ Sepal.Width : num  3.6 2.7 3.3 3.2 3.5 3.2 3.8 2.6 3 3.4 ...
 $ Petal.Length: num  1 5.3 5.7 1.3 1.3 1.6 1.7 3.5 4.5 1.7 ...
 $ Petal.Width : num  0.2 1.9 2.5 0.2 0.3 0.2 0.3 1 1.5 0.2 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 3 3 1 1 1 1 2 2 1 ...


In [62]:
## cambia los nombres de las filas 
row.names(y) <- 151:170
head(y)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
151,4.6,3.6,1.0,0.2,setosa
152,6.4,2.7,5.3,1.9,virginica
153,6.7,3.3,5.7,2.5,virginica
154,4.4,3.2,1.3,0.2,setosa
155,5.0,3.5,1.3,0.3,setosa
156,4.7,3.2,1.6,0.2,setosa


In [63]:
## de la submuestra `y` se hacen varios registros incompletos
## cambiando varios valores en la columna `Sepal.Length` por NA
y$Sepal.Length[sample(1:20, 10, replace = FALSE)] <- NA
str(y)

'data.frame':	20 obs. of  5 variables:
 $ Sepal.Length: num  NA NA 6.7 NA 5 4.7 5.7 5.7 5.6 5.4 ...
 $ Sepal.Width : num  3.6 2.7 3.3 3.2 3.5 3.2 3.8 2.6 3 3.4 ...
 $ Petal.Length: num  1 5.3 5.7 1.3 1.3 1.6 1.7 3.5 4.5 1.7 ...
 $ Petal.Width : num  0.2 1.9 2.5 0.2 0.3 0.2 0.3 1 1.5 0.2 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 3 3 1 1 1 1 2 2 1 ...


In [64]:
## casos con datos faltantes 
head(y, n = 20)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
151,,3.6,1.0,0.2,setosa
152,,2.7,5.3,1.9,virginica
153,6.7,3.3,5.7,2.5,virginica
154,,3.2,1.3,0.2,setosa
155,5.0,3.5,1.3,0.3,setosa
156,4.7,3.2,1.6,0.2,setosa
157,5.7,3.8,1.7,0.3,setosa
158,5.7,2.6,3.5,1.0,versicolor
159,5.6,3.0,4.5,1.5,versicolor
160,5.4,3.4,1.7,0.2,setosa


In [65]:
## apilado de dataframes 
## los casos 151 a 170 contienen casos duplicados o
## casos con datos faltantes
x <- rbind(x, y)  
str(x)

'data.frame':	170 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


In [66]:
## parte final del nuevo data.frame
tail(x, n = 10)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
161,4.7,3.2,1.3,0.2,setosa
162,,2.7,5.1,1.6,versicolor
163,,3.0,4.5,1.5,versicolor
164,,2.9,4.3,1.3,versicolor
165,6.0,2.9,4.5,1.5,versicolor
166,,2.9,4.7,1.4,versicolor
167,,3.8,1.5,0.3,setosa
168,4.9,3.0,1.4,0.2,setosa
169,,3.5,1.5,0.2,setosa
170,,4.2,1.4,0.2,setosa


In [67]:
## casos únicos o no duplicados 
## incluye los casos con valores NA como únicos
## note que se eliminaron varios casos entre el 151 y el 170
tail(unique(x), n = 20)

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_140,6.9,3.1,5.4,2.1,virginica
case_141,6.7,3.1,5.6,2.4,virginica
case_142,6.9,3.1,5.1,2.3,virginica
case_144,6.8,3.2,5.9,2.3,virginica
case_145,6.7,3.3,5.7,2.5,virginica
case_146,6.7,3.0,5.2,2.3,virginica
case_147,6.3,2.5,5.0,1.9,virginica
case_148,6.5,3.0,5.2,2.0,virginica
case_149,6.2,3.4,5.4,2.3,virginica
case_150,5.9,3.0,5.1,1.8,virginica


In [68]:
## casos completos (sin faltantes)
table(complete.cases(x))  


FALSE  TRUE 
   10   160 

In [69]:
## selección de casos incompletos
x[!complete.cases(x),]  

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
151,,3.6,1.0,0.2,setosa
152,,2.7,5.3,1.9,virginica
154,,3.2,1.3,0.2,setosa
162,,2.7,5.1,1.6,versicolor
163,,3.0,4.5,1.5,versicolor
164,,2.9,4.3,1.3,versicolor
166,,2.9,4.7,1.4,versicolor
167,,3.8,1.5,0.3,setosa
169,,3.5,1.5,0.2,setosa
170,,4.2,1.4,0.2,setosa


In [70]:
## selección de casos duplicados
x[duplicated(x),]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
case_143,5.8,2.7,5.1,1.9,virginica
153,6.7,3.3,5.7,2.5,virginica
155,5.0,3.5,1.3,0.3,setosa
156,4.7,3.2,1.6,0.2,setosa
157,5.7,3.8,1.7,0.3,setosa
158,5.7,2.6,3.5,1.0,versicolor
159,5.6,3.0,4.5,1.5,versicolor
160,5.4,3.4,1.7,0.2,setosa
161,4.7,3.2,1.3,0.2,setosa
165,6.0,2.9,4.5,1.5,versicolor


In [71]:
## ops! el registro 143 aparece duplicado?
## se verifica en el data.frame original
iris[duplicated(iris),]

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
143,5.8,2.7,5.1,1.9,virginica


In [72]:
u <- x[!duplicated(x),]      ## selecciona los casos no duplicados
u <- u[complete.cases(u),]   ## y que estén completos
str(u)

'data.frame':	149 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


In [73]:
## número de casos completos (sin datos faltantes)
table(complete.cases(u))  


TRUE 
 149 

## Estadísticos descriptivos

In [74]:
## resumen de estadísticos descriptivos
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

## R dummy

> [`R dummy`](https://cran.r-project.org/web/packages/dummies/)  
`Create dummy/indicator variables flexibly and efficiently`

In [75]:
library(dummy)

dummy 0.1.3
dummyNews()


In [76]:
## crea una variable dummy por cada valor de una variable categórica
y <- dummy(iris)
print(y$Species_setosa)
print(y$Species_virginica)

  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 [38] 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 [75] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[112] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
[149] 0 0
Levels: 0 1
  [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 [38] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 [75] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
[112] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[149] 1 1
Levels: 0 1


## R reshape

> [`R reshape`](https://cran.r-project.org/web/packages/reshape/index.html)  
`Flexibly reshape data`  

In [77]:
library(reshape)

In [78]:
## Tablas dinámicas
m <- data.frame(key1    = rep(letters[1:3], each = 2),
                key2    = rep(LETTERS[1:2], 3),
                values1 = 1:6,
                values2 = 7:12,
                stringsAsFactors = FALSE)

m

key1,key2,values1,values2
a,A,1,7
a,B,2,8
b,A,3,9
b,B,4,10
c,A,5,11
c,B,6,12


In [79]:
cast(data = m, 
     formula = key2~key1, 
     value = 'values2')

key2,a,b,c
A,7,9,11
B,8,10,12


In [80]:
cast(data = m, 
     formula = key1~key2, 
     value = 'values2')

key1,A,B
a,7,8
b,9,10
c,11,12


## R reshape2

> [`R reshape2`](https://cran.r-project.org/web/packages/reshape2/index.html)  
`Flexibly Reshape Data: A Reboot of the Reshape Package`

In [81]:
library(reshape2)


Attaching package: ‘reshape2’

The following objects are masked from ‘package:reshape’:

    colsplit, melt, recast



In [82]:
# reshape2 convierte los nombres de las columnas a campos 
# de la columna `variable` y los correspondientes valores 
# de las columnas los apila en la columna `value` y 
# viceversa.

x <- iris # copia del dataframe `iris`.

# agrega una columna de indices.
x$n = 1:nrow(x)  

# los campos `Species` y `n` conforman una clave para la tabla.
g <- melt(x, id.vars = c('Species', 'n'))
head(g, n = 10)
cat('\n')
tail(g, n = 10)

Species,n,variable,value
setosa,1,Sepal.Length,5.1
setosa,2,Sepal.Length,4.9
setosa,3,Sepal.Length,4.7
setosa,4,Sepal.Length,4.6
setosa,5,Sepal.Length,5.0
setosa,6,Sepal.Length,5.4
setosa,7,Sepal.Length,4.6
setosa,8,Sepal.Length,5.0
setosa,9,Sepal.Length,4.4
setosa,10,Sepal.Length,4.9





Unnamed: 0,Species,n,variable,value
591,virginica,141,Petal.Width,2.4
592,virginica,142,Petal.Width,2.3
593,virginica,143,Petal.Width,1.9
594,virginica,144,Petal.Width,2.3
595,virginica,145,Petal.Width,2.5
596,virginica,146,Petal.Width,2.3
597,virginica,147,Petal.Width,1.9
598,virginica,148,Petal.Width,2.0
599,virginica,149,Petal.Width,2.3
600,virginica,150,Petal.Width,1.8


In [83]:
## hace el proceso inverso de `melt`
## note que se cambio el orden de las columnas
head(dcast(g, Species + n ~ variable ), 10)

Species,n,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width
setosa,1,5.1,3.5,1.4,0.2
setosa,2,4.9,3.0,1.4,0.2
setosa,3,4.7,3.2,1.3,0.2
setosa,4,4.6,3.1,1.5,0.2
setosa,5,5.0,3.6,1.4,0.2
setosa,6,5.4,3.9,1.7,0.4
setosa,7,4.6,3.4,1.4,0.3
setosa,8,5.0,3.4,1.5,0.2
setosa,9,4.4,2.9,1.4,0.2
setosa,10,4.9,3.1,1.5,0.1


##  R plyr

> [`R plyr`](https://cran.r-project.org/web/packages/plyr/index.html)  
`Tools for Splitting, Applying and Combining Data`

In [84]:
library(plyr)  


Attaching package: ‘plyr’

The following objects are masked from ‘package:reshape’:

    rename, round_any



In [85]:
## suma la columna `Sepal.Length` por cada valor diferente en `Species` 
print(ddply(iris, ~Species, summarise, sum.Sepal.Length = sum(Sepal.Length)))

     Species sum.Sepal.Length
1     setosa            250.3
2 versicolor            296.8
3  virginica            329.4


In [86]:
## ordena por las `Species` y luego `Sepal.Length`
print(head(arrange(iris, Species, Sepal.Length), n = 10))

   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1           4.3         3.0          1.1         0.1  setosa
2           4.4         2.9          1.4         0.2  setosa
3           4.4         3.0          1.3         0.2  setosa
4           4.4         3.2          1.3         0.2  setosa
5           4.5         2.3          1.3         0.3  setosa
6           4.6         3.1          1.5         0.2  setosa
7           4.6         3.4          1.4         0.3  setosa
8           4.6         3.6          1.0         0.2  setosa
9           4.6         3.2          1.4         0.2  setosa
10          4.7         3.2          1.3         0.2  setosa


In [87]:
## hace un `join` a dos dataframes.

keys <- rep(x = LETTERS[1:2], times = 2)
x.values <- paste('x', 1:4, sep = '.')
x <- data.frame(keys, 
                x.values,
                stringsAsFactors = FALSE)

keys <- rep(x = LETTERS[2:3], each = 2)
y.values <- paste('y', 1:4, sep = '.')
y <- data.frame(keys, 
                y.values, 
                stringsAsFactors = FALSE)

cat('-- data.frame x --\n')
print(x)
cat('\n')
cat('-- data.frame y --\n')
print(y)

-- data.frame x --
  keys x.values
1    A      x.1
2    B      x.2
3    A      x.3
4    B      x.4

-- data.frame y --
  keys y.values
1    B      y.1
2    B      y.2
3    C      y.3
4    C      y.4


In [88]:
## operacion left_join
w <- join(x = x, 
          y = y, 
          by = 'keys')

print(w)

  keys x.values y.values
1    A      x.1     <NA>
2    B      x.2      y.1
3    B      x.2      y.2
4    A      x.3     <NA>
5    B      x.4      y.1
6    B      x.4      y.2


In [89]:
## operacion left_join
w <- join(x = y, 
          y = x, 
          by = 'keys')

print(w)

  keys y.values x.values
1    B      y.1      x.2
2    B      y.1      x.4
3    B      y.2      x.2
4    B      y.2      x.4
5    C      y.3     <NA>
6    C      y.4     <NA>


##  R dplyr

> [`R dplyr`](https://cran.r-project.org/web/packages/dplyr/index.html)  
`A Grammar of Data Manipulation`

In [90]:
library(dplyr)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:plyr’:

    arrange, count, desc, failwith, id, mutate, rename, summarise,
    summarize

The following object is masked from ‘package:reshape’:

    rename

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



In [91]:
## nombres de las filas del data.frame `x`
print(row.names(x))

[1] "1" "2" "3" "4"


In [92]:
## convierte los nombres de las filas en una
## variable del data.frame
y <- add_rownames(x, var = 'nombre_')
print(head(y, 10))

“Deprecated, use tibble::rownames_to_column() instead.”

# A tibble: 4 x 3
  nombre_ keys  x.values
  <chr>   <chr> <chr>   
1 1       A     x.1     
2 2       B     x.2     
3 3       A     x.3     
4 4       B     x.4     


In [93]:
## ordenación del data.frame
print(head( arrange(iris, Sepal.Length, Sepal.Width) ))

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1          4.3         3.0          1.1         0.1  setosa
2          4.4         2.9          1.4         0.2  setosa
3          4.4         3.0          1.3         0.2  setosa
4          4.4         3.2          1.3         0.2  setosa
5          4.5         2.3          1.3         0.3  setosa
6          4.6         3.1          1.5         0.2  setosa


In [94]:
## Operaciones join.
## se crean dos dataframes

keys <- rep(x = LETTERS[c(1,3)], times = 2)
x.values <- paste('x.row', 1:4, sep = '_')
groups <- c(rep(1,3), 2)
x <- data.frame(keys, 
                groups,
                x.values,
                stringsAsFactors = FALSE)

keys <- rep(x = LETTERS[3:4], each = 2)
y.values <- paste('y.row', 1:4, sep = '_')
y <- data.frame(keys, 
                y.values, 
                stringsAsFactors = FALSE)

cat('-- data.frame x --\n')
print(x)
cat('\n')
cat('-- data.frame y --\n')
print(y)

-- data.frame x --
  keys groups x.values
1    A      1  x.row_1
2    C      1  x.row_2
3    A      1  x.row_3
4    C      2  x.row_4

-- data.frame y --
  keys y.values
1    C  y.row_1
2    C  y.row_2
3    D  y.row_3
4    D  y.row_4


In [95]:
## intersección de los registros en `x` y en `y`
print( inner_join(x, y, by = 'keys') )

  keys groups x.values y.values
1    C      1  x.row_2  y.row_1
2    C      1  x.row_2  y.row_2
3    C      2  x.row_4  y.row_1
4    C      2  x.row_4  y.row_2


In [96]:
## todos los registros en `x`, y los 
## correspondientes valores en `y`
print( left_join(x, y, by = 'keys') )

  keys groups x.values y.values
1    A      1  x.row_1     <NA>
2    C      1  x.row_2  y.row_1
3    C      1  x.row_2  y.row_2
4    A      1  x.row_3     <NA>
5    C      2  x.row_4  y.row_1
6    C      2  x.row_4  y.row_2


In [97]:
## todos los registros en `y` y 
## los valores correspondientes en `x`
print( right_join(x, y, by = 'keys') )

  keys groups x.values y.values
1    C      1  x.row_2  y.row_1
2    C      2  x.row_4  y.row_1
3    C      1  x.row_2  y.row_2
4    C      2  x.row_4  y.row_2
5    D     NA     <NA>  y.row_3
6    D     NA     <NA>  y.row_4


In [98]:
## claves en `x`  para las que hay claves en `y`
print( semi_join(x, y, by = 'keys') )

  keys groups x.values
1    C      1  x.row_2
2    C      2  x.row_4


In [99]:
## registros que no están en `y`
print( anti_join(x, y, by = 'keys') )

  keys groups x.values
1    A      1  x.row_1
2    A      1  x.row_3


In [100]:
## todos los registros en `x` y en `y` 
print( full_join(x, y, by = 'keys') )

  keys groups x.values y.values
1    A      1  x.row_1     <NA>
2    C      1  x.row_2  y.row_1
3    C      1  x.row_2  y.row_2
4    A      1  x.row_3     <NA>
5    C      2  x.row_4  y.row_1
6    C      2  x.row_4  y.row_2
7    D     NA     <NA>  y.row_3
8    D     NA     <NA>  y.row_4


In [101]:
## filtrado
w <- full_join(x, y, by = 'keys')
print(filter(w, keys == 'C'))

  keys groups x.values y.values
1    C      1  x.row_2  y.row_1
2    C      1  x.row_2  y.row_2
3    C      2  x.row_4  y.row_1
4    C      2  x.row_4  y.row_2


In [102]:
## select
print(select(w, keys, groups))

  keys groups
1    A      1
2    C      1
3    C      1
4    A      1
5    C      2
6    C      2
7    D     NA
8    D     NA


In [103]:
## muestreo aleatorio de filas
print(sample_n(w, 2))

  keys groups x.values y.values
4    A      1  x.row_3     <NA>
3    C      1  x.row_2  y.row_2


In [104]:
## agregación
by_keys <- group_by(w, keys)
print(summarise(by_keys, count = n()))

# A tibble: 3 x 2
  keys  count
  <chr> <int>
1 A         2
2 C         4
3 D         2


##  R tidyr

> [`R tidyr`](https://cran.r-project.org/web/packages/tidyr/index.html)  
`Easily Tidy Data with 'spread()' and 'gather()' Functions`

In [105]:
library(tidyr)


Attaching package: ‘tidyr’

The following object is masked from ‘package:reshape2’:

    smiths

The following objects are masked from ‘package:reshape’:

    expand, smiths



In [106]:
z <- as_data_frame(x)
print(z)

# A tibble: 4 x 3
  keys  groups x.values
  <chr>  <dbl> <chr>   
1 A         1. x.row_1 
2 C         1. x.row_2 
3 A         1. x.row_3 
4 C         2. x.row_4 


In [107]:
## completa la secuencia (con valores unicos)
## para cada cada una de las columnas
w <- z %>% expand(keys, groups)
print(w)

# A tibble: 4 x 2
  keys  groups
  <chr>  <dbl>
1 A         1.
2 A         2.
3 C         1.
4 C         2.


In [108]:
## hace explicita la secuencia llenando con NAs 
## las combinaciones faltantes
print(z)
cat('\n\n')
w <- z %>% complete(keys, groups)
print(w)

# A tibble: 4 x 3
  keys  groups x.values
  <chr>  <dbl> <chr>   
1 A         1. x.row_1 
2 C         1. x.row_2 
3 A         1. x.row_3 
4 C         2. x.row_4 


# A tibble: 5 x 3
  keys  groups x.values
  <chr>  <dbl> <chr>   
1 A         1. x.row_1 
2 A         1. x.row_3 
3 A         2. <NA>    
4 C         1. x.row_2 
5 C         2. x.row_4 


In [109]:
## completa las secuencias
w <- z %>% expand(keys, groups)
print(w)

# A tibble: 4 x 2
  keys  groups
  <chr>  <dbl>
1 A         1.
2 A         2.
3 C         1.
4 C         2.


In [110]:
## completa las secuencias
w <- z %>% expand(keys = LETTERS[1:4], groups = 1:3)
print(w)

# A tibble: 12 x 2
   keys  groups
   <chr>  <int>
 1 A          1
 2 A          2
 3 A          3
 4 B          1
 5 B          2
 6 B          3
 7 C          1
 8 C          2
 9 C          3
10 D          1
11 D          2
12 D          3


In [111]:
## reescribe el dataset
print(z)
cat('\n\n')
w <- z %>% gather(keys, groups, -x.values)
print(w)

# A tibble: 4 x 3
  keys  groups x.values
  <chr>  <dbl> <chr>   
1 A         1. x.row_1 
2 C         1. x.row_2 
3 A         1. x.row_3 
4 C         2. x.row_4 


# A tibble: 8 x 3
  x.values keys   groups
  <chr>    <chr>  <chr> 
1 x.row_1  keys   A     
2 x.row_2  keys   C     
3 x.row_3  keys   A     
4 x.row_4  keys   C     
5 x.row_1  groups 1     
6 x.row_2  groups 1     
7 x.row_3  groups 1     
8 x.row_4  groups 2     


In [112]:
## convierte valores en columnas y viceversa.
print(z)
cat('\n\n')
print(z %>% spread(groups, keys))

# A tibble: 4 x 3
  keys  groups x.values
  <chr>  <dbl> <chr>   
1 A         1. x.row_1 
2 C         1. x.row_2 
3 A         1. x.row_3 
4 C         2. x.row_4 


# A tibble: 4 x 3
  x.values `1`   `2`  
  <chr>    <chr> <chr>
1 x.row_1  A     <NA> 
2 x.row_2  C     <NA> 
3 x.row_3  A     <NA> 
4 x.row_4  <NA>  C    


In [113]:
## convierte valores en columnas y viceversa.
print(z %>% spread(keys, groups))

# A tibble: 4 x 3
  x.values     A     C
  <chr>    <dbl> <dbl>
1 x.row_1     1.   NA 
2 x.row_2    NA     1.
3 x.row_3     1.   NA 
4 x.row_4    NA     2.


## data.table

> [`R data.table`](https://cran.r-project.org/web/packages/data.table/index.html)  
`Extension of Data.frame`

Este paquete presenta una funcionalidad similar a los data.frame y esta optimizada para el manejo de grandes cantidades de datos.

In [114]:
library(data.table)


Attaching package: ‘data.table’

The following objects are masked from ‘package:dplyr’:

    between, first, last

The following objects are masked from ‘package:reshape2’:

    dcast, melt

The following object is masked from ‘package:reshape’:

    melt



In [115]:
DT <- data.table(A = rep(1:3, each=4), 
                 B = rep(1:4, each=3), 
                 C = rep(1:2, 6), 
                 key = "A,B") 
print(DT)

    A B C
 1: 1 1 1
 2: 1 1 2
 3: 1 1 1
 4: 1 2 2
 5: 2 2 1
 6: 2 2 2
 7: 2 3 1
 8: 2 3 2
 9: 3 3 1
10: 3 4 2
11: 3 4 1
12: 3 4 2


In [116]:
## casos duplicados
w <- DT[duplicated(DT),]
print(w)

   A B C
1: 1 1 1
2: 3 4 2


In [117]:
w <- DT[duplicated(DT, by="B"),]
print(w)

   A B C
1: 1 1 2
2: 1 1 1
3: 2 2 1
4: 2 2 2
5: 2 3 2
6: 3 3 1
7: 3 4 1
8: 3 4 2


In [118]:
## casos únicos
print(unique(DT))

    A B C
 1: 1 1 1
 2: 1 1 2
 3: 1 2 2
 4: 2 2 1
 5: 2 2 2
 6: 2 3 1
 7: 2 3 2
 8: 3 3 1
 9: 3 4 2
10: 3 4 1


In [119]:
print( unique(DT, by=c("A", "C")) )

   A B C
1: 1 1 1
2: 1 1 2
3: 2 2 1
4: 2 2 2
5: 3 3 1
6: 3 4 2


## sqldf

> [`R sqldf`](https://github.com/ggrothendieck/sqldf)  
`Perform SQL Selects on R Data Frames`

  
Los ejemplos presentados son adaptados de la página web del paquete.  

In [120]:
## carga la librería
library(sqldf)

Loading required package: gsubfn
Loading required package: proto
Loading required package: RSQLite


In [121]:
## selección de un conjunto de registros ordenados
sqldf('select * from iris order by "Sepal.Length" desc limit 3')

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
7.9,3.8,6.4,2.0,virginica
7.7,3.8,6.7,2.2,virginica
7.7,2.6,6.9,2.3,virginica


In [122]:
## agrupamiento
sqldf('select Species, avg("Sepal.Length") from iris group by Species')

Species,"avg(""Sepal.Length"")"
setosa,5.006
versicolor,5.936
virginica,6.588


In [123]:
## selección condicional
sqlquery = 'select * from iris where species = "setosa" and "Sepal.Length" > 5.2' 
sqldf(sqlquery, stringsAsFactors = FALSE)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.4,3.9,1.7,0.4,setosa
5.4,3.7,1.5,0.2,setosa
5.8,4.0,1.2,0.2,setosa
5.7,4.4,1.5,0.4,setosa
5.4,3.9,1.3,0.4,setosa
5.7,3.8,1.7,0.3,setosa
5.4,3.4,1.7,0.2,setosa
5.4,3.4,1.5,0.4,setosa
5.5,4.2,1.4,0.2,setosa
5.5,3.5,1.3,0.2,setosa


In [124]:
## lectura desde un archivo csv
sqlquery = 'select * from iris where species = "setosa" and "Sepal.Length" > 5.2' 
read.csv.sql(file='files/iris.csv', 
             sql = sqlquery)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.4,3.9,1.7,0.4,setosa
5.4,3.7,1.5,0.2,setosa
5.8,4.0,1.2,0.2,setosa
5.7,4.4,1.5,0.4,setosa
5.4,3.9,1.3,0.4,setosa
5.7,3.8,1.7,0.3,setosa
5.4,3.4,1.7,0.2,setosa
5.4,3.4,1.5,0.4,setosa
5.5,4.2,1.4,0.2,setosa
5.5,3.5,1.3,0.2,setosa
