## 01. sqldf::sqldf

### sqldf::sqldf : 데이터 프레임에 SQL SELECT 질의를 수행한다.

<pre>
sqldf::sqldf(
  x,                     # SQL SELECT 문
  stringsAsFactors=FALSE # 문자열을 팩터로 반환할지 또는 문자열로 반환할지 여부
)
반환 값은 데이터 프레임이다.
</pre>

In [1]:
# install.packages("sqldf")
library(sqldf)

"package 'sqldf' was built under R version 3.4.4"Loading required package: gsubfn
Loading required package: proto
Loading required package: RSQLite


## sqldf()를 사용해 아이리스 데이터를 살펴보기

In [2]:
sqldf("select distinct Species from iris")

Species
setosa
versicolor
virginica


### setosa에 속하는 데이터에서 Sepal.Length의 평균을 구해보기

In [5]:
names(iris)

In [14]:
sqldf("select * from iris where Species='setosa'")

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


In [25]:
sqldf("select Species, avg([Petal.Width]/[Petal.Length]) from iris group by Species")

Species,avg([Petal.Width]/[Petal.Length])
setosa,0.1678683
versicolor,0.3111062
virginica,0.3667386


<pre>
sqldf 패키지에서는 디스크를 저장소로 사용한다거나 매번 sqldf( )를 수행할 때마다 
데이터베이스에 데이터 프레임을 저장했다가 처리하고 삭제하는 대신 한 번 만들어둔 
데이터를 재사용하는 등의 많은 최적화가 가능하다.

sqldf는 다양한 저장소를 사용할 수 있으며 기본 데이터 저장소로는 sqlite를 사용한다. 
따라서 속도 향상을 위한 인덱스 등을 적절히 사용할 수도 있으며, 데이터베이스 기반 기술을 
활용하므로 프로그램의 속도를 매우 빠르게 높일 수 있다.
(더북 참조)
</pre>

## 02. reshape2::melt(), cast()   데이터 구조의 변형과 요약

### melt() : 여러 컬럼 구성 데이터를 데이터 식별자(id), 측정변수(variable), 측정값(value)로 변환
### cast() : melt() 된 데이터를 다시 여러 컬럼으로 변환.

In [26]:
install.packages("reshape2")

Installing package into 'C:/Users/TOTO2/Documents/R/win-library/3.4'
(as 'lib' is unspecified)


ERROR: Error in contrib.url(repos, "source"): trying to use CRAN without setting a mirror


In [27]:
library(reshape2)

In [28]:
getwd()

### french_fries 데이터를 이용한 melt()와 cast()해 보기

In [29]:
head(french_fries)

Unnamed: 0,time,treatment,subject,rep,potato,buttery,grassy,rancid,painty
61,1,1,3,1,2.9,0.0,0.0,0.0,5.5
25,1,1,3,2,14.0,0.0,0.0,1.1,0.0
62,1,1,10,1,11.0,6.4,0.0,0.0,0.0
26,1,1,10,2,9.9,5.9,2.9,2.2,0.0
63,1,1,15,1,1.2,0.1,0.0,1.1,5.1
27,1,1,15,2,8.8,3.0,3.6,1.5,2.3


<img src="img/data01.png">

## 2-1 melt()

### melt() 의 함수는 식별자id, 측정변수(variable), 측정치(value)형태로 데이터 재구성하는 함수

<pre>

reshape2::melt.data.frame(
  data,         # melt할 데이터
  id.vars,      # 식별자 컬럼들
  measure.vars, # 측정치 컬럼들. 이 값이 생략되면 id.vars에 해당하지 않는 모든 컬럼이
                # 측정치 컬럼으로 취급된다.
  na.rm=FALSE   # NA인 행을 결과에 포함시킬지 여부. FALSE는 NA를 제거하지 않음을 뜻한다.
)

반환값은 데이터 프레임으로, 식별자가 아닌 컬럼들은 여러 행으로 변환된다.
</pre>

In [34]:
dim(french_fries)

In [38]:
m <- melt(french_fries, id.vars=1:4)
dim(m)

In [42]:
m[696:700,]

Unnamed: 0,time,treatment,subject,rep,variable,value
696,10,3,86,2,potato,2.5
697,1,1,3,1,buttery,0.0
698,1,1,3,2,buttery,0.0
699,1,1,10,1,buttery,6.4
700,1,1,10,2,buttery,5.9


In [43]:
m[1390:1400,]

Unnamed: 0,time,treatment,subject,rep,variable,value
1390,10,3,78,2,buttery,0.0
1391,10,3,86,1,buttery,0.0
1392,10,3,86,2,buttery,0.0
1393,1,1,3,1,grassy,0.0
1394,1,1,3,2,grassy,0.0
1395,1,1,10,1,grassy,0.0
1396,1,1,10,2,grassy,2.9
1397,1,1,15,1,grassy,0.0
1398,1,1,15,2,grassy,3.6
1399,1,1,16,1,grassy,0.4


## 변환된 결과는 뭐가 좋은가?

In [44]:
library(plyr)

In [48]:
ddply(m, .(variable), summarise, mean=mean(value, na.rm=TRUE))

variable,mean
potato,6.952518
buttery,1.8236994
grassy,0.6641727
rancid,3.8522302
painty,2.5217579


### 같은 연산을 french_fries에 대해서 한다면 연산 대상이 되는 측정치의 컬럼명이나 컬럼색인을 기억하고 있어야 한다.
### melt() 된 데이터는 측정치 이름을 곧바로 variable컬럼에서 찾을 수 있다.

### NA가 포함된 행을 확인하기

In [49]:
french_fries[!complete.cases(french_fries), ]

Unnamed: 0,time,treatment,subject,rep,potato,buttery,grassy,rancid,painty
315,5,3,15,1,,,,,
455,7,2,79,1,7.3,,0.0,0.7,0.0
515,8,1,79,1,10.5,,0.0,0.5,0.0
520,8,2,16,1,4.5,,1.4,6.7,0.0
563,8,2,79,2,5.7,0.0,1.4,2.3,


In [50]:
m <- melt(id=1:4, french_fries, na.rm=TRUE)
head(m)

time,treatment,subject,rep,variable,value
1,1,3,1,potato,2.9
1,1,3,2,potato,14.0
1,1,10,1,potato,11.0
1,1,10,2,potato,9.9
1,1,15,1,potato,1.2
1,1,15,2,potato,8.8


In [51]:
m <- melt(id=1:3, french_fries, na.rm=TRUE)
head(m)

time,treatment,subject,variable,value
1,1,3,rep,1
1,1,3,rep,2
1,1,10,rep,1
1,1,10,rep,2
1,1,15,rep,1
1,1,15,rep,2


### cast()

<pre>
cast()는 결과로 얻고자 하는 데이터 타입에 따라 dcast(), acast()로 구분하여 사용.
dcast()는 결과로 프레임을 반환,
acast()는 벡터, 행렬, 배열을 반환
</pre>

### reshape2::dcast : melt( )된 데이터(molten data)를 측정치를 컬럼으로 나열한 데이터 프레임으로 변환한다.

<pre>
reshape2::dcast(
  data, # melt()된 데이터
  # 변환 포뮬러
  # 포뮬러를 작성하는 규칙은 다음과 같다.
  # 1) "id 변수 ~ variable 변수" 형태로 적는다.
  # 2) 아무 변수도 지정하지 않으려면 .을 사용한다.
  # 3) formula에 명시적으로 나열되지 않은 모든 변수를 표현하려면 ...을 사용한다.
  formula,
  fun.aggregate=NULL # 데이터 재구성 시 여러 행이 한 셀에 모일 경우 사용할 집합 함수
)
</pre>

### french_fries 데이터를 melt( ) 후 dcast( )를 사용해 다시 원 데이터로 변환

In [54]:
m <- melt(french_fries, id.vars=1:4)
dim(m); rownames(m)
r <- dcast(m, time + treatment + subject + rep ~ ...)
dim(r)

In [55]:
rownames(r) <- NULL
head(rownames(french_fries))
rownames(french_fries) <- NULL


In [57]:
## 비교 - 두 데이터가 완전히 동일한 객체인가?
identical(r, french_fries)

## 03. data.table

In [58]:
library(data.table)

"package 'data.table' was built under R version 3.4.4"
Attaching package: 'data.table'

The following objects are masked from 'package:reshape2':

    dcast, melt



### data.table::data.table : 데이터 테이블을 생성한다.

<pre>
data.table::as.data.table(
  df  # 데이터 프레임
)
</pre>

### tables  : table 클래스의 모든 객체를 나열하기 

In [61]:
iris_table <- as.data.table(iris)

In [62]:
iris_table[1:30,]

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


In [63]:
x <- data.table(x=c(1, 2, 3), y=c("a", "b", "c"))
x

x,y
1,a
2,b
3,c


In [64]:
class(data.table())

In [65]:
iris_table <- as.data.table(iris)
x <- data.table(x=c(1, 2, 3), y=c("a", "b", "c"))
tables()

     NAME       NROW NCOL MB
[1,] iris_table  150    5  1
[2,] x             3    2  1
     COLS                                                      KEY
[1,] Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species    
[2,] x,y                                                          
Total: 2MB


In [66]:
DT <- as.data.table(iris)
DT[1,]

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa


### 몇가지 기억해야 할 사항. [행, 표현식, 옵션]

In [70]:
DT[DT$Species=="setosa", ]

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


### 1행의 Sepal.Length컬럼에 접근하기

In [75]:
DT[1,]

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa


In [76]:
DT[1, Sepal.Length]

In [77]:
DT[1, list(Sepal.Length, Species)]

Sepal.Length,Species
5.1,setosa


###  두번째 인자 '컬럼명을 사용한 표현식'

In [78]:
DT[, mean(Sepal.Length)]

In [79]:
DT[, mean(Sepal.Length - Sepal.Width)]

### 도움말
(http://cran.r-project.org/web/packages/data.table/index.html)

In [89]:
DT <- as.data.table(iris)
head(iris,3)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa


In [93]:
iris[1,1]  # (1,1) 위치의 값이 제대로 구해짐.
DT[1,1]

Sepal.Length
5.1


In [92]:
DT[1, 1, with=FALSE]  # with=FALSE를 사용하면 1을 컬럼 번호로 취급

Sepal.Length
5.1


In [94]:
DT[1, c("Sepal.Length")]

Sepal.Length
5.1


In [95]:
DT[, mean(Sepal.Length), by="Species"]

Species,V1
setosa,5.006
versicolor,5.936
virginica,6.588


### 세 번째 인자에는 데이터를 그룹 지을 변수를 지정한다.

In [96]:
DT <- data.table(x=c(1, 2, 3, 4, 5),
                  y=c("a", "a", "a", "b", "b"),
                  z=c("c", "c", "d", "d", "d"))
DT

x,y,z
1,a,c
2,a,c
3,a,d
4,b,d
5,b,d


In [97]:
DT[, mean(x), by="y,z"]

y,z,V1
a,c,1.5
a,d,3.0
b,d,4.5
