# Loop Function

앞서 Week 2에서 배운 `for, while` 반복문은 스크립트에서 유용하지만 커맨드라인에서는 사용이 쉽지 않다.

커맨드라인에서의 반복문을 쉽게 해주는 명령어를 배워보자.

- `lapply` : 리스트 내용을 반복하고 각 원소에 함수를 적용한다
- `sapply` : `lapply`와 같지만 결과를 단순화해서 보여준다
- `apply` : 배열에 함수를 적용하여 마진에 표시한다
- `tapply` : 벡터의 부분집합에 함수를 적용한다
- `mapply` : `lapply`의 다변량 버전이다
- `split` : 주로 `lapply`와 함께 보조로 쓰인다

## 1. `lapply`

`lapply`는 3개의 인자를 받는다.

1. 리스트
2. 적용할 함수 (혹은 함수의 이름) - FUN
3. '...' 인자를 통한 다른 인자

In [19]:
args(lapply)

만약 x가 리스트가 아니면, as.list 함수를 통해 리스트로 강제 변형된다.

실제 반복문은 내부적으로 C 코드를 통해 진행된다.

In [9]:
x <- list(a = 1:5, b = rnorm(10))
lapply(x, mean)

In [15]:
x <- list(a = 1:4, b = rnorm(10), c = rnorm(20, 1), d = rnorm(100, 5))
lapply(x, mean)

In [21]:
# uniform 분포의 random number를 제너레이트한다
x <- 1:4
lapply(x, runif)

In [23]:
# runif의 다른 인자들을 설정해준다.
# 주의할 점은, runif() 형태가 아닌 lapply의 인자로서 들어간다는 점!
x <- 1:4
lapply(x, runif, min = 0, max = 10)

`lapply`와 나머지 함수들은 어나니머스 함수를 많이 사용한다.

어나니머스 함수란 이름이 없는 함수를 뜻한다.

아래 리스트의 각 행렬에서 첫번째 열을 추출한다고 가정해보자.

In [29]:
x <- list(a = matrix(1:4, 2, 2), b = matrix(3:6, 2, 2))
x

0,1
1,3
2,4

0,1
3,5
4,6


첫 번째 열만 추출하는 함수는 따로 존재하지 않는다.

따라서 어나니머스 함수를 사용하는 것이다.

In [30]:
# anonymous function
# does not have its name
lapply(x, function(elt) elt[,1])

## 2. `sapply`
`sapply`는 가능한 `lapply`의 결과를 단순화해주는 함수이다

- 만약 결과 값이 모든 원소의 길이가 1인 리스트라면, 리스트 대신 벡터가 반환된다
- 만약 결과 값이 모든 원소의 길이가 같은 벡터라면, 행렬이 반환된다
- 어느 것에도 해당되지 않으면 그대로 리스트가 반환된다

In [32]:
# lapply와 달리 행렬이 반환됨
sapply(x, function(elt) elt[,1])

a,b
1,3
2,4


## 3. `apply`

`apply`는 배열의 마진에 함수를 적용한다.

- 행렬의 각 행이나 각 열에 함수를 적용할 때 자주 쓰인다
- 일반적인 배열과도 쓰일 수 있다
- 반복문보다 빠르지는 않지만, 한 문장으로 간단하게 쓸 수 있다

4개 인자를 받는다
- x : 배열
- `MARGIN` : 행을 알려주는 정수형 벡터
- `FUN` : 적용될 함수
- `...` : 그 외 `FUN`에 전달될 인자

In [37]:
args(apply)

In [38]:
x <- matrix(rnorm(200), 20, 10)
# 2 = 열(col) 기준
apply(x, 2, mean)

In [40]:
# 1 = 행(row) 기준
apply(x, 1, mean)

사실 행렬의 간단한 행/열 연산은 다른 최적화된 함수가 존재한다.

- `rowSums` = `apply(x, 1, sum)`
- `rowMeans`
- `colSums`
- `colMeans`

이러한 함수들이 훨씬 훨씬 더 빠르므로, 거대한 행렬에서는 이들을 사용하자.

In [48]:
# quantile 범위를 구한다. quantile의 인자인 확률 인자도 함께 전달해준다.
apply(x, 1, quantile, probs= c(0.25, 0.75))

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
25%,0.0606527,-0.7317654,-0.4501331,-0.500436,-1.2065997,-0.2705143,-0.8900273,-1.48394142,-0.5635534,-0.7992987,-0.9751431,-0.933651,-0.279501,-0.006788539,0.5907915,-0.8175139,-2.088668,-0.03738429,-0.6213612,-0.8413536
75%,0.4371823,0.7061327,1.0063431,0.361069,0.2394192,0.5784695,0.7588106,0.05446823,0.156169,-0.02821464,0.6444782,0.3893733,1.012526,0.831326965,1.4938786,0.8020522,0.7750381,0.62962213,0.6963453,0.2053673


In [52]:
a <- array(rnorm(2 * 2 * 10), c(2, 2, 10))
dim(a)
apply(a, c(1, 2), mean)

0,1
0.03935876,-0.3166123
0.26632913,0.1942991


In [53]:
rowMeans(a, dims = 2)

0,1
0.03935876,-0.3166123
0.26632913,0.1942991


## 4. `mapply`
`mapply`는 주어진 인자에 함수를 적용하는 다변량 `apply`이다.

인자는 다음과 같다.

- `FUN` : 적용할 함수
- `...` : 적용할 인자들
- `MoreArgs` : `FUN`에 전달할 다른 인자
- `SIMPLLIFY` : 결과를 단순화 할지 결정

In [54]:
args(mapply)

In [57]:
# 아래와 같은 리스트를 만든다고 가정하자.
print(list(rep(1, 4), rep(2, 3), rep(3, 2), rep(4, 1)))

[[1]]
[1] 1 1 1 1

[[2]]
[1] 2 2 2

[[3]]
[1] 3 3

[[4]]
[1] 4



In [59]:
# 하지만 위 방식은 너무 번거롭다
print(mapply(rep, 1:4, 4:1))

[[1]]
[1] 1 1 1 1

[[2]]
[1] 2 2 2

[[3]]
[1] 3 3

[[4]]
[1] 4



In [62]:
# 또 다른 예제
# Vectorizing a Function
noise <- function(n, mean, sd) {
    rnorm(n, mean, sd)
}

noise(5, 1, 2)

# 내가 원하는 바는 아래가 아니다
noise(1:5, 1:5, 2)

In [67]:
# 이걸 하고 싶었던 것
mapply(noise, 1:5, 1:5, 2)

## 5. `tapply`
`tapply`는 벡터의 부분집합에 함수를 적용할 때 사용한다.

ex) 전체 데이터에서 남성 집단의 평균을 구할 때,...

- x는 벡터이다
- `INDEX`는 팩터이거나 팩터의 리스트이다
- `FUN`은 적용할 함수이다
- `...`은 `FUN`에 전달될 다른 인자들이다
- `simplify`는 결과를 단순화 할 것인지 결정한다

In [68]:
args(tapply)

In [81]:
# gl은 Factor Level을 제너레이트 하는 함수
x <- c(rnorm(10), runif(10), rnorm(10, 1))
f <- gl(3, 10)

print(f)

 [1] 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3
Levels: 1 2 3


In [87]:
# 팩터별(범주별) 함수 적용
tapply(x, f, range)

## 6. `split`
`split`은 벡터나 다른 오브젝트를 받아서 팩터를 기준으로 그룹으로 나눈다.

- x는 벡터, 리스트, 데이터 프레임이다
- `f`는 팩터 혹은 팩터의 리스트이다
- `drop`은 비어있는 팩터를 없앨 것인지 확인한다

In [88]:
args(split)

In [90]:
# 벡터가 리스트로 나뉘어졌다.
x <- c(rnorm(10), runif(10), rnorm(10, 1))
f <- gl(3, 10)
split(x, f)

`split`은 `lapply`와 함께 자주 쓰인다.
(물론 tapply를 사용해도 된다)

In [91]:
lapply(split(x, f), mean)

In [92]:
tapply(x, f, mean)

ERROR while rich displaying an object: Error in dn[[2L]]: 첨자의 허용 범위를 벗어났습니다

Traceback:
1. FUN(X[[i]], ...)
2. tryCatch(withCallingHandlers({
 .     rpr <- mime2repr[[mime]](obj)
 .     if (is.null(rpr)) 
 .         return(NULL)
 .     prepare_content(is.raw(rpr), rpr)
 . }, error = error_handler), error = outer_handler)
3. tryCatchList(expr, classes, parentenv, handlers)
4. tryCatchOne(expr, names, parentenv, handlers[[1L]])
5. doTryCatch(return(expr), name, parentenv, handler)
6. withCallingHandlers({
 .     rpr <- mime2repr[[mime]](obj)
 .     if (is.null(rpr)) 
 .         return(NULL)
 .     prepare_content(is.raw(rpr), rpr)
 . }, error = error_handler)
7. mime2repr[[mime]](obj)
8. repr_markdown.numeric(obj)
9. repr_vector_generic(html_escape_names(obj), "%s. %s\n", "%s\n:   %s", 
 .     "**%s:** %s", "%s\n\n", item_uses_numbers = TRUE, escape_fun = html_escape)
10. html_escape_names(obj)
11. .escape_names(obj, "html")
12. colnames(obj)
ERROR while rich displaying an object: Error 

In [96]:
# 이번엔 데이터프레임
library(datasets)
head(airquality)

Ozone,Solar.R,Wind,Temp,Month,Day
41.0,190.0,7.4,67,5,1
36.0,118.0,8.0,72,5,2
12.0,149.0,12.6,74,5,3
18.0,313.0,11.5,62,5,4
,,14.3,56,5,5
28.0,,14.9,66,5,6


In [94]:
s <- split(airquality, airquality$Month)
lapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")]))
        # anonymous function
        # 하지만 NA 처리를 해주지 않았다.

In [98]:
# Simplified Result
sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")]))

Unnamed: 0,5,6,7,8,9
Ozone,,,,,
Solar.R,,190.16667,216.483871,,167.4333
Wind,11.62258,10.26667,8.941935,8.793548,10.18


In [100]:
sapply(s, function(x) colMeans(x[, c("Ozone", "Solar.R", "Wind")], na.rm = T))
    # na.rm 로 na를 무시하고 계산

Unnamed: 0,5,6,7,8,9
Ozone,23.61538,29.44444,59.115385,59.961538,31.44828
Solar.R,181.2963,190.16667,216.483871,171.857143,167.43333
Wind,11.62258,10.26667,8.941935,8.793548,10.18


## cf. Splitting on More than One Level

In [106]:
x <- rnorm(10)
f1 <- gl(2, 5)
f2 <- gl(5, 2)
f1
f2
x

In [102]:
# 팩터 레벨을 결합하는 함수
interaction(f1, f2)

In [107]:
# 여기서 Interaction 함수를 쓸 필요는 없다
# 리스트로 결합하면 자동으로 인식됨
split(x, list(f1, f2))

In [109]:
# drop = TRUE
split(x, list(f1, f2), drop = TRUE)