# 'apply' Function

앞서 Week 2에서 배운 `for, while` 반복문은 스크립트에서 유용하지만 커맨드라인에서는 사용이 쉽지 않다.

커맨드라인에서의 반복문을 쉽게 해주는 명령어를 배워보자.

- `lapply` : 리스트 내용을 반복하고 각 원소에 함수를 적용한다
- `sapply` : `lapply`와 같지만 결과를 단순화해서 보여준다
- `apply` : 배열에 함수를 적용하여 마진에 표시한다
- `tapply` : 벡터의 부분집합에 함수를 적용한다
- `mapply` : `lapply`의 다변량 버전이다
- `split` : 주로 `lapply`와 함께 보조로 쓰인다

### 1. `lapply`

`lapply`는 3개의 인자를 받는다.

1. 리스트
2. 적용할 함수 (혹은 함수의 이름) - FUN
3. '...' 인자를 통한 다른 인자

In [19]:
args(lapply)

만약 x가 리스트가 아니면, as.list 함수를 통해 리스트로 강제 변형된다.

실제 반복문은 내부적으로 C 코드를 통해 진행된다.

In [9]:
x <- list(a = 1:5, b = rnorm(10))
lapply(x, mean)

In [15]:
x <- list(a = 1:4, b = rnorm(10), c = rnorm(20, 1), d = rnorm(100, 5))
lapply(x, mean)

In [21]:
# uniform 분포의 random number를 제너레이트한다
x <- 1:4
lapply(x, runif)

In [23]:
# runif의 다른 인자들을 설정해준다.
# 주의할 점은, runif() 형태가 아닌 lapply의 인자로서 들어간다는 점!
x <- 1:4
lapply(x, runif, min = 0, max = 10)

`lapply`와 나머지 함수들은 어나니머스 함수를 많이 사용한다.

어나니머스 함수란 이름이 없는 함수를 뜻한다.

아래 리스트의 각 행렬에서 첫번째 열을 추출한다고 가정해보자.

In [29]:
x <- list(a = matrix(1:4, 2, 2), b = matrix(3:6, 2, 2))
x

0,1
1,3
2,4

0,1
3,5
4,6


첫 번째 열만 추출하는 함수는 따로 존재하지 않는다.

따라서 어나니머스 함수를 사용하는 것이다.

In [30]:
# anonymous function
# does not have its name
lapply(x, function(elt) elt[,1])

### 2. `sapply`
`sapply`는 가능한 `lapply`의 결과를 단순화해주는 함수이다

- 만약 결과 값이 모든 원소의 길이가 1인 리스트라면, 리스트 대신 벡터가 반환된다
- 만약 결과 값이 모든 원소의 길이가 같은 벡터라면, 행렬이 반환된다
- 어느 것에도 해당되지 않으면 그대로 리스트가 반환된다

In [32]:
# lapply와 달리 행렬이 반환됨
sapply(x, function(elt) elt[,1])

a,b
1,3
2,4


### 3. `apply`

`apply`는 배열의 마진에 함수를 적용한다.

- 행렬의 각 행이나 각 열에 함수를 적용할 때 자주 쓰인다
- 일반적인 배열과도 쓰일 수 있다
- 반복문보다 빠르지는 않지만, 한 문장으로 간단하게 쓸 수 있다

4개 인자를 받는다
- x : 배열
- `MARGIN` : 행을 알려주는 정수형 벡터
- `FUN` : 적용될 함수
- `...` : 그 외 `FUN`에 전달될 인자

In [37]:
args(apply)

In [38]:
x <- matrix(rnorm(200), 20, 10)
# 2 = 열(col) 기준
apply(x, 2, mean)

In [40]:
# 1 = 행(row) 기준
apply(x, 1, mean)

사실 행렬의 간단한 행/열 연산은 다른 최적화된 함수가 존재한다.

- `rowSums` = `apply(x, 1, sum)`
- `rowMeans`
- `colSums`
- `colMeans`

이러한 함수들이 훨씬 훨씬 더 빠르므로, 거대한 행렬에서는 이들을 사용하자.

In [48]:
# quantile 범위를 구한다. quantile의 인자인 확률 인자도 함께 전달해준다.
apply(x, 1, quantile, probs= c(0.25, 0.75))

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
25%,0.0606527,-0.7317654,-0.4501331,-0.500436,-1.2065997,-0.2705143,-0.8900273,-1.48394142,-0.5635534,-0.7992987,-0.9751431,-0.933651,-0.279501,-0.006788539,0.5907915,-0.8175139,-2.088668,-0.03738429,-0.6213612,-0.8413536
75%,0.4371823,0.7061327,1.0063431,0.361069,0.2394192,0.5784695,0.7588106,0.05446823,0.156169,-0.02821464,0.6444782,0.3893733,1.012526,0.831326965,1.4938786,0.8020522,0.7750381,0.62962213,0.6963453,0.2053673


In [50]:
a <- array(rnorm(2 * 2 * 10), c(2, 2, 10))
typeof(array)