# Functions

`Function`은 `function()` 함수를 통해 만들 수 있으며, R에서 '함수' 오브젝트로써 저장된다.

특히 R에서 함수는 '**First Class Objects**'인데, 다른 R 오브젝트처럼 취급될 수 있다는 점이다.

- 함수는 다른 함수에 또 다른 인자(argument)로서 전달될 수 있다.
- 함수는 중첩이 가능하다. 즉, 다른 함수 안에 또 다른 함수를 정의할 수 있다.

간단한 함수를 만들어보자.

In [86]:
# 두 인자를 더하는 함수

add2 <- function(x,y) {
    x + y
}

# return을 지정해주지 않으면, 마지막 표현식을 자동으로 return 한다
add2(1,3)

In [87]:
# n 보다 큰 숫자를 반환하는 함수
# n 값을 지정해놓으면, n을 적지 않아도 default로 10이 들어간다

above10 <- function(x, n = 10) {
    use <- x > n  # boolean mask
    x[use]
}

above10(c(1,3,5,10,11,21,4,5,0,-2,3))
above10(c(1,3,'a'), 10)   # what happened here?

In [88]:
# Column Mean을 구하는 함수

columnmean <- function(y) {
    nc <- ncol(y)
    means <- numeric(nc)
        # numeric은 길이 n의 double type 벡터를 생성한다.
    
    for(i in 1:nc) {
        means[i] <- mean(y[, i])
    }
    
    return (means)
}

In [89]:
matrix_1 = matrix(1:10, 2, 5, byrow=T)

matrix_1[1,1] = NA

columnmean(matrix_1)

In [90]:
# 이번에는 NA 값을 제외하고 계산한다.

columnmean <- function(y, removeNA = TRUE) {
    nc <- ncol(y)
    means <- numeric(nc)
        # numeric은 길이 n의 double type 벡터를 생성한다.
    
    for(i in 1:nc) {
        means[i] <- mean(y[, i], na.rm = removeNA)
            # NA 제
    }
    
    return (means)
}

In [91]:
columnmean(matrix_1, FALSE)
columnmean(matrix_1, TRUE)

### 1. Function Arguments

함수는 `named argument`를 갖는데, 이는 기본적으로 `default` 값들을 가지고 있다.

- `formal argument`는 함수 정의에 포함된 인자들이다.
- `formals` 함수는 함수의 모든 형식 인자를 반환한다.
- R에서 모든 함수가 형식 인자를 사용하는 것은 아니다.
- 함수의 인자는 없을 수도 있고, 기본값(default)을 가질 수도 있다.

함수는 '위치'를 통해서, 혹은 '인자의 이름'을 통해서 인자와 매칭된다.

따라서 아래 표현식은 모두 같은 것들이다.

In [92]:
mydata <- rnorm(100)
sd(mydata)
sd(x = mydata)
sd(x = mydata, na.rm = FALSE)
sd(na.rm = FALSE, x = mydata)
sd(mydata, FALSE)
sd(FALSE, mydata) # 위치가 잘못됨

“length > 1 이라는 조건이 있고, 첫번째 요소만이 사용될 것입니다”

위치를 통해서, 그리고 이름을 통해서 매칭하는 것을 섞어서 쓸 수도 있는데, 이름 매칭의 경우 먼저 '인자들의 리스트'에서 제외되고, 남은 인자들의 위치를 토대로 나머지가 매칭이 된다.

In [1]:
args(lm)

In [95]:
# 위 lm 함수에서, 아래 두 개의 표현식은 동일하다.

lm(data = mydata, y ~ x, model = FALSE, 1:100)
lm(y ~ x, mydata, 1:100, model = FALSE)

ERROR: Error in lm(data = mydata, y ~ x, model = FALSE, 1:100): 사용되지 않은 인자 (data = mydata, model = FALSE, 1:100)


### 2. Lazy Evaluation
R의 또다른 특성 중 하나는 'Lazy Evaluation'이다.

함수에 전달된 인자들은 '게으르게', 필요할 때만 검사를 받는다.

In [96]:
f <- function(a, b) {
    a^2
}
f(2)

# 이 함수는 인자 `b`를 사용하지 않는데, 
# 함수에 인자가 한 개만 전달하더라도 오류가 발생하지 않는다.

In [97]:
f <- function(a, b) {
    print(a)
    print(b)
}
f(45)

# 여기서 주의해야 할 점은 에러가 발생하기 전에 45는 출력이 되었다는 점이다
# 이는 인자 'b'가 'a'의 출력 직전까지 검되지 않았다는 것을 의미한

[1] 45


ERROR: Error in print(b): 기본값이 없는 인수 "b"가 누락되어 있습니다


### 3. "..." Argument
1) `...` 인자는 일반적으로 전달되는 인자들을 나타낼 때 사용된다.

또한 다른 함수를 상속받아서 기존 함수의 인자 리스트를 반복하기 싫을 때도 사용한다.

In [98]:
myplot <- function(x, y, type = "l", ...) {
    plot(x, y, type = type, ...)
}

# 기존 plot함수의 ... 인자를 사용한다는 의

2) 또한 제네릭 함수에서도 사용되는데, 이는 나중에 자세히 살펴보겠따.

In [99]:
mean

3) 마지막으로 `...`는 전달될 인자의 개수를 사전에 알 수 없을 경우 사용한다.

In [100]:
args(paste)

In [101]:
args(cat)

In [102]:
paste("a", "b", sep= ":")
paste("a", "b", se = ":")

# 차이점은 무엇일까?

### 4. Binding Values to Symbol

R은 주어진 심볼에 어떤 값을 할당할지 어떻게 아는 것일까.

예를 들어, lm 함수는 기본 `stats` 패키지에 들어있는 함수이지만, 아래와 같이 할당한다면 R은 어떻게 받아들일까?

In [103]:
lm <- function(x) { x * x }
lm

R이 심볼에 값을 할당할때, 여러 `environment`를 거쳐서 적절한 값을 찾으려고 노력한다.

커맨드 라인에서, R 오브젝트의 값을 알고 싶을 경우, 순서는 대략 다음과 같다.

1. 요청받은 심볼 이름과 매칭하는 오브젝트를 전역 환경에서 찾는다.
2. 검색 리스트에서 각 패키지의 이름 명단을 찾는다.
    (이름 명단은 `search` 함수를 통해 볼 수 있다.)

In [104]:
search()

- 결과적으로 전역 환경이 항상 가장 먼저 탐색된다.
- 그리고 검색 리스트에서 패키지의 순서도 영향을 미친다.
- 사용자는 R이 시작할 때 어떤 패키지를 불러올 지 결정할 수 있다.
- 사용자가 `library` 명령어로 패키지를 불러오면, 기본적으로 리스트에서 2번째에 위치하게 되고 기존의 리스트는 한 칸씩 밀린다
- **R은 함수와 함수가 아닌 오브젝트의 이름 공간을 구분해 두었다. 따라서 오브젝트 c와 함수 c는 별개이다.**

### 5. Scoping Rules

R에서 탐색 규칙은 기존 S와는 많이 다르다.

- 탐색 규칙은 값이 함수의 **자유 변수(free variable)**와 어떻게 연관되는지 결정한다
- R은 '사전적 범위'(*lexical scoping*) 혹은 '정적 범위'(*static scoping*) 방식을 사용한다. 이와 다른 것으로 '동적 범위'(*dynamic scoping*)이 있다.
- R이 어떻게 탐색 리스트를 사용해 심볼에 값을 할당하느냐도 탐색 규칙과 연관돼 있 
- 사전적 범위는 통계적 계산을 단순화하는 데 아주 유용하다

R에서의 사전적 범위를 다시 말하면,

*"자유 변수의 값들은 함수가 정의된 환경 내에서 탐색된다"*는 것을 의미한다.

환경(environment)이란,

- (symbol, value)의 쌍이다. 예를 들면, `x`는 심볼이고, `3.14`는 값이다.
- 모든 환경은 부모 환경을 갖고 있다. 한 환경이 여러 자식 환경을 갖는 것도 가능하다.
- 부모 환경이 없는 유일한 환경은 빈 환경(empty env-)이다.
- '함수 + 환경' = 종결(closure) 혹은 함수의 종결이다

In [105]:
f <- function(x, y) {
    x^2 + y / z
}

위 함수는 2개의 형식 인자인 `x`와 `y`를 가지고 있다. 

함수의 본문을 보면, 다른 변수인 `z`가 있는데, 이를 **free variable**이라고 부른다.

이러한 자유 변수는 형식 인자가 아니며, 지역 변수(local variable)도 아니다. 

여기서 탐색 규칙은 자유 변수에 어떻게 값이 할당되는지를 결정한다.

따라서, 자유 변수의 값을 찾을 때,

- 심볼의 값이 함수가 정의된 환경에 없을 경우, 부모 환경으로 넘어간다
- 부모 환경을 거슬러 오르다가 최상위 환경에서 멈춘다 ;보통 전역 환경이거나, 패키지의 이름공간이다
- 최상위 환경 이후, 탐색은 빈 환경까지 내려간다. 만약 그래도 찾을 수 없다면 에러가 발생한다. 


#### 이 모든 것이 중요한 이유는, R에서는 다른 함수의 내부에 또 다른 함수를 정의할 수 있기 때문이다.

In [106]:
# 이 함수는 또 다른 함수를 값으로서 반환한다.

make.power <- function(n) {
    pow <- function(x) {
        x^n
    }
    pow
}

In [107]:
make.power(3)(4) # 4^3 or x^n

In [108]:
cube <- make.power(3)
square <- make.power(2)
cube(3)
square(2)

In [109]:
# What's in a function's environment?
ls(environment(cube))
get("n", environment(cube))

### 6. Lexical vs. Dynamic Scoping

In [3]:
# Lexical Scoping vs. Dynamic Scoping
y <- 10

f <- function(x) {
    y <- 2
    y^2 + g(x)
}

g <- function(x) {
    x+y
}

In [4]:
# What is the value of f(3)?
f(3)

Lexical Scoping의 경우, 함수 g에서 자유 변수인 `y`의 값은 함수가 **정의된** 환경에서 탐색된다. 이 경우에는 전역 환경이므로, `y`의 값은 10이다.

Dynamic Scoping의 경우, `y`의 값은 함수가 **호출된** 환경에서 탐색된다. (parent frame 이라고도 부른다.)
따라서 `y`의 값은 2가 된다.

### 7. Consequences of Lexical Scoping

결과적으로,

- R의 모든 오브젝트는 메모리에 저장되어야 한다.
- 모든 함수는 정의된 환경에 대한 포인터를 갖는다.