## 1장. 계산의 기초

### R의 컴퓨터 정수와 실수
수학적으로 정수는 0, $\pm 1, \pm 2, \cdots$, 등으로 무한하지만 컴퓨터에서의 정수는 유한하다. 어느 컴퓨터에서나 한정된 수 의 비트로 정수를 표현해야 하기 때문이다.

R 시스템에서는 정수를 나타내기 위해 32개 비트를 쓰며 따라서 가장 큰 양의 정수는 부호에 배정된 1개 비트를 제외한 31개 비트가 모두 1인 2진법수 $111\cdots 1$, 즉 $2^{31}-1 (=2,147,483,647)$이다.

```R
.Machine$integer.max
[1] 2147483647
```

수학적으로 실수는 구간 $(0,1)$에서도 무한히 많지만 컴퓨터에서의 실수는 그렇지 않다. R 시스템에서는 32개 비트의 2배(double)인 64개 비트로 1개의 실수를 나타내는데 64개 비트 중 53개는 부호와 유효숫자(significant digits)에 배당되고 11개 비트는 지수(exponent)에 배당된다. 즉, 실수 $x$를
\begin{equation*}
    x = \pm . d_{-1}d_{-2}\cdots * 2^{k}, \quad k : \text{exponent}
\end{equation*}
의 형태로 나타낸다. 그리고 지수 $k$의 최대값은 2진법으로 $1 0 0 0 \cdots 0$(= 1 다음에 10개의 0 이 있는 수)인 $2^{10}$(=1024)이다. $k$의 최소값은 -1,022이다.

```R
> .Machine$double.max.exp
[1] 1024
> .Machine$double.min.exp
[1] -1022
```

- $2^{1024}$이상의 수는 무한(Infinity, `Inf`)으로 간주, $-2^{1024}$이하의 수는 음의 무한(-`Inf`)으로 간주
```R
> .Machine$double.xmax
[1] 1.797693e+308
> 2^{1023}
[1] 8.988466e+307
> 2^{1024}
[1] Inf
> -2^{1024}
[1] -Inf
```

- 컴퓨터에서 표현가능한 0에 가장 가까운 수 = $2^{-1022}$
```R
> .Machine$double.xmin
[1] 2.225074e-308
> 2^{-1022}
[1] 2.225074e-308
```

- 오버플로우 문제
```R
> 2^1024 * 2^(-1024)
[1] Inf
> 2^1078 * 2^(-1078)
[1] NaN
> 2^(1024) / 2^1024
[1] NaN
> 2^(0124) - 2^(1024)
[1] -Inf
```

- 컴퓨터 실수의 부호와 유효숫자(significant digits) : 53개 비트가 할당되며, 부호가 1개 비트, 유효숫자가 52개 비트를 쓴다.
그러므로 소숫점 이하 부분의 가장 작은 차이는 $2^{-52}$이다. 이를 machine epsilon이라고 한다.
```R
> .Machine$double.eps
[1] 2.220446e-16
> 2^(-52)
[1] 2.220446e-16
```

- 두 수의 차이 : 지수가 같은 2개 수 $a,b$간에 차이가 machine epsilon보다 작다면 그 차이는 컴퓨터에서는 무의미하다. 그러나 두 수의 차이가 이 값보다 크면 두 수가 다르다고 선언된다.
```R
> 0.6 - 0.5 == 0.1
[1] FALSE
> 0.6 - 0.5
[1] 0.1
> print(0.6-0.5, 16)
[1] 0.09999999999999998
> print(0.1, 16)
[1] 0.1
```

- 탄젠트(tangent)함수 $\text{tan} \theta$는 $\theta = \pi/4$ 에서 1의 값을 취하고 주기는 $\pi$이다. 그러나 다음을 확인해보자.
```R
> print(tan(pi/4), 16)
[1] 0.9999999999999999
> print(tan(pi/4 + pi), 16)
[1] 0.9999999999999997
> print(tan(pi/4 + pi*2), 16)
[1] 0.9999999999999994
> print(tan(pi/4 + pi*3), 16)
[1] 1.000000000000001
```

#### 한줄 요약 : 컴퓨터 수학은 진짜 수학과 다르다. 컴퓨터 수치를 다룰 때는 조심, 또 조심해야 한다.

#### 연습 1. 십진법 수 $\frac{1}{3}$을 소수점 아래 5자리와 52자리의 이진법 소수로 표현해보자. (지정된 자리 수를 초과하는 부분은 버릴 것)
```R
> # 십진수를 이진 소수로 변환하는 함수
> decimal_to_binary_fraction <- function(decimal, digits) {
+   binary_fraction <- ""
+   value <- decimal
+   for (i in 1:digits) {
+     value <- value * 2
+     if (value >= 1) {
+       binary_fraction <- paste0(binary_fraction, "1")
+       value <- value - 1
+     } else {
+       binary_fraction <- paste0(binary_fraction, "0")
+     }
+   }
+   return(binary_fraction)
+ }
> # 1/3을 이진 소수로 변환
> decimal <- 1 / 3
> # 소수점 아래 5자리
> binary_fraction_5 <- decimal_to_binary_fraction(decimal, 5)
> print(paste("5자리 이진 소수: 0.", binary_fraction_5, sep=""))
[1] "5자리 이진 소수: 0.01010"
> # 소수점 아래 52자리
> binary_fraction_52 <- decimal_to_binary_fraction(decimal, 52)
> print(paste("52자리 이진 소수: 0.", binary_fraction_52, sep=""))
[1] "52자리 이진 소수: 0.0101010101010101010101010101010101010101010101010101"
```

### Python의 컴퓨터 정수와 실수
정수(integer)를 표현하는 데 있어 파이과 R은 다르다. 정수를 표현하는 데 있어 필요한 만큼 더 많은 수의 비트를 배정하기 때문이다. 따라서 R의 최대 정수인 2147483647보다 큰 수도 정수로 쓸 수 있다.

In [1]:
k = 2147483647
k10 = k * 10
print(k10)
type(k10)

21474836470


int

- Python에서의 machine epsilon, 실수의 최대값, 지수부분 최대값(base2, base10), 실수의 최소값, 지수부분 최소값

In [3]:
import sys
print(sys.float_info.epsilon)
print(sys.float_info.max)
print(sys.float_info.max_exp)
print(sys.float_info.max_10_exp)
print(sys.float_info.min)
print(sys.float_info.min_exp)
print(sys.float_info.min_10_exp)

2.220446049250313e-16
1.7976931348623157e+308
1024
308
2.2250738585072014e-308
-1021
-307


### 수식과 함수의 계산
조합 수 $_{200}C_{100}$을 계산해보자. $_{200}C_{100} = \cfrac{200!}{100! 100!}$이므로 100!과 200!을 계산할 필요가 있다.
```R
> factorial(100)
[1] 9.332622e+157
> factorial(200)
[1] Inf
```

200!의 경우 컴퓨터가 다룰 수 없는 너무 큰 수 이기에 다른 방법을 써야한다. $_{200}C_{100}$이 다음과 같이 수식적으로 표현됨을 알고 있다.
\begin{equation*}
    _{200}C_{100} = \cfrac{200!}{100! 100!} = \cfrac{101 \cdot 102 \cdot \cdots \cdot 200}{1 \cdot 2 \cdot \cdots \cdot 100} = \displaystyle\prod_{k=1}^{100} \cfrac{100+k}{k}
\end{equation*}

즉, 100 번에 걸쳐 $(100+k)/k$를 곱해나가는 것이다.
```R
> C <- 1
> for (k in 1:100){
+   C <- C * (100+k) / k
+ }
> C
[1] 9.054851e+58
```

Python의 경우는 다음과 같다.

In [4]:
C = 1
for k in range(1,101):
    C = C * (100 + k) / k
print(C)

9.054851465610333e+58


Python math 함수 `comb()`를 쓸 수도 있다.

In [6]:
import math
C = math.comb(200,100)
print(float(C))

9.054851465610328e+58


R과 Python에는 많은 함수가 내장되어 있어 불러 쓸 수 있다. 그런데 사용자가 스스로 정의해서 써야 할 때가 있기도 하다. 후자의 경우 '센스'있는 작업의 책임은 전적으로 사용자 스스로에 있다.

#### 지수함수 $e^{x}$
지수함수 $e^{x}, -1 \leq x \leq 1$의 경우 테일러 정리에 의해 $e^x = 1 + \displaystyle\sum_{k=1}^{\infty} \frac{x^k}{k!}$이다. $k$번째 항 $x^k/ k!(=a_k)$를 보자. $-1 \leq x \leq 1$ 에서 $x^k$의 절대값은 증가하지 않으며 $k!$은 매우 빠르게 증가한다. 따라서 $a_k$는 빠르게 0으로 수렴해간다. 그러므로 적당히 큰 N을 잡으면 $e^x = 1 + \displaystyle\sum_{k=1}^{N} \frac{x^k}{k!}$으로 계산할 수 있게 된다. 문제는 $N$을 어떻게, 무엇으로 잡느냐에 있다.

수열 $a_k$의 부분합을 $s_n$이라고 하자. 즉, $s_n = \displaystyle\sum_{k=1}^{n}$이다. 이때 $n$이 커져서 $a_n$의 절대값이 machine epsilon보다 작게되면 $s_n$을 더이상 업데이트할 이유가 없어진다. (컴퓨터 상에서) 바로 그 때가 작업을 마칠 시점인 것이다. 따라서 다음과 같이 $e^x$를 계산하는 사용자 함수 `exponential`을 만들 수 있다.

```R
> # exponential 함수
> exponential <- function(x){
+   sum <-1; temp <- 1; k <- 1
+   while (abs(temp) > .Machine$double.eps){
+     temp <- temp * x/k
+     sum <- sum + temp
+     k <- k+1
+   }
+   return (sum)
+ }
> print(exponential(1), 16)
[1] 2.718281828459046
```

앞의 R 스크립트에서 while문에서 조건을 제시하여 그 조건이 지속되는 한 계속 반복하도록 하였는데 만약 조건이 만족되지 않는다면 무한 루프에 빠지게 된다. 그런 경우엔 강제로 사용자가 멈춰야 하지만 오류메시지를 출력하게끔 하는것이 더 좋은 방법이다.

다음은 반복횟수의 상한이 100회로 지정된 `exponential`함수의 보완이다.
```R
> # 수정된 exponential
> exp.1 <- function(x){
+   sum <- 1
+   temp <- 1
+   for (k in 1:100){
+     if (abs(temp) < .Machine$double.eps) return (sum)
+     temp <- temp * x/k
+     sum <- sum + temp
+   }
+   return ("Computation is incomplete within the limit")
+ }
> print(exp.1(1), 16)
[1] 2.718281828459046
> print(exp.1(100), 16)
[1] "Computation is incomplete within the limit"
> print(exp.1(1)^100, 16)
[1] 2.688117141816165e+43
> print(exp(1), 16)
[1] 2.718281828459045
> print(exp(100), 16)
[1] 2.688117141816136e+43
```

이제부터 앞 내용을 Python으로 코딩해보자. 언어적 표현에서 차이가 약간 있을 뿐 구조적으로는 같다.

In [7]:
def exp(x):
    sum = 1
    temp = 1
    for k in range(1,101):
        if abs(temp) < sys.float_info.epsilon:
            return sum
        temp = temp * x / k
        sum = sum + temp
    return "Computation is incomplete within the limit"

In [8]:
print(exp(1))
print(math.exp(1))

2.7182818284590455
2.718281828459045


#### 연습 2. $-\frac{\pi}{2} < x < \frac{\pi}{2}$에 대하여 $\sin (x)$값을 산출하는 사용자 함수를 R 또는 Python으로 제시하라. 그리고 $x = \frac{\pi}{4}$에서의 함수 값을 산출하여 $\frac{1}{\sqrt{2}}$와 비교하라.

R의 경우
```R
> # Exercise 2
> sine <- function(x){
+   sum <- x; temp <- x; k <- 1
+   while (abs(temp) > .Machine$double.eps){
+     temp <- temp * (-1) * x/(2*k) * x/(2*k + 1)
+     sum <- sum + temp
+     k <- k + 1
+   }
+   return (sum)
+ }
> print(sine(pi/4), 16)
[1] 0.7071067811865475
> print(1/sqrt(2), 16)
[1] 0.7071067811865475
```

Python의 경우

In [9]:
def sine(x):
    sum = x
    temp = x
    k = 1
    while abs(temp) > sys.float_info.epsilon:
        temp = -temp * x * x / (2 * k * (2 * k + 1))
        sum = sum + temp
        k = k + 1
    return sum

print(sine(math.pi/4))
print(math.sqrt(2)/2)
print(math.sin(math.pi/4))

0.7071067811865475
0.7071067811865476
0.7071067811865476


In [19]:
def cosine(x):
    sum = 1
    temp = 1
    k = 1
    while abs(temp) > sys.float_info.epsilon:
        temp = -temp * x * x / (2 * k * (2 * k - 1))
        sum = sum + temp
        k = k + 1
    return sum

print(cosine(math.pi/4))
print(math.sqrt(2)/2)
print(math.cos(math.pi/4))

0.7071067811865475
0.7071067811865476
0.7071067811865476


### 처리시간 (processing time)
출력이 같더라도 알고리즘에 따라 처리시간이 다를 수 있다. 알고리즘을 읽기 좋게 구성하는 것도 중요하지만 최대한 효율화시켜야 한다. 여러 요소가 처리시간에 영향을 주는데, 통계 계산에서는 벡터와 행렬을 많이 쓰는 만큼 가급적 벡터 연산(vector operation)이 가능하도록 코딩해야 처리시간을 줄일 수 있다. 대조적으로, 벡터와 행렬의 각 요소별 (elementwise)로 작업하면 처리시간이 엄청 길어질 수 있다.

다음 예는 각 요소가 균일 분포 uniform(0,1)의 임의수로 구성된 $1000 \times 100$행렬 $A(=(a_{ij}))$에 대하여 행 합계(row sum) 벡터 $\mathbf{r}(=(r_i))$을 구하는 R 스크립트다. 즉, $\mathbf{r}$은 길이 1000의 벡터이며 $r_i = \displaystyle\sum_{j=1}^{100}a_{}ij$이다. R 함수 `proc.time()`을 써서 이상의 계산을 100회 반복 실행하는 데 요구되는 처리시간을 산출해보자.

```R
# 1000 X 100 행렬 처리시간
A <- matrix(runif(1000*100), nrow = 1000, ncol = 100)
p.time <- proc.time()
for (k in 1:100){
  r <- rep(0,1000)
  for (i in 1:1000) {
    for (j in 1:100) {
      r[i] <- r[i] + A[i,j]
    }
  }
}
r
> proc.time() - p.time
 사용자  시스템 elapsed 
   0.51    0.02   11.30 
```

처리시간은 위와 같다. (`user`는 사용자 영역의 CPU 사용 시간, `system`은 시스템 영역의 CPU 사용 시간, `elapsed`는 총 경과 시간)

그런데 R의 apply 함수를 쓰면 벡터 연산이 된다. 다음을 보자. 여기서도 동일 계산이 100회 단순 반복되었다.
```R
# 1000 X 100 행렬 처리시간 - 벡터연산
p.time <- proc.time()
for (k in 1:100) r <- apply(A,1,sum)
r
> proc.time() - p.time
 사용자  시스템 elapsed 
   0.19    0.05    2.86 
```

Python에서는 다음과 같다.

In [10]:
import numpy as np
import time
A = np.random.rand(1000, 100)
start_time = time.time()
for k in range(100):
    r = np.zeros(1000)
    for i in range(1000):
        for j in range(100):
            r[i] += A[i,j]

print(r)
elapsed_time = time.time() - start_time
print("Elapsed time: ", elapsed_time, "seconds")

[53.30929708 51.19645202 54.32407579 50.18899662 45.08231002 51.23823617
 52.008045   51.21921    47.36999446 45.86148638 48.75536089 50.73278818
 49.18279771 50.63689429 55.18496712 49.92722718 51.03464162 49.74535972
 46.57635187 50.73609276 49.28758759 46.94996503 51.70692842 56.74490258
 50.93717601 48.22581726 51.88639458 52.98538176 48.36954873 52.68768128
 48.96587297 52.06203388 50.43403598 49.49955308 53.90939372 51.44271295
 53.70512437 50.94356216 50.750691   51.1255411  47.77859406 55.45705681
 53.15629784 53.25469744 45.87246786 48.72211296 49.00958973 54.95892064
 54.57842181 48.00343374 50.50456327 56.97070298 50.3738596  49.38893952
 50.46353888 51.23873825 52.65823048 49.89758787 53.90704814 49.4027842
 55.65514217 47.93996846 52.95266586 47.22730799 51.25847268 42.42533197
 51.87906013 48.85868144 43.64913995 46.4200245  49.77747514 49.30940918
 51.16274898 53.78467244 53.00300314 51.71708411 48.647203   46.11113389
 55.29365519 46.21361907 50.31720579 49.98072784 53.

In [11]:
start_time = time.time()
for k in range(100):
    r = np.sum(A, axis=1)
print(r)
elapsed_time = time.time() - start_time
print("Elapsed time: ", elapsed_time, "seconds")

[53.30929708 51.19645202 54.32407579 50.18899662 45.08231002 51.23823617
 52.008045   51.21921    47.36999446 45.86148638 48.75536089 50.73278818
 49.18279771 50.63689429 55.18496712 49.92722718 51.03464162 49.74535972
 46.57635187 50.73609276 49.28758759 46.94996503 51.70692842 56.74490258
 50.93717601 48.22581726 51.88639458 52.98538176 48.36954873 52.68768128
 48.96587297 52.06203388 50.43403598 49.49955308 53.90939372 51.44271295
 53.70512437 50.94356216 50.750691   51.1255411  47.77859406 55.45705681
 53.15629784 53.25469744 45.87246786 48.72211296 49.00958973 54.95892064
 54.57842181 48.00343374 50.50456327 56.97070298 50.3738596  49.38893952
 50.46353888 51.23873825 52.65823048 49.89758787 53.90704814 49.4027842
 55.65514217 47.93996846 52.95266586 47.22730799 51.25847268 42.42533197
 51.87906013 48.85868144 43.64913995 46.4200245  49.77747514 49.30940918
 51.16274898 53.78467244 53.00300314 51.71708411 48.647203   46.11113389
 55.29365519 46.21361907 50.31720579 49.98072784 53.

#### 연습 3. 앞의 $1000 \times 100$ 행렬 $A$에 대해서 열별 최소값 (columnwise minimum)을 요소로 갖는 길이 100의 벡터 $c$를 산출하는 R 스크립트 또는 Python 스크립트를 2개 버전으로 제시하라. 그리고 처리시간을 비교해보라.

R스크립트
```R
# 1000 X 100 행렬 처리시간
A <- matrix(runif(1000*100), nrow = 1000, ncol = 100)
p.time <- proc.time()
c <- rep(Inf, 100)
for (j in 1:100) {
  for (i in 1:1000) {
    if (A[i,j] < c[j]) {
      c[j] <- A[i,j]
    }
  }
}
c
> proc.time() - p.time
 사용자  시스템 elapsed 
   0.03    0.00    2.25

# 1000 X 100 행렬 처리시간 - 벡터연산
p.time <- proc.time()
c <- rep(Inf, 100)
c <- apply(A,2,min)
c
> proc.time() - p.time
 사용자  시스템 elapsed 
   0.00    0.01    1.32 
```

Python

In [15]:
A = np.random.rand(1000, 100)
start_time = time.time()
c = np.full(100, np.inf)
for j in range(100):
    for i in range(1000):
        if A[i,j] < c[j]:
            c[j] = A[i,j]
print(c.shape)
elapsed_time = time.time() - start_time
print("Elapsed time: ", elapsed_time, "seconds")

(100,)
Elapsed time:  0.02393364906311035 seconds


In [16]:
A = np.random.rand(1000, 100)
start_time = time.time()
c = np.min(A, axis=1)
print(c.shape)
elapsed_time = time.time() - start_time
print("Elapsed time: ", elapsed_time, "seconds")

(1000,)
Elapsed time:  0.0 seconds


#### 정밀도를 늘리는 방법
R과 Python은 실수(floating-point number)를 담기 위하여 출력이 같더라도 유효숫자 부분에 53개 비트를 할당해 쓴다(하나는 부호이므로 실제로는 52개이다). 그런 이유로 machine epsilon이 $2^{-(53-1)}$이 되고 이는 10진법으로 $2.2 \times 10^{-16}$이므로 유효숫자는 (안전하게 말하면) 15개이다.

R의 Rmpfr 패키지는 이것을 늘리는 방법을 제공한다. 예컨대 $\sqrt{2}$에 대한 정밀 표현을 해보자.
```R
> sqrt(2)
[1] 1.414214
> print(sqrt(2), 15)
[1] 1.4142135623731
```
이 숫자는 53개 비트에서 표현된 것이다. 이제 $\sqrt{2}$를 105개 비트로 표현해 보자. R의 Rmpfr 패키지를 쓰자.
```R
> library(Rmpfr)
> num <- mpfr(2, 105)
> sqrt_2 <- sqrt(num)
> sqrt_2
1 'mpfr' number of precision  105   bits 
[1] 1.41421356237309504880168872420972
```

여기서 `mpfr()`함수를 썼는데 이 함수의 기본용법은 다음과 같다.

```
mpfr(x, precBits),
```
여기서 `x`는 숫자이고 `precBits`는 사용할 비트 수이다. 그런데 `sqrt_2`의 표현능력은 $2^{-(105-1)}$이내이고 이는 10진법으로 $4.9 \times 10^{-32}$이므로 31개 유효숫자로 인식되는 것이 맞다. 다시 말해

```R
> print(sqrt_2, 31)
1 'mpfr' number of precision  105   bits 
[1] 1.4142135623730950488016887242
```
이 $\sqrt{2}$ 에 대한 정직한 표기이다.

다음은 원주율 $\pi$를 105개 비트의 정밀도로 표현한 것이다.
```R
> Const("pi", 105)
1 'mpfr' number of precision  105   bits 
[1] 3.14159265358979323846264338327953
```

Python에도 정밀도를 높이는 방법이 있다. `mpmath`패키지를 쓰면 된다.

In [17]:
import mpmath as mp
mp.dps =31
sqrt_2 = mp.sqrt(2)
mp.nprint(sqrt_2, 31)

1.414213562373095145474621858739


"`mp.dps = 31`"은 "`mp.prec = 105`"와 호환된다.

In [18]:
mp.dps =31
pi_value = mp.pi
mp.nprint(pi_value, 31)

3.141592653589793115997963468544
