<a href="https://colab.research.google.com/github/kangwonlee/nmisp/blob/main/00_introduction/10_floating_point.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# 컴퓨터는 실수를 어떻게 다루는가?<br>How computers handle real numbers?



Check the following result.<br>다음 결과를 확인해 보자.



In [None]:
addition = 0.1 + 0.2
addition == 0.3



It is related to how computers handle real numbers.<br>이는 컴퓨터가 실수를 다루는 방식과 관련이 있다.



자연수, 음의 정수, 실수의 순서 대로 알아 보자.<br>Let's take a look at natural numbers, negative integers, and real numbers.



## 컴퓨터는 자연수를 어떻게 다루는가?<br>How computers handle natural numbers?



* 컴퓨터는 기본적으로 0 또는 1만 다룰 수 있음.<br>Basically, computers can handle 0 or 1 only.



* 여기서 **다룰 수 있다**는 것은 기억장치에 저장, 연산, 출력 등을 뜻함.<br>Here, to **handle** means to store in memory, to operate, and to output.



* 0 또는 1 을 다루는 최소 단위는 **비트**라고 함.<br>We call the smallest unit that can handle 0 or 1 a **bit**.



* 어떤 컴퓨터가 예를 들어 32 비트, 64 비트 라고 할 때 이를 기억하기 바람.<br>When we hear about a personal computer is for example 32 bit or 64 bit, please recall this.



* 해당 컴퓨터가 한번에 처리할 수 있는 비트의 수를 뜻함.<br>It means the number of bits that the computer can process at once.



* 더 큰 (자연)수를 다루려면 비트 수가 커야 함.<br>To handle larger (natural) numbers, we need more number of bits.



* 다음 표는 10진수를 2진수와 16진수 형태로 보임.<br>Following table shows decimal numbers in binary and hexadecimal format.



In [None]:
import numpy as np
import pandas as pd


# make a table of deciman, binary, and hexademcial numbers
# 2진수, 16진수 표를 준비함

# decimal 10진수
decimal = pd.Series(
    list(range(0,20+1)) +
    [
      2**7-1, 2**7, 2**8-1, 2**8,
      2**15-1, 2**15, 2**16-1, 2**16,
      2**32-1, 2**32,
      2**63-1, 2**63, 2**64-1, 2**64,
    ], name="Decimal"
)

# hexadecimal 16진수
hexadecimal = decimal.apply(hex)

# number of Bytes Byte 수
n_bytes = np.ceil((hexadecimal.str.len() - 2).div(2)).astype(int)

# binary 2진수
binary = decimal.apply(bin)

# number of bits bit 수
n_bits = (binary.str.len() - 2).astype(int)

# if binary number too long, set "..."
# 2진수 표시가 너무 길면 "..." 으로 변경
binary[n_bits.index[n_bits>20]] = "..."

# Make a Pandas DataFrame table
# Pandas DataFrame 표로 만듦
df_dec_bin_hex = pd.DataFrame(
    {
        "Decimal":decimal,
        "Binary":binary,
        "no. bits":n_bits,
        "no. bytes":n_bytes,
        "Hexadecimal":hexadecimal
     },
)

df_dec_bin_hex.set_index("Decimal", inplace=True)

# present the table
# 위에서 만든 표를 표시함
df_dec_bin_hex



* 위 표가 너무 길다고 생각되면 위 셀 왼쪽 여백을 선택한 후 <kbd>Shift</kbd>+<kbd>O</kbd> 또는 <kbd>O</kbd>를 눌러 봄<br>
    If the table above seems too long, select left margin of the cell above and try pressing <kbd>Shift</kbd>+<kbd>o</kbd> or <kbd>o</kbd>



* 위에서 이진수 4자리가 16진수 한자리에 해당됨을 알 수 있음<br>We can see that one hexadecimal digit represents four binary digits.



* 이러한 이유로 흔히 이진수를 예를 들어 `1101 0101`과 같이 4자리씩 표시함.<br>Because of this, frequently we group four digits of a binary number; for example `1101 0101`.



* 이러한 비트를 8개씩 모은 것을 **바이트**라고 함.<br>We call a collection of 8 bits a **byte**.



## 컴퓨터는 음의 정수를 어떻게 다루는가?<br>How computers handle negative integers?



* 기본적으로 컴퓨터는 0과 양의 정수를 다루도록 만들어져 있음.<br>Basically computers are designed to handle 0 and positive integers.



* 음의 정수를 표현하고 다루기 위해 컴퓨터는 음의 정수를 **2의 보수**로 변환함.<br>To represent and handle negative integers, computers convert a negative integer to **2's complement**.



* 두 수 $a$와 $b$가 있을 때, $a+b=2$ 이면 $b$ 는 $a$의 **2의 보수**임.<br>If there are two numbers of $a$ and $b$, and $a+b=2$, $b$ is **2's complement** of $a$.



### 8 비트 예<br>8 bit example



* 설명을 간단히 하기 위해 8bit 의 경우를 살펴 보겠음.<br>To simplify, we will look at the 8bit case.



* 양의 정수 7은 8bit 이진수로 00000111 로 표시할 수 있음.<br>Positive integer 7 is 00000111 in an 8 bit binary number.



* 2진수 00000111의 2의 보수를 구하기 위해 우선 0을 1로 바꾼 후 1을 더함.<br>To find 2's complement of binary number 00000111, change 0's to 1's and add 1.



* 2진수 00000111 의 2 의 보수는 11111001 이 될 것임.<br>2's complement of binary number 00000111 would be 11111001.



* 두 수를 더하면 다음과 같음.<br>Adding these two numbers would be follows.



In [None]:
# convert strings to integers. 
# regard the base is two == binary numbers
a = int('00000111', base=2)
b = int('11111001', base=2)

# see help(int) for more information

# add two integers above
c = a+b

# print the sum c as a binary number
print(f'c = {c:b}(binary)')

# as a decimal number
print(f'c = {c:d}(decimal)')

# as a hexadecimal number
print(f'c = {c:x}(hexadecimal)')



* 위 결과는 10진수로는 256 이지만 2진수로는 `1 0000 0000` 으로, 아래 8 비트는 모두 0임. 8비트 연산의 경우, 이 덧셈의 결과는 0으로 간주함.<br>The result above is 256 in decimal, however, in binary `1 0000 0000` whose lower 8 bits are all zeros. In case of the 8 bit operation, we regard this result as zero.



* 아래 표는 8자리 2진수의 양의 정수, 부호 있는 정수로서의 값을 비교함<br>Following table compares 8 digit bit patterns as positive integers and signed integers.



In [None]:
# number of binary digits
# 이진수의 자릿수
n = 8

def bit_unit_sint_table(n:int):
  # make a table of unsigned or signed integers
  # 부호가 없는 또는 부호가 있는 이진수 표 생성
  uint = [0, 1, 2,] + list(range(2**(n-1)-2, 2**(n-1)+3)) + [(2**n-2), (2**n-1)]

  bit_key = f"{n} bit bit pattern"
  uint_key = f"unsigned int{n}_t"
  sint_key = f"signed int{n}_t"


  df_bit = pd.DataFrame(
    {
      bit_key: list(map(lambda i: f"{i:0{n}b}", uint)),
      uint_key: uint,
      sint_key: list(map(lambda ui: ui if ui < 2**(n-1) else (ui - 2**n), uint)),
    }
  )

  elipsis = pd.DataFrame({
        bit_key: ["..."],
        uint_key: ["..."],
        sint_key: ["..."],
      })

  df_bit = pd.concat([
      df_bit.loc[:2,:],
      elipsis,
      df_bit.loc[3:7,:],
      elipsis,
      df_bit.loc[8:,:],
  ], axis=0)

  df_bit.set_index(bit_key, inplace=True)
  return df_bit

# present the table
# 표를 표시함
bit_unit_sint_table(n)



### 16 비트 예<br>16 bit example



* 다음 예는 16비트의 경우를 보여줌<br>Following example shows a 16bit example.



In [None]:
a = int('0000''0000''0000''0111', base=2)
b = int('1111''1111''1111''1001', base=2)

c = a+b
print(f'c = {c:b}(binary)')
print(f'c = {c:d}(decimal)')
print(f'c = {c:x}(hexadecimal)')



* 위 결과는 10진수로는 65536 이지만 2진수로는 `1 0000 0000 0000 0000` 으로, 아래 16 비트는 모두 0임.<br>The result above is 65536 in decimal, however, in binary `1 0000 0000 0000 0000` whose lower 16 bits are all zeros.



* 아래 표는 16자리 2진수의 양의 정수, 부호 있는 정수로서의 값을 비교함<br>Following table compares 16 digit bit patterns as positive integers and signed integers.



In [None]:
# 이진수의 자릿수
# number of binary digits
n = 16

# make a table of unsigned or signed integers
# 부호가 없는 또는 부호가 있는 이진수 표 생성

# present the table
# 표를 표시함
bit_unit_sint_table(n)


### 요약<br>Summary



* 음의 정수는 컴퓨터에서 2의 보수로 다루며, 이는 해당 정수의 절대값의 2진수에서 0과 1을 바꾼 다음 1을 더하여 구함.<br>Computers handle negative intergers as 2's complementary, which we can find by exchanging 0's and 1's of the binary representation of the integer's absolute value and then adding one.



## 컴퓨터는 실수를 어떻게 다루는가?<br>How computers handle real numbers?



### 고정 소숫점<br>Fixed point



* 정수로 표시한 후 일정 값을 곱함<br>We can represent a number in an integer and multiply a fixed number.



* 예를 들어 길이를 모두 cm 단위로 표시한 후 m 단위 값을 구하려면 0.01 을 곱함.<br>For example, we can indicate all lengths in cm units and multipy 0.01 to find values in m units. 



* 그러나 위의 경우, mm 값을 표시하는 것이 곤란할 수 있음.<br>However, in this way, it may not be easy to indicate in mm units.



### 부동 (떠다니는) 소숫점<br>Floating point



* 간단히 말하면 실수는 유효숫자와 지수로 표시함.<br>In short, we can also represent a real number using significand and exponents.



* 예를 들어 $2.3456 \times 10^0$ m 는 cm 단위로는 $2.3456 \times 10^2$, mm 단위로는 $2.3456 \times 10^3$ 으로 표시될 것임.<br>For example, $2.3456 \times 10^0$ m would be $2.3456 \times 10^2$ in cm, and $2.3456 \times 10^3$ in mm.



* 공학용 계산기 가운데는 `2.3456E3` 으로 $2.3456 \times 10^3$ 을 나타내는 것도 있음. 여기서 `2.3456` 은 유효숫자, `3`은 지수임.<br>An engineering calculator may indicate $2.3456 \times 10^3$ as `2.3456E3`. Here, we can see that `2.3456` is the significand (also mantissa, coefficient, argument or fraction) and `3` is the exponent.



* 유효숫자는 바뀌지 않더라도 지수 값이 바뀌면 소숫점의 위치가 바뀜.<br>Even if the sigtificand does not change, when the exponent changes, the location of the decimal point changes.



* 반대로 $2.3456 \times 10^0$ mm 는 cm 단위로는 $2.3456 \times 10^{-1}$, m 단위로는 $2.3456 \times 10^{-3}$ 으로 표시될 것임.<br>On the contrary, $2.3456 \times 10^0$ mm would be $2.3456 \times 10^{-1}$ in cm, and $2.3456 \times 10^{-3}$ in m.



* 컴퓨터는 2진수로 저장하며 자세한 내용은 [IEEE 754](https://ko.wikipedia.org/wiki/IEEE_754) 기술 표준을 참고하기 바람.<br>Computers store in binary numbers. For more informaiton, please refer to [IEEE 754, Wikipedia](https://en.wikipedia.org/wiki/IEEE_754).



* 일반적으로 단정도 4바이트 (32비트) 또는 배정도 8바이트 (64비트)로 다루며 $\pm$, 지수부, 유효숫자부로 나눔.<br>Usually we use 4Byte (32bit) single precision or 8Byte (64bit) double precision, which includes $\pm$, exponent, and significand.



* 단정도 32비트는 아래 표와 같이 구성됨.  여기서 `e`는 지수, `s`는 유효숫자를 뜻함.<br>Following table shows the breakout of 32 bits of single precision.  Here, `e` and `s` indicate exponent and sigdificand, respectively.



In [None]:
# number of bits
n = 32
ne = 8    # number of exponent bits

pd.set_option("display.max_columns", 36)

def float_table(n:int, ne:int):
    df_float = pd.DataFrame(
        ['±'] + ['e'] * ne + ['s'] * (n-ne-1),
        index=range(n-1, 0-1, -1)
    ).T
    df_float.set_index(31, inplace=True)

    return df_float

float_table(32, 8)



* 지수부 값이 $0$이면 $2^{-127}$을, $2^{8}-1=255$이면  $2^{128}$을 뜻함.<br>Please note that the exponent value $0$ means $2^{-127}$ and $2^{8}-1=255$ means $2^{128}$.



* 배정도 64비트는 아래 표와 같이 구성됨.<br>Following table shows the breakout of 64 bits of double precision.



In [None]:
# number of bits
n = 64
ne = 11

float_table(64, 11)



* 지수부 값이 $0$이면 $2^{-1023}$을, $2^{11}-1=2047$이면  $2^{1024}$를 뜻함.<br>Please note that the exponent value $0$ means $2^{-1023}$ and $2^{11}-1=2047$ means $2^{1024}$.



## 부동소숫점 표시의 한계 사례<br>Examples of limits of floating point



수학적으로 다음은 항상 참인가?<br>Mathematically, is following always true?



$$
2^{-n} > 0, n < \infty
$$



다음 코드는 $n$ 이 1 부터 10000 까지인 경우 위 식을 확인한다.<br>Following code will check the inequality above when $n$ is from  1 to 10000.



In [None]:
a = 1.0

for n in range(1, 10000+1):
    a *= 0.5
    print(f"2**(-{n}) = {a}")
    if a <= 0 :
        break



다음도 항상 참인가?<br>Is following always true, too?



$$
100+2^{-n} > 100, n < \infty
$$



마찬가지로, 다음 코드는 $n$ 이 1 부터 10000 까지인 경우 위 식을 확인한다.<br>Similary, following code will check the inequality above when $n$ is from  1 to 10000.



In [None]:
a = 1.0
b = 100

for n in range(1, 10000+1):
    a *= 0.5
    print(f"{b} + 2**(-{n}) = {b+a}")
    if b+a <= b : 
        break



## So now what?<br>그래서, 어떻게 하면 좋을까?



Since python 3.5, to compare two `float` values, `math.isclose()` is available .<br>Python 3.5 이후, 두 `float` 값을 비교하기 위해 `math.isclose()` 를 사용할 수 있다.



In [None]:
addition = 0.1 + 0.2
addition == 0.3



In [None]:
import math
math.isclose(addition, 0.3)



Also, since `numpy` 1.7.0, `numpy.close()` is available.<br>
또한 `numpy` 1.7.0 이후 `numpy.close()` 도 사용 가능하다.



In [None]:
import numpy
numpy.isclose(addition, 0.3)



## 연습 문제<br>Exercises



* 이진수 세자리는 몇진수 한자리에 해당되겠는가?<br>One digit of which base would represent three binary digits?



* `2.3456E3` 이 $2.3456 \times 10^3$ 라면, $2.3456 \times 10^{-3}$ 은?<br>If `2.3456E3` is equivalent to $2.3456 \times 10^3$, what about $2.3456 \times 10^{-3}$?



* 아래 부등식은 항상 참인지 여러분의 컴퓨터로 확인해 본 결과는? 그 까닭은?<br>What was the result of the following inequality in your computer? Why?



$$
2^{-n} > 0
$$



* 위 결과와 아래 부등식의 결과를 비교해 보시오.<br>Compare the result of the following inequality in your computer with the above one?



$$
100+2^{-n} > 100
$$



## 파이썬의 `for` 반복문<br>`for` iterations in python



어떤 작업을 정해진 횟수 만큼 반복시키고 싶다면 `for` 문을 사용할 수 있다.<br>
`for` loops for a fixed number of iterations.[[ref](https://stackoverflow.com/questions/27875966)]



In [None]:
a = 'iteration'

for i in [0, 1, 2,]:
    print(i, a)



위 셀에서 변수 `i` 는 `in` 다음의 list `[0, 1, 2]` 안의 값을 하나씩 짚을 것이다.<br>In the cell above, the variable `i` will step over the values of the list `[0, 1, 2]` following `in`.



`n` 번 반복시키려면 0 부터 `n-1` 까지 발생시키는 `range(n)` 을 사용할 수 있다.<br>
To loop `n` iterations, we can use `range(n)` that will generate from 0 to `n-1`.



In [None]:
a = 'iteration'
n = 10

for i in range(n):
    print(i, a)



list 나 `range(n)` 대신 문자열을 사용할 수도 있다.<br>We may also replace the list or `range(n)` with a string.



## Final Bell<br>마지막 종



In [None]:
# stackoverfow.com/a/24634221
import os
os.system("printf '\a'");

