# Data Types in Julia
---
* Created on 25 Aug 2023
* Created by Yooshin Oh (stevenoh0908@snu.ac.kr)
---
* <span class="mark">Documentation: https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/</span>

## Julia의 Precision Arithmetic 특징

* Julia는 하드웨어 상에서 지원하지 않는 정확도에서의 연산도 소프트웨어적으로 지원해준다. 즉, double, float, int, long long 등과 같은 자료형에 국한될 필요 없이, 임의의 정확도를 가지는 산술 연산을 할 수 있다. (Supports *Aribitary Precision Arithmetic*)

## Julia의 Data Types

### Integer Types

|Type|Signed|Number of Bits|Smallest Value|Largest Value|
|:--:|:-:|:-:|:---:|:---:|
|`Int8`|Y|8|$-2^{7}$|$2^{7}-1$|
|`UInt8`|N|8|$0$|$2^{8}-1$|
|`Int16`|Y|16|$-2^{15}$|$2^{15}-1$|
|`UInt16`|N|16|$0$|$2^{16}-1$|
|`Int32`|Y|32|$-2^{31}$|$2^{31}-1$|
|`UInt32`|N|32|$0$|$2^{32}-1$|
|`Int64`|Y|64|$-2^{63}$|$2^{63}-1$|
|`UInt64`|N|64|$0$|$2^{64}-1$|
|`Int128`|Y|128|$-2^{127}$|$2^{127}-1$|
|`UInt128`|N|128|$0$|$2^{128}-1$|
|`Bool`|N/A|8|false (0)|true (1)|

* Julia의 경우 여타 프로그래밍 언어들과는 달리 기본 정수 자료형 중에 128 bit 정수 자료형을 지원함에 주의. Boolean Type의 경우는 1 byte를 기본으로 쓰는 것으로 처리한다.

### Floating-Point Types

|Type|Precision|Number of Bits|
|:--:|:--:|:-:|
|`Float16`|[Half](https://en.wikipedia.org/wiki/Half-precision_floating-point_format)|16|
|`Float32`|[Single](https://en.wikipedia.org/wiki/Single-precision_floating-point_format)|32|
|`Float64`|[Double](https://en.wikipedia.org/wiki/Double-precision_floating-point_format)|64|

* Julia의 경우 Half-Precision을 지원한다. C 언어의 경우는 기본 Primitive Types의 경우 Single or Double Precision 만을 지원하지만 (`float`와 `double`) Julia의 경우는 나아가 16 bit (2 bytes) 만을 사용하는 Half Precision Floating-Point Type도 지원한다.

### Type Promotion System과 자료형

* Julia는 적절한 Type Promotion System을 가지고 있어서, 모든 Numeric Type  사이의 연산은 명시적 Casting 없이도 자연스럽게 이루어진다. (Python-like)

## Julia Integers & Floating-Points

### 정수형 상수

#### 기본 정수형 상수 표현법

* Julia에서 정수형 상수는 Python에서의 표현법과 그 표현법이 같다.

In [1]:
1

1

In [2]:
1234

1234

* Julia에서 정수형 상수는 32-bit Arch에서는 `Int32`형으로, 64-bit Arch에서는 `Int64`형으로 기본 표현된다.

In [3]:
typeof(1) # 내 Linux가 64-bit Arch이므로 기본 자료형이 Int64임.

Int64

* 이 때, Julia는 내부 변수인 `Sys.WORD_SIZE`를 이용하여 기본 정수 자료형의 bit 수를 결정한다.

In [4]:
Sys.WORD_SIZE # 내 Linux가 64-bit Arch이므로 64로 설정되어 있음.

64

* Julia에서는 System의 Long-Bit 수에 맞추어 `Int`, `UInt` 자료형을 지정해두었다. 즉, 32-bit Arch에서 이들 자료형은 32-bit이고, 64-bit Arch에서 이들 자료형은 64-bit로, 32-bit Arch에서 `Int`, `UInt`는 각각 `Int32`, `UInt32`와 같고, 64-bit Arch에서 `Int`, `UInt`는 각각 `Int64`, `UInt64`와 같다.

In [5]:
Int # 내 Linux가 64-bit Arch이므로 Int64형으로 설정되어 있음.

Int64

In [6]:
UInt # 내 Linux가 64-bit Arch이므로 UInt64형으로 설정되어 있음.

UInt64

* 32-bit System이더라도 32-bit로 표현할 수 없는 겁나게 큰 수는 Julia가 알아서 64-bit 정수 자료형으로 표현해준다.

In [8]:
# 즉, 32-bit든 64-bit 시스템이든
typeof(300000000000) # -> 32-bit로는 표현 불능, 따라서 두 시스템 모두 Int64로 표현

Int64

#### 여러 진법으로의 정수형 상수 표현법

* <span class="girk">Python에서와 마찬가지로, Julia에서도 **양의 정수**를 2진법, 8진법, 16진법으로 표현이 가능하다.</span>
    * 2진법 정수 상수 표현은 `0b` Prefix
    * 8진법 정수 상수 표현은 `0o` Prefix
    * 16진법 정수 상수 표현은 `0x` Prefix (대소문자 구분하지 않음)

* Julia는 해당 양의 정수 상수를 표현하기 위한 최소한의 공간만을 자동으로 할당해준다. 즉, 1을 표현하기 위해서는 단 8-bit면 충분하므로, `UInt8` 자료형으로 자동으로 저장해준다.

In [10]:
x = 0x1 # x는 UInt8, 0x01로 저장됨. (8-bit)
println(x)
typeof(x)

1


UInt8

In [11]:
x = 0x123 # x는 12-bit를 사용하므로, UInt16, 0x0123으로 저장됨. (16-bit)
println(x)
typeof(x)

291


UInt16

In [12]:
x = 0x1234567 # x는 28-bit를 사용하므로, UInt32, 0x01234567로 저장됨. (32-bit)
println(x)
typeof(x)

19088743


UInt32

In [13]:
x = 0x123456789aBcDeF # 16진수 표현에서 대소문자 구분하지 않음. x는 60-bit를 사용하므로, UInt64, 0x0123456789abcdef로 저장됨. (64-bit)
println(x)
typeof(x)

81985529216486895


UInt64

In [15]:
x = 0x11112222333344445555666677778888 # x는 딱 128-bit를 사용하므로, UInt128로 그대로 저장됨. (128-bit)
println(x)
typeof(x)

22685837286468424649968941046919825544


UInt128

* 16진수 표현과 마찬가지로 이진수, 8진수 표현도 가능하다.

In [17]:
x = 0b10 # 2-bit 썼으므로 가장 작은 UInt8으로 저장됨.
println(x)
typeof(x)

2


UInt8

In [21]:
x = 0o010 # 6-bit 썼으므로 (앞의 0은 뭐 저장하는 거 없음) 가장 작은 UInt8으로 저장됨.
println(x)
typeof(x)

8


UInt8

* 만약 2진수, 8진수, 16진수 양의 정수 표현에서 앞에 2개 이상의 0이 붙어 있는 경우, 해당 0까지 이 정수 상수의 Bit-수 결정에 사용한다.
    * 이를테면 `0x01`은 `UInt8` 자료형으로 저장되지만 (1을 저장하기 위해서는 최소 자료형인 8-bit 자료형으로 충분)
    * `0x0001`은 `UInt16` 자료형으로 저장된다. (여러 개의 0의 자리까지 지시하는 비트들까지 정하기 위해서는 16-bit 자료형이 필요)

* 만약 2진수, 8진수, 16진수 양의 정수 표현 앞에 `-` 단항 연산자를 붙이는 경우, 이는 **음의 정수**를 돌려주는 것이 아니라 (*Not Returning Signed Integer*) 주어진 수의 2의 보수를 **Unsigned로 돌려준다!**
* 당연히 이 경우 돌아오는 Unsigned Integer의 bit-수는 `-` 단항 연산자가 붙은 정수의 Size와 동일하다.

In [22]:
-0x2 # 0000 0010 -> 1111 1110 (two's complement) -> 0xfe

0xfe

In [23]:
-0x0002 # 0000 0000 0000 0010 -> 1111 1111 1111 1110 (two's complement) -> 0xfffe

0xfffe

#### 정수 자료형의 표현 범위 확인하기

* Built-in Function `typemin()`, `typemax()` 에 대하여 Argument로 자료형을 넘겨주면, 그 자료형의 최대와 최소값을 구할 수 있다.

In [24]:
# Python처럼 Julia도 Tuple을 지원하는 모양이다.
(typemin(Int32), typemax(Int32))

(-2147483648, 2147483647)

In [25]:
# 모든 정수 자료형의 표현 범위 확인
# Julia는 Python-like for 문을 지원하며, Python-like Container Types도 지원하는 모양.
for T in [Int8, Int16, Int32, Int64, Int128, UInt8, UInt16, UInt32, UInt64, UInt128]
    println("$(lpad(T,7)): [$(typemin(T)), $(typemax(T))]")
end

   Int8: [-128, 127]
  Int16: [-32768, 32767]
  Int32: [-2147483648, 2147483647]
  Int64: [-9223372036854775808, 9223372036854775807]
 Int128: [-170141183460469231731687303715884105728, 170141183460469231731687303715884105727]
  UInt8: [0, 255]
 UInt16: [0, 65535]
 UInt32: [0, 4294967295]
 UInt64: [0, 18446744073709551615]
UInt128: [0, 340282366920938463463374607431768211455]


#### Overflow

* Julia에서는 변수의 표현 범위를 넘어가는 산술 연산이 수행되는 경우, Circular Behaviour를 보임. (Wraparound Behaviour)
* 즉, 겁나 큰 양수에 1을 더해서 Overflow가 나면 음수가 되는 구조.

In [26]:
x = typemax(Int64)
println(x)
x = x + 1
println(x)
println(x == typemin(Int64))

9223372036854775807
-9223372036854775808
true


* Julia는 이러한 Overflow 문제를 방지하기 위해, 임의의 겁나 큰 정수도 표현할 수 있는 (Aribitary Precision Arithmetic) 자료형인 `BigInt` Type을 지원하므로 이를 이용하여 Overflow를 방지할 수 있음. (`big()` 함수 등을 이용해 명시적 Casting할 것)

In [27]:
10^19 # Overflow Occured in 64-bit (Int64)

-8446744073709551616

In [28]:
big(10)^19 # BigInt, Therefore no Overflow Occured

10000000000000000000

#### Exception for Division Errors

* Julia에서는 다음 2개의 Division 연산에 대한 Exception이 있음.
    1. 0으로 나누기 (Dividing by Zero)
    2. 가장 적은 음수(`typemin`)을 -1로 나누기 (Dividing the lowest negative number by -1)
* 이 두 경우는 모두 `DivideError`를 Produce
* 나누기 연산에서 몫과 나머지를 구해주는 내장함수인 `rem()`과 `mod()` 함수는 2인자 함수인데, 이들은 2번째 인자가 0이면 당연히 `DivideError`를 Throw.

### 실수형 상수

#### 실수형 상수의 기본 표기법

* Julia에서의 Floating-Point 상수들은 IEEE 754 표준을 따름.
* C언어 및 Python과 마찬가지로, E-notation (과학적 표기법) 을 사용하여 실수를 표현할 수 있음.

In [29]:
1.0

1.0

In [30]:
1.

1.0

In [31]:
0.5

0.5

In [32]:
.5

0.5

In [33]:
-1.23

-1.23

In [34]:
1e10

1.0e10

In [35]:
2.5e-4

0.00025

* Julia에서 기본적으로 실수형 상수는 Double Precision (배정밀도) 을 사용하여 64-bit를 사용하여 표현. 즉, 실수형 상수에 대한 기본 자료형은 `Float64`임.
* 과학적 표기법 (E-notation)에서 `e` 대신 `f`를 사용하여 표기하는 경우에는 32-bit, 즉 Single Precision (단정밀도) 을 사용할 수 있음.

In [36]:
x = 0.5e0
println(typeof(x)) # Float64 by the default
x = 0.5f0
println(typeof(x)) # float32, since using 'f' instead of 'e'

Float64
Float32


In [37]:
2.5f-4

0.00025f0

* 또는 Python-like Casting Operation을 이용하여 `Float32` 자료형으로 바꿀 수 있다.

In [38]:
x = Float32(-1.5)
println(typeof(x))

Float32


* 반정밀도 (Half-Precision) Floating-Point형 `Float16`도 지원하지만, 이는 하드웨어 수준에서 지원하는 것이 아니고, 소프트웨어 수준에서 지원하는 것이라 실 계산에는 `Float32`를 사용한다.

In [39]:
sizeof(Float16(4.)) # Float32와 마찬가지로 반정밀도 부동 소수점 자료형도 Python-like Casting Operation을 이용하여 변수를 만들 수 있음. -> 2 bytes

2

In [40]:
2 * Float16(4.)

Float16(8.0)

#### Underscore(`_`)를 이용한 정수 · 실수 자료형의 자릿수 분리

* Julia에서는 Underscore(`_`) 문자를 정수 · 실수 상수를 표현할 때 자릿수를 구분하는데 임의로 사용할 수 있다.

In [41]:
10_000

10000

In [42]:
1_0000

10000

In [43]:
1000_0

10000

In [44]:
0.000_000_005

5.0e-9

In [45]:
0xdead_beef

0xdeadbeef

In [46]:
0b1011_0010

0xb2

#### Floating-Point Zero

* IEEE 754 표준에서는 산술 연산의 특징 상 부호 비트만 다르고 나머지 지수부와 기수부는 모두 비트가 0인 두 종류의 0이 있는데, 부호 비트가 양의 부호 비트(0)인 경우 이 0은 Positive Zero라 부르고 보통 $+0$으로 표기하며, 부호 비트가 음의 부호 비트(1)인 경우 이 0은 Negative Zero라 부르고 보통 $-0$으로 표기한다.
* [다음](https://en.wikipedia.org/wiki/Single-precision_floating-point_format#Exponent_encoding) 참고.
    * 즉, `Float32` 자료형 기준으로, Positive Zero: `0 00000000 00000000000000000000000` -> + $(0.00000000000000000000000)_{2} \times 2^{(00000000)_{2} - 127}$으로 봄. 즉, IEEE 754에서 지수부(Exponent)와 기수부(Fraction)이 모두 0인 경우는 Zero 자료형으로 봄. 따라서 부호 비트가 양(0)인데 지수부 비트가 모두 0이면 zero 자료형임.
    * `Float32` 자료형 기준으로, Negative Zero: `1 00000000 00000000000000000000000` 도 지수부와 기수부 비트가 모두 0이므로 Zero 자료형으로 보고, 부호 비트가 음(1)이므로 zero 자료형임.

* 대부분의 Computer Language가 그러하듯 Julia에서도 Positive Zero와 Negative Zero는 '같은 것'으로 처리되나, Binary Representation이 다름.
* `bitstring()` 내장함수를 이용하면 이 두 Zero의 비트 표현이 다름을 확인 가능.

In [47]:
0.0 == -0.0

true

In [48]:
bitstring(0.0)

"0000000000000000000000000000000000000000000000000000000000000000"

In [49]:
bitstring(-0.0)

"1000000000000000000000000000000000000000000000000000000000000000"

#### Special Floating-Point Values

* IEEE 754 표준에서는 부동 소수점 표기 방식에서, 두 0을 표현하는 방식 외에도 무한대와 NaN을 표기하는 규칙이 있음.
* [다음](https://en.wikipedia.org/wiki/Single-precision_floating-point_format#Exponent_encoding) 문서 참조.
    * 지수부 비트가 모두 1이고, 가수부 비트가 모두 0인 경우, 이는 Inf (무한대)를 표시하는 것으로 약속함. 부호 비트가 0(양)이면 +Inf, 부호 비트가 1(음)이면 -Inf로 약속.
    * 지수부 비트가 모두 1이나, 가수부 비트가 모두 0이지는 않은 경우, 이는 신호 전달이나 값 없음에 사용되는 NaN을 지시.

* Julia에서는 IEEE 754 표준에 따른 반정밀도(Half Precision), 단정밀도(Single Precision), 배정밀도(Double Precision)에 상응하는 Inf, NaN을 표현하는 특수 상수들이 아래와 같이 정의되어 있다.

|`Float16`|`Float32`|`Float64`|Name|Description|
|:--:|:--:|:--:|:----:|:--------:|
|`Inf16`|`Inf32`|`Inf` or `Inf64`|Positive Infinity $+Inf$|A value greater than all finite floating-point values|
|`-Inf16`|`-Inf32`|`-Inf` or `-Inf64`|Negative Inifinity $-Inf$|A value less than all finite floating-point values|
|`NaN16`|`NaN32`|`NaN` or `NaN64`|Not a Number $NaN$|A value not `==` to any floating-point value (including itself)`|

* 이들 특수 값들과의 연산은 전적으로 IEEE 754 표준을 따른다.

In [50]:
Inf64

Inf

In [51]:
-Inf64

-Inf

In [52]:
1 / Inf

0.0

In [53]:
1/0

Inf

In [54]:
-5/0

-Inf

In [55]:
0.000000001/0

Inf

In [56]:
0/0

NaN

In [57]:
500+Inf

Inf

In [58]:
500-Inf

-Inf

In [59]:
Inf + Inf

Inf

In [60]:
Inf - Inf

NaN

In [61]:
Inf * Inf

Inf

In [62]:
0 * Inf

NaN

In [63]:
NaN == NaN # Note that NaN does not equal with even itself

false

In [64]:
NaN != NaN

true

In [65]:
NaN < NaN # Note that NaN is not comparable

false

In [66]:
NaN > NaN

false

* 당연히 `typemin()` 및 `typemax()` function을 사용하면 이들 특수값들로 표현 범위가 나온다.

In [67]:
(typemin(Float16), typemax(Float16))

(-Inf16, Inf16)

In [68]:
(typemin(Float32), typemax(Float16))

(-Inf32, Inf16)

In [71]:
(typemin(Float64), typemax(Float64))

(-Inf, Inf)

#### 기타 부동 소수점 관련 내용

* 이상의 내용 외에도 Julia Documentation에는 *Machine Epsilon* 에 관련된 내용도 있으나, 해당 내용은 필수적이지는 않으므로 [다음](https://docs.julialang.org/en/v1/manual/integers-and-floating-point-numbers/#Machine-epsilon) 문서를 참조.

## Aribitary Precision Arithmetic

* Python과 유사하게, Julia는 기존 제공 자료형으로는 표현할 수 없는 매우 크거나 정밀한 정수 또는 실수를 처리하기 위한 Software-Implemented 자료형인 `BigInt`와 `BigFloat`를 지원한다.
* 이들은 Software 차원에서 제공하는 자료형이므로 기존 자료형보다는 연산이 느리다는 단점이 있음.
* Julia는 GNU Multiple Precision Arithmetic Library (GMP) 와 GNU MPFR Library를 사용하여 이들 기능을 제공.

In [72]:
BigInt(typemax(Int64)) + 1 # Note that this is not occuring any overflows

9223372036854775808

* 여러 Constructor를 이용하여 `BigInt`나 `BigFloat`를 만들 수 있다.
* 특히 Julia의 경우 문자열 앞에 `keyword`를 선행시키는 경우, 데코레이터 함수와 유사한 *매크로* `@keyword_str`를 실행시키는데, 이것이 유용하게 쓰일 수 있다. 왜냐하면, `@big_str` 매크로는 문자열이 지시하는 값을 `BigInt` 또는 `BigFloat`로 변환해주기 때문이다.
* 혹은 내장함수 `parse(Type, Value)`를 이용할 수도 있다.

In [76]:
big"123456789012345678901234567890" + 1

123456789012345678901234567891

In [77]:
parse(BigInt, "12345678901234567890") + 1

12345678901234567891

In [78]:
string(big"2"^200, base=16)

"100000000000000000000000000000000000000000000000000"

In [88]:
big"1.23456789012345678901234567890"

1.234567890123456789012345678899999999999999999999999999999999999999999999999992

In [89]:
parse(BigFloat, "1.12345678901234567890")

1.123456789012345678899999999999999999999999999999999999999999999999999999999994

In [90]:
BigFloat(2.0^66) / 3

2.459565876494606882133333333333333333333333333333333333333333333333333333333344e+19

In [91]:
factorial(BigInt(40))

815915283247897734345611269596115894272000000000

* <span class="mark">**주의**</span>: `BigInt` 및 `BigFloat` Type 자료형과 Primitive Type 사이의 자동 형변환 (Type Promotion) 은 지원하지 않으므로, 반드시 이들 사이에 연산을 하는 경우 명시적으로 형변환을 해 주어야 한다.

In [92]:
x = typemin(Int64)

-9223372036854775808

In [97]:
x = x - 1

9223372036854775806

In [94]:
typeof(x)

Int64

In [95]:
y = BigInt(typemin(Int64))

-9223372036854775808

In [96]:
y = y - 1

-9223372036854775809

In [98]:
typeof(y)

BigInt

## Numeric Literal Coefficients

* Julia는 수식을 코드 상에서 표현하기 편리하도록, 기존의 다른 언어 (C, Python 등)에서는 지원하지 않는, 변수명 앞에 곧바로 Numeric 상수 쓰기를 지원한다. (기존 다른 언어에서는 곱하기 연산자 `*`를 명시해주어야 했다)

In [99]:
x = 3

3

In [100]:
2x^2 - 3x + 1 # Julia에서는 이게 된다! 만세!

10

In [101]:
1.5x^2 - .5x + 1

13.0

In [103]:
2^2x # Same as, 2^{2x}

64

* Numerica literals는 괄호 안에 들어간 Expression에 대해서도 적용된다. 

In [104]:
2(x-1)^2 - 3(x-1) + 1

3

In [105]:
(x-1)x

6

* 그러나 function call 문법 상, 괄호 뒤에 괄호를 곱하는 경우나 단일 변수 뒤 괄호 곱은 곱하기 연산자 `*`를 생략할 수 없다.

In [106]:
(x-1)(x+1) # Not Accepted

MethodError: [91mMethodError: objects of type Int64 are not callable[39m

In [108]:
x(x+1) # Not Accepted

MethodError: [91mMethodError: objects of type Int64 are not callable[39m

## Literal Zero & One

* Julia는 딱 그 넘겨준 Type의, 또는 넘겨준 Variable과 Type이 같은 0과 1을 돌려주는 내장함수 `zero(Type or Variable)`과 `one(Type or Variable)`을 지원한다.
* 이들 함수는 0 또는 1과 비교하는 연산에서 자동 형변환에 따른 Overhead 방지용으로 써먹기 좋다.

In [109]:
x = zero(Float32)

0.0f0

In [111]:
zero(1.0) # 1.0이 Float64이므로 Float64에서의 0을 돌려줌.

0.0

In [112]:
one(Int32)

1

In [113]:
one(BigFloat)

1.0