# 줄리아를 생각하다(Think Julia)

## Chapter 11. 딕셔너리

내장 자료형인 딕셔너리 확인

### 11.1 딕셔너리는 사상(A Dictionary Is a Mapping)

* ```딕셔너리(dictionary)```는 배열과 비슷하지만 좀더 일반화된 것. 배열에서는 인덱스가 정수였는데, 딕셔너리에서는 거의 모든 자료형일 수 있음

* 딕셔너리에서는 인덱스를 ```키(key)``` 라고 하며 ```값(value)```의 모음으로 이루어져 있음

* 그렇게 짝지어진 키와 값을 ```키-값 쌍(key-value pair)``` 라고 하며, 어떨 때는 ```항목(item)``` 이라고도 함

* 수학적으로 표현하면 딕셔너리는 키 집합을 값 집합으로 보내는 ```사상(mapping)```

* 딕셔너리에서 키과 값의 자료형은 중괄호(brace)로 묶어 나타냄. (여기서 키와 값 모두 Any 타입임)

* 비어 있는 딕셔너리의 값을 insert 하고자 한다면 대괄호(braket)를 이용할 수 있음

In [5]:
eng2sp = Dict()

Dict{Any, Any}()

In [6]:
eng2sp["one"] = "uno"

"uno"

In [7]:
eng2sp

Dict{Any, Any} with 1 entry:
  "one" => "uno"

In [8]:
eng2sp = Dict("one" => "uno", "two" => "dos", "three" => "tres")

Dict{String, String} with 3 entries:
  "two"   => "dos"
  "one"   => "uno"
  "three" => "tres"

* 최초로 주어진 모든 키와 값이 문자열 형이므로 Dict{String, String}이 만들어짐

* 딕셔너리에서 항목들의 순서는 예측할 수 없으. 다만 딕셔너리의 항목은 정수 인덱스를 참조하는 것이 아니므로 순서가 달라지는 것은 문제되지 않음

* 대신 대응하는 값을 찾으려면 키를 사용해야 함

In [9]:
eng2sp["two"]

"dos"

In [11]:
# 딕셔너리에 없는 키 사용 시 발생하는 에러

eng2sp["four"]

LoadError: KeyError: key "four" not found

In [12]:
length(eng2sp)

3

* keys 함수는 딕셔너리의 키 집합을 반환함

* 키 집합이 있으니 ∈ 연산자를 이용해 딕셔너리에 어떤 키가 있는지 없는지도 확인 가능

* values 함수는 딕셔너리의 값 집합을 반환함

* ∈ 연산자를 이용 값의 포함 여부 확인 가능

In [15]:
ks = keys(eng2sp);
println(ks)

["two", "one", "three"]


In [16]:
"one" ∈ ks

true

In [17]:
"uno" ∈ ks

false

In [18]:
vs = values(eng2sp);

"uno" ∈ vs

true

* ∈ 연산자는 배열과 딕셔너리에서 다른 알고리즘을 사용함

    * 배열에서는 순차적 검색(원소 하나씩 탐색) -> 배열이 길어지면 시간도 비례해서 길어짐
    
    * 딕셔너리에서는 해시 테이블(Hash table) 알고리즘 사용 -> 검색 시간 일정

### 11.2 딕셔너리 활용: 계수기 모음

**예제 1)** 히스토그램 함수 작성

In [19]:
function histogram(s)
    d = Dict()
    for c in s
        if c ∉ keys(d)
            d[c] = 1
        else
            d[c] += 1
        end
    end
    d
end

histogram (generic function with 1 method)

In [20]:
h = histogram("brontosaurus")

Dict{Any, Any} with 8 entries:
  'n' => 1
  's' => 2
  'a' => 1
  'r' => 2
  't' => 1
  'o' => 2
  'u' => 2
  'b' => 1

* 딕셔너리에는 어떤 키와 기본값을 받는 함수 get이 있음

* 키가 딕셔너리에 있다면 해당 값을 반환하고, 딕셔너리에 없다면 기본값을 반환함

In [30]:
h = histogram("a")

Dict{Any, Any} with 1 entry:
  'a' => 1

In [31]:
get(h, 'a', 0)

1

In [32]:
get(h, 'b', 0)

0

### 11.3 루프와 딕셔너리

for 문을 이용해 딕셔너리의 키 집합을 순회할 수 있음

In [33]:
function printhist(h)
    for c in keys(h)
        println(c, " ", h[c])
    end
end

printhist (generic function with 1 method)

In [34]:
h = histogram("parrot")

Dict{Any, Any} with 5 entries:
  'a' => 1
  'r' => 2
  'p' => 1
  'o' => 1
  't' => 1

In [35]:
printhist(h)

a 1
r 2
p 1
o 1
t 1


키를 정렬하고 싶다면, sort와 collect 함수를 조합함

In [37]:
sort(collect(keys(h)))

5-element Vector{Any}:
 'a': ASCII/Unicode U+0061 (category Ll: Letter, lowercase)
 'o': ASCII/Unicode U+006F (category Ll: Letter, lowercase)
 'p': ASCII/Unicode U+0070 (category Ll: Letter, lowercase)
 'r': ASCII/Unicode U+0072 (category Ll: Letter, lowercase)
 't': ASCII/Unicode U+0074 (category Ll: Letter, lowercase)

In [38]:
for c in sort(collect(keys(h)))
    println(c, " ", h[c])
end

a 1
o 1
p 1
r 2
t 1


### 11.4 역조회 (Reverse lookup)

* 딕셔너리 d와 키 k가 있을 때, 키에 대응하는 값 v = d[k]를 찾는 것은 쉬움 => **조회**(lookup)


* 하지만 값 v가 있을 때, 해당하는 키 k를 찾는 것은 어려운 문제임

    - 값 v에 대응하는 키가 두 개 이상일 수 있음. 원하는 바에 따라서 하나를 고르거나, 모든 키를 포함하는 배열을 생성  
    
    - 역조회(reverse lookup)를 하는 간단한 구문 규칙이 존재하지 않음  
    
    
* **(Caution)** 역조회는 조회보다 매우 느림. 역조회를 자주 하거나 딕셔너리가 크면 프로그램 성능에 심각한 영향을 줌

**예시 1)** 어떤 값을 받아서 그 값에 대응하는 첫 번째 키를 반환하는 함수

In [39]:
function reverselookup(d, v)
    for k in keys(d)
        if d[k] == v
            return k
        end
    end
    error("LookupError")
end

reverselookup (generic function with 1 method)

In [40]:
h = histogram("parrot");

key = reverselookup(h, 2)

'r': ASCII/Unicode U+0072 (category Ll: Letter, lowercase)

In [41]:
key = reverselookup(h, 3)

LoadError: LookupError

* 사용자가 작성한 예외는 줄리아가 예외를 출력하는 것과 동일한 작용을 함.

    - 스택트레이스와 오류 메시지를 출력함


* error 함수 : 일반적인 제어 흐름을 중단시키는 예외 ErrorException을 일으킴 

    - 작성된 함수에서는 키가 존재하지 않다는 것을 나타내기 위해 "LookupError"라는 메시지를 표시함

In [45]:
# 줄리아에서 역조회를 위한 최적화된 방법

findall(isequal(2), h)

1-element Vector{Char}:
 'r': ASCII/Unicode U+0072 (category Ll: Letter, lowercase)

### 11.5 딕셔너리와 배열

문자에 대한 빈도 값을 가진 딕셔너리 => 빈도에 대한 문자 값을 가진 딕셔너리 함수 작성

* 같은 빈도를 가진 문자가 여럿일 수 있으므로, 뒤집힌 딕셔너리의 값들은 문자의 배열이어야 함

In [46]:
function invertdict(d)
    inverse = Dict()
    for key in keys(d)
        val = d[key]
        if val ∉ keys(inverse)
            inverse[val] = [key]
        else
            push!(inverse[val], key)
        end
    end
    inverse
end

invertdict (generic function with 1 method)

In [47]:
hist = histogram("parrot")

Dict{Any, Any} with 5 entries:
  'a' => 1
  'r' => 2
  'p' => 1
  'o' => 1
  't' => 1

In [48]:
inverse = invertdict(hist)

Dict{Any, Any} with 2 entries:
  2 => ['r']
  1 => ['a', 'p', 'o', 't']

### 11.6 메모

* 한번 계산한 값을 딕셔너리에 저장해두고 다시 사용 => 저장해놓은 기존 계산값을 **메모(memo)** 라고 함

* 이렇게 메모를 활용하는 프로그래밍 기법을 메모이제이션(메모 기법, memoization)이라고 함

**예제1)** 피보나치 수열 함수를 메모이제이션으로 구현

In [49]:
known = Dict(0 => 0, 1 => 1) # 메모장 역할을 하는 변수 known 생성

function fibonacci(n)
    if n ∈keys(known)
        return known[n]
    end
    res = fibonacci(n-1) + fibonacci(n-2)
    known[n] = res # 새로운 값은 메모장에 기록
    res
end

fibonacci (generic function with 1 method)

In [52]:
using BenchmarkTools

@time fibonacci(45)

  0.000018 seconds (124 allocations: 6.469 KiB)


1134903170

6.7절의 피보나치 수열에서는 45의 피보나치 수열 값을 구하기 위해 약 6초 정도를 사용함

In [54]:
5.973640/0.000018 # 약 33만배 빨라짐

331868.8888888889

In [58]:
@time fibonacci(50) # 6.7 절에서 소요된 시간은 63.476279 seconds 임

  0.000005 seconds (2 allocations: 32 bytes)


12586269025

In [57]:
63.476279/0.000015 # 약 42만배 빨라짐

4.231751933333333e6

### 11.7 전역 변수

* Main에 있는 변수 -> **전역 변수(global variable)**

* 전역 변수는 **플래그(flag) 용도로 자주 사용**됨(어떤 조건이 참인지 여부를 나타내는 불리언 변수)


---

**예제1)** verbose라는 플래그를 이용해 상세한 출력을 할지 말지 결정하는 함수

In [59]:
verbose = true

function example1()
    if verbose
        println("Running Example")
    end
end

example1 (generic function with 1 method)

In [60]:
example1()

Running Example


전역 변수에 해당하는 ```verbose```를 재할당 하려다 보면 착오가 발생 
-> 함수 내 **전역 변수**로 **선언(declare)** 하여 재할당

---
**예제2)** 함수 내 전역 변수 선언 예시

In [65]:
been_called = false

println("Before: ",been_called)

function example2()
    global been_called
    been_called = true
end

example2()

println("After: ", been_called)

Before: false
After: true


In [67]:
# 전역 변수 선언을 하지 않은 잘못된 예 

been_called = false

println("Before: ",been_called)

function example3()
    been_called = true
end

example3()

# 함수를 적용하였지만 그대로 false인 상태인 것을 확인할 수 있음
println("After: ", been_called) 

Before: false
After: false


---
**예제3)** 전역 변수 갱신 예시

In [68]:
counter = 0

println("Before: ",counter)


function example4()
    global counter
    counter = counter + 1
end

example4()

println("After: ", counter) 

Before: 0
After: 1


In [70]:
# 전역 변수 선언을 하지 않은 잘못된 예 

counter = 0

println("Before: ", counter)


function example5()
    # global counter
    counter = counter + 1
end

example5()

# 함수를 적용하였지만 그대로 false인 상태인 것을 확인할 수 있음
println("After: ", counter) 

Before: 0


LoadError: UndefVarError: counter not defined

---

**예제4)** 전역 변수가 가변 값을 가리킨다면, 전역이라고 선언하지 않고도 그 값을 수정할 수 있는 예

In [78]:
known = Dict(0 => 0, 1 => 1)

function example6()
    known[2] = 1
end

example6 (generic function with 1 method)

In [80]:
example6()

println(known)

Dict(0 => 0, 2 => 1, 1 => 1)


* 전역 변수인 배열이나 딕셔너리는 특별한 선언 없이 원소를 추가, 삭제, 교체할 수 있다.

In [81]:
known = Dict(0 => 0, 1 => 1)

function example7()
    global known
    known = Dict()
end

example7 (generic function with 1 method)

In [83]:
example7()

println(known)

Dict{Any, Any}()


* 그렇지만 변수에 값을 재할당하려면 전역이라고 선언해야 함

* 성능을 높이고자 한다면, 전역 변수는 **상수(constant)** 로 선언해야 함

* 이 경우, 변수에 더 이상 재할당은 할 수 없지만 가변 값을 가리키는 경우 그 값을 수정할 수 있음

In [88]:
const known3 = Dict(0 => 0, 1 => 1)

println(known3)

function example8()
    known3[2] = 1
end

example8()

println(known3)

Dict(0 => 0, 1 => 1)
Dict(0 => 0, 2 => 1, 1 => 1)


### 11.8 디버깅

큰 자료에 대한 디버깅 전략 4가지 

1. 입력의 축소 

    * head() 등을 이용한 header 확인 
```
```
2. 요약과 자료형 확인 

    * describe, summary 등을 이용한 요약 통계 등 활용
    
    * 값의 자료형(type) 확인
```
```
3. 자가 점검 코드 작성

    * 타당성 검사(sanity check) 코드 작성
    
        - 예) 평균이 최대값과 최소값 사이에 위치하는지 등
    
    * 일관성 검사(consistency check) 코드 작성
    
        - 예) 다른 방식으로도 계산 후 계산 결과가 맞는 지 확인
```
```
4. 출력의 정돈

    * 디버깅을 위한 출력 코드 정돈 (스캐폴딩)

### 11.9 용어집

* **딕셔너리(dictionary)**

    - 어떤 키를 대응하는 어떤 값으로 보내는 사상.
```
```
* **키(key)**

    - 딕셔너리에 있는 객체로, 키-값 쌍의 앞부분.
```
```
* **값(value)**

    - 딕셔너리에 있는 객체로 키-값 쌍의 뒷부분. 기존에 사용한던 '값'은 일반적인 용어이고, 여기서는 명시적으로 키-값 쌍의 뒷부분을 지칭하는 용어로 사용
```
```
* **키-값 쌍(key-value pair)**

    - 키와 값의 대응 관계를 표시하는 순서쌍.
```
```
* **항목(item)**

    - 딕셔너리에서 키-값 쌍을 다르게 부르는 용어 
```
```
* **사상(mapping)**

    - 어떤 집합의 각 원소를 다른 집합의 각 원소에 대응토록 하는 구조
```
```
* **구현(implementation)**

    - 계산을 수행하는 방법
```
```
* **조회(lookup)**

    - 딕셔너리에 대한 연산으로 키를 받아 대응하는 값을 찾아줌
```
```
* **역조회(reverse lookup)**

    - 딕셔너리에 대한 연산으로 값을 받아 이 값에 대응하는 한 개 이상의 키를 찾아줌
```
```
* **싱글턴(singleton)**

    - 원소가 하나인 배열(혹은 그와 유사한 순열)
```
```
* **해시 기능(hashable)**

    - 해시 함수를 가지는 자료형을 가리킴
```
```
* **해시 함수(hash function)**

    - 해시 테이블에서 사용하는 함수로 어떤 키에 대한 위치를 계산함
```
```
* **호출 그래프(call graph)**

    - 프로그램 실행 중에 만들어지는 틀(함수)을 표시하는 도식으로 호출 함수에서 피호출 함수로 가는 화살표로 함수 호출을 나타냄
```
```
* **메모(memo)**

    - 불필요한 미래의 계산을 방지하기 위해 저장해 놓은 계산 값
```
```
* **전역 변수(global variable)**

    - 함수 바깥에서 정의된 변수. 전역 변수는 어떤 함수에서나 접근 가능하다.
```
```
* **플래그(flag)**

    - 어떤 조건이 참인지를 나타내는 부리언 변수.
```
```
* **선언(declaration)**

    - 'global' 변수 지정과 같이 해석기에 변수에 대한 정보를 제공한다.
```
```
* **global 문**

    - 변수 이름이 전역임을 선언하는 문장
    