# 사전 자료형

안내: [Think Python 11장](http://greenteapress.com/thinkpython2/html/thinkpython2012.html) 
내용의 일부를 번역 및 요약수정하여 정리한 내용입니다.

사전(dictionary) 자료형은 매우 자주 사용되는 자료구조이다. 
전자영어사전에서 영어 단어의 뜻을 확인하는 방식과 유사하게 활용할 수 있는 자료구조를 갖고 있어서 사전 자료형이라 부른다.

## 사전: 키와 값들 사이의 관계

사전 자료값은 일종의 쌍들의 집합이며, 각 쌍은 키(key)와 값(value)으로 이루어져 있다.

* 키(key): 영어사전의 각 영어단어에 해당함.
* 값(value): 특정 영어단어의 뜻에 해당함.

예를 들어, 전자영어사전에서 'school'이란 단어의 뜻을 물으면 '학교'라는 뜻을 알려주는데 
여기서 'school'이 키에 해당하고 '학교'가 값에 해당한다.
따라서 전자영어사전은 이러한 키와 값들의 쌍을 무수히 많이 모아놓은 집합이라고 생각할 수 있다.

### 항목

키와 값으로 이루어진 쌍을 사전의 항목(item)이라 부른다.
각각의 항목은 키와 그 키와 연관된느 값들의 정보를 담고 있다고 이해하면 된다. 

여기서는 영한사전을 생성하는 예제를 통해 사전 자료형의 활용을 설명하고자 한다.

### 빈 사전 생성

먼저 빈 사전을 생성한다.

빈 사전을 생성하려면 `dict` 함수를 활용하거나 단순히 아래와 같이 선언하면 된다.

In [1]:
eng2kr = dict()
print(eng2kr)

또는

In [2]:
eng2kr = {}
print(eng2kr)

**주의:** 중괄호(`{}`)는 빈 딕셔너리를 나타낸다. 

### 항목 추가

사전에 항목을 추가하려면 대괄호를 사용한다.

In [3]:
eng2kr['one'] = '일'

위 코드는 `'one'` 이라는 키에 `'일'` 이라는 값을 대응시키는 항목을 영한사전에 추가한 것이다. 
사전에 포함된 내용을 확인하면 키와 값 사이에 콜론이 들어간 키와 값의 쌍을 볼 수 있다.

In [4]:
print(eng2kr)

한 쌍을 더 추가해보자.

In [5]:
eng2kr['three'] = '삼'

In [6]:
print(eng2kr)

### 사전 선언

아래와 같이 사전을 바로 선언할 수도 있다.

In [7]:
dict_exp = {'one':'일', 'two':'이', 'three':'삼'}

In [8]:
print(dict_exp)

### 항목의 순서

'eng2kr'에 항목을 하나 더 추가해보자.

In [9]:
eng2kr['two'] = '이'

In [10]:
print(eng2kr)

영어사전에 어떤 단어가 몇 번째에 위치하는가는 전혀 중요하지 않다.
대신에 어떤 키가 사용되었는지만이 중요할 뿐이다.

### 인덱싱

항목의 순서가 없기에 인덱싱은 키를 이용한다.

예를 들어, 'one'에 대응하는 값을 확인하고자 하면 다음과 같이 대괄호를 사용하는 인덱싱을 이용한다.

In [11]:
print(eng2kr['one'])

In [12]:
print(eng2kr['two'])

만약 키가 사전에 사용되지 않았으면 키가 사용되지 않았다는 오류('KeyError')가 발생한다.

In [13]:
print(eng2kr['four'])

KeyError: 'four'

### 'len' 함수

사전에 포함된 항목의 개수를 확인시켜주는 함수이다.

In [14]:
len(eng2kr)

3

### 'in' 연산자

특정 키가 사전에 사용되었는지 여부를 확인한다. 

**주의:** 키로 사용되었는가 여부만 판단한다.

In [15]:
'one' in eng2kr

True

In [16]:
'four' in eng2kr
False

False

#### `keys` 메소드

사전에 사용된 키들을 모두 모아서 리스트와 비슷한 자료형을 만들어서 리턴한다.

**주의:** 리스트와는 다르지만 매우 비슷하다.

In [17]:
keys = eng2kr.keys()

print(keys)

dict_keys(['one', 'three', 'two'])


아래 두 코드는 동일한 일을 수행한다.

In [18]:
'one' in eng2kr

True

In [19]:
'one' in eng2kr.keys()

True

#### `values` 메소드

사전에 사용된 값들을 모두 모아서 리스트와 비슷한 자료형을 만들어서 리턴한다.

**주의:** 리스트와는 다르지만 매우 비슷하다.

In [20]:
values = eng2kr.values()

print(values)

dict_values(['일', '삼', '이'])


값으로 사용되었는가 여부를 이용하려면 `values` 메소드를 활용하면 된다.

In [21]:
'이' in eng2kr.values()

True

In [22]:
'사' in eng2kr.values()

False

#### `in` 연산자 처리속도

리스트에서 사용되는 `in` 연산자와 사전에서 사용되는 `in` 연산자는 내부적으로 서로 다르게 작동한다.
여기서는 처리속도 관련해서만 설명한다. 

* 리스트의 `in` 연산자: 사용되는 리스트의 길이에 의존해서 처리속도가 결정된다.
* 사전의 `in` 연산자: 사용되는 사전의 길이에 상관없이 일정한 속도로 처리된다.

자세한 내용은 [여기](http://greenteapress.com/thinkpython2/html/thinkpython2022.html#hashtable)를
참조할 수 있다.

### 예제: 데이터 파일을 사전 자료형으로 추출하기

아래 내용을 담고 있는 [results.txt](https://github.com/liganega/bpp/blob/master/notes/data/results.txt) 파일을 
담긴 아래 내용의 데이터를 사전 자료형으로 추출하고자 한다.
```
Name  Score
Johnny  8.65 
Juan  9.12
Joseph  8.45
Stacey  7.81
Aideen  8.05
Zack  7.21
Aaron  8.31
```

#### 주의 사항
* 파일에 저장된 데이터로부터 얻고자 하는 정보를 정한다.
* 사전 자료형을 생성할 때 어떤 항목을 키로 사용할지는 목적에 따라 달리 정해야 한다.

예를 들어, 선수이름을 지정하면 해당 선수가 획득한 점수를 확인하고자 한다면 선수이름을 키로 사용해야 한다.
반면에, 등수가 보다 중요하다면 점수를 키로 사용하는 것이 좋을 것이다. 

여기서는 선수이름을 지정하면 해당 선수가 획득한 점수를 확인하는 기능을 지원하는 사전을 생성하고자 한다.
따라서 Name에 해당하는 값들을 키(key)로 사용하고 Score에 해당하는 값들을 값(value)으로 사용한다.

코드는 
[이전](https://github.com/liganega/bpp/blob/master/notes/04-HFProgramming-Files_and_Lists.ipynb)에 
소개된 아래의 코드를 약간 수정하면 된다.

```python
result_f = open("data/results.txt") 
score_list = []                        
for line in result_f: 
    (name, score) = line.split()       
    try:
        score_list.append(float(score))
    except:
        continue
result_f.close() 
```

**주의:** `with open(파일명) as 변수이름` 형식으로 파일을 열고 닫는 방식은 
[이전](https://github.com/liganega/bpp/blob/master/notes/04-HFProgramming-Files_and_Lists.ipynb)에
설명되었다.

In [23]:
with open("data/results.txt") as result_f:
    score_dict = dict()
    for line in result_f: 
        (name, score) = line.split()       
        try:
            score_dict[name] = float(score)
        except:
            continue

`score_dict`에 파일의 내용이 거의 그대로 옮겨져 있다.

In [24]:
print(score_dict)

{'Johnny': 8.65, 'Juan': 9.12, 'Joseph': 8.45, 'Stacey': 7.81, 'Aideen': 8.05, 'Zack': 7.21, 'Aaron': 8.31}


이제 선수 이름을 지정하면 해당 선수의 점수를 인덱싱을 활용하여 확인할 수 있다.

In [25]:
score_dict['Johnny']

8.65

In [26]:
score_dict['Aideen']

8.05

## 반복문과 사전

사전을 `for` 반복문에 사용하면 사전의 키를 기준으로 반복문을 실행한다. 

아래 예제는 `score_dict`에 저정된 값들을
파일의 내용과 동일한 모양으로 하나씩 출력한다.

In [27]:
for key in score_dict:
    print(key, score_dict[key])

Johnny 8.65
Juan 9.12
Joseph 8.45
Stacey 7.81
Aideen 8.05
Zack 7.21
Aaron 8.31


아래 코드는 위 코드와 동일한 기능을 수행한다.

In [28]:
for key in score_dict.keys():
    print(key, score_dict[key])

Johnny 8.65
Juan 9.12
Joseph 8.45
Stacey 7.81
Aideen 8.05
Zack 7.21
Aaron 8.31


### 예제: 카운터 기능

문자열에 사용된 각각의 문자가 몇 번씩 사용되었는지를 확인하는 함수를 사전을 이용하여 쉽게 구현할 수 있다. 

In [29]:
def histogram(word):
    counts = dict()           # 빈 사전 생성.
    for c in word:            # 각각의 알파벳 대상
        if c not in counts:   # 알파벳이 처음 사용된 경우
            counts[c] = 1     # counts 사전에 키와 카운트 값 추가
        else:                 # 알파벳이 이미 사용된 경우
            counts[c] += 1    # 기존의 카운트 값 1 증가
    return counts

In [30]:
histogram('HelloPython')

{'H': 1, 'P': 1, 'e': 1, 'h': 1, 'l': 2, 'n': 1, 'o': 2, 't': 1, 'y': 1}

아래에 정의된 함수 `print_hist`는 각 키와 대응하는 값을 인쇄한다.

In [31]:
def print_hist(a_dict):
    for key in a_dict:
        print(key, a_dict[key])

앞서 구현한 'histogram' 함수의 리턴값을 활용하면 다음과 같다.

In [32]:
h = histogram('HelloPython')
print_hist(h)

H 1
e 1
l 2
o 2
P 1
y 1
t 1
h 1
n 1


## 연습문제

1. 1. [이전](https://github.com/liganega/bpp/blob/master/notes/04a-ThinkPython-Files.ipynb)에 다룬 
    [`words.txt`](http://thinkpython2.com/code/words.txt)에 
    특정 단어가 포함되어 있는지 여부를 확인하는 코드를 두 가지 방식으로 구현하라.
       * 방식 1: 리스트의 `in` 연산자 활용
       * 방식 2: 사전의 `in` 연산자 활용
        <br>
        힌트: `words.txt` 파일에서 단어를 읽어 들인 후 각각의 단어를 키로 사용한다. 
        값은 중요하지 않기에 임의의 값을 사용하면 된다. 
  1. 두 가지 방식으로 구현된 프로그램의 실행속도의 차이를 확인하라.