# 순차 자료형: 사전

사전 자료형을 설명하기 전에 집합 자료형을 먼저 설명한다.

## 집합

`set` 자료형은 집합에 해당하는 자료형이며, 수학에서 배운 집합 개념과 동일하다.

* 원소들 사이의 순서가 없다.
* 중복된 원소를 인정하지 않는다.

In [1]:
primes_below_10 = {2, 3, 7, 5, 7, 3}
primes_below_10

{2, 3, 5, 7}

원소의 개수는 `len` 함수를 이용하여 확인한다.

In [2]:
len(primes_below_10)

4

공집합은 `set()`으로 생성하며, 원소 추가는 `add` 메소드를 활용한다.

In [3]:
s = set()
s.add(1)
s.add(2)
s.add(2)

print(s)

{1, 2}


원소의 포함여부는 `in` 연산자를 활용하여 확인한다.

In [4]:
2 in s

True

In [5]:
3 in s

False

### 집합 자료형 사용 이유

#### 예제

리스트에 중복으로 포함된 항목을 쉽게 제거할 수 있다.

In [6]:
item_list = [1, 2, 3, 1, 2, 3]

item_set = set(item_list) 
distinct_item_list = list(item_set)

print(distinct_item_list)

[1, 2, 3]


#### 예제

리스트에 중복으로 포함된 항목이 존재하는가를 쉽게 판단할 수 있다.
예를 들어, 아래 함수는 중복 함수의 포함여부를 판단해준다.

In [7]:
def has_duplicates(t):
    return len(set(t)) < len(t)

In [8]:
has_duplicates(item_list)

True

#### 예제

길이가 매우 긴 리스트를 대상으로 항목의 존재여부를 판단할 때 집합 자료형으로 형변환을 하면 
매우 빠르게 해결할 수 있다.

In [9]:
hundreds_of_other_words = []  # 매우 긴 리스트라 상상한다.
stopwords_list = ["a", "an", "at"] \
                + hundreds_of_other_words + ["yet", "you"]

print("zip" in stopwords_list)     # 확인 과정이 느리다.

stopwords_set = set(stopwords_list)
print("zip" in stopwords_set)      # 매우 빠르게 확인한다.

False
False


## 사전

안내: [Think Python 11장](http://greenteapress.com/thinkpython2/html/thinkpython2012.html) 
내용의 일부를 번역 및 요약수정하여 정리한 내용입니다.

사전 자료값은 일종의 쌍들의 집합이며, 각 쌍은 키(key)와 값(value)으로 이루어져 있다.

* 키(key): 영어사전의 각 영어단어에 해당함.
* 값(value): 특정 영어단어의 뜻에 해당함.

예를 들어, 전자영어사전에서 'school'이란 단어의 뜻을 물으면 '학교'라는 뜻을 알려주는데 
여기서 'school'이 키에 해당하고 '학교'가 값에 해당한다.
따라서 전자영어사전은 이러한 키와 값들의 쌍을 무수히 많이 모아놓은 집합이라고 생각할 수 있다.

### 항목

사전에 포함된 항목은 키와 값으로 이루어진 쌍이다.
각각의 항목은 키와 그 키와 연관된 값들에 대한 정보라고 이해하면 된다.

여기서는 영한사전을 생성하는 예제를 통해 사전 자료형의 활용을 설명하고자 한다.

### 빈 사전 생성

먼저 빈 사전을 생성한다.

빈 사전을 생성하려면 `dict` 함수를 활용하거나 단순히 아래와 같이 선언하면 된다.

In [10]:
eng2kr = dict()
print(eng2kr)

{}


또는

In [11]:
eng2kr = {}
print(eng2kr)

{}


**주의:** 중괄호(`{}`)는 빈 사전을 나타낸다. 

### 항목 추가

사전에 항목을 추가하려면 키와 값의 관계를 대괄호 연산자를 이용하여 지정하면 된다.
예를 들어, 영단어 one과 한글 뜻 일, 하나를 연관지으려면 다음과 같이 한다.

In [12]:
eng2kr['one'] = '일, 하나'

사전에 포함된 내용을 확인하면 키와 값 사이에 콜론이 들어간 키와 값의 쌍을 볼 수 있다.

In [13]:
print(eng2kr)

{'one': '일, 하나'}


항목을 하나 더 추가해보자.

In [14]:
eng2kr['three'] = '삼, 셋'

In [15]:
print(eng2kr)

{'one': '일, 하나', 'three': '삼, 셋'}


### 사전 선언

아래와 같이 사전을 바로 선언할 수도 있다.

In [16]:
dict_exp = {'one':'일, 하나', 'two':'이, 둘', 'three':'삼, 셋'}

In [17]:
print(dict_exp)

{'one': '일, 하나', 'two': '이, 둘', 'three': '삼, 셋'}


### 항목의 순서

'eng2kr'에 항목을 하나 더 추가해보자.

In [18]:
eng2kr['two'] = '이, 둘'

In [19]:
print(eng2kr)

{'one': '일, 하나', 'three': '삼, 셋', 'two': '이, 둘'}


영어사전에 어떤 단어가 몇 번째에 위치하는가는 전혀 중요하지 않다.
대신에 어떤 키가 사용되었는가만 중요하다.

### 대괄호(`[]`) 연산자

대괄호 연산자는 항목을 추가할 때와 함게 항목을 확인하거나 업데이트 할 때도 사용한다.
예를 들어, 'one'에 대응하는 값을 확인하고자 하면 다음과 같이 대괄호를 사용하는 인덱싱을 이용한다.

In [20]:
print(eng2kr['one'])

일, 하나


키와 연관된 값을 업데이트 하려면 새롭게 지정하면 된다.

In [21]:
eng2kr['one'] = '일, 하나, 한번, 유일한'
print(eng2kr)

{'one': '일, 하나, 한번, 유일한', 'three': '삼, 셋', 'two': '이, 둘'}


만약 키가 사전에 사용되지 않았으면 오류(`KeyError`)가 발생한다.

In [22]:
print(eng2kr['four'])

KeyError: 'four'

### 'len' 함수

사전에 포함된 항목의 개수를 확인시켜주는 함수이다.

In [23]:
len(eng2kr)

3

### 'in' 연산자

특정 키가 사전에 사용되었는지 여부를 확인한다. 

In [24]:
'one' in eng2kr

True

In [25]:
'four' in eng2kr

False

### 사전 자료형 메서드

#### `keys` 메서드

사전에 사용된 키들을 모두 모아서 리스트와 비슷한 자료형을 만들어서 리턴한다.

**주의:** 리스트와는 다르지만 매우 비슷하다.

In [26]:
keys = eng2kr.keys()

print(keys)

dict_keys(['one', 'three', 'two'])


아래 두 코드는 동일한 일을 수행한다.

In [27]:
'one' in eng2kr

True

In [28]:
'one' in eng2kr.keys()

True

#### `values` 메서드

사전에 사용된 값들을 모두 모아서 리스트와 비슷한 자료형을 만들어서 리턴한다.

**주의:** 리스트와는 다르지만 매우 비슷하다.

In [29]:
values = eng2kr.values()
print(values)

dict_values(['일, 하나, 한번, 유일한', '삼, 셋', '이, 둘'])


값으로 사용되었는가 여부를 이용하려면 `values` 메서드를 활용하면 된다.

In [30]:
'이' in eng2kr.values()

False

In [31]:
'사' in eng2kr.values()

False

#### `items` 메서드

사전에 포함된 항목들을 순서쌍들의 리스트로 변환한다.
각각의 순서쌍은 키와 값으로 이루어진, 즉 길이가 2인 튜플이다.

**주의:** 리스트와는 다르지만 매우 비슷하다.

In [32]:
values = eng2kr.items()
print(values)

dict_items([('one', '일, 하나, 한번, 유일한'), ('three', '삼, 셋'), ('two', '이, 둘')])


사전의 항목을 튜플로 하나씩 확인해보자.
항목들이 길이가 2인 튜플로 구성되기에 변수 두 개에 각각 할당할 수 있다.

In [33]:
for eng, kor in eng2kr.items():
    print(f"{eng}의 뜻은 {kor}입니다.")

one의 뜻은 일, 하나, 한번, 유일한입니다.
three의 뜻은 삼, 셋입니다.
two의 뜻은 이, 둘입니다.


영어 단어에 여러 뜻이 있을 수 있기 때문에 그것을 보다 상세히 보여줄 수도 있다.
그러기 위해 문자열을 `split`과 `join` 메서드를 활용한다.

**참고:** `split`/`join` 메서드의 활용은 [문자열 나누기/합치기](https://devpouch.tistory.com/77)에 좀 더 다양한 예제가 있음.

In [34]:
for eng, kor in eng2kr.items():
    meaning = kor.split(', ')
    print(f"{eng}의 뜻은 {' 또는 '. join(meaning)}입니다.")

one의 뜻은 일 또는 하나 또는 한번 또는 유일한입니다.
three의 뜻은 삼 또는 셋입니다.
two의 뜻은 이 또는 둘입니다.


### 예제: 카운터

문자열에 사용된 각각의 문자가 몇 번씩 사용되었는지를 확인하는 함수를 사전을 이용하여 쉽게 구현할 수 있다. 

In [35]:
def histogram(word):
    counts = dict()
    for c in word: 
        if c not in counts:   # 알파벳이 처음 사용된 경우
            counts[c] = 1     # counts 사전에 키와 카운트 값 추가
        else:                 # 알파벳이 이미 사용된 경우
            counts[c] += 1    # 기존의 카운트 값 1 증가
    return counts

In [36]:
histogram('HelloPython')

{'H': 1, 'e': 1, 'l': 2, 'o': 2, 'P': 1, 'y': 1, 't': 1, 'h': 1, 'n': 1}

아래에 정의된 함수 `print_hist`는 각 키와 대응하는 값을 인쇄한다.

In [37]:
def print_hist(a_dict):
    for key in a_dict:
        print(key, a_dict[key])

앞서 구현한 'histogram' 함수의 리턴값을 활용하면 다음과 같다.

In [38]:
countHelloPython = histogram('HelloPython')
print_hist(countHelloPython)

H 1
e 1
l 2
o 2
P 1
y 1
t 1
h 1
n 1
