# 해시 예제: 사전 자료형

아래 내용을 담고 있는 [results.txt](https://github.com/liganega/bpp/blob/master/notes/data/results.txt) 파일을 계속해서 다루고자 한다.
```
Name  Score
Johnny  8.65 
Juan  9.12
Joseph  8.45
Stacey  7.81
Aideen  8.05
Zack  7.21
Aaron  8.31
```

## 다루는 내용

results.txt 파일에 저장된 정보에서 1, 2, 3등을 차지한 선수와 점수를 확인하고자 한다.

## 서핑 선수들의 등수 확인하기

앞서 리스트 자료형을 활용하여 1, 2, 3등의 점수를 확인할 수 있었다.
하지만 어떤 선수의 점수인지를 확인할 수는 없었다. 

앞서 살펴 본 코드는 아래와 같다.

In [1]:
result_f = open("data/results.txt") 

score_list = []                        

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_list.append(float(score))
    except:
        continue

result_f.close() 

score_list.sort(reverse=True)

print("1, 2, 3등 점수:") 
print(score_list[0])   
print(score_list[1])   
print(score_list[2])   

1, 2, 3등 점수:
9.12
8.65
8.45


위 코드의 핵심은 각 줄을 공백을 기준으로 두 개의 문자열로 쪼개어 점수 부분만을 따로 리스트로 
저장하는 것이다.

그런데 그렇게 점수를 따로 다루면 점수와 선수이름 사이의 관계를 잃어버린다.
따라서 점수와 선수이름과의 관계 정보를 유지하는 방법을 고안해야 하는 것이 해결해야할 과제이다.

### 잘못된 시도

위 코드에서 선수이름과 점수를 분리하여 점수만 따로 리스트로 저장하였다.
그렇다면 비슷한 방식으로 선수이름만 따로 리스트로 저장하면 어떠할까 라는 질문이 들 수 있다.

예를 들어, 아래 코드는 선수이름도 따로 리스트로 저장한 후에 점수를 내림차순으로 정렬하듯,
이름도 내림차순으로 정렬한 후에 동일한 색인을 사용하여 1, 2, 3 등을 확인하는 코드이다.

In [2]:
result_f = open("data/results.txt") 

score_list = []                        
name_list = []                           # 선수이름 리스트 생성

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_list.append(float(score))
        name_list.append(name)          # 선수이름 추가
    except:
        continue

result_f.close() 

score_list.sort(reverse=True)
name_list.sort(reverse=True)

print("1, 2, 3등 선수와 점수:") 
print(name_list[0], score_list[0])   
print(name_list[1], score_list[1])   
print(name_list[2], score_list[2])   

1, 2, 3등 선수와 점수:
Zack 9.12
Stacey 8.65
Juan 8.45


그런데 매우 이상하다. Z로 시작하는 Zack이 1등이고, 다음에 Stacey가 2등 순으로 나타난다.

위 코드의 문제점은 알파벳의 역순으로 1, 2, 3등이 가려진다는 점이다. 
앞서 말했듯 선수이름과 점수를 따로따로 리스트에 저장하였기 때문에 선수이름과 점수가 더 이상 어떤 관계도 갖지 않게 되는
문제때문에 분리 후에는 선수이름과 점수 사이의 관계 정보를 확인할 수 없다.

### 사전 활용

점수와 선수이름과의 관계를 유지하기 위해 사전 자료형을 활용한다.
그리고 1, 2, 3 등처럼 등수를 구하기 위해서 여기서는 점수를 키(key)로 사용하고, 해당 점수를 얻은 선수이름을 값(value)으로 사용한다.

위 코드를 조금만 수정하면 원하는 내용을 담은 사전을 쉽게 구할 수 있다.

In [3]:
result_f = open("data/results.txt") 

score_dict = dict()                        # 빈 사전 생성
# 아래와 같이 선언해도 된다.
# score_dict = {}

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_dict[float(score)] = name   # 점수와 선수이름의 쌍을 사전에 추가
    except:
        continue

result_f.close() 

print(score_dict)

{8.65: 'Johnny', 9.12: 'Juan', 8.45: 'Joseph', 7.81: 'Stacey', 8.05: 'Aideen', 7.21: 'Zack', 8.31: 'Aaron'}


얻은 사전을 이용하여 등수별로 선수이름과 점수를 출력하는 프로그램은 다음과 같다.

In [4]:
result_f = open("data/results.txt") 

score_dict = dict()                        # 빈 사전 생성
# 아래와 같이 선언해도 된다.
# score_dict = {}

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_dict[float(score)] = name   # 점수와 선수이름의 쌍을 사전에 추가
    except:
        continue

result_f.close() 

score_keys = sorted(score_dict.keys(), reverse=True)


for key in score_keys:
    print("Name:", score_dict[key], ", Score:", key)

Name: Juan , Score: 9.12
Name: Johnny , Score: 8.65
Name: Joseph , Score: 8.45
Name: Aaron , Score: 8.31
Name: Aideen , Score: 8.05
Name: Stacey , Score: 7.81
Name: Zack , Score: 7.21


위 코드를 좀 더 수정하면 등수까지도 보여줄 수 있다.

In [5]:
result_f = open("data/results.txt") 

score_dict = dict()                        # 빈 사전 생성
# 아래와 같이 선언해도 된다.
# score_dict = {}

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_dict[float(score)] = name   # 점수와 선수이름의 쌍을 사전에 추가
    except:
        continue

result_f.close() 

score_keys = sorted(score_dict.keys(), reverse=True)

count = 1
for key in score_keys:
    print(str(count)+"등은", score_dict[key], "이고, 점수는", key, "입니다.")
    count = count+1

1등은 Juan 이고, 점수는 9.12 입니다.
2등은 Johnny 이고, 점수는 8.65 입니다.
3등은 Joseph 이고, 점수는 8.45 입니다.
4등은 Aaron 이고, 점수는 8.31 입니다.
5등은 Aideen 이고, 점수는 8.05 입니다.
6등은 Stacey 이고, 점수는 7.81 입니다.
7등은 Zack 이고, 점수는 7.21 입니다.


그런데 사전 또는 리스트와 `for` 반복문을 함께 사용하면서 `count` 와 같은 변수를 사용하는 것은 좋지 않다.
이유는 사전 또는 리스트가 `for` 문에 사용될 경우 카운트 기능을 이미 내포하고 있기 때문이다.

따라서 아래와 같이 프로그램을 구현할 수도 있다.

* 리스트 자료형의 `index` 메소드 활용

In [6]:
result_f = open("data/results.txt") 

score_dict = dict()                        # 빈 사전 생성
# 아래와 같이 선언해도 된다.
# score_dict = {}

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_dict[float(score)] = name   # 점수와 선수이름의 쌍을 사전에 추가
    except:
        continue

result_f.close() 

score_keys = sorted(score_dict.keys(), reverse=True)
score_list = list(score_keys)             # 리스트 자료형으로 형변환

for key in score_list:
    print(str(score_list.index(key)+1)+"등은", score_dict[key], "이고, 점수는", key, "입니다.")

1등은 Juan 이고, 점수는 9.12 입니다.
2등은 Johnny 이고, 점수는 8.65 입니다.
3등은 Joseph 이고, 점수는 8.45 입니다.
4등은 Aaron 이고, 점수는 8.31 입니다.
5등은 Aideen 이고, 점수는 8.05 입니다.
6등은 Stacey 이고, 점수는 7.81 입니다.
7등은 Zack 이고, 점수는 7.21 입니다.


## 예제: 선수정보 추출

좀 더 복잡한 데이터를 쪼개어 사전으로 저장하는 방식을 살펴보고자 한다.
주어진 데이터와 목표는 다음과 같다.

* 주어진 데이터: 아래 내용의 문자열
> "101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21"
* 목표: 아래 내용으로 출력하고자 함
```
번호:    101
이름:    Johnny 'wave-boy' Jones 
국적:    USA
기록:    8.32
보드타입: Fish
나이:    21
```

위 목표를 달성하기 위해 여기서는 아래 모양의 사전을 생성하고자 한다.
> {'번호': '101', '이름': "Johnny 'wave-boy' Jones", '국적': 'USA', '기록': '8.32', '보드타입': 'Fish', '나이': '21'}

* 수동 방식 1: 
    주어진 데이터를 세미콜론(`;`)을 기준으로 쪼개어
    얻어진 리스트의 각각의 항목을 값으로 사용하여 
    수동으로 사전을 생성할 수 있다.

In [1]:
surfer_info = "101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21"

In [2]:
surfer_info_list = surfer_info.split(';')
print(surfer_info_list)

['101', "Johnny 'wave-boy' Jones", 'USA', '8.32', 'Fish', '21']


In [3]:
surfer_info_dict = dict()
surfer_info_dict['번호'] = surfer_info_list[0]
surfer_info_dict['이름'] = surfer_info_list[1]
surfer_info_dict['국적'] = surfer_info_list[2]
surfer_info_dict['기록'] = surfer_info_list[3]
surfer_info_dict['보드타입'] = surfer_info_list[4]
surfer_info_dict['나이'] = surfer_info_list[5]

In [4]:
print(surfer_info_dict)

{'번호': '101', '이름': "Johnny 'wave-boy' Jones", '국적': 'USA', '기록': '8.32', '보드타입': 'Fish', '나이': '21'}


* 수동 방식 2: 아래와 같이 쪼개진 각각의 항목을 동시에 이용할 수도 있다.

In [5]:
surfer_info = "101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21"
surfer_info_dict = dict()
surfer_info_dict['번호'], surfer_info_dict['이름'], \
surfer_info_dict['국적'], surfer_info_dict['기록'], \
surfer_info_dict['보드타입'], surfer_info_dict['나이'] \
= surfer_info.split(';')

print(surfer_info_dict)

{'번호': '101', '이름': "Johnny 'wave-boy' Jones", '국적': 'USA', '기록': '8.32', '보드타입': 'Fish', '나이': '21'}


**주의:** 역 슬래시(`\`)는 파이썬 명령문이 다음 줄에 이어서 계속된다는 것을 의미함.

* 자동 방식: 세미콜론으로 쪼갠 리스트 각각의 항목을 값으로 하는 사전을 직접 생성할 수 있다.

In [6]:
surfer_info = "101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21"
info_items = ['번호', '이름', '국적', '기록', '보드타입', '나이']
surfer_info_list = surfer_info.split(';')
surfer_info_dict = dict()

index = 0
while index < len(info_items):
    surfer_info_dict[info_items[index]] = surfer_info_list[index]
    index += 1

for info in surfer_info_dict:    
    print(info +':\t', surfer_info_dict[info])     # \t는 탭을 의미함

번호:	 101
이름:	 Johnny 'wave-boy' Jones
국적:	 USA
기록:	 8.32
보드타입:	 Fish
나이:	 21


`index`와 같은 임시변수를 사용하는 것은 별로 추천되지 않는다.
아래 코드는 `for ... in ...` 반복문을 사용하는 코드이다.

In [7]:
surfer_info = "101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21"
info_items = ['번호', '이름', '국적', '기록', '보드타입', '나이']
surfer_info_list = surfer_info.split(';')
surfer_info_dict = dict()

for item in info_items:
    item_index = info_items.index(item)                   # 리스트의 index 메소드 활용
    surfer_info_dict[item] = surfer_info_list[item_index]

for info in surfer_info_dict:    
    print(info +':\t', surfer_info_dict[info])     

번호:	 101
이름:	 Johnny 'wave-boy' Jones
국적:	 USA
기록:	 8.32
보드타입:	 Fish
나이:	 21


In [36]:
surfer_info = "101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21"
info_items = ['번호', '이름', '국적', '기록', '보드타입', '나이']
surfer_info_list = surfer_info.split(';')
surfer_info_dict = dict()

for item in info_items:
    item_index = info_items.index(item)                   # 리스트의 index 메소드 활용
    surfer_info_dict[item] = surfer_info_list[item_index]

for info in surfer_info_dict:    
    print("%-5s\t%s" % (info+":", surfer_info_dict[info]))

번호:  	101
이름:  	Johnny 'wave-boy' Jones
국적:  	USA
기록:  	8.32
보드타입:	Fish
나이:  	21


## 예제: 선수기록 정리

아래 내용을 `james2.txt` 파일에 저장하라.
```
James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22,2-01,2.01,2:16
```
아래 내용을 `julie2.txt` 파일에 저장하라.
```
Julie Jones,2002-8-17,2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21,3.01,3.02,2:59
```
파일에 저장된 내용은 각각 `James`와 `Julie`의 1000m 기록이다.

아래 코드를 설명하라. 
특히 `sanitize` 함수와 `get_coach_data` 함수가 하는 일을 중심으로 설명하라. 

In [2]:
def sanitize(time_string):
    if '-' in time_string:
        splitter = '-'
    elif ':' in time_string:
        splitter = ':'
    else:
        return(time_string)
    (mins, secs) = time_string.split(splitter)
    return(mins + '.' + secs)

def get_coach_data(filename):
    try:
        with open(filename) as f:
            data = f.readline()
        templ = data.strip().split(',')
        return({'Name' : templ.pop(0),
                'DOB'  : templ.pop(0),
                'Times': str(sorted(set([sanitize(t) for t in templ]))[0:3])})
    except IOError as ioerr:
        print('File error: ' + str(ioerr))
        return(None)
    
james = get_coach_data('data/james2.txt')
julie = get_coach_data('data/julie2.txt')

print(james['Name'] + "'s fastest times are: " + james['Times'])
print(julie['Name'] + "'s fastest times are: " + julie['Times'])

James Lee's fastest times are: ['2.01', '2.16', '2.22']
Julie Jones's fastest times are: ['2.11', '2.23', '2.59']


## 연습문제

1. 아래 내용의 데이터가 
    [surfing_data.csv](https://github.com/liganega/bpp/blob/master/notes/data/surfing_data.csv) 
    파일에 저장되어 있다.
```
101;Johnny 'wave-boy' Jones;USA;8.32;Fish;21
102;Juan Martino;Spain;9.01;Gun;36
103;Joseph 'smitty' Smyth;USA;8.85;Cruizer;18
104;Stacey O'Neill;Ireland;8.91;Malibu;22
105;Aideen 'board babe' Wu;Japan;8.65;Fish;24
106;Zack 'bonnie-lad' MacFadden;Scotland;7.82;Thruster;26
107;Aaron Valentino;Italy;8.98;Gun;19
```
    다음 기능을 수행하는 함수 `find_details`를 구현하라.
    * 선수의 번호를 인자로 받는다.
    * 선수의 번호에 해당하는 선수의 정보를 앞서 선수정보를 추출하는 예제에서 다룬 모양의 사전으로 리턴한다.