# 4. 파일과 리스트

처리해야 할 데이터 양이 많아지면 파일에 저장한 후에 필요한 경우 재활용해야 한다.
또한 개별 데이터를 따로따로 처리하기 보다는 하나의 데이터로 묶어서 처리할 수 있어야 한다.
많은 데이처를 하나의 데이터로 묶어서 처리하는 다양한 자료형이 제공되며 여기서는 파이썬의 리스트 자료형의 활용을 알아본다.

## 다루는 내용

* 서핑 대회에 참가한 7명 선수들의 이름과 기록이 저장된 파일에서 1, 2, 3등 기록 알아내기

## 파일에 저장된 데이터 불러오기

파일에 저장된 데이터를 불러오거나 파일에 데이터를 저장하는 방법에 대한 설명은 
[여기](https://github.com/liganega/bpp/blob/master/notes/04a-ThinkPython-Files.ipynb)를 
참조한다.

여기서는 아래 내용을 담고 있는 [results.txt](https://github.com/liganega/bpp/blob/master/notes/data/results.txt) 파일을 활용하고자 한다.
```
Name  Score
Johnny  8.65 
Juan  9.12
Joseph  8.45
Stacey  7.81
Aideen  8.05
Zack  7.21
Aaron  8.31
```

즉, 첫째 줄은 선수이름(Name)과 점수(Score)의 항목이 표시되어 있으며
둘째 줄부터 선수이름과 점수가 기록되어 있다.

위 파일의 내용을 아래와 같이 파이썬 코드로 확인할 수 있다.

#### 주의사항

* `results.txt` 파일이 `data`라는 하위 디렉토리에 저장되어 있다고 가정한다.

In [1]:
result_f = open("data/results.txt")   # 파일 열기

for line in result_f:                 # 각 줄 내용 출력하기
    print(line)

result_f.close()                      # 파일 닫기

Name  Score

Johnny  8.65 

Juan  9.12

Joseph  8.45

Stacey  7.81

Aideen  8.05

Zack  7.21

Aaron  8.31



#### 주의사항
줄 사이에 새로운 줄이 포함된 이유는 파일을 작성하면서 줄바꾸기를 할 때 사용하는 엔터에 의해 줄바꾸기 기호(`\n`)이
각 줄의 맨 끝에 포함되기 때문이다.
따라서 줄바꾸기를 한 번 더 하는 것을 방지하기 위해서 `strip` 메소드를 활용하는 것이 좋다.

In [2]:
result_f = open("data/results.txt") 

for line in result_f: 
    print(line.strip())              # strip 메소드 활용하기

result_f.close() 

Name  Score
Johnny  8.65
Juan  9.12
Joseph  8.45
Stacey  7.81
Aideen  8.05
Zack  7.21
Aaron  8.31


#### 주의사항
* `strip` 메소드를 활용하여 데이터를 보다 깔끔하게 정리하는 것은 좋은 버릇이다.
* 하지만 반드시 필요한 것은 아닐 수도 있기 때문에 사용여부를 판단해야 한다.
* 4장 내용을 다루기 위해 `strip` 메소드를 사용해도 되고 그렇지 않아도 된다.

이제 1등 점수를 확인하고자 한다. 그런데 먼저 예외처리 기술에 대해 알아보고 넘어가자.

## 예외처리(exception handling)

오류가 발생하는 경우에 프로그램의 처리해야 해야 할 일을 지정하는 방법이 예외처리 기술이다. 
즉, 오류가 발생하더라도 임의로 멈추지 말고 다른 일을 하도록 유도하는 장치이다.
사용방식은 다음과 같다.

```python
try:
    코드1
except:
    코드2
```
* 먼저 코드1 부분을 실행한다.
* 코드1 부분이 실행되면서 오류가 발생하지 않으면  코드2 부분은 무시하고 다음으로 넘어간다.
* 코드1 부분이 실행되면서 오류가 발생하면 더이상 진행하지 않고 바로 코드2 부분을 실행한다.

### 예제

아래 예제는 없는 파일을 `open` 함수로 열려고 할 때 발생하는 문제를 처리하는 기술이다.

먼저 없는 파일을 열려고 할 때 오류가 발생함을 확인하자.

In [3]:
file = open('data/no_file.txt')

FileNotFoundError: [Errno 2] No such file or directory: 'data/no_file.txt'

이런 경우에는 열고자 하는 파일이 존재하지 않는다는 정보를 전달하는 것이 단순히 오류가 발생하면서 실행이 멈추는 것보다 훨씬 유익하다.

In [4]:
try:
    file = open('data/no_file.txt')
except:
    print("열고자 하는 파일이 존재하지 않습니다.")

열고자 하는 파일이 존재하지 않습니다.


#### 주의사항

예외처리는 앞서 설명한 것 이외에 보다 보다 섬세하게 발생하는 예외의 종류에 맞추어 처리할 수 있는 기능을 제공한다.
하지만 여기서는 예외처리의 기본 개념을 이해하는 것만도 충분하다.

## 1, 2, 3등 점수 확인하기

### 1등 점수 확인하기

앞서 파일 내용을 확인해 보았듯 각 줄마다 선수이름과 점수가 공백을 사이로 두고 각 줄에 적혀 있다.
따라서 아래와 같이 `split` 메소드를 활용하여 각 줄을 쪼개어 두 번째 항목을 확인할 수 있다.

#### 주의사항

`split` 메소드의 기능을 확인해야 한다.
예를 들어 `Name Score`라는 문자열을 공백을 기준으로 쪼개면 길이가 두 개의 단어로 구성된 리스트가 생성된다.

In [5]:
'Name Score'.split()

['Name', 'Score']

파일의 각 줄이 동일한 모양을 갖고 있다는 점에 착안하여 아래와 같이 각줄의 내용 중에서 점수에 해당하는 부분을
아래와 같이 확인할 수 있다.

**주의:** 리스트의 색인도 문자열의 경우처럼 0부터 시작한다. 따라서 리스트의 둘 째 항목의 색인은 1인다.

In [6]:
result_f = open("data/results.txt") 

for line in result_f: 
    record = line.split()
    print(record[1])

result_f.close() 

Score
8.65
9.12
8.45
7.81
8.05
7.21
8.31


그런데 첫째 줄 내용은 점수를 비교하는 데에 필요없다. 
따라서 무시하는 방법을 사용하도록 하자.

특정 줄을 무시하는 방법은 여러 기술이 있지만 여기서는 `try ... except ...` 명령문을 이용한 **예외처리** 기술을 활용한다.

**주의:**
여기서 예외처리 기술을 이용하는 이유는 다음과 같다.
* `split` 메소드로 쪼개진 값들은 모두 문자열로 처리된다.
* 하지만 점수를 비교하기 위해서는 부동소수점으로 형변환 시키는 것이 좋다.
* 그런데 첫째 줄에 `float` 함수를 적용하면 오류가 발생한다.
* 따라서 오류가 발생할 때 프로그램의 실행을 멈추지 않고 다른 일을 하도록 예외처리를 해주어야 한다.
* 아래 코드에서는 `float` 함수를 실행할 때 오류가 발생하면 무시하고 다음 줄로 넘어가는 식으로 오류처리를 하였다.

In [7]:
result_f = open("data/results.txt") 

highst_score = 0                   # 1등 점수 저장

for line in result_f: 
    record = line.split()

    try:                           # 첫줄 제외 용도
        score = float(record[1])
    except:
        continue

    if highst_score < score:       # 1등 점수 갱신 경우 확인
        highst_score = score
    else:
        continue

result_f.close() 

print("1등 점수는", highst_score, "입니다.")

1등 점수는 9.12 입니다.


### 2등 점수 확인하기

2등 점수까지 확인하려면 2등 점수를 기억할 변수가 하나 더 필요하며
확인된 점수가 기존의 1등 점수보다 큰지, 2등 점수보다 큰지 여부에 따라 1, 2등 점수를 기억하는 변수의 값들을 
업데이트 해야 한다.

In [8]:
result_f = open("data/results.txt") 

highst_score = 0
second_highst_score = 0                    # 2등 점수 저장

for line in result_f: 
    record = line.split()

    try: 
        score = float(record[1])
    except:
        continue

    if highst_score < score:               # 1, 2등 점수 갱신 경우 확인
        second_highst_score = highst_score
        highst_score = score
    elif second_highst_score < score:      # 2등 점수 갱신 경우 확인
        second_highst_score = score
    else:
        continue

result_f.close() 

print("1등 점수는", highst_score, "입니다.")
print("2등 점수는", second_highst_score, "입니다.")

1등 점수는 9.12 입니다.
2등 점수는 8.65 입니다.


### 3등 점수 확인하기

이제 3등 점수까지 확인하려면 코드를 더 많이 수정해야 하며, 더 많은 변수와 조건문을 사용해야 한다.

In [9]:
result_f = open("data/results.txt") 

highst_score = 0
second_highst_score = 0
third_highst_score = 0                          # 3등 점수 저장

for line in result_f: 
    record = line.split()

    try: 
        score = float(record[1])
    except:
        continue

    if highst_score < score:                     # 1, 2, 3등 점수 갱신 확인
        third_highst_score = second_highst_score
        second_highst_score = highst_score
        highst_score = score
    elif second_highst_score < score:            # 2, 3등 점수 갱신 확인
        third_highst_score = second_highst_score
        second_highst_score = score
    elif third_highst_score < score:             # 3등 점수 갱신 확인
        third_highst_score = score        
    else:
        continue

result_f.close() 

print("1등 점수는", highst_score, "입니다.")
print("2등 점수는", second_highst_score, "입니다.")
print("3등 점수는", third_highst_score, "입니다.")

1등 점수는 9.12 입니다.
2등 점수는 8.65 입니다.
3등 점수는 8.45 입니다.


### 나쁜 프로그래밍

앞서 1등까지, 2등까지, 3등까지 점수를 확인하는 코드는 각자 다르며, 점처 길어지고 복잡해졌다.
코드를 이런 식으로 구현하면 안된다.

무엇보다도 원하는 등수에 따라 코드 자체가 수정되어야 하는 방식으로 프로그래밍을 하면 절대 안된다.
그럼 어떻게 할까?

앞선 코드의 근본적인 문제점은 각 선수의 점수를 따라따로 관리하기 때문에 발생한다.
따라서 선수의 기록을 모아서 한꺼번에 처리하는 기술이 요구된다.
여기서는 리스트 자료형을 활용하여 원하는 등수와 선수의 수에 상관없이 동일한 코드로 원하는 결과를 
리턴하는 프로그램을 구현하고자 한다.

## 리스트 활용

몇 등 점수를 알아내야 하는가와 상관없이 모든 질문에 답을 하는 하나의 프로그램을 리스트를 활용하여
구현하고자 하며, 아이디어는 다음과 같다.

* 서핑 대회 참가선수들의 기록만을 따로 모아 놓은 리스트를 생성한다.
* 리스트의 항목들을 숫자크기 역순으로 정렬(sorting)한다.
* 역순, 즉 내림차순으로 정렬된 리스트의 색인을 이용하여 원하는 등수의 점수를 확인한다.

In [10]:
result_f = open("data/results.txt") 

score_list = []                         # 점수 저장 리스트 생성

for line in result_f: 
    (name, score) = line.split()        # 각 줄을 두 단어의 리스트로 쪼개기
    try:
        score_list.append(float(score)) # 첫째 줄 제외. 숫자만 scores 리스트에 추가
    except:
        continue

result_f.close() 

score_list.sort()                       # 리스트를 크기순으로 정렬(오름차순)
score_list.reverse()                    # 리스트의 항목들의 순서 뒤집기

print("The top scores were:") 
print(score_list[0])                    # 0번 색인값 = 1등 점수
print(score_list[1])                    # 1번 색인값 = 2등 점수
print(score_list[2])                    # 2번 색인값 = 3등 점수

The top scores were:
9.12
8.65
8.45


#### 주의사항
아래 두 줄의 코드는 리스를 내림차순으로 정렬한다.

```python
score_list.sort()
score_list.reverse()
```

위 두 줄의 코드를 아래와 같이 한 줄로 구현할 수 있다.

```python
score_list.sort(reverse=True)
```

In [11]:
result_f = open("data/results.txt") 

score_list = []                        

for line in result_f: 
    (name, score) = line.split()       
    try:
        score_list.append(float(score))
    except:
        continue

result_f.close() 

score_list.sort(reverse=True)           # 리스트를 내림차순으로 정렬

print("The top scores were:") 
print(score_list[0])   
print(score_list[1])   
print(score_list[2])   

The top scores were:
9.12
8.65
8.45


## 함수 활용

앞서 살펴본 코드를 함수로 추상화하면 원하는 등수의 점수를 함수호출로 간단하게 확인할 수 있다.

In [12]:
def ranking(rank):                        # 원하는 등수를 인자로 사용
    result_f = open("data/results.txt") 

    score_list = [] 

    for line in result_f: 
        (name, score) = line.split() 
        try:
            score_list.append(float(score)) 
        except:
            continue
    result_f.close() 

    score_list.sort(reverse=True) 
    
    return score_list[rank-1]               # 원하는 등수의 점수 리턴

이제 1, 2, 3등 점수를 가볍게 확인 할 수 있다.

In [13]:
print(ranking(1), ranking(2), ranking(3))

9.12 8.65 8.45


## 심화예제

서핑 대회에 참가한 선수들의 기록을 다룬 파일보다 좀 더 많은 정보를 포함한
데이터 파일을 분석하고자 한다.

파일에 좀 더 많은 내용이 담겨 있기는 하지만 사용하는 기술은 별로 차이 없다.

### 토끼, 스라소니, 당근의 개체수 조사 데이터

1900년부터 1920년까지 매년 토끼(rabbit), 스라소니(lynx), 당근(carrot)의 개체수를 조사한 자료가 
[population.txt](https://github.com/liganega/bpp/blob/master/notes/data/populations.txt)
파일에 저장되어 있다.
파일 내용을 확인하면 다음과 같다.

**주의:** `population.txt` 파일이 `data`라는 하위 디렉토리에 저장되어 있다고 가정한다.

In [14]:
with open('data/populations.txt') as pop_file:
    for line in pop_file:
        print(line.strip())        # strip 메소드 활용

# 연도	토끼	스라소니	당근
1900	30e3	4e3	48300
1901	47.2e3	6.1e3	48200
1902	70.2e3	9.8e3	41500
1903	77.4e3	35.2e3	38200
1904	36.3e3	59.4e3	40600
1905	20.6e3	41.7e3	39800
1906	18.1e3	19e3	38600
1907	21.4e3	13e3	42300
1908	22e3	8.3e3	44500
1909	25.4e3	9.1e3	42100
1910	27.1e3	7.4e3	46000
1911	40.3e3	8e3	46800
1912	57e3	12.3e3	43800
1913	76.6e3	19.5e3	40900
1914	52.3e3	45.7e3	39400
1915	19.5e3	51.1e3	39000
1916	11.2e3	29.7e3	36700
1917	7.6e3	15.8e3	41800
1918	14.6e3	9.7e3	43300
1919	16.2e3	10.1e3	41300
1920	24.7e3	8.6e3	47300


위 코드에서 에를 들어 `47.2e3` 모양의 의미는 다음과 같다.

> 47.2 곱하기 10의 3승

즉, 다음과 같다.

In [15]:
47.2e3 == 47.2 * 1000

True

In [16]:
print(47.2e3)

47200.0


### 당근 개체수의 최대값 구하기

이제 당근 개체수가 가장 많았을 때의 값을 알아내고자 하며, 
앞서 사용한 기술을 그대로 따라하기 위해 `split` 메소드를 활용한다. 

`results.txt` 파일과의 차이점은 두 가지이다.

* 맨 윗줄에 항목에 대한 설명이 있지만 주석을 의미하는 샵(`#`) 기호로 시작한다.
    이 특징을 활용하여 예외처리 대신에 조건문을 사용할 수 있다.
* 각 줄별로 세 개의 공백이 사용되어서, `split` 메소드를 실행하면 
    네 개의 문자열로 쪼개질 것이며 따라서 길이가 4인 리스트가 생성된다.

#### 주의사항

아래 코드에서 사용된 아래 양식에 주의하라.

```python
with open('파일명') as 변수명:
    코드
```

위 양식은 다음 모양의 코드와 동일한 내용이다.

```python
변수명 = open('파일명')
코드
변수명.close()
```

즉, `'with open('파일명') as 변수명'` 방식은 
파일의 활용이 끝났으면 `'변수명.close()'`를 반드시 실행하도록 강요한 
양식에 불과하다.

In [17]:
with open('data/populations.txt') as pop_file:           # 파일 열기
    rabbits = []                                         # 토끼 개체수 저장 리스트 선언

    for line in pop_file:
        if line.startswith('#'):                         # 샵으로 시작하는 맨 윗줄 건너뛰기
            continue
        else:
            (year, rabbit, lynx, carrot) = line.split()  # 각 줄은 네 개의 숫자로 쪼개짐
            rabbits.append(float(rabbit))                # 토끼 개체수만 저장함

rabbits.sort(reverse=True)                               # 내림차순으로 항목 정렬

print("토끼 개체수의 최대값은", rabbits[0] ,"이다.")

토끼 개체수의 최대값은 77400.0 이다.


### 함수화

위 코드를 응용하여 연도별 토끼 개체수를 리턴하는 `rabbit_number` 함수를 구현할 수 있다.
아래 사항에 주의해야 한다.

* 연도별로 토끼 개체수를 확인하려면 정렬(sorting)을 사용하지 말아야 한다.
* 인자로 1900 ~ 1920 사이의 값이 사용된다.
    * 1900년도 토끼의 개체수는 0번 색인을 가진다.
    * 1920년도 토끼의 개체수는 20번 색인을 가진다.
    * 일반화: 19xx년도 토끼의 대체수는 (19xx-1900)번 색인을 가진다.

In [18]:
def rabbit_number(yr):
    with open('data/populations.txt') as pop_file:
        rabbits = []                          

        for line in pop_file:
            if line.startswith('#'):              
                continue
            else:
                (year, rabbit, lynx, carrot) = line.split() 
                rabbits.append(float(rabbit))           
    
    return rabbits[yr-1900]      # 연도에서 1900을 빼야 해당연도의 색인이 됨

In [19]:
rabbit_number(1900)

30000.0

In [20]:
rabbit_number(1920)

24700.0

In [21]:
rabbit_number(1911)

40300.0

## 연습문제

1. 2등 점수를 확인하는 코드를 아래와 같이 구현할 경우 어떤 문제가 발생하는지 설명하라.
```python
result_f = open("data/results.txt") 
highst_score = 0
second_highst_score = 0                    # 2등 점수 저장
for line in result_f: 
     record = line.split()
     try: 
        score = float(record[1])
     except:
        continue
     if highst_score < score:               # 1, 2등 점수 갱신 경우 확인
        highst_score = score
     elif second_highst_score < score:      # 2등 점수 갱신 경우 확인
        second_highst_score = score
     else:
        continue
result_f.close() 
print("2등 점수는", second_highst_score, "입니다.")
```
<br>
1. `max` 함수를 이용하여 `ranking` 함수를 구현하라.
    <br><br>
1. `ranking` 함수를 자바 언어로 구현하라.
    <br><br>
1. `rabbit_number` 함수를 예를 들어 1921을 인자로 사용하여 호출하면 오류가 발생한다. 
    `rabbit_number` 함수를 아래 조건이 만족되도록 수정하라.
    * 예외처리를 이용하여 1900~1920을 벗어나는 년도를 인자로 사용하면 아래 문자열이 출력되도록 한다. 

    > "해당년도 데이터가 존재하지 않습니다."

1. 당근의 연도별 개체수를 리턴하는 `carrot_number` 함수를 구현하라.
    <br><br>
1. `continue`, `break`, `pass` 세 계의 특별한 명령문의 이해를 도와주는 문제이다.
    1. `for` 또는 `while` 반복문에서 사용될 수 있는 `continue`와 `break`의 기능을 예를 들어 설명하라.
    1. `continue`와 `pass`의 차이점을 예를 들어 설명하라.