# 파일

안내: [Think Python 14장](http://greenteapress.com/thinkpython2/html/thinkpython2015.html) 내용을 번역 및 요약수정한 내용입니다.

## 데이터 보관하기

지금까지 실행한 프로그램은 데이터를 일시적으로 생성하여 활용한다. 
여기서 일시적이라 함은 프로그램이 종료되면 사용되었던 데이터가 사라진다는 의미다. 
따라서 프로그램을 새로 시작하면 데이터를 새로 생성하여 활용하고, 종료되면 역시 사용했던 모든 데이터는 사라진다.

하지만 경우에 따라 사용할 또는 사용했던 데이터를 프로그램의 실행 및 종료에 상관 없이 오랫동안 보관하고자 할 필요가 있다.

여기서 파일에 저장된 데이터를 활용하거나 사용된/생성된 데이터를 파일에 저장하는 여러 방법을 소개한다.  

## 파일 읽기

아래 링크에 있는 파일을 가지고 연습하고자 한다.
먼저 아래 파일을 다운 받아서 파이썬 코딩을 실습하는 폴더에 저장한다.
여기서는 `data`라는 하위폴더에 `words.txt`라는 파일로 저장되었다고 가정한다.

http://thinkpython2.com/code/words.txt

위 파일에는 그레이디 워드(Grady Ward)가 수집한 113,809개 단어를 담고 있다. 

<p>
<table cellspacing="20">
<tr>
<td>
<img src="images/words.png" style="width:600px">
</td>
</tr>
</table>
</p>

이 파일은 일반 텍스트라서, 텍스트 편집기 뿐만 아니라, 파이썬으로 읽을 수 있다. 
이를 위해 내장 함수인 `open` 함수를 아래와 같이 활용한다.

In [1]:
fin = open('data/words.txt')

`open` 함수는 컴퓨터에 저장된 파일의 경로를 문자열 인자로 사용하여 파일 내용 뿐만 아니라 
파일과 관련된 모든 정보를 가져와서 리턴값으로 되돌려 준다.
하지만 저장된 파일은 단순히 파일 내용 뿐만 아니라 파일의 크기, 작성 시간, 작성자, 수정 시간, 
사용자 권한 등 다양한 정보도 함께 포함한다는
사실에 주의해야 한다.

`open` 함수의 리턴값은 파일과 관련된 모든 정보를 저장한 `_io.TextIOWrapper`라는 파일 클래스의 객체이다. 

* 주의: 클래스 이름을 기억할 필요는 없다.

In [2]:
type(fin)

_io.TextIOWrapper

따라서 단순히 `print` 명령으로는 파일 내용을 확인할 수 없다.

In [3]:
print(fin)

<_io.TextIOWrapper name='data/words.txt' mode='r' encoding='UTF-8'>


* 모드(mode)의 'r'은 이 파일이 읽기전용(read only)으로 열렸다는 것을 나타냄.
* 인코딩(encoding)의 `UTF-8`은 텍스트 파일이 `UTF-8` 방식으로 인코딩되었음을 나타냄.

`fin` 변수에 할당된 파일 객체의 내용을 `readline` 메소드를 활용하여 한 줄씩 확인할 수 있다. 

In [4]:
fin.readline()

'aa\n'

In [5]:
fin.readline()

'aah\n'

In [6]:
fin.readline()

'aahed\n'

`readline` 메소드는 몇 번째 줄까지 읽었는지 기억한다.
* 몇 번째 줄까지 읽었는가는 오프셋(offset)이란 장치에 저장된다.
* 줄의 끝은 줄바꾸기(newline)를 의미하는 문자 '\n'의 존재여부로 확인한다.
    * 줄바꾸기 기호는 엔터키를 누를 때 만들어지지만 보통의 문서 편집기는 보여주지 않는다.
    * 하지만 사람 눈에 보이지 않을 뿐 컴퓨터에게는 엔터키가 눌렸다는 정보를 
        줄바꾸기 기호로 표시해 둔다.
* 위에서 모든 단어의 끝에 줄바꾸기 문자(`\n`)가 존재함을 볼 수 있다.

줄바꾸기 문자를 제거하면 보다 자연스럽게 출력할 수 있다.
이를 위해 `strip` 이라는 문자열 메소드를 활용하면 된다.

In [7]:
line = fin.readline()
word = line.strip()
print(word)

aahing


파일 내용을 `for` 반복 명령문을 이용하여 확인할 수 있다.
예를 들어, 아래 프로그램은 `words.txt` 파일에 저장된 모든 단어를 출력한다.

**주의:** 아래 코드를 실행하게 되면 113,809개의 단어들이 출력된다.
굳이 돌릴 것을 권하지는 않는다.

```python
fin = open('data/words.txt')
for line in fin:
    word = line.strip()
    print(word)
```

하지만 아래 코드와 같이 맨 앞에 있는 몇 개의 단어를 확인할 수는 있다.

**주의:**
* 아래 코드는 다시 첫 단어부터 출력한다.
* 이유는 `words.txt` 파일을 다시 읽으면서 오프셋이 0으로 초기화되기 때문이다.

In [8]:
fin = open('data/words.txt')
line_num = 0
for line in fin:
    if line_num < 10:
        word = line.strip()
        print(word)
        line_num += 1
    else:
        break

aa
aah
aahed
aahing
aahs
aal
aalii
aaliis
aals
aardvark


## 새 파일에 쓰기

* 새 파일을 생성한 후에 내용을 적어 넣으려면 `open` 함수를 쓰기 모드(w-모드)를 이용하여 아래 형식으로 호출하면 된다.
```python
open("파일경로를포함한파일이름", 'w')
```
    * **주의:** 쓰기기능을 포함하여 `open` 함수를 호출할 때 기존에 있는 파일이름을 사용하면
        해당 파일내용이 삭제됨에 주의해야 한다.

* 생성된 파일에 내용을 추가하려면 파일 클래스의 `write` 메소드를 아래 형식으로 활용한다.
```python
파일객체.write(추가내용)
```

* 생성된 파일에 내용추가하기가 종료되었으면 해당 파일객체를 닫아야 한다.
    그렇지 않으면 다른 내용이 임의로 추가될 수 있다.
```python
파일객체.close()
```

### 예제

현재 디렉토리의 하위 디렉토리인 `data`에 `words_no_vowels.txt` 라는 파일을 생성한 후에
`words.txt` 파일에 포함된 단어 중에서 모음을 전혀 포함하지 않는 단어들만 저장하고자 한다.

먼저, 문자열에 모음이 사용되었는지 여부를 검사해야 한다.
이를 위해 아래 기능을 갖는 `avoids` 함수를 구현하여 이용한다.
* 두 개의 문자열 인자를 입력받는다.
* 첫째 인자로 입력된 문자열에 둘째 인자로 입력된 문자열에 포함된 어떤 문자도 
    포함되지 않았을 경우 `True`를 리턴한다.

In [9]:
def avoids(word, forbidden):
    for letter in word:
        if letter in forbidden:
            return False
    return True

이제 `avoids` 함수를 이용하여 `words.txt` 파일에 포함된 단어들 중에서 
모음을 포함하지 않는 단어들만 `words_no_vowels.txt` 파일에 저장한다.

**힌트:**
* `open` 함수의 리턴값인 파일 객체의 `write` 메소드를 활용한다.

In [10]:
# words.txt 파일을 읽기 전용으로 열기
fin = open('data/words.txt')

# words_no_vowels.txt 파일 생성 (쓰기 기능 포함)
fin2 = open('data/words_no_vowels.txt', 'w')

# words.txt에 포함된 각 단어들 검사
for line in fin:
    if avoids(line, 'aeiou'):   # 모음 포함 여부 판단
        fin2.write(line)
    else:
        continue

# 파일 내용 추가가 완료되면 닫아 주어야 한다.
fin2.close()

모음을 포함하지 않은 단어들의 개수를 알아내기 위해 아래와 같이 코드를 약간 수정할 수 있다.

In [11]:
fin = open('data/words.txt')
fin2 = open('data/words_no_vowels.txt', 'w')

# 모음 없는 단어 개수 세기
count = 0
for line in fin:
    if avoids(line, 'aeiou'):
        fin2.write(line)
        count += 1
    else:
        continue

print("모음을 포함하지 않는 단어의 개수:", count)
fin2.close()

모음을 포함하지 않는 단어의 개수: 107


## 기존 파일에 내용 추가하기

기존에 존재하는 파일에 내용을 추가하고자 할 때는 추가하기 모드(a-모드)로 파일을 열어야 한다.

In [12]:
fin3 = open('data/words_no_vowels.txt', 'a')
fin3.write("한줄 추가하기\n")
fin3.write("한줄 더 추가하기\n")
fin3.close()

## 파일명과 경로

파일들은 디렉터리(폴더”라고도 부름) 안에 저장된다. 
또한 실행중인 모든 프로그램은 **현재 작업 디렉토리**를 가지며 경우에 따라
현재 작업 디렉터리가 기본 옵션으로 사용된다. 

예제:
* 파일을 다루어야 할 때 현재 작업 디렉토리를 기준으로 파일을 찾는다. 

### 디렉토리 다루기

현재 작업 디렉토리의 위치에 대한 정보를 확인하거나 변경하고자 한다면 `os` 모듈에서 제공하는 다양한 함수들을 활용한다. 

* `os`는 운영체제(operating system)의 줄임말임.

예를 들어, `getcwd`는 현재 작업 디렉터리의 이름을 문자열로 리턴한다.

* `cwd`는 현재 작업 디렉토리(current working directory)의 줄임말임.

In [13]:
import os
cwd = os.getcwd()
print(cwd)

/Users/gslee/Documents/GitHub/lectures/bpp/notes


#### 절대경로와 상대경로

`cwd`처럼 파일이 저장된 디렉토리의 위치를 알려주는 정보를 **경로(path)**라고 부른다. 

경로를 설정하는 기준이 두 가지 있다.

* 상대경로: 현재 작업 디렉토리를 기준으로 파일과 디렉토리의 위치 결정
    * 예제: 앞서 사용한 `data/words.txt`는 현재 작업토리를 기준으로 하여 정해진
        상대경로이다. 즉, 현재 작업 디렉토리에 포함된 `data`라는 
        디렉토리 안에 있는 `words.txt`를 가리킨다.
    * 점(`.`)은 현재 작업 디렉토리를 가리킨다.
    * 점 두개(`..`)의 현재 작업 디렉토리의 한 단계 상위 디렉토리를 가리킨다.
    <br><br>
* 절대경로: 사용하는 운영체제 파일 시스템 상에서 최상단 디렉토리를 
    기준으로 파일과 디렉토리의 위치 결정
    * 예제: `getcwd` 함수의 리턴값은 상대경로이다.
        * 윈도우의 경우: `C:\Users\nega\Documents\GitHub\bpp\notes`
        * 맥 또는 리눅스 경우: `/Users/gslee/Documents/GitHub/bpp/notes`

**주의:** 윈도우 운영체제에서 역슬래시('\')는 원화기호('&#8361;')로 표시됨.

#### 경로 확인하기

* `os.path.abspath`: 특정 파일의 절대경로를 찾기 위해 사용

In [14]:
os.path.abspath('data/words.txt')

'/Users/gslee/Documents/GitHub/lectures/bpp/notes/data/words.txt'

* `os.path.exists`: 특정 파일 또는 디렉토리의 존재여부 확인
    * 절대경로 또는 상대경로 이용

In [15]:
os.path.exists('words.txt')

False

In [18]:
os.path.exists('data/words.txt')

True

In [19]:
os.path.exists('/Users/gslee/Documents/GitHub/bpp/notes/data/words.txt')

False

* `os.path.isdir`: 디렉토리 존재 확인
    * 절대경로 또는 상대경로 이용

In [20]:
os.path.isdir('music')

False

In [21]:
os.path.isdir('data')

True

In [22]:
os.path.isdir('/Users/gslee/Documents/GitHub/bpp/notes/data')

False

* `os.path.isfile`: 파일 존재 확인

In [23]:
os.path.isfile('data/words.txt')

True

In [24]:
os.path.isfile('/Users/gslee/Documents/GitHub/bpp/notes/data/words.txt')

False

* `os.listdir`: 지정된 디렉토리에 포함된 파일 및 하위 디렉토리의 리스트를 리턴함

In [25]:
os.listdir(cwd)

['.DS_Store',
 '03-ThinkPython-Functions.ipynb',
 'images',
 '02-ThinkPython-Strings.ipynb',
 '00-Introduction.ipynb',
 '02-HFProgramming-Textual-Data.ipynb',
 '05-hash_database.ipynb',
 '04-ThinkPython-Files.ipynb',
 '04-HFProgramming-Data_in_Files_and_Arrays.ipynb',
 '01-ThinkPython-Variables_Expressions_Statements.ipynb',
 '.ipynb_checkpoints',
 '03-HFProgamming-Functions.ipynb',
 'data',
 'output.txt',
 '04-collection-data.ipynb',
 '01-HFProgramming-Start-programming.ipynb']

이 함수들을 예시하기 위해, 다음 예는 디렉터리를 “탐색(walk)”하면서 모든 파일들의 이름을 인쇄하고, 모든 디렉터리들에 대해 재귀적으로 자신을 호출합니다.

* `os.path.join`: 디렉토리 경로와 파일 이름을 받아서 온전한 경로로 결합한다.

In [26]:
def walk(dirname):
    for name in os.listdir(dirname):
        path = os.path.join(dirname, name)

        if os.path.isfile(path):
            print(path)
        else:
            walk(path)

현재 작업 디렉토리에 포함된 파일이 하위 디렉토리 전체 내용은 다음과 같다.

In [37]:
walk('.')

./03-ThinkPython-Functions.ipynb
./images/fun_call.png
./images/fun_name.png
./images/how-to-think.jpg
./images/thinkpython001.png
./images/metacognition.jpg
./images/thinkpython002.png
./images/pythontutor01.png
./images/words.png
./images/beans01.png
./images/beans03.png
./images/pythontutor02.png
./images/pythontutor03.png
./images/beans02.png
./images/fun_print.png
./images/pythontutor06.png
./images/pythontutor04.png
./images/pythontutor05.png
./images/local_var06.png
./images/local_var07.png
./images/while.jpg
./images/local_var05.png
./images/if-else.jpg
./images/local_var04.png
./images/interpreter.jpg
./images/compiler.png
./images/local_var01.png
./images/coffee-beans05.jpg
./images/local_var03.png
./images/fun_pure.png
./images/tiobe.png
./images/local_var02.png
./images/coffee-beans04.jpg
./02-ThinkPython-Strings.ipynb
./00-Introduction.ipynb
./02-HFProgramming-Textual-Data.ipynb
./05-hash_database.ipynb
./04-ThinkPython-Files.ipynb
./04-HFProgramming-Data_in_Files_and_Arra

### 예제

`os` 모듈에 `walk`라는 함수가 이미 정의되어 있으며, 앞서 정의된 `walk` 함수보다
많은 정보를 제공한다.

예를 들어, 아래 함수 `walk2`는 `walk`와 동일한 일을 한다.
대신에 `os.walk` 함수를 활용하였다.

In [49]:
def walk2(dirname):
    for root, dirs, files in os.walk(dirname):
        for filename in files:
            print(os.path.join(root, filename))

In [50]:
walk2('.')

./.DS_Store
./03-ThinkPython-Functions.ipynb
./02-ThinkPython-Strings.ipynb
./00-Introduction.ipynb
./02-HFProgramming-Textual-Data.ipynb
./05-hash_database.ipynb
./04-ThinkPython-Files.ipynb
./04-HFProgramming-Data_in_Files_and_Arrays.ipynb
./01-ThinkPython-Variables_Expressions_Statements.ipynb
./03-HFProgamming-Functions.ipynb
./output.txt
./04-collection-data.ipynb
./01-HFProgramming-Start-programming.ipynb
./images/.DS_Store
./images/fun_call.png
./images/fun_name.png
./images/how-to-think.jpg
./images/thinkpython001.png
./images/metacognition.jpg
./images/thinkpython002.png
./images/pythontutor01.png
./images/words.png
./images/beans01.png
./images/beans03.png
./images/pythontutor02.png
./images/pythontutor03.png
./images/beans02.png
./images/fun_print.png
./images/pythontutor06.png
./images/pythontutor04.png
./images/pythontutor05.png
./images/local_var06.png
./images/local_var07.png
./images/while.jpg
./images/local_var05.png
./images/if-else.jpg
./images/local_var04.png
./imag

## 예외 처리

파일을 읽거나 작성하려고 할 때 종종 오류가 발생한다. 

* 'FileNotFoundError': 존재하지 않은 파일을 읽으려 할 때 발생

In [52]:
fin = open('bad_file')

FileNotFoundError: [Errno 2] No such file or directory: 'bad_file'

* `PermissionError`: 접근 또는 수정 권한이 없는 파일을 다루고자 할 때 발생

In [53]:
fout = open('/etc/passwd', 'w')

PermissionError: [Errno 13] Permission denied: '/etc/passwd'

* `IsADirectoryError`: 디렉토리를 읽으려 할 때

In [55]:
fin = open('.')

IsADirectoryError: [Errno 21] Is a directory: '.'

이렇게 오류가 많이 발생할 수 있다는 점에 대해 대비하는 것이 필요하다.
예를 들어, `try ... except ...` 명령문을 이용할 수 있으며, 
`if ... else ...` 명령문과 유사하게 실행된다.

* `try` 구절을 먼저 실행한다.
* 문제가 없다면 except 구절을 건너뛴다. 
* 만약 오류가 발생하면, except 구절을 실행한다.

### 예제 
아래 코드는 존재하지 않은 파일을 열 때 오류가 발생할 것을 대비한 코드이다.

In [59]:
try:
    fin = open('bad_file')
    for line in fin:
        print(line)
    fin.close()
except:
    print("파일을 열고자 할 때 문제가 있습니다.")

파일을 열고자 할 때 문제가 있습니다.


### [연습 14.2.]

인자로 패턴(pattern) 문자열과 치환(replacement) 문자열과 두 개의 파일명을 인자로 받아들이는 함수 sed를 작성하세요; 첫 번째 파일을 읽어서 콘텐트를 두 번째 파일에 (필요하면 만드세요) 써야 합니다. 만약 패턴 문자열이 파일에 등장하면, 치환 문자열로 바꿔야 합니다.

만약 파일을 열거나, 읽거나, 쓰거나, 닫을 때 오류가 발생한다면, 예외를 잡아서 오류 메시지를 인쇄한 후 종료해야 합니다. 답: http://thinkpython.com/code/sed.py.

## 데이터베이스

데이터베이스(database)는 데이터를 저장하기 위해 조직화된 파일입니다. 대부분의 데이터베이스는 키를 값에 대응시킨다는 의미에서 딕셔너리처럼 조직화됩니다. 가장 큰 차이는 데이터베이스의 경우 디스크(또는 다른 영구적 저장소)에 있어서 프로그램 종료 후에도 지속한다는 점입니다.

anydbm 모듈은 데이터베이스 파일들을 만들고 갱신하는 인터페이스를 제공합니다. 예로, 이미지 파일의 캡션(caption)을 저장하는 데이터베이스를 만들겠습니다.

데이터베이스를 여는 것은 다른 파일들을 여는 것과 유사합니다:

>>> import anydbm
>>> db = anydbm.open('captions.db', 'c')
'c' 모드는 이미 존재하지 않을 경우 데이터베이스를 만들어야 한다는 뜻입니다. 결과는 (대부분의 연산에서) 딕셔너리처럼 사용할 수 있는 데이터베이스 객체입니다. 새 항목을 만들면, anydbm은 데이터베이스 파일을 갱신합니다.

>>> db['cleese.png'] = 'Photo of John Cleese.'
항목들 중 하나에 접근하면, anydbm은 파일을 읽습니다:

>>> print db['cleese.png']
Photo of John Cleese.
이미 존재하는 키에 새로 대입하면, anydbm은 예전 값을 대체합니다:

>>> db['cleese.png'] = 'Photo of John Cleese doing a silly walk.'
>>> print db['cleese.png']
Photo of John Cleese doing a silly walk.
많은 딕셔너리 메쏘드들, keys 나 items와 같은,도 데이터베이스 객체에 적용됩니다. for 문으로 순환하는 것도 마찬가지입니다.

for key in db:
    print key
다른 파일들처럼, 사용을 마치면 데이터베이스를 닫아야 합니다:

>>> db.close()
피클링
anydbm의 제약은 키와 값이 문자열이어야 한다는 것입니다. 만약 다른 형을 사용하려고 하면, 오류를 만나게 됩니다.

pickle 모듈이 도움을 줄 수 있습니다. 이 모듈은 거의 모든 종류의 객체를 데이터베이스에 저장하기 적합한 문자열로 변환하고, 문자열을 객체로 역 변환합니다.

pickle.dumps는 액체를 매개변수로 받아서 문자열 표현을 돌려줍니다(dumps 는 “dump string”의 줄임 말입니다):

>>> import pickle
>>> t = [1, 2, 3]
>>> pickle.dumps(t)
'(lp0\nI1\naI2\naI3\na.'
이 형식은 사람이 읽기에 적합하지 않습니다; pickle이 해석하기 용이하게 하기 위함입니다. pickle.loads(“load string”)는 객체를 재구성합니다:

>>> t1 = [1, 2, 3]
>>> s = pickle.dumps(t1)
>>> t2 = pickle.loads(s)
>>> print t2
[1, 2, 3]
새 객체가 예전 것과 같은 값을 갖고 있기는 하지만, (일반적으로) 같은 객체는 아닙니다:

>>> t1 == t2
True
>>> t1 is t2
False
다른 말로 하면, 피클링(pickling)한 후의 언피클링(unpickling)은 객체를 복사하는 것과 같은 효과입니다.

여러분은 문자열이 아닌 것들을 데이터베이스에 저장하기 위해 pickle을 사용할 수 있습니다. 사실, 이 조합은 아주 널리 사용되기 때문에 shelve라는 이름의 모듈에 캡슐화되었습니다.

[연습 14.3.]

연습 [anagrams]에 대한 제 답을 http://thinkpython.com/code/anagram_sets.py에서 다운로드 한다면, 글자들의 정렬된 문자열을 그 글자들로 철자가 구성된 단어들의 리스트로 대응하는 딕셔너리를 만드는 것을 보게 됩니다. 예를 들어, ’opst’ 는 리스트 로 대응됩니다.

anagram_sets 를 들여오고(import) 두 개의 새 함수를 제공하는 모듈을 작성하세요: store_anagrams 은 애너그램(anagram) 딕셔너리를 “쉘프(shelf)”에 저장해야 합니다; read_anagrams 은 단어를 찾아서 애너그램의 리스트를 돌려줘야 합니다. 답: http://thinkpython.com/code/anagram_db.py

파이프
대부분의 운영 체제는 명령 행 인터페이스(command-line interface)를 제공하는데, 쉘(shell)이라고 알려져 있기도 합니다. 쉘은 보통 파일 시스템을 찾아 다니고 애플리케이션을 시동시키는 명령들을 제공합니다. 예를 들어, 유닉스(Unix)에서 cd 로 디렉터리를 변경하고, ls로 디렉터리의 내용을 표시하고, (예를 들어) firefox 를 입력해서 웹 브라우저를 시작시킵니다.

쉘에서 시작시킬 수 있는 모든 프로그램은 파이프(pipe)를 사용해서 파이썬에서도 시작시킬 수 있습니다. 파이프는 실행중인 프로그램을 나타내는 객체입니다.

예를 들어, 유닉스 명령 ls -l은 보통 현재 디렉터리의 내용을 (긴 형식으로) 표시합니다. 여러분은 os.popen [1] 으로 ls를 시작시킬 수 있습니다:

>>> cmd = 'ls -l'
>>> fp = os.popen(cmd)
인자는 쉘 명령어를 포함하는 문자열입니다. 반환 값은 열린 파일과 똑같이 동작하는 객체입니다. 여러분은 ls 프로세스로부터의 출력을 readline으로 한번에 한 줄씩 읽거나 read로 전부 한 번에 읽을 수 있습니다:

>>> res = fp.read()
다 끝나면, 파일처럼 파이프를 닫아줍니다:

>>> stat = fp.close()
>>> print stat
None
반환 값은 ls 프로세스의 최종 상태입니다; None 은 정상적으로 (오류 없이) 종료했다는 뜻입니다.

예를 들어, 대부분의 유닉스 시스템들은 md5sum 이라는 명령을 제공하는데, 파일의 내용을 읽어서 “체크 섬(checksum)”을 계산합니다. MD5에 대한 내용은 http://en.wikipedia.org/wiki/Md5에서 읽을 수 있습니다. 이 명령은 두 파일의 내용이 같은 지를 검사하는 효율적인 방법을 제공합니다. 다른 내용이 같은 체크 섬을 줄 확률은 아주 작습니다(즉, 우주가 붕괴하기 전에 발생할 것 같지 않습니다).

여러분은 파이프로 파이썬에서 md5sum을 실행하고 이런 결과를 얻을 수 있습니다:

>>> filename = 'book.tex'
>>> cmd = 'md5sum ' + filename
>>> fp = os.popen(cmd)
>>> res = fp.read()
>>> stat = fp.close()
>>> print res
1e0033f0ed0656636de0d75144ba32e0  book.tex
>>> print stat
None
[연습 14.4.] [checksum]

MP3 파일들의 커다란 컬렉션에서, 같은 노래가 다른 디렉터리나 다른 파일명으로 저장되어서 여러 개가 있을 수 있습니다. 이 연습의 목표는 중복을 찾는 것입니다.

[1]	디렉터리와 하위 디렉터리들을 재귀적으로 검색해서 주어진 확장 자(.mp3와 같은)를 가진 모든 파일들의 완전한 경로들의 리스트를 돌려주는 프로그램을 작성하세요. 힌트: os.path는 파일과 경로의 이름을 조작하는데 유용한 함수들을 여러 개 제공합니다.
[2]	중복을 감지하기 위해서, md5sum을 사용해서 각 파일들의 “체크 섬(checksum)’’을 계산할 수 있습니다. 만약 두 파일이 같은 체크 섬을 갖는다면, 아마도 그들은 내용이 같을 것입니다.
[3]	이중으로 검사하기 위해, 유닉스 명령어 diff를 사용할 수 있습니다.
답: http://thinkpython.com/code/find_duplicates.py.

모듈 작성하기
[modules]

파이썬 코드를 포함하는 모든 파일은 모듈로 들여오기 할 수 있습니다. 예를 들어, 다음과 같은 코드가 들어있는 wc.py 라는 파일이 있다고 합시다:

def linecount(filename):
    count = 0
    for line in open(filename):
        count += 1
    return count

print linecount('wc.py')
이 프로그램을 실행하면, 자지 자신을 읽어서 파일에 있는 줄의 개수, 7입니다,를 인쇄합니다. 여러분인 이런 식으로 들여오기 할 수도 있습니다:

>>> import wc
7
이제 여러분은 모듈 객체 wc를 얻게 됩니다:

>>> print wc
<module 'wc' from 'wc.py'>
이 모듈은 linecount 라는 함수를 제공합니다:

>>> wc.linecount('wc.py')
7
이 것이 파이썬에서 모듈을 작성하는 방법입니다.

이 예에서 단 한가지 문제는 모듈을 들여오기 할 때 그 끝에 있는 테스트 코드를 실행한다는 것입니다. 보통 모듈을 들여오기 할 때, 새 함수를 정의하기는 하지만 그 것들을 실행하지는 않습니다.

모듈로 들여오기 될 프로그램들은 종종 다음과 같은 관용 표현을 사용합니다:

if __name__ == '__main__':
    print linecount('wc.py')
__name__ 은 프로그램이 시작할 때 설정되는 내장 변수입니다. 만약 프로그램이 스크립트로 실행되고 있다면, __name__ 은 __main__ 이라는 값을 갖습니다; 그 경우 테스트 코드가 실행됩니다. 그렇지 않으면, 모듈이 들여오기 되는 중이면, 테스트 코드는 건너뜁니다.

[연습 14.5.]

이 예를 wc.py 라는 파일에 입력하고 스크립트로 실행하세요. 그런 다음 파이썬 인터프리터를 실행하고 import wc 하세요. 모듈이 들여오기 중일 때 __name__ 의 값은 뭔가요?

경고: 이미 들여오기 된 모듈을 들여오기 하면, 파이썬은 아무 일도 하지 않습니다. 파일이 변경되었다 하더라도, 파일을 다시 읽지 않습니다.

모듈을 다시 읽어오기를 원한다면, 내장 함수 reload를 사용할 수 있습니다만, 까다로울 수 있어서, 할 수 있는 가장 안전한 것은 인터프리터를 다시 시작시킨 후에 모듈을 다시 들여오기 하는 것입니다.

디버깅
파일을 읽고 쓸 때, 공백문자들과 관련된 문제에 부딪힐 수 있습니다. 이 오류들은 스페이스, 탭, 개행문자들이 보통 보이지 않기 때문에 디버깅하기 어려울 수 있습니다:

>>> s = '1 2\t 3\n 4'
>>> print s
1 2  3
 4
내장 함수 repr이 도움이 될 수 있습니다. 임의의 객체를 인자로 받아 객체의 문자열 표현을 돌려줍니다. 문자열의 경우, 공백 문자들을 역 슬래시 시퀀스로 표현합니다:

>>> print repr(s)
'1 2\t 3\n 4'
이 것은 디버깅에 도움이 될 수 있습니다.

여러분이 만날 또 다른 문제는 서로 다른 시스템들이 줄의 끝을 표현하는데 다른 문자들을 사용한다는 것입니다. 어떤 시스템은 \n 로 표현되는 개행문자(newline)을 사용합니다. 어떤 시스템은 \r 로 표현되는 리턴(return) 문자를 사용합니다. 또 어떤 시스템은 둘 다 사용합니다. 만약 여러분이 다른 시스템으로 옮긴다면, 이런 비 일관성은 문제를 일으킬 수 있습니다.

대부분의 시스템에, 한 형식을 다른 형식으로 바꿔주는 애플리케이션이 있습니다. 여러분은 http://en.wikipedia.org/wiki/Newline에서 그 것들을 찾을 (또는 이 이슈에 대해 더 읽을) 수 있습니다. 또는, 물론, 여러분은 여러분 스스로 하나 만들 수 있습니다.

용어
지속적 persistent:
무기한 실행하고 적어도 데이터의 일부를 영구적인 기억장소에 보관하는 프로그램을 가리키는 표현.
형식 연산자 format operator:
형식 문자열과 튜플을 받아서 형식 문자열에 의해 지정된 방식으로 형식화된 튜플의 요소들을 포함하는 문자열을 만드는 연산자 %.
형식 문자열 format string:
형식 연산자와 함께 사용되는 문자열로 형식 시퀀스들을 포함한다.
형식 시퀀스 format sequence:
형식 문자열에 있는 문자들의 시퀀스, %d과 같은,로 값이 어떻게 형식화되어야 하는지 지정한다.
텍스트 파일 text file:
하드 드라이브와 같은 영구 기억장치에 저장된 문자들의 시퀀스.
디렉터리 directory:
파일들의 이름 붙은 컬렉션으로 폴더(folder)라고도 부른다.
경로 path:
파일을 지정하는 문자열.
상태 경로 relative path:
현재 디렉터리에서 시작하는 경로.
절대 경로 absolute path:
파일 시스템(file system)의 최 상단 디렉터리에서 시작하는 경로.
잡기 catch:
try 와 except 문을 사용해서, 예외가 프로그램을 종료시키는 것을 막는 것.
데이터베이스 database:
값에 대응되는 키를 갖는 딕셔너리처럼 조직화된 내용을 갖는 파일.
연습
[연습 14.6.] [urllib]

urllib 모듈은 URL을 다루고 웹에서 정보를 다운로드 하는 메쏘드들을 제공합니다. 다음 예는 thinkpython.com 에서 비밀 메시지를 다운로드하고 인쇄합니다:

import urllib

conn = urllib.urlopen('http://thinkpython.com/secret.html')
for line in conn:
    print line.strip()
이 코드를 실행하고 보이는 지시를 따르세요. 답: http://thinkpython.com/code/zip_code.py.

## 연습문제

1. `words.txt` 파일에 저장된 단어들 중에서 줄바꾸기 문자를 제외한 문자열의 길이가
    20 이상인 단어들만 출력하는 프로그램을 작성하라.
    <br><br>    
1. 1. 아래 기능을 수행하는 함수 `has_no_e` 라는 함수를 구현하라.
        * 하나의 문자열을 인자로 입력받는다.
        * 인자로 입력된 영어 문자열에 알파벳 `e`가 포함되지 않았을 경우 `True`를 리턴한다.
            <br><br>
   1. `words.txt` 파일에 포함된 단어들 중에서
    알파벳 `e`를 포함하지 않은 단어만 출력하는 프로그램을 작성하라.
    <br><br>    
1. 1. 본문에서 구현한 `avoids` 함수를 이용하여 다음 기능을 수행하는 프로그램을 구현하라.
        * 사용자로부터 `input` 함수를 이용하여 영어 알파벳 문자열을 입력받는다.
        * `words.txt` 파일에 포함된 단어들 중에서 사용자가 입력한 문자열에 포함된 어떠한 
            알파벳도 사용하지 않는 문자열의 개수를 출력한다.
            <br><br>
   1. 앞 문제에서 구현한 프로그램이 가장 적은 수의 단어를 배척하도록 하는 문자열을 찾아라. 
       단, 길이가 5이어야 한다.
   <br><br>
1. 1. 아래 기능을 수행하는 함수 `uses_only` 라는 함수를 구현하라.
    * 두 개의 문자열 인자를 입력받는다.
    * 첫째 인자로 입력된 문자열이 둘째 인자로 입력된 문자열에 포함된 문자만으로 
        구성되었을 경우 `True`를 리턴한다.
    <br><br>    
   1. `words.txt` 파일에서 `acefhlo`에 포함된
       문자들만 사용하는 단어를 출력하는 프로그램을 구현하라.
    <br><br>       
1. 1. 아래 기능을 수행하는 함수 `uses_all` 라는 함수를 구현하라.
    * 두 개의 문자열 인자를 입력받는다.
    * 첫째 인자로 입력된 문자열이 둘째 인자로 입력된 문자열에 포함된 모든 문자가 
        최소 한 번 이상 포함되었을 경우 `True`를 리턴한다.
    <br><br>
   1. `words.txt` 파일에 포함된 단어에서 `aeiou`에 포함된 모음을 모두 사용한 단어의 개수는?
    <br><br>
   1. `words.txt` 파일에 포함된 단어에서 `aeiouy`에 포함된 알파벳을 모두 사용한 단어의 개수는?   