### Python으로 텍스트 파일 읽고 쓰기
- 텍스트 파일을 하나 읽은 후 다른 이름으로 저장한다.
- 텍스트 파일을 하나 읽고 수정한 후 다른 이름으로 저장한다.
- 텍스트 파일 여러 개를 읽고 수정한 후 다른 이름으로 저장한다.

- 대상 텍스트 파일: Moby Dick (by Melville) (https://www.gutenberg.org/files/2701/2701-0.txt 링크에서 다운로드)

#### 텍스트 파일 1개 읽기
읽을 파일이 저장된 **위치_경로**와 **파일 이름**을 먼저 확인한다.

In [None]:
filepath = '../data/moby_dick_melville.txt'

f = open(filepath, mode='r')
doc = f.readlines()
f.close()

len(doc)

#### 읽은 파일의 내용 들여다보기
- 텍스트 파일을 읽은 후 파일의 내용을 살펴보려면 **print(변수)** 함수를 사용할 수 있다. 그러나 읽은 텍스트가 총 2만 라인 이상이므로 출력 범위를 넘어선다. 이 때는 파일의 일부분(첫 부분 혹은 끝부분)만 출력할 수 있다. __변수[시작점:끝점]__과 같이 인덱스를 사용하여 슬라이싱(slicing)을 한다(슬라이싱: 저장된 문서의 일부분만 잘라낸다는 의미).

In [None]:
doc[:10]

In [None]:
doc[1000:1010]

#### 다른 방법으로 텍스트 파일을 읽기

In [2]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc = f.readlines()

In [None]:
len(doc)

In [None]:
doc[:10]

##### 파일의 처음 10개 라인만 출력하고 싶을 때는 것은 아래와 같이 **for...** 구문을 이용하여 구현할 수 있다.

In [None]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, 'r') as f:
    doc = f.readlines()
    for line in doc[:10]:
        print(line)

#### 읽은 텍스트에서 불필요한 기호나 공백을 제거하기
- 여기서는 각 라인 끝의 \n 기호(엔터 즉 라인의 끝을 표시)와 첫 번째 라인의 \ufeff 문자(특수문자)를 제거한다.

In [None]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc = f.readlines()

print(doc[:10])

In [None]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    new_lines = []
    for line in f:
        new_line = line.strip()
        new_line = new_line.replace('\ufeff', '')
        new_lines.append(new_line)

new_lines[:10]

#### read() *vs.* readline() *vs.* readlines() 함수 차이
- **read()**: 텍스트 파일 전체를 하나로 읽어 하나의 문자열(string)으로 저장한다.. 이 때 각 라인 끝에는 '\n'이 추가되어 라인 구분자 역할을 한다.
- **readline()**: 텍스트 파일을 한 줄만 읽어 문자열로 저장한다.
- **readlines()**: 텍스트 파일의 전체 라인을 읽어 문자열로 이루어진 리스트(list)로 저장한다. 

In [None]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc_from_read = f.read()

print(len(doc_from_read))
print(doc_from_read[:500])

In [None]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc_from_readline = f.readline()

print(len(doc_from_readline))
print(doc_from_readline)

In [None]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc_from_readlines = f.readlines()

print(len(doc_from_readlines))
print(doc_from_readlines[:10])

따라서 파일을 라인 구분 필요없이 통으로 읽을 때에는 **read()** 함수를, 라인별로 읽을 필요가 있을 때에는 **readlines()** 함수를 이용한다. 

#### 읽은 파일을 파일 이름을 바꾸어 그대로 저장하기

In [3]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc = f.readlines()

filepath_1 = 'data/moby_dick_melville_duplicate.txt'

f = open(filepath_1, mode='w')
f.writelines(doc)
f.close()

다음과 같이 실행할 수도 있다. 파일을 읽을 때와 같으며 open() 함수의 작업 모드만 'r'에서 'w'로 바꾸어주면 된다.

In [4]:
filepath_1 = 'data/moby_dick_melville_1.txt'

with open(filepath_1, 'w') as f:
    f.writelines(doc)

#### 텍스트에서 본문(Chapter 1부터 Epilogue까지)만 새로운 텍스트 파일로 저장하기
- 파일을 에디터로 열어서 확인해 보면 본문의 Chapter 1(Loomings)의 시작점이 845번째 라인이고 끝점이 21960번째 라인임을 알 수 있다. 
- 845번째 라인부터 21960번째 라인까지 슬라이싱하는 방법은 doc[844:21959]와 같다. python에서 인덱스의 시작점은 0이다. 따라서 845번째 라인은 doc[844]이고 21960번째 라인은 doc[21959]이다. 

In [9]:
filepath = 'data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc = f.readlines()

doc_reduced = doc[844:21959]

filepath_2 = 'data/moby_dick_melville_only_body.txt'

with open(filepath_2, 'w') as f:
    f.writelines(doc_reduced)

#### 파일을 두 개 이상 읽는 방법
- 파일들이 위치한 디렉토리(폴더)를 지정하고
- 그 디렉토리에 있는 파일들의 목록을 읽은 후
- 목록에 있는 파일들을 **read()**나 **readlines()**로 읽어서 변수에 저장한다.

In [None]:
import os

target_dir = 'data'
target_files = os.listdir(target_dir)

print(target_files)

In [None]:
all_docs = []
for file in target_files:
    with open(os.path.join(target_dir, file), 'r') as f:
        doc = f.read()
        all_docs.append(doc)

len(all_docs)

#### 텍스트에서 챕터 제목 라인만 출력하기
- 챕터 제목의 형식을 먼저 확인하고 이 형식에 맞게 챕터 제목을 만든다.
- 이 챕터 제목을 읽은 문서에서 찾는다.

In [None]:
filepath = '../data/moby_dick_melville.txt'

with open(filepath, mode='r') as f:
    doc = f.readlines()

doc = doc[844:21959]

chapter_name = 'CHAPTER'

chapter_titles = []
for line in doc:
    if chapter_name in line:
        chapter_titles.append(line)

print(chapter_titles)

#### 챕터 제목과 챕터 제목이 들어간 라인 번호를 같이 저장하기

In [None]:
chapter_name = 'CHAPTER'

chapter_line_num = 0
chapter_titles = []
for line in doc:
    chapter_line_num += 1

    if chapter_name in line:        
        chapter_titles.append((chapter_line_num, line.strip()))

print(chapter_titles)

#### 같은 정보를 정규식(regular expressions)을 이용하여 추출할 수도 있다. 정규식에 대한 자세한 내용은 tutorial_02에서 다룬다.

In [5]:
import re

chapter_name = '^CHAPTER \d+'

chapter_titles = []
for line in doc:
    matched = re.search(chapter_name, line)
    if matched is None:
        next
    else:
        match_str = matched.string.strip()
        chapter_titles.append(match_str)

In [None]:
print(chapter_titles)

#### 11. 챕터 제목과 챕터 제목이 위치한 라인 정보를 텍스트 파일로 내보내기

In [12]:
with open('../data/moby_dick_linenum_title.txt', 'w') as f:
  for linenum, title in chapter_titles:
      line_and_title = str(linenum) + "\t" + title + '\n'
      f.write(line_and_title)

#### 12. 이미 저장되어 있는 파일에 새로운 내용을 이어서 저장하기

In [147]:
filepath = '../data/write_append_test.txt'
sent = 'Moby-Dick; or, The Whale is an 1851 novel by American writer Herman Melville.'

with open(filepath, 'w') as f:
  f.write(sent)

sents_added = \
"""\nThe book is the sailor Ishmael's narrative of the obsessive quest of Ahab,\
captain of the whaling ship Pequod,\
for revenge against Moby Dick, the giant white sperm whale that on the ship's previous voyage bit off Ahab's leg at the knee.\n\
A contribution to the literature of the American Renaissance, Moby-Dick was published to mixed reviews, was a commercial failure,\
and was out of print at the time of the author's death in 1891."""

with open(filepath, 'a') as f:
    f.write(sents_added)

#### Tip
*for...* 구문 대신 아래와 같이 보다 간단한 표현식으로 챕터 제목을 추출하는 방법도 있다.

In [None]:
chapter_name = '^CHAPTER \d+'

chapter_titles = [line.strip() for line in doc if re.search(chapter_name, line)]

print(chapter_titles)

### [종합] data 폴더에 저장되어 있는 파일들 중 frankenstein_shelley.txt, dracula_Stoker.txt, moby_dick_melville.txt 등 3개의 파일을 읽어, 챕터 제목과 챕터 제목이 위치한 라인 번호를 추출한 후, 결과를 각각의 파일로 저장하기

In [120]:
import os

target_files = ['frankenstein_shelley.txt', 'dracula_Stoker.txt', 'moby_dick_melville.txt']
target_dir = '../data'
all_filenames = os.listdir(target_dir)
# print(all_filenames)


# *all_filenames*에 저장된 파일들 중 *target_files*의 이름과 일치하는 파일들만 고른 후 이 파일들의 경로 정보를 얻는다.
target_files_path = []
for filename in all_filenames:
    if filename in target_files:
        file_path = os.path.join(target_dir, filename)
        target_files_path.append(file_path)

# print(target_files_path)


chapter_name = 'CHAPTER'
all_books_chapter_titles = []
for file_path in target_files_path:
    with open(file_path, 'r') as f:
        doc = f.readlines()
        chapter_line_num = 0
        chapter_titles = []
        for line in doc:
            chapter_line_num += 1
            if chapter_name in line:        
                chapter_titles.append((chapter_line_num, line.strip()))
    all_books_chapter_titles.append(chapter_titles)


write_files_path = []
for filename in target_files:
    new_filename = 'titles_' + filename
    new_filepath = os.path.join(target_dir, new_filename)
    write_files_path.append(new_filepath)


for chapter_title, write_path in zip(all_books_chapter_titles, write_files_path):
    with open(write_path, 'w') as f:
        for linenum, title in chapter_title:
            line_and_title = str(linenum) + "\t" + title + '\n'
            f.write(line_and_title)

*zip()* 함수의 작동 원리는 아래와 같다.

In [None]:
x = zip([1, 2, 3,], ['a', 'b', 'c'])
i = 0
while i <= 2:
    print(next(x))
    i += 1