# (실습) 파일

**참고 사항**

먼저
[파일](https://codingalzi.github.io/pybook/files.html)의 내용과
[(필수 예제) 파일](https://colab.research.google.com/github/codingalzi/pybook/blob/master/examples/examples-files.ipynb)의 예제들을 학습하세요.

**주의 사항**

* 기존에 작성된 코드 셀과 텍스트 셀은 수정하지 않는다.
* 필요한 경우 코드 셀 또는 텍스트 셀을 추가해서 사용한다.
* 실습 파일을 제출할 때 구글 드라이브의 링크를 이용하여 누구나 공유할 수 있도록 설정한다.

**기본 설정**

파일 저장 경로와 파일 서버 주소를 지정에 필요한 기본 설정을 지정한다.

In [1]:
from pathlib import Path
from urllib.request import urlretrieve

데이터가 저장된 텍스트 파일 서버 주소는 다음과 같다.

In [2]:
base_url = "https://raw.githubusercontent.com/codingalzi/pybook/master/jupyter-book/data/"

현재 작업 디렉토리의 `data` 하위 디렉토리에 파일을 다운로드해서 저장할 준비를 한다.

In [3]:
# 저장위치 지정과 생성
data_path = Path() / "data"
data_path.mkdir(parents=True, exist_ok=True)

`myWget()` 함수는 파일 서버에서 지정된 파일을 동일한 파일명으로 지정된 디렉토리에 저장한다.

In [4]:
def myWget(filePath):
    # 다운로드 대상 파일 경로
    file_url = base_url + filePath

    # 저장 경로와 파일명
    target_path = data_path / filePath

    return urlretrieve(file_url, target_path)

## 문제 1

두 사람의 짧은 대화가 다음과 같다.

In [5]:
dialogues = "남자 - 이게 맞나?\n여자 - 글쎄... 모르겠는데. 어떻게 하지?\n(잠시 쉰다.)\n남자 - 아! 생각해볼께."

**질문 1**

`dialogues` 변수에 할당된 문자열을 `data` 하위폴더에 `dialogues.txt` 파일로 저장한 다음에
저장 내용을 확인하여라.

답:

`data_path` 경로를 함께 이용하여 `./data/dialogues.txt` 파일로 저장한다.

In [6]:
with open(data_path / 'dialogues.txt', 'w') as file:
    file.write(dialogues)

내용을 확인하면 다음과 같다.

In [7]:
with open(data_path / 'dialogues.txt', 'r') as file:
    print(file.read())

남자 - 이게 맞나?
여자 - 글쎄... 모르겠는데. 어떻게 하지?
(잠시 쉰다.)
남자 - 아! 생각해볼께.


**질문 2**

두 사람의 대화를 아래 형식으로 변환해서 출력하는 코드를 작성하여라.

```
남자: 이게 맞나?
여자: 글쎄... 모르겠는데. 어떻게 하지?
남자: 아! 생각해볼께.
```

힌트: `lstrip()`, `rstrip()` 문자열 메서드 활용

답:

다음 내용을 처리해야 한다.

- 하이픈 기호 `-`를 콜론 기호 `:`로 대체. `lstrip()`, `rstrip()` 메서드를 적절하게 활용.
- 대사가 아닌 내용 무시(삭제): 하이픈 기준으로 쪼갤 수 없을 때.

`split()` 문자열 메서가 두 개의 인자와 함게 호출될 때 사용되는 둘째 인자는 
첫째 인자를 기준으로 몇 번 쪼갤지를 결정한다.
아래 코드에서는 하이픈 기준으로 한 번만 쪼갠다.
이유는 대사에도 하이픈이 사용될 수 있기 때문이다.

In [8]:
with open(data_path / 'dialogues.txt') as f:
    for line in f:
        try:
            role, words = line.split('-',1)
            role = role.rstrip()
            words = words.lstrip()
            print(role+': '+words, end='')
        except:
            pass

남자: 이게 맞나?
여자: 글쎄... 모르겠는데. 어떻게 하지?
남자: 아! 생각해볼께.

**질문 3**

남자와 여자의 대사를 각각 `dialogues_man.txt`, `dialogue_woman.txt` 파일로 
`data` 하위폴더에 저장하는 코드를 작성한 다음 각각의 파일 내용을 확인하여라.

답:

`with ... as ...` 형식으로 여러 개의 파일을 동시에 열 수 있다.

```python
with open(fileA, ...) as A, open(fileB, ...) as B, open(fileC, ...) as C:
    ...
```

파이썬 명령문은 한 줄에 하나씩 작성하는 게 원칙이지만 
여러 개의 파일을 동시에 여는 명령문이 너무 긴 경우에는 '&#8361;' (또는 '&#92;') 기호를 줄 끝에 추가한 다음에
줄바꿈을 할 수 있다.

In [9]:
with open(data_path / 'dialogues.txt') as data, \
    open(data_path / 'dialogues_man.txt','w') as man, \
    open(data_path / 'dialogues_woman.txt','w') as woman:

    for line in data:
        try:
            role, words = line.split('-', 1)
            role = role.rstrip()
            words = words.lstrip()
            if role == '남자':
                man.write(words)
            if role == '여자':
                woman.write(words)
        except:
            pass

- 남자 대사 확인

In [10]:
with open(data_path / "dialogues_man.txt") as man:
    print(man.read())

이게 맞나?
아! 생각해볼께.


- 여자 대사 확인

In [11]:
with open(data_path / "dialogues_woman.txt") as woman:
    print(woman.read())

글쎄... 모르겠는데. 어떻게 하지?



## 문제 2

지정된 `base_url`에서 아래 파일을 다운로드한다.

In [12]:
file_name = 'en-ko.csv'

myWget(file_name)

(PosixPath('data/en-ko.csv'), <http.client.HTTPMessage at 0x7fa682f9e510>)

다운로드한 파일의 내용은 다음과 같다.

```
# 단어,뜻
a,하나의
abandon,버리다
able,할 수 있는
aboard,배로
...
you,당신
young,젊은
zebra,얼룩말
zone,대
zoo,동물원
```

**질문 1**

단어장으로 사용할 수 있는 `words_dict` 변수를 선언하여라.
즉 키(key)는 영단어, 값(value)는 뜻으로 구성된 사전 자료형을 가리켜야 한다.

답:

다음 사항에 유의한다.

- 첫째 줄 무시: `readlines()` 메서드가 반환한 리스트의 0번 인덱스 항목을 무시한다.
- 쉼표를 기준으로 한 번 쪼개서 영단어와 뜻으로 구분한다.

In [13]:
with open(data_path / 'en-ko.csv') as enko:
    words_list = enko.readlines()
    
    words_dict = dict()
    for i in range(1, len(words_list)):
        eng, kor = words_list[i].split(',', 1)
        eng = eng.strip()
        kor = kor.strip()
        
        words_dict[eng] = kor

**질문 2**

단언장에 포함된 단어가 총 3,000개라는 사실을 확인하여라.

답:

In [14]:
len(words_dict)

3000

**질문 3**

`abandon`, `zoo` 단어의 뜻을 확인한다.

답:

In [15]:
words_dict['abandon']

'버리다'

In [16]:
words_dict['zoo']

'동물원'