# (필수 예제) 파일

**참고 사항**

1. 먼저 [파일](https://codingalzi.github.io/pybook/files.html) 내용을 학습하세요.

**기본 설정**

파일 저장 경로와 파일 서버 주소를 지정에 필요한 기본 설정을 지정한다.

In [1]:
from pathlib import Path
from urllib.request import urlretrieve

데이터가 저장된 텍스트 파일 서버 주소는 다음과 같다.

In [2]:
base_url = "https://raw.githubusercontent.com/codingalzi/pybook/master/jupyter-book/data/"

현재 작업 디렉토리의 `data` 하위 디렉토리에 파일을 다운로드해서 저장할 준비를 한다.

In [3]:
# 저장위치 지정과 생성
data_path = Path() / "data"
data_path.mkdir(parents=True, exist_ok=True)

`myWget()` 함수는 파일 서버에서 지정된 파일을 동일한 파일명으로 지정된 디렉토리에 저장한다.

In [4]:
def myWget(filename):
    # 다운로드 대상 파일 경로
    file_url = base_url + filename

    # 저장 경로와 파일명
    target_path = data_path / filename

    return urlretrieve(file_url, target_path)

## 예제 1

`shopA.txt` 파일은 쇼핑몰A에서 판매하는 상품의 가격을 담고 있음을 확인해보자.
먼저 해당 파일을 다운로드 한다.

In [5]:
myWget("shopA.txt")

(PosixPath('data/shopA.txt'), <http.client.HTTPMessage at 0x7f6144e6f810>)

**질문 1**

파일 전체 내용을 출력하는 코드를 작성하라.

힌트: `with-as` 명령문, `open()` 함수, `readlines()` 또는 `read()` 파일 메서드.

답 1:

In [6]:
with open(data_path / 'shopA.txt', encoding='utf-8') as f:
    for line in f:
        print(line.strip())

#쇼핑몰 A

우유 2540원
계란 7480원
생수 980원
짜장라면 3220원
두부 1450원
콩나물 1680원
김 5480원
닭고기 5980원
식빵 2480원
바나나 4980원
오레ㄴ지 990원
카레 2480원
만두 6980원
어묵 7980원
참치 11880원
김치 7980원
간장 10800원


답 2:

In [7]:
with open(data_path / 'shopA.txt', encoding='utf-8') as f:
    lines = f.read()
    print(lines)

#쇼핑몰 A

우유 2540원
계란 7480원
생수 980원
짜장라면 3220원
두부 1450원
콩나물 1680원
김 5480원
닭고기 5980원
식빵 2480원
바나나 4980원
오레ㄴ지 990원
카레 2480원
만두 6980원
어묵 7980원
참치 11880원
김치 7980원
간장 10800원


답 3:

In [8]:
with open(data_path / 'shopA.txt', encoding='utf-8') as f:
    lines = f.readlines()
    for line in lines:
        print(line.strip())

#쇼핑몰 A

우유 2540원
계란 7480원
생수 980원
짜장라면 3220원
두부 1450원
콩나물 1680원
김 5480원
닭고기 5980원
식빵 2480원
바나나 4980원
오레ㄴ지 990원
카레 2480원
만두 6980원
어묵 7980원
참치 11880원
김치 7980원
간장 10800원


**질문 2**

`shopA.txt` 파일의 내용을 확인하면 '오레ㄴ지'가 '오렌지'로 잘못 적혀 있다.
오타를 수정하여라.

답:

먼저 파일 내용을 하나의 문자열로 읽어 온다.

In [9]:
with open(data_path / 'shopA.txt', encoding='utf-8') as f:
    shoping_list = f.read()

`replace()` 문자열 메서드를 활용하여 오타를 수정한다.

In [10]:
shoping_list_corrected = shoping_list.replace('오레ㄴ지', '오렌지')
print(shoping_list_corrected)

#쇼핑몰 A

우유 2540원
계란 7480원
생수 980원
짜장라면 3220원
두부 1450원
콩나물 1680원
김 5480원
닭고기 5980원
식빵 2480원
바나나 4980원
오렌지 990원
카레 2480원
만두 6980원
어묵 7980원
참치 11880원
김치 7980원
간장 10800원


수정된 내용을 저장한다.

In [11]:
with open(data_path / 'shopA.txt', encoding='utf-8', mode='w') as f:
    f.write(shoping_list_corrected)

수정된 파일 내용을 읽어보면 오타가 수정되었음을 확인할 수 있다.

In [12]:
with open(data_path / 'shopA.txt', encoding='utf-8') as f:
    for line in f:
        print(line.strip())

#쇼핑몰 A

우유 2540원
계란 7480원
생수 980원
짜장라면 3220원
두부 1450원
콩나물 1680원
김 5480원
닭고기 5980원
식빵 2480원
바나나 4980원
오렌지 990원
카레 2480원
만두 6980원
어묵 7980원
참치 11880원
김치 7980원
간장 10800원


**질문 3**

상품명과 가격을 키-값의 쌍으로 갖는 아래 모양의 사전을 
반환하는 `shopping()` 함수를 정의하라.

```
{'우유': 2540,
 '계란': 7480,
 '생수': 980,
 '짜장라면': 3220,
 '두부': 1450,
 '콩나물': 1680,
 '김': 5480,
 '닭고기': 5980,
 '식빵': 2480,
 '바나나': 4980,
 '오렌지': 990,
 '카레': 2480,
 '만두': 6980,
 '어묵': 7980,
 '참치': 11880,
 '김치': 7980,
 '간장': 10800}
```

답:

파일을 열어 한 줄씩 읽을 때 첫째, 둘째 줄을 무시해야 한다.

In [13]:
def shopping(shop_file):
    with open(data_path / shop_file, encoding='utf-8') as f:
        items_dict = dict()
        for line in f:
            if line.strip().startswith('#') or line.strip() == '':
                continue
            item, price = line.strip().split()
            items_dict[item] = int(price[:-1])

    return items_dict

In [14]:
shopping("shopA.txt")

{'우유': 2540,
 '계란': 7480,
 '생수': 980,
 '짜장라면': 3220,
 '두부': 1450,
 '콩나물': 1680,
 '김': 5480,
 '닭고기': 5980,
 '식빵': 2480,
 '바나나': 4980,
 '오렌지': 990,
 '카레': 2480,
 '만두': 6980,
 '어묵': 7980,
 '참치': 11880,
 '김치': 7980,
 '간장': 10800}

**질문 4**

쇼핑 리스트와 상품을 인자로 지정하면 상품의 가격을 반환하는 함수 `item_price()` 를 구현하라.

힌트: `shopping()` 함수를 이용한다.

답:

In [15]:
def item_price(shop_file, item):
    items_dict = shopping(shop_file)
    return items_dict[item]

In [16]:
print(item_price("shopA.txt", '김치'))

7980


**질문 5**

`shopB.txt` 파일은 쇼핑몰B에서 판매하는 상품의 가격을 담고 있으며,
`shopA.txt` 파일과 동일한 방식으로 다운로드할 수 있다.

In [17]:
myWget("shopB.txt")

(PosixPath('data/shopB.txt'), <http.client.HTTPMessage at 0x7f6144e8e650>)

In [18]:
shopping("ShopB.txt")

{'우유': 2270,
 '계란': 7520,
 '생수': 1010,
 '짜장라면': 3210,
 '두부': 1150,
 '콩나물': 1980,
 '김': 5290,
 '닭고기': 6000,
 '식빵': 1990,
 '바나나': 4990,
 '오렌지': 1050,
 '카레': 2400,
 '만두': 7400,
 '어묵': 6980,
 '참치': 11580,
 '김치': 8480,
 '간장': 9900}

사용자가 상품을 입력하면, 쇼핑몰A와 쇼핑몰B 중 어느 쇼핑몰에서 구입하는 것이 얼마나 저렴한지를 보여주는
`price_comparison()` 함수를 작성하라.

답:

In [19]:
def price_comparison(item):
    price_diff = item_price("shopA.txt", item) -item_price("shopB.txt", item)
    return abs(price_diff)

In [20]:
print(f"두 쇼핑몰에서의 김치 가격의 차이는 {price_comparison('김치')}원이다.")

두 쇼핑몰에서의 김치 가격의 차이는 500원이다.


실제로 두 쇼핑몰에서의 김치 가격은 다음과 같다.

In [21]:
item_price("ShopA.txt", '김치')

7980

In [22]:
item_price("ShopB.txt", '김치')

8480

## 예제 2

먼저 `words.txt` 파일을 다운로드해서 `data` 하위 폴더에 저장한다.

In [23]:
myWget('words.txt')

(PosixPath('data/words.txt'), <http.client.HTTPMessage at 0x7f6144e6f4d0>)

`words.txt` 파일에는 다음과 같은 형식으로 113,809 개의 단어가 포함되어 있다.

```
aa
aah
aahed
aahing
aahs
...
zymoses
zymosis
zymotic
zymurgies
zymurgy
```

다음 `text2list()` 함수는 텍스트 파일에 내용을
리스트로 불러온다.
리스트의 항목은 파일에 포함된 각각의 줄에서 양끝에 있는 화이트 스페이스가 제거된 문자열이다.

In [24]:
def txt2list(aFile):
    a = []
    with open(aFile,'r') as data:
        for line in data:
            a.append(line.strip())
    return a

이제 `words.txt`에 총 113,809 줄이 포함되어 있음을 확인할 수 있다.

In [25]:
words_list = txt2list(data_path / 'words.txt')

In [26]:
len(words_list)

113809

처음 5줄의 내용은 다음과 같다.

In [27]:
words_list[:5]

['aa', 'aah', 'aahed', 'aahing', 'aahs']

마지막 5줄의 내용은 다음과 같다.

In [28]:
words_list[-5:]

['zymoses', 'zymosis', 'zymotic', 'zymurgies', 'zymurgy']

**질문 1**

리스트의 마지막 항목인 `'zymurgy'` 문자열이 리스트에 포함되어 있는지 여부를
확인할 때 걸리는 시간을 측정하라.

힌트: `time` 모듈의 `time()` 함수 활용

답:

In [29]:
import time

last_word = words_list[-1]

start_time = time.time() # 탐색 시작 시간

assert last_word in words_list

elapsed_time = time.time() - start_time # 탐색 종료 시간

In [30]:
print(f"마지막 항목 검색시간: {elapsed_time:.6f}초")

마지막 항목 검색시간: 0.001504초


**질문 2**

다음 `binarySearch()` 함수는 이진 탐색을 구현한다.
이진 탐색에 대한 자세한 설명은 
[코딩알지: 이진 탐색](https://codingalzi.github.io/algopy/sort_search_1.html?highlight=이진+탐색#id4)을 
참고한다.

In [31]:
def binarySearch(aWordsList, aWord):
    low = 0
    high = len(aWordsList)

    while low <= high:
        mid = (low + high)//2
        if aWordsList[mid] == aWord:
            return True
        elif aWordsList[mid] < aWord:
            low = mid + 1
        else:
            high = mid - 1

    return False

이진 탐색으로 마지막 단어를 탐색하는 데 걸리는 시간을 측정한 다음에
`in` 연산자의 경우보다 몇 배 빠른지/느린지 확인하라.

답:

In [32]:
import time

last_word = words_list[-1]

start_time_bin = time.time() # 탐색 시작 시간

assert binarySearch(words_list, last_word)

elapsed_time_bin = time.time() - start_time_bin # 탐색 종료 시간

In [33]:
print(f"마지막 항목 검색시간: {elapsed_time_bin:.6f}초")

마지막 항목 검색시간: 0.000074초


In [34]:
print(f"이진 탐색이 in 연산자보다 약 {elapsed_time/elapsed_time_bin:.1f}배 빠르다.")

이진 탐색이 in 연산자보다 약 20.2배 빠르다.


**질문 3**

다음 `text2dict()` 함수는 텍스트 파일에 내용을
사전 자료형으로 불러온다.
항목의 키는 각 줄의 양끝에서 화이트 스페이스가 제거된 단어이며, 값은 `True`로 지정한다.

In [35]:
def txt2dict(aFile):
    aDict = dict()
    with open(aFile) as data:
        for item in data:
            item = item.strip()
            aDict[item] = True

    return aDict

In [36]:
words_dict = txt2dict('words.txt')

In [37]:
len(words_dict)

113809

In [38]:
last_word in words_dict

True

In [39]:
words_dict[last_word]

True

마지막 단어가 키로 포함되었는지 여부를 확인하는 데 걸리는 시간을 측정한 다음에
이진 탐색보다 몇 배 빠른지/느린지 확인하라.

답:

In [40]:
import time

last_word = words_list[-1]

start_time_dict = time.time() # 탐색 시작 시간

assert last_word in words_dict

elapsed_time_dict = time.time() - start_time_dict # 탐색 종료 시간

In [41]:
print(f"마지막 항목 검색시간: {elapsed_time_dict:.6f}초")

마지막 항목 검색시간: 0.000053초


In [42]:
print(f"사전 탐색이 이진 탐색보다 약 {elapsed_time_bin/elapsed_time_dict:.1f}배 빠르다.")

사전 탐색이 이진 탐색보다 약 1.4배 빠르다.
