# 효율적인 자료 처리를 위한 파이썬 표준 모듈
효율적인 복합 자료형 자료의 처리를 위해 알아두면 좋은 파이썬 표준 모듈 몇 가지를 소개한다.

## collections
전산과학에서 컬렉션(collection), 또는 컨테이너(container)라 함은 복수의 데이터 항목이 한 덩어리로 묶인 추상적인 자료형을 말한다. 파이썬의 딕셔너리, 리스트, 세트, 튜플은 모두 이러한 컬렉션의 예이다. 이들 컬렉션은 다양한 형태의 데이터의 표현에 유용하게 쓰인다. 한편 표준 라이브러리 모듈 가운데 하나인 collections 모듈은 특화된 컬렉션들을 제공한다. 이 가운데 몇 가지를 소개한다.

>https://en.wikipedia.org/wiki/Collection_(abstract_data_type) 참조.

### `Counter`
`Counter` 클래스는 빈도 계수를 위해 특화된 딕셔너리이다. 다음의 예제를 살펴보자.

In [1]:
# Counter 클래스를 이용한 어휘 빈도 계수
from collections import Counter

word_counter = Counter()
a_string = "무 배추 상추 고구마 무 상추 감사 양파 상추 파 가지 오이 토마토 가지 상추"
words = a_string.split()

for word in words:
    word_counter[word] += 1
    
for word, word_count in word_counter.most_common():
    print("{}\t{}".format(word, word_count))

상추	4
가지	2
무	2
오이	1
파	1
양파	1
배추	1
고구마	1
토마토	1
감사	1


* `Counter` 클래스는 빈도 계수의 대상인 모든 객체에 대하여 기본 빈도값으로 0을 설정한다.
* `most_common()` 메소드는 빈도 역순 정렬에 의한 데이터 항목 인출을 지원한다.
* 다음과 같이 `update()` 메소드를 이용한 빈도 계수도 가능하다.

In [2]:
# Counter 클래스를 이용한 어휘 빈도 계수
from collections import Counter

word_counter = Counter()
a_string = "무 배추 상추 고구마 무 상추 감자 양파 상추 파 가지 오이 토마토 가지 상추"
words = a_string.split()
word_counter.update(words)
    
for word, word_count in word_counter.most_common():
    print("{}\t{}".format(word, word_count))

상추	4
가지	2
무	2
오이	1
파	1
감자	1
양파	1
배추	1
고구마	1
토마토	1


빈도는 정수형의 자료이지만 `Counter` 객체는 다른 형의 자료도 값으로 저장할 수 있는 성질은 이용하여 빈도 계수 외의 작업에도 이용할 수 있다.

### `defaultdict`
`defaultdict` 클래스는 앞서 설명한 `Counter` 클래스와 마찬가지로 특수한 딕셔너리로 값의 기본값이 자동으로 설정된다. 이러한 성질은 값의 형이 리스트나 딕셔너리, 또는 세트, 나아가 `defaultdict` 일 경우 매우 편리하다.

In [3]:
from collections import defaultdict

foods = defaultdict(list)
foods["과일"].append("사과")
foods["과일"].append("복숭아")
foods["채소"].append("토마토")
foods["채소"].append("오이")

print(foods)

defaultdict(<class 'list'>, {'채소': ['토마토', '오이'], '과일': ['사과', '복숭아']})


In [4]:
my_foods = {}
my_foods['과일'] = []
my_foods['과일'].append('사과')


* 위에서 보는 바와 같이 각 키에 대응하는 값의 리스트의 기본값인 빈 리스트로 설정된다.
* 아래와 같이 딕셔너리에도 사용할 수 있다.

In [5]:
from collections import defaultdict

languages = defaultdict(dict)
languages["파이썬"]["저자"] = "귀도 반 로섬"
languages["파이썬"]["유형"] = "스크립트 언어"
languages["파이썬"]["확장자"] = "py"
languages["고"]["저자"] = "로버트 그리즈머, 롭 파이크, 켄 톰슨"
languages["고"]["유형"] = "컴파일 언어"
languages["고"]["확장자"] = "go"

print(languages)

defaultdict(<class 'dict'>, {'고': {'저자': '로버트 그리즈머, 롭 파이크, 켄 톰슨', '확장자': 'go', '유형': '컴파일 언어'}, '파이썬': {'저자': '귀도 반 로섬', '확장자': 'py', '유형': '스크립트 언어'}})


## itertools
`itertools` 모듈은 효과적인 반복문 실행을 위한 기재들을 제공한다. 이 기재들은 특히 중첩된 반복문을 사용해야 하는 경우에 유용하다.

In [6]:
from itertools import combinations

a_string = "무 배추 상추 고구마 무 상추 감자 양파 상추 파 가지 오이 토마토 가지 상추"
uniq_words = set(a_string.split())

for word1, word2, word3 in combinations(uniq_words, 3):
    print(word1, word2, word3)

파 배추 오이
파 배추 무
파 배추 고구마
파 배추 양파
파 배추 상추
파 배추 토마토
파 배추 감자
파 배추 가지
파 오이 무
파 오이 고구마
파 오이 양파
파 오이 상추
파 오이 토마토
파 오이 감자
파 오이 가지
파 무 고구마
파 무 양파
파 무 상추
파 무 토마토
파 무 감자
파 무 가지
파 고구마 양파
파 고구마 상추
파 고구마 토마토
파 고구마 감자
파 고구마 가지
파 양파 상추
파 양파 토마토
파 양파 감자
파 양파 가지
파 상추 토마토
파 상추 감자
파 상추 가지
파 토마토 감자
파 토마토 가지
파 감자 가지
배추 오이 무
배추 오이 고구마
배추 오이 양파
배추 오이 상추
배추 오이 토마토
배추 오이 감자
배추 오이 가지
배추 무 고구마
배추 무 양파
배추 무 상추
배추 무 토마토
배추 무 감자
배추 무 가지
배추 고구마 양파
배추 고구마 상추
배추 고구마 토마토
배추 고구마 감자
배추 고구마 가지
배추 양파 상추
배추 양파 토마토
배추 양파 감자
배추 양파 가지
배추 상추 토마토
배추 상추 감자
배추 상추 가지
배추 토마토 감자
배추 토마토 가지
배추 감자 가지
오이 무 고구마
오이 무 양파
오이 무 상추
오이 무 토마토
오이 무 감자
오이 무 가지
오이 고구마 양파
오이 고구마 상추
오이 고구마 토마토
오이 고구마 감자
오이 고구마 가지
오이 양파 상추
오이 양파 토마토
오이 양파 감자
오이 양파 가지
오이 상추 토마토
오이 상추 감자
오이 상추 가지
오이 토마토 감자
오이 토마토 가지
오이 감자 가지
무 고구마 양파
무 고구마 상추
무 고구마 토마토
무 고구마 감자
무 고구마 가지
무 양파 상추
무 양파 토마토
무 양파 감자
무 양파 가지
무 상추 토마토
무 상추 감자
무 상추 가지
무 토마토 감자
무 토마토 가지
무 감자 가지
고구마 양파 상추
고구마 양파 토마토
고구마 양파 감자
고구마 양파 가지
고구마 상추 토마토
고구마 상추 감자
고구마 상추 가지
고구마 토마토 감자
고구마 토마토 가지
고구마 감자 가지
양파 상추 토마토
양파 상추 

* `combinations()` 함수는 주어진 이터러블 객체를 대상으로 주어진 정수 개의 가능한 조합을 생성한다.

>연관된 개념인 이터레이션, 이터러블, 이터레이터의 구분에 대해서 다음 URL의 스택오버플로우 답변을 보라. <http://stackoverflow.com/questions/9884132/what-exactly-are-pythons-iterator-iterable-and-iteration-protocols>

In [13]:
from itertools import permutations

a_string = "무 배추 상추 고구마 무 상추 감자 양파 상추 파 가지 오이 토마토 가지 상추"
uniq_words = set(a_string.split())

for word1, word2 in permutations(uniq_words, 2):
    print(word1, word2)

무 양파
무 파
무 오이
무 토마토
무 가지
무 상추
무 감자
무 배추
무 고구마
양파 무
양파 파
양파 오이
양파 토마토
양파 가지
양파 상추
양파 감자
양파 배추
양파 고구마
파 무
파 양파
파 오이
파 토마토
파 가지
파 상추
파 감자
파 배추
파 고구마
오이 무
오이 양파
오이 파
오이 토마토
오이 가지
오이 상추
오이 감자
오이 배추
오이 고구마
토마토 무
토마토 양파
토마토 파
토마토 오이
토마토 가지
토마토 상추
토마토 감자
토마토 배추
토마토 고구마
가지 무
가지 양파
가지 파
가지 오이
가지 토마토
가지 상추
가지 감자
가지 배추
가지 고구마
상추 무
상추 양파
상추 파
상추 오이
상추 토마토
상추 가지
상추 감자
상추 배추
상추 고구마
감자 무
감자 양파
감자 파
감자 오이
감자 토마토
감자 가지
감자 상추
감자 배추
감자 고구마
배추 무
배추 양파
배추 파
배추 오이
배추 토마토
배추 가지
배추 상추
배추 감자
배추 고구마
고구마 무
고구마 양파
고구마 파
고구마 오이
고구마 토마토
고구마 가지
고구마 상추
고구마 감자
고구마 배추


* `permutations()` 함수는 주어진 이터러블 객체를 대상으로 주어진 정수 개의 가능한 순열을 생성한다.

In [14]:
from itertools import product

fruits = ["사과", "배", "복숭아"]
vegitables = ["감자", "고구마"]

for fruit, vegitable in product(fruits, vegitables):
    print(fruit, vegitable)

사과 감자
사과 고구마
배 감자
배 고구마
복숭아 감자
복숭아 고구마


* `product()` 함수는 주어진 이터러블 객체를 대상으로 데카르트 곱을 생성한다.

## operator
`operator` 모듈은 `+`, `-` 등의 연산자를 대신할 수 있는 함수들을 제공한다. 이 함수들은 함수적 프로그래밍에 매우 유용하다. 이 강좌에서는 `sorted()` 함수에 인자로 정렬 키를 지정하는 지정할 때에 이 모듈에서 제공하는 `itemgetter()` 함수를 이용한다. 이 함수의 사용법은 정렬을 다룰 때에 보인다.

# 텍스트 처리 실습
이제 텍스트 파일 처리를 경험해 보자.

## 정형 텍스트 파일 처리
### 예제 파일
예제로 다룰 데이터는 서울 열린 데이터 광장에서 제공하는 CSV 형식의 서울시 공공 와이파이 위치 정보 파일이다. 이 파일은 해당 데이터의 배포 페이지(<http://data.seoul.go.kr/openinf/sheetview.jsp?infId=OA-1218>)에서 내려받을 수 있다. 원래 파일의 이름은 `서울시 공공와이파이 위치정보.csv`인데 지난 강의에서 설명한 파일과 디렉토리 이름 주의 사항에 따라 `seoul_wifi.csv`로 이름을 바꾸어 `notebook` 디렉토리에 저장한다.

>수강자들의 편의를 위해 `seoul_wifi.csv` 파일을 `data\textproc` 디렉토리에 넣어두었다. 이 파일을 복사하여 사용해도 된다.

이 파일을 앞서 설치한 노트패드++로 열어서 살펴보자. 마우스 오른쪽 버튼으로 클릭하여 "Edit with Notepad++"를 실행한다. 더블클릭하면 기본 연결 프로그램인 엑셀이 실행되므로 주의하자. 그러면 다음과 같이 표시된다.

![노트패드++로 연 CSV 파일](figs/notepadpp-csv.png)

위의 화면에서 파악할 수 있는 예제 파일의 주요 속성은 다음과 같다.

* 이 파일은 일반 텍스트 파일(normal text file)이다. 노트패드++는 여러 프로그래밍 언어의 문법을 자동 인식한다. 자동 인식이 이루어지지 않으면 일반 텍스트 파일로 간주한다.
* 이 파일은 길이가 247,330이다. 단위는 바이트이다. 이는 글자 수와는 다르다.
* 이 파일에는 2,995 줄이 들어있다. 텍스트 파일의 중요한 특징 가운데 하나가 줄(line)로 구성된다는 것이다. 줄의 구분은 개행(New Line) 문자에 의해 이루어진다(개행 문자를 줄끝(EOL) 문자라고 부르기도 함).
* 이 파일은 유닉스 형식의 줄바꿈 문자(LF)가 사용되었다. 윈도우에서는 CR과 LF 두 개의 문자로 줄바꿈을 나타내는 것이 표준이다. 따라서 이 파일을 메모장으로 열면 줄바꿈이 이루어지지 않은 채로 표시된다.
* 이 파일은 UTF-8 방식으로 인코딩되었으며 바이트 순서 표식(BOM)이 달려있다. 윈도우의 표준 인코딩은 CP949이지만 UTF-8 인코딩 파일도 많은 프로그램에서 제대로 표시할 수 있다.   바이트 순서 표식은 UTF-8 인코딩 파일에서는 별로 의미가 없으므로 메뉴에서 **인코딩** -- **UTF-8 (BOM 없음)로 변환**을 실행하여 바이트 순서 표식을 없애고 저장하는 것이 좋다.
* 이 파일은 CSV 파일이며, 각 필드는 큰따옴표(`"`)로 감싸여 있다.
* 이 파일의 첫줄은 필드명을 나타내는 헤더이다.

텍스트 편집기로는 파일의 속성을 파악할 뿐만 아니라 여러 가지 전처리도 수행할 수 있다. 예를 들어 큰따옴표를 찾기 바꾸기를 이용하여 모두 없애고, 쉼표를 같은 방법으로 탭 문자로 바꾸면 CSV 파일을 TSV로 바꿀 수 있다.

>더 안전하고 진보적인 방법은 `","` 문자열을 탭 문자로 바꾸고 정규식을 이용하여 줄 처음와 끝의 `"` 문자를 제거하는 것이다.

### 줄수 세기
텍스트 파일을 줄수는 다음과 같은 방법으로 셀 수 있다.

In [7]:
# 텍스트 파일 줄수 세기
# 계수 변수(counter variable) 이용
input_file_name = "../data/textproc/seoul_wifi.csv"
line_count = 0

with open(input_file_name, "r", encoding="utf-8-sig") as input_file:
    for line in input_file:
        # print(line)
        # line_count = line_count + 1
        line_count += 1
        
print("주어진 텍스트 파일 {}의 줄수는 {}입니다.".format(input_file_name, line_count))

주어진 텍스트 파일 ../data/textproc/seoul_wifi.csv의 줄수는 2995입니다.


위에 보인 코드에서 익힐 핵심은 다음과 같다.

* 파일을 열 때에는 `open()` 함수를 사용한다. 인자로는 열 파일의 이름, 파일 오픈 모드, 그리고 인코딩을 넘겨준다. 예제 파일은 BOM을 지닌 utf-8 파일이므로 인코딩을 `utf-8-sig`로 지정한다. BOM이 없는 파일은 `utf-8`을 지정한다.
* `open()` 함수를 `with` 문 안에서 사용하여 파일이 자동적으로 닫히도록 하는 것이 권장된다.
* `for` 문을 파일 객체에 적용하면 파일의 내용을 줄 단위로 읽어 온다.
* `+=` 연산자로 누계를 할 수 있다.

In [8]:
# CSV 라인을 TSV 라인으로 바꾸어 인쇄하기
input_file_name = "../data/textproc/seoul_wifi.csv"

with open(input_file_name, "r", encoding="utf-8-sig") as input_file:
    for csv_line in input_file:
        csv_line = csv_line.strip()
        tsv_line = csv_line[1:-1]
        tsv_line = tsv_line.replace('","', "\t")
        print(tsv_line)

구명	유형	지역명	설치위치(X좌표)	설치위치(Y좌표)	설치기관(회사)
강남구	공공기관	(재)서울산업통상진흥원	127.0717546	37.4955815	LGU+
강남구	공공기관	(재)서울산업통상진흥원서울신기술창업센타	127.0380541	37.4976121	LGU+
강남구	공공기관	U강남도시관제센터	127.0409920	37.5084025	강남구
강남구	공공기관	강남구의회	127.0642026	37.4939383	강남구
강남구	공공기관	강남구청	127.0475020	37.5173050	강남구
강남구	공공기관	강남수도사업소	127.0471233	37.4833851	상수도사업본부
강남구	공공기관	강남운전면허시험장(대치)	127.0672394	37.5084197	KT
강남구	공공기관	강남인터넷방송국	127.0384706	37.4909267	강남구
강남구	공공기관	강남종합고용지원센터	127.0507291	37.5045560	KT
강남구	공공기관	과학기술회관	127.0307472	37.5007248	LGU+
강남구	공공기관	군인공제회관	127.0528667	37.4890937	KT
강남구	공공기관	군인공제회관 회원지원센터(도곡동)	127.0308650	37.5004619	SKT
강남구	공공기관	기술신용보증기금	127.0476601	37.5037628	LGU+
강남구	공공기관	아동복지센터	127.0879073	37.47976015	서울시
강남구	공원	논현개나리공원	127.0298608	37.5113394	SKT
강남구	공원	논현까치공원	127.0251180	37.5085141	SKT
강남구	공원	논현은행나무공원	127.022421	37.5126222	SKT
강남구	공원	대청공원주변	127.082306	37.491938	SKT
강남구	공원	도곡목련공원	127.0443385	37.4849477	SKT
강남구	공원	독골근린공원	127.046824	37.4845582	SKT
강남구	공원	독설공원주변	127.046503	37.485075	SKT
강남구	공원	양재천변	127.0471

광진구	공원	정말공원	127.0780755	37.5332068	SKT
광진구	공원	중곡1동1마을공원	127.084615	37.5699808	SKT
광진구	공원	중곡1동1마을공원	127.0846172	37.5700034	SKT
광진구	공원	중곡어린이공원	127.079	37.565	SKT
광진구	공원	청춘뜨락(베짱이마당)	127.0703213	37.5403735	SKT
광진구	공원	한강안내센터(뚝섬)	127.0739359	37.52937058	서울시
광진구	공원	한마음공원	127.084	37.56	LGU+
광진구	공원	한아름어린이공원3	127.0706117	37.5445442	SKT
광진구	공원	해오름공원	127.092	37.557	SKT
광진구	공원	햇님어린이공원	127.067	37.543	SKT
광진구	공원	화양공원	127.0695076	37.5416587	LGU+
광진구	공원	화양동정자마당	127.072	37.546	SKT
광진구	문화시설	광진문화예술회관	127.0706037	37.5376439	SKT
광진구	문화시설	광진정보도서관 본관	127.1103531	37.5506983	KT
광진구	문화시설	구의2동 독서실	127.0890688	37.5472401	SKT
광진구	문화시설	신정독서원	127.0850148	37.5438567	SKT
광진구	문화시설	자양4동 제1독서실	127.0618432	37.5374302	LGU+
광진구	문화시설	자양4동 제2독서실	127.0613267	37.5350742	LGU+
광진구	문화시설	중곡3동 독서실	127.0802887	37.5709723	LGU+
광진구	문화시설	화양동 정보화교육장	127.0704987	37.5462287	광진구
광진구	보건시설	보건지소(중곡종합건강센터)	127.0870910	37.5593048	광진구
광진구	복지시설	광진구 보건지소 민원실	127.0881124	37.58293344	LGU+
광진구	복지시설	광진구청소년상담복지센터	127.0651798	37.54029853	LGU+
광진구	복지시설	광진노

은평구	문화시설	은평문화예술회관	126.927113	37.603667	LGU+
은평구	문화시설	은평문화예술회관_1층	126.9278795	37.6037149	SKT
은평구	문화시설	은평청소년문화센터	126.9166292	37.6043971	SKT
은평구	문화시설	응암정보도서관	126.9196841	37.5859980	KT
은평구	버스승차대	구파발역2번출구	126.918969	37.636737	KT
은평구	버스승차대	구파발역3번출구	126.918761	37.635818	KT
은평구	버스승차대	북한산성입구	126.945136	37.657952	KT
은평구	버스승차대	불광역	126.932576	37.609574	KT
은평구	버스승차대	역촌시장	126.914164	37.612727	KT
은평구	버스승차대	연신내역	126.920184	37.618137	KT
은평구	버스승차대	연신내역,로데오거리	126.919983	37.617867	KT
은평구	버스승차대	예일여고	126.917802	37.610788	KT
은평구	버스승차대	은평구민체육센터앞1	126.923216	37.631714	KT
은평구	버스승차대	은평구민체육센터앞2	126.922531	37.631417	KT
은평구	버스승차대	은평노인복지관 신도중학교앞	126.931634	37.632452	KT
은평구	버스승차대	폭포동은평노인종합복지관	126.931079	37.631695	KT
은평구	버스승차대	푸르지오 521동	126.935661	37.638443	KT
은평구	보건시설	구산보건지소	126.9127844	37.60974737	SKT
은평구	보건시설	구산보건지소	126.9128041	37.609714	은평구
은평구	보건시설	불광보건분소	126.9277108	37.621569	은평구
은평구	보건시설	서북병원	126.9044943	37.60409611	서울시
은평구	보건시설	은평병원	126.9237684	37.59405464	서울시
은평구	보건시설	응암보건지소	126.9195084	37.5880345	은평구
은평구	복지시

* 줄바꿈 문자를 제거하기 위해 `strip()` 메소드를 사용한다.
* 각 줄의 맨 앞과 끝에 있는 큰따옴표를 없애기 위해 문자열 스플라이싱을 이용한다.
* `replace()` 메소드를 이용하여 CSV 라인을 TSV 라인으로 바꾼다.

헤더인 첫줄은 출력하지 않으려면 다음과 같이 할 수 있다.

In [9]:
# CSV 라인을 TSV 라인으로 변환하여 인쇄하기
# 헤더 건너 뛰기
input_file_name = "../data/textproc/seoul_wifi.csv"

with open(input_file_name, "r", encoding="utf-8-sig") as input_file:
    for line_num, csv_line in enumerate(input_file):
        if line_num == 0:
            continue
            
        csv_line = csv_line.strip()
        tsv_line = csv_line[1:-1]
        tsv_line = tsv_line.replace('","', "\t")
        print(tsv_line)

강남구	공공기관	(재)서울산업통상진흥원	127.0717546	37.4955815	LGU+
강남구	공공기관	(재)서울산업통상진흥원서울신기술창업센타	127.0380541	37.4976121	LGU+
강남구	공공기관	U강남도시관제센터	127.0409920	37.5084025	강남구
강남구	공공기관	강남구의회	127.0642026	37.4939383	강남구
강남구	공공기관	강남구청	127.0475020	37.5173050	강남구
강남구	공공기관	강남수도사업소	127.0471233	37.4833851	상수도사업본부
강남구	공공기관	강남운전면허시험장(대치)	127.0672394	37.5084197	KT
강남구	공공기관	강남인터넷방송국	127.0384706	37.4909267	강남구
강남구	공공기관	강남종합고용지원센터	127.0507291	37.5045560	KT
강남구	공공기관	과학기술회관	127.0307472	37.5007248	LGU+
강남구	공공기관	군인공제회관	127.0528667	37.4890937	KT
강남구	공공기관	군인공제회관 회원지원센터(도곡동)	127.0308650	37.5004619	SKT
강남구	공공기관	기술신용보증기금	127.0476601	37.5037628	LGU+
강남구	공공기관	아동복지센터	127.0879073	37.47976015	서울시
강남구	공원	논현개나리공원	127.0298608	37.5113394	SKT
강남구	공원	논현까치공원	127.0251180	37.5085141	SKT
강남구	공원	논현은행나무공원	127.022421	37.5126222	SKT
강남구	공원	대청공원주변	127.082306	37.491938	SKT
강남구	공원	도곡목련공원	127.0443385	37.4849477	SKT
강남구	공원	독골근린공원	127.046824	37.4845582	SKT
강남구	공원	독설공원주변	127.046503	37.485075	SKT
강남구	공원	양재천변	127.047111	37.481655	SKT
강남구	공원	양재천변	127.054016

강서구	주민센터	화곡3동 주민센터	126.8384231	37.5425392	강서구
강서구	주민센터	화곡4동 주민센터	126.8609068	37.5346476	강서구
강서구	주민센터	화곡6동 주민센터	126.8501301	37.5518173	강서구
강서구	주민센터	화곡8동 주민센터	126.8483350	37.5326541	강서구
강서구	주민센터	화곡본동 주민센터	126.8477250	37.5440750	강서구
강서구	주요거리	구청 옆 먹자골목	126.851624	37.552781	KT
강서구	주요거리	김포공항(국내선)	126.8039906	37.55916709	SKT
강서구	주요거리	김포공항(국제선)	126.8009682	37.56514559	SKT
강서구	주요거리	까치산역	126.8463367	37.53267438	LGU+
강서구	주요거리	까치산역	126.8469015	37.53169414	LGU+
강서구	주요거리	까치산역	126.8480431	37.52968479	LGU+
강서구	주요거리	덕원여고 정문	126.8300909	37.5489318	KT
강서구	주요거리	덕원여고 정문	126.8305494	37.5489344	KT
강서구	주요거리	봉제산노인복지센터앞거리	126.8512165	37.5416182	KT
강서구	주요거리	봉제산노인복지센터앞거리	126.8514176	37.5416643	KT
강서구	주요거리	화곡역	126.8397653	37.54157666	SKT
강서구	주요거리	화곡역	126.8409656	37.54170344	SKT
경기도	공원	서울_대공원	127.014195	37.436319	서울시
경기도	공원	서울대공원1	127.011201	37.433846	SKT
경기도	공원	서울대공원1	127.017972	37.427241	SKT
경기도	공원	서울대공원1	127.018848	37.426916	SKT
경기도	공원	서울대공원1	127.019582	37.427655	SKT
경기도	공원	서울대공원1	127.019785	37.423573	SKT
경기도	공원

종로구	주요거리	청계천2	126.9923682	37.56834495	KT
종로구	주요거리	청계천2	126.9941282	37.5686994	KT
종로구	주요거리	청계천2	126.994504	37.5687262	KT
종로구	주요거리	청계천2	126.9953868	37.5687931	KT
종로구	주요거리	청계천2	126.9979267	37.56887202	KT
종로구	주요거리	최소아과의원	126.986596	37.5794546	서울시
종로구	주요거리	카페 마고	126.989268	37.5796168	서울시
종로구	주요거리	카페 마고	126.992165	37.5779764	서울시
종로구	주요거리	코리아목욕탕	126.98219186	37.5821066	서울시
종로구	주요거리	코리아목욕탕	126.98363543	37.5823466	서울시
종로구	주요거리	혜화동 한옥청사	127	37.587	KT
종로구	주요거리	화신먹거리1	126.985	37.572	KT
중구	공공기관	남산2청사(민생사법경찰과)	126.988859	37.559737	서울시
중구	공공기관	동대문역사관	127.0113907	37.56715637	서울시
중구	공공기관	무교청사	126.97885	37.56786	서울시
중구	공공기관	서소문청사(별관1)	126.9752485	37.56448082	서울시
중구	공공기관	서소문청사(후생동 옥상)	126.974263	37.564616	서울시
중구	공공기관	서울광장	126.977651	37.566213	서울시
중구	공공기관	서울광장	126.9781484	37.56618451	서울시
중구	공공기관	서울시청	126.9783819	37.56659715	서울시
중구	공공기관	시의회별관	126.9746869	37.56457607	서울시
중구	공공기관	시의회본관	126.9766476	37.56752057	서울시
중구	공공기관	예금보험공사	126.9807796	37.5685380	LGU+
중구	공공기관	중구청(본관)	126.997533	37.563698	중구
중구	공공기관	중구청앞1

### CSV 파일을 TSV 파일로 변환하기
위에서 보인 코드에 파일 출력을 덧붙이면 간단히 구현할 수 있다.

In [10]:
# CSV 파일을 TSV 파일로 변환하기
input_file_name = "../data/textproc/seoul_wifi.csv"
output_file_name = "../data/textproc/seoul_wifi.tsv"

with open(input_file_name, "r", encoding="utf-8-sig") as input_file, \
        open(output_file_name, "w", encoding="utf-8") as output_file:
    for line in input_file:
        line = line.strip()
        line = line[1:-1]
        line = line.replace('","', "\t")
        print(line, file=output_file)

* `with` 문에 `open()` 함수를 두 번 포함하여 입력 파일과 출력 파일을 동시에 열 수 있다.
* 소스 코드의 한 줄이 너무 길어지면 역사선(back slash) 문자로 줄바꿈을 명시적으로 표시하고 줄바꿈을 할 수 있다. 이 때 줄바꿈이 되어 넘어간 내용은 들여쓰기를 한 단계 더 하여 실제 들여쓰기 된 코드와 구분하는 것이 좋다.

### TSV 파일을 읽어서 데이터를 리스트에 저장하기
TSV 파일에 저장된 데이터를 읽어서 리스트에 저장하는 일은 흔히 이루어지는 일이다. 각 줄 역시 데이터 항목이 구분된 리스트이므로 전체 데이터는 리스트의 리스트이다.

In [11]:
# TSV 파일을 읽어서 데이터를 리스트에 저장하기
input_file_name = "../data/textproc/seoul_wifi.tsv"
data = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        elems = line.split("\t")
        data.append(elems)

print(data)

[['구명', '유형', '지역명', '설치위치(X좌표)', '설치위치(Y좌표)', '설치기관(회사)'], ['강남구', '공공기관', '(재)서울산업통상진흥원', '127.0717546', '37.4955815', 'LGU+'], ['강남구', '공공기관', '(재)서울산업통상진흥원서울신기술창업센타', '127.0380541', '37.4976121', 'LGU+'], ['강남구', '공공기관', 'U강남도시관제센터', '127.0409920', '37.5084025', '강남구'], ['강남구', '공공기관', '강남구의회', '127.0642026', '37.4939383', '강남구'], ['강남구', '공공기관', '강남구청', '127.0475020', '37.5173050', '강남구'], ['강남구', '공공기관', '강남수도사업소', '127.0471233', '37.4833851', '상수도사업본부'], ['강남구', '공공기관', '강남운전면허시험장(대치)', '127.0672394', '37.5084197', 'KT'], ['강남구', '공공기관', '강남인터넷방송국', '127.0384706', '37.4909267', '강남구'], ['강남구', '공공기관', '강남종합고용지원센터', '127.0507291', '37.5045560', 'KT'], ['강남구', '공공기관', '과학기술회관', '127.0307472', '37.5007248', 'LGU+'], ['강남구', '공공기관', '군인공제회관', '127.0528667', '37.4890937', 'KT'], ['강남구', '공공기관', '군인공제회관 회원지원센터(도곡동)', '127.0308650', '37.5004619', 'SKT'], ['강남구', '공공기관', '기술신용보증기금', '127.0476601', '37.5037628', 'LGU+'], ['강남구', '공공기관', '아동복지센터', '127.0879073', '37.47976015', '서울시'], ['강

위에서 데이터를 저장할 때 사용한 자료 구조인 리스트의 리스트는 2차원 리스트로 볼 수 있다. 두 차원은 각각 2차원으로 표현되는 자료의 행(row)과 열(column)에 해당한다. 2차원 리스트의 개별 항목은 다음과 같이 2차원 인덱싱을 통하여 참조할 수 있다.

In [12]:
print(data[0][0])
print(data[2][5])

구명
LGU+


이와 같은 2차원 자료 구조는 행과 열, 또는 레코드와 필드로 구성되는 전형적인 형태의 자료 처리에 널리 쓰인다.

### TSV 파일을 읽어서 딕셔너리에 저장하기
2차원 자료를 저장할 때에 목적에 따라 딕셔너리를 이용할 수도 있다. 구체적으로는 딕셔너리의 딕셔너리를 이용할 수도 있고, 리스트의 딕셔너리를 사용할 수도 있다. 다음은 리스트의 딕셔너리를 이용한 예이다.

In [13]:
# TSV 파일을 읽어서 리스트의 딕셔너리에 저장하기

# 리스트의 딕셔너리 초기화
field_names = ["구명", "유형", "지역명", "설치위치(X좌표)", "설치위치(Y좌표)",  
               "설치기관(회사)"]
#data = {}

#for field_name in field_names:
#    data[field_name] = []

data = {field_name: [] for field_name in field_names} #컴프리헨션을 적용한 문장

# TSV 파일 읽어서 데이터 저장히기
input_file_name = "../data/textproc/seoul_wifi.tsv"

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line_num, line in enumerate(input_file):
    #for line_num, line in list(enumerate(input_file))[:11]:
        if line_num == 0:
            continue
            
        line = line.strip()  #리턴문자 
        elems = line.split("\t")
        
        for elem, field_name in zip(elems, field_names):  #zip 두 개씩 한꺼번에 처리한다.
            # l = data[field_name]
            # l.append(elem)
            # data[field_name] = l
            data[field_name].append(elem)
            
print(data)

{'지역명': ['(재)서울산업통상진흥원', '(재)서울산업통상진흥원서울신기술창업센타', 'U강남도시관제센터', '강남구의회', '강남구청', '강남수도사업소', '강남운전면허시험장(대치)', '강남인터넷방송국', '강남종합고용지원센터', '과학기술회관', '군인공제회관', '군인공제회관 회원지원센터(도곡동)', '기술신용보증기금', '아동복지센터', '논현개나리공원', '논현까치공원', '논현은행나무공원', '대청공원주변', '도곡목련공원', '독골근린공원', '독설공원주변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '일원2동 늘푸른공원', '일원목련공원', '강남도서관', '강남스포츠문화센터', '강남청소년수련관', '개포도서관', '국기원(역삼동) 1F', '논현도서관', '대치평생학습관', '도곡정보문화도서관', '새벽집', '아트스페이스', '압구정평생학습관', '역삼동 문화센터', '역삼청소년수련관', '일원청소년독서실', '즐거운도서관', '청담고', '청담초', '청담평생학습관', '청담평생학습관', '코엑스전시장(몰)', '행복한도서관', '강남역사거리', '강남역사거리', '선릉역', '신사사거리', '코엑스동문.한국무역센타', '강남구 보건소', '보건소', '보건소분소', '강남구 직업재활센터', '강남구 청소년상담복지센터', '강남노인종합복지관', '강남장애인복지관', '대치노인복지센터', '성모자애복지관', '압구정노인복지센터', '태화기독사회복지관', '하상장애인복지관', '강남시장', '강남역 지하상가', '영동전통시장 ', '청담삼익시장', '강남문화재단', '개포1동주민센터', '개포2동주민센터', '개포4동주민센터', '대치1동주민센터', '대치2동주민센터', '대치4동주민센터', '도곡1동주민센터', '도곡2동주민센터', '삼성2동주민센터', '세곡동주민센터', '수서동주민센터', '역삼1동주민센터', '역삼2동주민센터', '일원1동주민

In [15]:
odds = [i for i in range(0, 20) if i % 2 == 1] #리스트 컴프리헨션

print(odds)

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19]


* 자료를 저장한 자료 구조는 리스트의 딕셔너리로 키는 컬럼 이름, 값은 자료 항목들을 담는 리스트이다.
* 각 컬럼의 이름을 하드 코딩한다.
* `zip()` 함수를 이용하여 각 컬럼의 값을 적절한 리스트에 추가한다.

컬럼 이름의 하드 코딩을 하지 않고 리스트의 초기화를 간단히 하는 코드를 아래에 보인다. 

In [16]:
import collections

# default dict 초기화
data = collections.defaultdict(list) # 파일에 있는 칼럼 명을 자동으로 처리 하려고 할 때 사용

# TSV 파일 읽어서 데이터 저장히기
input_file_name = "../data/textproc/seoul_wifi.tsv"

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line_num, line in enumerate(input_file):
        line = line.strip()
        elems = line.split("\t")
        
        if line_num == 0:
            field_names = elems
            continue
            
        for elem, field_name in zip(elems, field_names):
            data[field_name].append(elem)
            
print(data)

defaultdict(<class 'list'>, {'지역명': ['(재)서울산업통상진흥원', '(재)서울산업통상진흥원서울신기술창업센타', 'U강남도시관제센터', '강남구의회', '강남구청', '강남수도사업소', '강남운전면허시험장(대치)', '강남인터넷방송국', '강남종합고용지원센터', '과학기술회관', '군인공제회관', '군인공제회관 회원지원센터(도곡동)', '기술신용보증기금', '아동복지센터', '논현개나리공원', '논현까치공원', '논현은행나무공원', '대청공원주변', '도곡목련공원', '독골근린공원', '독설공원주변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '양재천변', '일원2동 늘푸른공원', '일원목련공원', '강남도서관', '강남스포츠문화센터', '강남청소년수련관', '개포도서관', '국기원(역삼동) 1F', '논현도서관', '대치평생학습관', '도곡정보문화도서관', '새벽집', '아트스페이스', '압구정평생학습관', '역삼동 문화센터', '역삼청소년수련관', '일원청소년독서실', '즐거운도서관', '청담고', '청담초', '청담평생학습관', '청담평생학습관', '코엑스전시장(몰)', '행복한도서관', '강남역사거리', '강남역사거리', '선릉역', '신사사거리', '코엑스동문.한국무역센타', '강남구 보건소', '보건소', '보건소분소', '강남구 직업재활센터', '강남구 청소년상담복지센터', '강남노인종합복지관', '강남장애인복지관', '대치노인복지센터', '성모자애복지관', '압구정노인복지센터', '태화기독사회복지관', '하상장애인복지관', '강남시장', '강남역 지하상가', '영동전통시장 ', '청담삼익시장', '강남문화재단', '개포1동주민센터', '개포2동주민센터', '개포4동주민센터', '대치1동주민센터', '대치2동주민센터', '대치4동주민센터', '도곡1동주민센터', '도곡2동주민센터', '삼성2동주민센터', '세곡동주민센터', '수서동주민센터', '역삼

* collections 모듈의 defaultdict 클래스를 사용한다.

## JSON 파일 처리

우리는 앞서 대표적인 정형 텍스트 형식인 CSV와 TSV 형식의 파일 처리를 간략히 살펴보았다. 이들 형식과 함께 현업에서 많이 사용하는 형식으로 JSON(JavaScript Object Notation, <http://json.org>) 형식이 있다. 이름에서 알 수 있듯이 이 형식은 자바스크립트에서 유래한 것으로 CSV나 TSV보다는 다소 복잡하지만, 키와 값을 명시적으로 표기하여 이독성을 높일 수 있으며, 리스트 등의 내포 구조를 표현할 수 있는 등의 장점이 많아 널리 사용되고 있다.

### JSON 파일
우리는 앞서 실습에서 CSV 형식의 서울시 공공 와이파이 위치 정보를 사용했는데, 데이터 배포 페이지(<http://data.seoul.go.kr/openinf/sheetview.jsp?tMenu=11&leftSrvType=S&infId=OA-1218>)에서는 JSON 형식의 파일도 제공한다. 이 파일을 내려 받아 편집기로 열어서 내용을 살펴보면 다음과 같다.

>이 파일을 내려받아 저장할 때 `seoul_wifi.json`과 같이 로만 알파벳으로 공백 없이 파일 이름을 바꾸어 저장하는 것을 잊지 말자. 강의참여자들의 편의를 위해 `data\textproc` 디렉토리에 해당 파일을 넣어 두었다.

```json
{
"DESCRIPTION" : {"PLACE_NAME":"지역명","CATEGORY":"유형","INSTL_X":"설치위치(X좌표)","INSTL_Y":"설치위치(Y좌표)","GU_NM":"구명","INSTL_DIV":"설치기관(회사)"}, 
"DATA" : [
{"PLACE_NAME":"(재)서울산업통상진흥원","CATEGORY":"공공기관","INSTL_X":"127.0717546","INSTL_Y":"37.4955815","GU_NM":"강남구","INSTL_DIV":"LGU+"}, {"PLACE_NAME":"(재)서울산업통상진흥원서울신기술창업센타","CATEGORY":"공공기관","INSTL_X":"127.0380541","INSTL_Y":"37.4976121","GU_NM":"강남구","INSTL_DIV":"LGU+"},
{"PLACE_NAME":"U강남도시관제센터","CATEGORY":"공공기관","INSTL_X":"127.0409920","INSTL_Y":"37.5084025","GU_NM":"강남구","INSTL_DIV":"강남구"},
...
{"PLACE_NAME":"상봉동 거리","CATEGORY":"주요거리","INSTL_X":"127.0940500","INSTL_Y":"37.6043750","GU_NM":"중랑구","INSTL_DIV":"LGU+"}
]
}
```

잘 살펴보면 이 파일의 형식은 파이썬의 딕셔너리를 문자열로 표현한 형식과 똑같다. 즉, 전체가 하나의 딕셔너리이다. 이 JSON 파일의 최상위 키는 `DESCRIPTION`과 `DATA`이고, `DESCRIPTION`의 값은 영어 필드명을 키로, 한국어 필드명을 값으로 하는 딕셔너리이며, `DATA`의 값은 와이파이 설치 장소의 정보를 키와 값으로 나타낸 딕셔너리 형식의 개별 데이터 항목의 리스트이다.

이제 이 파일을 읽어서 조작해 보자.

In [20]:
# JSON 파일 읽어서 딕셔너리로 만들기
import json

file_name = "../data/textproc/seoul_wifi.json"

with open(file_name, "r", encoding="utf-8") as input_file:
    text = input_file.read()
    
doc = json.loads(text)
print(doc['DATA'][14]['GU_NM'])
#print(str(doc)[:500])

강남구


* 가장 먼저 해야 할 일은 JSON 조작을 위해 json 모듈을 임포트하는 것이다.
* 예제 파일 전체가 하나의 JSON 문자열이므로 파일의 내용 전체를 한 번에 읽어야 한다. 파일 객체의 `read()` 메소드를 이용한다.
* JSON 문자열을 딕셔너리 형의 JSON 객체로 만들기 위해 json 모듈의 `loads()` 함수를 사용한다.

이번에는 반대로 파이썬 딕셔너리를 JSON 문자열로 바꾸는 과정을 살펴보자.

In [9]:
# 딕셔너리를 JSON 문자열로 만들기
import json

dogs = {
    "description": "반려견의 종별 특징",
    "data": [
        {
            "name": "코카스파니엘",
            "feature": "귀여운 외모, 아름다운 털, 환경에 잘 적응, 30cm 중반대"
        },
        {
            "name": "포메리안",
            "feature": "부드러운 털, 말 잘 들으나 흥분 쉽게 함, 26-27cm 이내"
        },
        {
            "name": "비글",
            "feature": "악마견, 귀여운 외모, 총명함"
        }
    ]
}

esc_str = json.dumps(dogs)
print(esc_str)

unesc_str = json.dumps(dogs, ensure_ascii=False)
print(unesc_str)

{"description": "\ubc18\ub824\uacac\uc758 \uc885\ubcc4 \ud2b9\uc9d5", "data": [{"name": "\ucf54\uce74\uc2a4\ud30c\ub2c8\uc5d8", "feature": "\uadc0\uc5ec\uc6b4 \uc678\ubaa8, \uc544\ub984\ub2e4\uc6b4 \ud138, \ud658\uacbd\uc5d0 \uc798 \uc801\uc751, 30cm \uc911\ubc18\ub300"}, {"name": "\ud3ec\uba54\ub9ac\uc548", "feature": "\ubd80\ub4dc\ub7ec\uc6b4 \ud138, \ub9d0 \uc798 \ub4e4\uc73c\ub098 \ud765\ubd84 \uc27d\uac8c \ud568, 26-27cm \uc774\ub0b4"}, {"name": "\ube44\uae00", "feature": "\uc545\ub9c8\uacac, \uadc0\uc5ec\uc6b4 \uc678\ubaa8, \ucd1d\uba85\ud568"}]}
{"description": "반려견의 종별 특징", "data": [{"name": "코카스파니엘", "feature": "귀여운 외모, 아름다운 털, 환경에 잘 적응, 30cm 중반대"}, {"name": "포메리안", "feature": "부드러운 털, 말 잘 들으나 흥분 쉽게 함, 26-27cm 이내"}, {"name": "비글", "feature": "악마견, 귀여운 외모, 총명함"}]}


* `loads()` 함수와 대비되며 파이썬 객체를 JSON 문자열로 바꾸는 함수는 `dumps()` 함수이다.
* `dumps()` 함수는 정수, 문자열, 리스트 등 많은 형의 객체를 JSON 문자열로 바꿀 수 있지만 일반적으로 딕셔너리를 이용한다.
* JSON 표준을 엄격하게 적용하면 한글 등 ASCII 문자로 표현할 수 없는 문자는 이스케이핑을 해야 하지만, 기준을 완화하여 ASCII 문자가 아닌 문자도 이스케이핑하지 않고 표시하도록 하는 것이 편리하다.

### JSON 라인 파일
앞서 살펴본 JSON 파일은 파일의 내용 전체가 하나의 JSON 객체에 해당한다. 한편 줄 단위로 JSON 문자열을 저장한 파일도 많이 쓰이는데 이를 JSON 라인 파일(JSON lines text file format, <http://jsonlines.org>)이라 부른다. 다음은 `seoul_wifi.json` 파일을 가공하여 JSON 라인 파일로 만든 `seoul_wifi.jsonl` 파일의 내용의 일부이다.

```json
{"PLACE_NAME":"(재)서울산업통상진흥원","CATEGORY":"공공기관","INSTL_X":"127.0717546","INSTL_Y":"37.4955815","GU_NM":"강남구","INSTL_DIV":"LGU+"}
{"PLACE_NAME":"(재)서울산업통상진흥원서울신기술창업센타","CATEGORY":"공공기관","INSTL_X":"127.0380541","INSTL_Y":"37.4976121","GU_NM":"강남구","INSTL_DIV":"LGU+"}
{"PLACE_NAME":"U강남도시관제센터","CATEGORY":"공공기관","INSTL_X":"127.0409920","INSTL_Y":"37.5084025","GU_NM":"강남구","INSTL_DIV":"강남구"}
...
```

JSON 라인 형식은 각 줄이 JSON 문자열로 이루어져 있고 각 줄의 구분은 당연히 줄바꿈 문자로 한다. 각 줄의 끝에 `,`가 있으면 안된다는 것을 잊지 말자. 이제 이 파일을 읽어서 파이썬 객체를 생성하는 예제를 살펴보자.

In [21]:
# JSON 라인 파일 읽기
import json

data = []
file_name = "../data/textproc/seoul_wifi.jsonl"

with open(file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        datum = json.loads(line)
        data.append(datum)

위의 예제는 JSON 라인 파일을 줄 단위로 읽어서 객체를 만들어 리스트에 추가하는 전형적인 예이다. 각 줄의 구분자인 줄바꿈 문자를 `strip()` 메소드를 이용하여 없애주지 않아도 딕녀너리 객체가 제대로 만들어진다.

In [22]:
# JSON 라인 파일 쓰기
import json

data = [
    {
        "name": "코카스파니엘",
        "feature": "귀여운 외모, 아름다운 털, 환경에 잘 적응, 30cm 중반대"
    },
    {
        "name": "포메리안",
        "feature": "부드러운 털, 말 잘 들으나 흥분 쉽게 함, 26-27cm 이내"
    },
    {
        "name": "비글",
        "feature": "악마견, 귀여운 외모, 총명함"
    }
]

file_name = "../data/textproc/dogs.txt"

with open(file_name, "w", encoding="utf-8") as output_file:
    for datum in data:
        line = json.dumps(datum, ensure_ascii=False)
        print(line, file=output_file)

>JSON 파일과 JSON 라인 파일의 확장자로 `json`과 `jsonl`을 사용하였는데 반드시 그렇게 해야하는 것은 아니다.

>현장에서는 표준 모듈인 json보다 훨씬 속도가 빠른 ujson 모듈을 많이 사용한다. ujson 모듈은 표준 모듈은 아니지만 쉽게 설치할 수 있다.

## 비정형 텍스트 파일 처리

### 예제 파일
예제 비정형 파일로는 인터넷에서 구한 이청준의 단편 소설 "벌레 이야기" 파일을 사용한다. 이 파일은 앞서와 마찬가지로 `data\textproc` 디렉토리에 들어 있다.

이 파일은 정형적인 비정형 텍스트 파일로 대체로 하나의 줄이 하나의 단락으로 구성되어 있는 것 외에는 별다른 외현적 구조를 가지고 있지 않다. 맨 윗줄이 소설의 제목이고 숫자로만 이루어진 단락은 장 혹은 절 구분이라는 구조는 암묵적으로 주어져 있다.

>요즘에는 문장의 중간, 심지어 한 어절의 중간에서 물리적인 줄바꿈이 이루어진 텍스트 파일이 그리 많지 않다. 어절이 잘린 텍스트 파일을 제대로 처리하기 위해서는 상당히 번거로운 전처리 과정이 필요하다.

### 어절의 분절과 계수
한국어에서 어절은 일반적으로 공백 문자로 구분된 문자열로 정의한다. 그러므로 어절의 분절은 문자열의 `split()` 메소드를 이용하여 다음과 같이 할 수 있다.

In [23]:
# 어절의 분절
input_file_name = "../data/textproc/worm.txt"

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        wordforms = line.split()
        
        for wordform in wordforms:
            print(wordform)

<벌레이야기>
1
아내는
알암이의
돌연스런
가출이
유괴에
의한
실종으로
확실시되고
난
다음에도
한동안은
악착스럽게
자신을
잘
견뎌
나가고
있었다.
그것은
아이가
어쩌면
행여
무사히
되돌아오게
될지도
모른다는
간절한
희망과,
녀석에게
마지막
불행한
일이
생기기
전에
어떻게든지
놈을
다시
찾아내고
말겠다는
어미로서의
강인한
의지와
기원
때문인
것
같았다.
지난해
5월
초.
어느
날
알암이가
학교에서
돌아올
시각이
훨씬
지나도록
귀가를
안
했다.
달포
전에
갓
초등학교
4학년을
올라간
녀석은
학교에서
돌아오는
길로
곧장
다시
동네
상가에
있는
주산
학원을
나가야
했다.
우리가
부러
시킨
일이
아니라
녀석이
좋아서
쫓아다니는
곳이었다.
다리가
한
쪽
불편한
때문이었을까.
제
어미
마흔
가까이에
얻어난
녀석이
어릴
적부터
성미가
남달리
유순했다.
유순한
정도를
지나
내숭스러워
보일
만큼
나약하고
조용했다.
어려서부터
통
집
밖엘
나가
노는
일이
없었다.
동네
아이들과도
어울리려
하질
않았다.
집
안에서만
혼자
하얗게
자라갔다.
혼자서
무슨
특별한
놀이를
탐구하는
일도
없었다.
무슨
일에도
취미를
못
붙이고
애어른처럼
그저
방
안에만
틀어박혀
적막스런
나날을
지내고
있었다.
녀석의
몸짓이나
말투까지도
그렇게
조용조용
조심스럽기만
하였다.
초등학교엘
입학하고
나서도
마찬가지였다.
태어날
때부터의
불구에
이력이
붙은
우리
부부는
말할
것도
없었고,
녀석의
담임
반
선생님까지도
각별한
주의를
기울여
살폈지만,
녀석에겐
전혀
별다른
변화의
기색이
나타나질
않았다.
친구를
가까이
사귀는
일이나,
어떤
학과목에
특별히
취미를
붙여가는
낌새가
전혀
없었다.
특별한
취미는
없어
하면서도
학과목
성적만은
또
전체적으로
고루
상급에
속할
만큼
제
할
일은
제대로
하고
다니는
녀석이었다.
그런데
지낸해
봄,
녀석이
4학년엘
올라가고
나서였다.
이때까지
전혀
어떤
특별
활동
시간에도
관심을
보이지
않던
녀석이
이번엔
누가
권하지
않았는데도
제물에
새로
생긴
주산반엘
들어갔다.
그리고
거기
어

엄마를
우리
주님께로
인도하고
말
테니까.
알암이
엄마라고
어렵고
마음
아픈
일이
안
생길
수
있겠어요.
애
엄마한테도
언젠가는
반드시
주님의
손길이
필요한
때가
찾아오게
될
거예요.
내
그땐
반드시…….
그럴
만한
어떤
계기라도
기다리듯
계속해서
뜸을
들이고
기곤
하였다.
별반
악의가
깃들지
않은
소리들이어서
아내도
그저
무심히
들어
넘기곤
해오던
처지였다.
한데
과연
그녀의
예언처럼
아이의
사고
가
생기고
만
것이었다.
김
집사는
마치
그거
보라는
듯,
혹은
기다리던
때라도
찾아온
듯
아이의
실종사고가
생기자
금세
다시
아내에게로
달려왔다.
그리고는
이런
저런
걱정의
말끝에
다시
아내의
믿음을
권해
왔다.
-
주님
앞으로
나오세요.
주님은
알암이
엄마처럼
근심
걱정으로
마음을
앓는
사람들과
아픔을
함께하고
그
짐을
덜어주시기
위해
사랑으로
이
땅엘
오셨던
분입니다.
이럴
때일수록
주님께로
나아가
그분의
끝없는
사랑의
품속에
슬픈
영혼을
의지하도록
해야해요.
한데
아내는
그토록
심정이
절박했기
때문이었을까.
-
그분은
모든
일을
미리
알고
계시겠지요?
그리고
모든
일을
뜻대로
행하실
수가
있는
분이시지요?
아내가
모처럼
귀가
솔깃해져서
애원하듯
김
집사에게
묻고
들었다.
하니까
김
집사는
전혀
망설임이
없었다.
-
하느님은
전지전능,
우주
만물을
섭리하고
계신
분입니다
예수님은
그분의
독생자이십니다.
-
그럼
그분은
우리
아이가
지금
어떻게
되어
있는
것도
알고
계신
걸까요?
-
알고
계실
뿐
아니라
알암이는
지금
그분께서
사랑으로
보살피고
계십니다.
그러니
그런
건
너무
걱정
마시고
우선
먼저
그분
앞으로
나아가
그분께
의지할
결심부터
하세요.
-
그분이
우리
아일
무사히
되돌려
보내주실까요?
-그분의
뜻이
계시기만
한다면……
하지만
그걸
바라기
전에
당신의
믿음을
먼저
그분께
바쳐야
합니다.
그분은
언제나
당신의
믿음을
기다리고
계시니까요.
아내를
위로하기
위해서이기도
했겠지만,
아내의
안타깝고
초조한
심사
앞에
김
집사의
대답은
단언에
가까웠다.
하니까

믿음과
자기
회복은
아내
자신뿐
아니라
나에게까지도
깊은
마음의
상처를
씻고
악몽에서
벗어나게
할
기회가
될
수
있었다.
적어도
나는
아내의
변화에서
그런
희망을
느낄
수
있었다.
그러나
그런
아내의
변화에
대한
희망과
기대는
그녀의
믿음의
인도자가
되고
있는
김
집사의
그것이
더했던
것인지도
모른다.
김
집사는
아내에게
용기를
얻은
듯
그녀의
신앙심을
한층
더
부추겨
나갔다.
김
집사는
아내에게
이제는
거기서
죄인을
용서할
수도
있어야
한다고
설득했다.
사람에겐
애초
남을
심판할
권리도
없지만,
그보다
주님을
영접하기
위해선
마음을
깨끗이
비워내
놓아야
하며
심중에
원망과
미움을
조금이라도
남겨두고
있으면
주님의
사랑과
은총이
임할
자리가
그만큼
좁아지게
마련이라
하였다.
그러니
차제에
그를
용서함으로써
마음속의
모든
원망과
분노와
미움과
저주의
뿌리를
뽑아내고
주님을
영광되게
영접하라
하였다.
아내에겐
바로
이때가
그래야
할
은혜스런
기회라
하였다.
-
하느님의
깊은
섭리의
역사를
우리
인간으로는
참으로
헤아릴
수가
없다지
않았어요.
알암이의
슬프고
불행스런
사고가
그
어머니에게
주님을
영접케
할
은총의
기회일
줄을
누가
알았겠어요.
그건
모두가
이런
영광과
은총을
예비해
두고
계신
주님께서
우리를
단련
시켜
맞이하시려는
사랑의
시험에
불과했던
거예요.
우리는
오히려
그것을
기쁨으로
감내했어야
할
일들이었지요.
그토록
오묘한
주님의
섭리와
사랑의
역사
앞에
우리가
어찌
알암이의
영혼의
구원을
믿지
않을
수
있겠어요.
죄인을
아주
용서하도록
하세요.
그게
틀림없이
주님의
뜻이며
기쁨이실
거예요.
김
집사는
알암이의
구원을
단언하며
‘용서’를
간독히
당부했다.
그것도
그저
한두
번이
아니고
틈이
있는
대로
끈질기게
계속했다.
하니까
아내도
그동안
그만큼
마음의
자리가
생겨난
모양이었다.
그리고
그만큼
참신앙심이
싹을
트고
성장을
계속해
온
모양이었다.
아내는
갈수록
말씨나
표정이
부드러워져
가고
있었다.
생활도
어느
만큼
제
궤도로
돌아오고(범인의
재판이
끝나

당신의
깊으신
뜻을
모두
알
수가
없습니다.
우리는
무조건
당신의
뜻을
따라
복종을
해나갈
의무밖에
없습니다.
용서도
마찬가집니다.
주님께서
그를
용서하셨다면
우리도
그를
용서해야
합니다.
그것이
전지전능하신
주님의
종이
된
우리
인간들의
의무인
거니까요.
알암이
엄마도
그날
똑똑히
들었지만,
그는
애
엄마의
어떤
원망이나
책벌이라도
달게
받을
각오라고
말하지
않았어요.
그건
그가
이미
주님의
사함
속에
죽음을
두려워하지
않는
영혼의
평회를
얻고
있는
증거였어요.
그래서
그는
애
엄마의
어떤
원망이나
증오도
달갑게
감수하고,
그걸
용서할
수가
있었던
거예요.
-그가
나를
용서한다구요?
게다가
주님께선
그를
먼저
용서하시구…….
하긴
그게
아마
사실일지도
모르겠어요.
그래서
나는
질투
때문에
더욱더
절망하고
그를
용서할
수가
없었을
거예요.
하지만
그것이
과연
주님의
뜻일까요?
당신이
내게서
그를
용서할
기회를
빼앗고,
그를
먼저
용서하여
그로
하여금
나를
용서케
하시고……
그것이
과연
주님의
공평한
사랑일까요.
나는
그걸
믿을
수가
없어요.
그걸
정녕
믿어야
한다면
차라리
주님의
저주를
택하겠어요.
내게
어떤
저주가
내리더라도
미워하고
저주하고
복수하는
인간으로
살아가겠다는
말이에요…….
아내는
마침내
마지막
절망을
토해
내고
있었다.
하지만
김
집사는
이제
그
가엾은
아내
속에서
절식해
죽어가는
인간을
보려
하지
않았다.
그녀는
아내의
무참스런
파탄
앞에
끝끝내
주님의
엄숙한
계율만을
지키려
하고
있었다.
그녀는
이제
차라리
주님의
대리자처럼
아내를
강압했다.
-
벌써
몇
번씩
되풀이한
말이지만,
그게
바로
아버지
하느님의
숨은
섭리의
역사이신
거니까요.
주님께선
아마
그를
통하여
알암이와
알암이
엄마의
영혼을
함께
구원하실
뜻이셨을
거예요.
이제
와서
굳이
그를
용서하는
것은
이미
주님의
사함을
받은
그
사람을
위하는
일이
아니라,
알암이와
알암이
엄마
자신을
위해서
자신들의
영혼에
필요한
일일테니
말이에요.
알암이
엄만
무엇보다
그걸
아셔야
해요.
알암이

이제 분절된 어절의 빈도를 세보자. 빈도를 세는 데에는 보통 딕셔너리를 사용한다. 이 때 각 어절이 딕셔너리의 키가 되고 해당 어절의 빈도가 값이 된다. 텍스트 파일의 앞에서부터 순차적으로 누계가 이루어지면서 빈도가 갱신되어 파일의 모든 내용을 처리하고 나면 최종 빈도가 얻어진다. 최근에는 빈도 계수에 특화된 Counter 클래스를 딕셔너리 대신에 사용하는 것이 권장된다.

In [24]:
# 어절의 계수

from collections import Counter

input_file_name = "../data/textproc/worm.txt"
wordform_counter = Counter()

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        wordforms = line.split()
        
        for wordform in wordforms:
            wordform_counter[wordform] += 1
            
for wordform, freq in wordform_counter.most_common():
    print("{}\t{}".format(wordform, freq))

그	126
김	80
아내는	67
아내의	60
그리고	55
없었다.	53
수가	50
하였다.	42
그를	42
있었다.	41
것이었다.	40
주님의	38
수	38
-	37
하지만	37
아내가	36
있는	35
그런	32
아이의	32
다시	31
나는	28
일이	27
할	26
자신을	26
한	26
않았다.	26
아내를	25
알암이	24
아니었다.	23
집사의	23
어떤	22
그것이	22
모든	22
알암이의	22
이미	21
그것을	21
거예요.	20
집사는	19
것이	18
그것은	17
아이를	16
그러나	16
무슨	16
대한	16
때문이었다.	16
듯	16
자기	15
이제	15
아내에겐	15
아니라	15
우리는	15
속에	15
없는	15
된	15
애	15
그의	14
하고	14
것은	14
우리	14
그렇게	14
아내	14
일을	14
그럴	13
그는	13
어느	13
학원	13
용서할	13
용서를	12
만	12
먼저	12
그런데	12
것	12
다른	12
필요한	12
자신의	12
전혀	12
같은	11
아이가	11
더	11
아직도	11
집사	10
그것으로	10
마음의	10
제	10
있었던	10
마음이	10
물론	10
마침내	10
함께	10
나의	10
어떻게	10
주님을	10
마지막	10
원망과	10
마음을	10
말을	10
그래서	10
아직	9
학교에서	9
녀석이	9
너무	9
일이었다.	9
일에	9
게	9
사람은	9
하지	9
시작했다.	9
위해	9
그래	9
깊은	9
주산	9
없어요.	9
걸	8
알	8
것을	8
온	8
오히려	8
그게	8
알고	8
스스로	8
수밖에	8
일은	8
바로	8
날	8
그저	8
그걸	8
나갔다.	8
알암이는	8
일도	8
알암이가	8
그만큼	8
내가	8
엄마	8
되고	8
아내에게	8
하느님의	8
때문이다.	8
모른다.	8
때문에	8
그녀의	8
아예	7
말았다.	7
사람이	7
기다리고	7
같았다.	7
모두	7
만큼	7
복수의	7
거의	7
엄마의	7
될	7
시신이	7
믿음을	7
희망과	7
더욱이	7
것이다.	7
여전히	7
그녀가	7
않고	7
보니	7
것도	7
두고	

막연한	1
찾아내야	1
될는지	1
구세주	1
무	1
죄값을	1
갖는	1
추슬러	1
불량배들한테라도	1
자신	1
가출이	1
선뜻	1
걱정의	1
남모르는	1
심장은	1
밀려	1
남아	1
그로	1
동의	1
모르지만,	1
망설임이	1
꿋꿋이	1
인도하고자	1
했어요.	1
삼을	1
분명코!)	1
있지만,	1
복수심에	1
편해지겠다는	1
주민들을	1
유관	1
아내에게로	1
처사였다.	1
좋겠다고	1
일어난	1
어지럽혀댔을뿐	1
약을	1
5월	1
절망적으로	1
사건을	1
않아도	1
지도하는	1
암매장을	1
빼앗아가	1
마련하고	1
남달리	1
뒷받침된	1
아내(이제와서	1
드러나지	1
옳게	1
보기에도	1
모조리	1
몰골이	1
참뜻과	1
굳은	1
법하였다.	1
말	1
확실해진	1
웬만큼까지	1
뒤져	1
당시로선	1
공평한	1
증오심을	1
보내주실까요?	1
일일지	1
있기까지	1
인도받을	1
행위에	1
복수심이야말로	1
견디지를	1
입에는	1
설득했다.	1
넘어서야	1
사귀는	1
되돌려	1
여망이	1
인내로	1
체념과	1
싶더니	1
컸다.	1
사람들과	1
알고서도	1
불구하고	1
아낌없는	1
달려왔다.	1
썩	1
-초등학교	1
깨끗하고	1
느낌	1
털어놓았다.	1
바쳐야	1
영혼	1
사정이	1
계시겠지요?	1
하나	1
연락	1
깨닫기	1
금할	1
소망대로	1
12월	1
목적과	1
교회에서나(아마	1
이때가	1
물	1
파탄	1
생겼나?	1
재판이	1
아셔야	1
불안하게	1
가라앉은	1
남겨두고	1
하자고	1
갑작스런	1
부질없어하는	1
곳들을	1
지니고	1
느껴지는	1
알아볼	1
실망하는	1
걸려온	1
맡기는	1
참담스러운	1
사태의	1
마음은	1
건물까지도	1
처음의	1
잃기도	1
돌려보내	1
신문사를	1
생겨	1
서두르고	1
샅샅이	1
찾아와서	1
참사가	1
오곤	1
이루어주지	1
손해를	1
가게	1
수업이	1
빼앗겨버린	1
쫓아나가선	1
일찍	1
테니	1
품으로	1
한층	1
불길	1
색출	1
아니지만,	1
위로하고	1
빨랐기	1
마흔	1
방송된	1
때문이었지요.	1
엄마에

* Counter 클래스는 앞서 사용한 defaultdict 클래스와 비슷하게 동작하여 빈도의 기본값인 0이 모든 키에 대해서 미리 상정된다.
* Counter 클래스의 `most_common()` 메소드는 빈도 계수 결과를 빈도 역순으로 정렬하여 출력할 때에 매우 요긴하다.

### 문장의 분절
문장은 텍스트 파일의 내재적 단위가 아니다. 즉, 문장과 문장을 구분하는 명시적인 구분자가존재하지 않는다. 언어학에서도 문장을 명확하게 정의하는 것은 그리 쉬운 일이 아니다. 텍스트 처리에서는 문장을 문장의 종결을 나타내는 문장 부호인 `.`, `?`, `!`로 구분하는 방법을 많이 사용한다. 그런데 이들 문장 부호가 때로 문장의 종결이 아닌 곳에서도 사용될 수 있기 때문에 이들 부호에 공백 문자가 연이어진 경우를 문장의 구분이 이루어지는 것으로 보는 것이 안전하다.  실제 구현에 있어서는 문장의 구분을 줄의 구분과 일치시켜서 문장의 구분이 텍스트 파일의 외현적 구조에 반영되도록 하는 것이 편리하다.

In [12]:
# 문장의 분절

input_file_name = "../data/textproc/worm.txt"
sentences = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        line = line.replace(". ", ".\n")
        line = line.replace("? ", "?\n")
        line = line.replace("! ", "!\n")
        sub_sentences = line.splitlines()
        sentences += sub_sentences
        
for sentence in sentences:
    print(sentence)

<벌레이야기>
1
아내는 알암이의 돌연스런 가출이 유괴에 의한 실종으로 확실시되고 난 다음에도 한동안은 악착스럽게 자신을 잘 견뎌 나가고 있었다.
그것은 아이가 어쩌면 행여 무사히 되돌아오게 될지도 모른다는 간절한 희망과, 녀석에게 마지막 불행한 일이 생기기 전에 어떻게든지 놈을 다시 찾아내고 말겠다는 어미로서의 강인한 의지와 기원 때문인 것 같았다.
지난해 5월 초.
어느 날 알암이가 학교에서 돌아올 시각이 훨씬 지나도록 귀가를 안 했다.
달포 전에 갓 초등학교 4학년을 올라간 녀석은 학교에서 돌아오는 길로 곧장 다시 동네 상가에 있는 주산 학원을 나가야 했다.
우리가 부러 시킨 일이 아니라 녀석이 좋아서 쫓아다니는 곳이었다.
다리가 한 쪽 불편한 때문이었을까.
제 어미 마흔 가까이에 얻어난 녀석이 어릴 적부터 성미가 남달리 유순했다.
유순한 정도를 지나 내숭스러워 보일 만큼 나약하고 조용했다.
어려서부터 통 집 밖엘 나가 노는 일이 없었다.
동네 아이들과도 어울리려 하질 않았다.
집 안에서만 혼자 하얗게 자라갔다.
혼자서 무슨 특별한 놀이를 탐구하는 일도 없었다.
무슨 일에도 취미를 못 붙이고 애어른처럼 그저 방 안에만 틀어박혀 적막스런 나날을 지내고 있었다.
녀석의 몸짓이나 말투까지도 그렇게 조용조용 조심스럽기만 하였다.
초등학교엘 입학하고 나서도 마찬가지였다.
태어날 때부터의 불구에 이력이 붙은 우리 부부는 말할 것도 없었고, 녀석의 담임 반 선생님까지도 각별한 주의를 기울여 살폈지만, 녀석에겐 전혀 별다른 변화의 기색이 나타나질 않았다.
친구를 가까이 사귀는 일이나, 어떤 학과목에 특별히 취미를 붙여가는 낌새가 전혀 없었다.
특별한 취미는 없어 하면서도 학과목 성적만은 또 전체적으로 고루 상급에 속할 만큼 제 할 일은 제대로 하고 다니는 녀석이었다.
그런데 지낸해 봄, 녀석이 4학년엘 올라가고 나서였다.
이때까지 전혀 어떤 특별 활동 시간에도 관심을 보이지 않던 녀석이 이번엔 누가 권하지 않았는데도 제물에 새로 생긴 주산반엘 들어갔다.
그리고 거기 어

* `replace()` 메소드를 사용하여 설정된 문장 구분을 줄의 구분으로 바꾼다.
* 줄의 구분을 위해 `splitlines()` 메소드를 사용한다.
* 전체 문장 리스트를 갱신하기 위해 `+=` 연산자를 리스트에 적용한다.

>위의 방법은 같은 문자열에 대하여 여러번 문자열 치환 연산을 반복하기 때문에 효율적이지 못하다. 한 번의 경로(single path)로 문자열 치환이 이루어지는 방법(예: 정규식)을 이용하는 것이 효율적이다.

위의 문장 분절 부분은 분리하여 사용자 함수로 구성하는 것이 좋다.

In [25]:
# 문장의 분절
# 사용자 함수 작성

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()
    
    return sentences


input_file_name = "../data/textproc/worm.txt"
sentences = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        sub_sentences = split_sentences(line)
        sentences += sub_sentences
        
for sentence in sentences:
    print(sentence)

<벌레이야기>
1
아내는 알암이의 돌연스런 가출이 유괴에 의한 실종으로 확실시되고 난 다음에도 한동안은 악착스럽게 자신을 잘 견뎌 나가고 있었다.
그것은 아이가 어쩌면 행여 무사히 되돌아오게 될지도 모른다는 간절한 희망과, 녀석에게 마지막 불행한 일이 생기기 전에 어떻게든지 놈을 다시 찾아내고 말겠다는 어미로서의 강인한 의지와 기원 때문인 것 같았다.
지난해 5월 초.
어느 날 알암이가 학교에서 돌아올 시각이 훨씬 지나도록 귀가를 안 했다.
달포 전에 갓 초등학교 4학년을 올라간 녀석은 학교에서 돌아오는 길로 곧장 다시 동네 상가에 있는 주산 학원을 나가야 했다.
우리가 부러 시킨 일이 아니라 녀석이 좋아서 쫓아다니는 곳이었다.
다리가 한 쪽 불편한 때문이었을까.
제 어미 마흔 가까이에 얻어난 녀석이 어릴 적부터 성미가 남달리 유순했다.
유순한 정도를 지나 내숭스러워 보일 만큼 나약하고 조용했다.
어려서부터 통 집 밖엘 나가 노는 일이 없었다.
동네 아이들과도 어울리려 하질 않았다.
집 안에서만 혼자 하얗게 자라갔다.
혼자서 무슨 특별한 놀이를 탐구하는 일도 없었다.
무슨 일에도 취미를 못 붙이고 애어른처럼 그저 방 안에만 틀어박혀 적막스런 나날을 지내고 있었다.
녀석의 몸짓이나 말투까지도 그렇게 조용조용 조심스럽기만 하였다.
초등학교엘 입학하고 나서도 마찬가지였다.
태어날 때부터의 불구에 이력이 붙은 우리 부부는 말할 것도 없었고, 녀석의 담임 반 선생님까지도 각별한 주의를 기울여 살폈지만, 녀석에겐 전혀 별다른 변화의 기색이 나타나질 않았다.
친구를 가까이 사귀는 일이나, 어떤 학과목에 특별히 취미를 붙여가는 낌새가 전혀 없었다.
특별한 취미는 없어 하면서도 학과목 성적만은 또 전체적으로 고루 상급에 속할 만큼 제 할 일은 제대로 하고 다니는 녀석이었다.
그런데 지낸해 봄, 녀석이 4학년엘 올라가고 나서였다.
이때까지 전혀 어떤 특별 활동 시간에도 관심을 보이지 않던 녀석이 이번엔 누가 권하지 않았는데도 제물에 새로 생긴 주산반엘 들어갔다.
그리고 거기 어

이 강좌에서는 정규식을 본격적으로 다루지 않지만 위의 함수를 정규식을 이용하여 효율적으로 바꾼 코드를 아래에 보인다.

In [None]:
# 문장의 분절
# 정규식을 이용한 문장 분절 함수 작성
import re

def split_sentences_re(text):
    sentences = re.split("(?<=[.?!]) ", text.strip())
    
    return sentences


input_file_name = "../data/textproc/worm.txt"
sentences = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        sub_sentences = split_sentences_re(line)
        sentences += sub_sentences
        
for sentence in sentences:
    print(sentence)

# 연습 문제
1. 제공하는 `daily-weather-headlines.txt` 파일을 읽어서 월별 어절 빈도를 구조화하라.
1. 빈도 상위 20 개의 어절에 대하여 스프레드시트에서 월별 빈도 차트를 그릴 수 있는 형태의 TSV 파일을 생성하라.

In [None]:
from collections import Counter

if_name = 