# 효율적인 자료 처리를 위한 파이썬 표준 모듈
효율적인 복합 자료형 자료의 처리를 위해 알아두면 좋은 파이썬 표준 모듈 몇 가지를 소개한다.

## collections
전산과학에서 컬렉션(collection), 또는 컨테이너(container)라 함은 복수의 데이터 항목이 한 덩어리로 묶인 추상적인 자료형을 말한다. 파이썬의 딕셔너리, 리스트, 세트, 튜플은 모두 이러한 컬렉션의 예이다. 이들 컬렉션은 다양한 형태의 데이터의 표현에 유용하게 쓰인다. 한편 표준 라이브러리 모듈 가운데 하나인 collections 모듈은 특화된 컬렉션들을 제공한다. 이 가운데 몇 가지를 소개한다.

>https://en.wikipedia.org/wiki/Collection_(abstract_data_type) 참조.

### `Counter`
`Counter` 클래스는 빈도 계수를 위해 특화된 딕셔너리이다. 다음의 예제를 살펴보자.

In [None]:
# Counter 클래스를 이용한 어휘 빈도 계수
from collections import Counter

word_counter = Counter()   # 모든 key의 value의초기값이 0으로 셋팅되어 있다.
a_string = "무 배추 상추 고구마 무 상추 감사 양파 상추 파 가지 오이 토마토 가지 상추"
words = a_string.split()  # string to list

for word in words:
    word_counter[word] += 1

In [None]:
words

In [None]:
word_counter

In [None]:
 word_counter.most_common()

In [None]:
for word, word_count in word_counter.most_common():   # most_common(n) : top n개를 보여준다.
    print("{}\t{}".format(word, word_count))

* `Counter` 클래스는 빈도 계수의 대상인 모든 객체에 대하여 기본 빈도값으로 0을 설정한다.
* `most_common()` 메소드는 빈도 역순 정렬에 의한 데이터 항목 인출을 지원한다.
* 다음과 같이 `update()` 메소드를 이용한 빈도 계수도 가능하다.

In [None]:
# Counter 클래스를 이용한 어휘 빈도 계수
from collections import Counter

word_counter = Counter()
a_string = "무 배추 상추 고구마 무 상추 감자 양파 상추 파 가지 오이 토마토 가지 상추"
words = a_string.split()

#for word in words:
#    word_counter[word] += 1
word_counter.update(words)
    
for word, word_count in word_counter.most_common():
    print("{}\t{}".format(word, word_count))

빈도는 정수형의 자료이지만 `Counter` 객체는 다른 형의 자료도 값으로 저장할 수 있는 성질은 이용하여 빈도 계수 외의 작업에도 이용할 수 있다.

In [None]:
help(Counter)

### `defaultdict`
`defaultdict` 클래스는 앞서 설명한 `Counter` 클래스와 마찬가지로 특수한 딕셔너리로 값의 기본값이 자동으로 설정된다. 이러한 성질은 값의 형이 리스트나 딕셔너리, 또는 세트, 나아가 `defaultdict` 일 경우 매우 편리하다.

In [None]:
handset = {}
handset["Samsung"] = []  # value가 리스트나 딕셔너리, 세트 일때, 모든 key값에 대해 빈리스트로 초기화를 해주어야 한다...  key값이 미리 정해져있지 않다며 초기화는 그때그때...???
handset["Samsung"].append("Galaxy note4")
handset["Samsung"].append("Galaxy note8")
print(handset)
#handset["LG"]

In [None]:
from collections import defaultdict

foods = defaultdict(list)
foods["과일"].append("사과")
foods["과일"].append("복숭아")
foods["채소"].append("토마토")
foods["채소"].append("오이")

print(foods)

* 위에서 보는 바와 같이 각 키에 대응하는 값의 리스트의 기본값인 빈 리스트로 설정된다.
* 아래와 같이 딕셔너리에도 사용할 수 있다.

In [None]:
from collections import defaultdict

languages = defaultdict(dict)
languages["파이썬"]["저자"] = "귀도 반 로섬"
languages["파이썬"]["유형"] = "스크립트 언어"
languages["파이썬"]["확장자"] = "py"
languages["고"]["저자"] = "로버트 그리즈머, 롭 파이크, 켄 톰슨"
languages["고"]["유형"] = "컴파일 언어"
languages["고"]["확장자"] = "go"
languages["R"]["저자"] = "S"
languages["R"]["유형"] = "스크립트 언어"
languages["R"]["확장자"] = "R"
print(languages)

ordered dict라는 것이 있다.
순서...

## itertools
itertools 모듈은 효과적인 반복문 실행을 위한 기재들을 제공한다. 이 기재들은 특히 중첩된 반복문을  사용해야 하는 경우에 유용하다.

In [None]:
from itertools import combinations

a_string = "무 배추 상추 고구마 무 상추 감자 양파 상추 파 가지 오이 토마토 가지 상추"
uniq_words = set(a_string.split())
print(uniq_words)
for word1, word2 in combinations(uniq_words, 2):   
    print(word1, word2)

* `combinations()` 함수는 주어진 이터러블 객체를 대상으로 주어진 정수 개의 가능한 조합을 생성한다.

>연관된 개념인 이터레이션, 이터러블, 이터레이터의 구분에 대해서 다음 URL의 스택오버플로우 답변을 보라. <http://stackoverflow.com/questions/9884132/what-exactly-are-pythons-iterator-iterable-and-iteration-protocols>

In [None]:
from itertools import permutations

a_string = "무 배추 상추 고구마 무 상추 감자 양파 상추 파 가지 오이 토마토 가지 상추"
uniq_words = set(a_string.split())

for word1, word2 in permutations(uniq_words, 2):
    print(word1, word2)

* `permutations()` 함수는 주어진 이터러블 객체를 대상으로 주어진 정수 개의 가능한 순열을 생성한다.

In [None]:
from itertools import product

fruits = ["사과", "배", "복숭아"]
vegitables = ["감자", "고구마"]

for fruit, vegitable in product(fruits, vegitables):
    print(fruit, vegitable)

* `product()` 함수는 주어진 이터러블 객체를 대상으로 데카르트 곱을 생성한다.

In [None]:
groupby?? 라는 함수도 유용하다.
module 내에 어떤 함수들이 있는지 확인할려면?

In [None]:
zip 함수도 유용한데, 유용한 변형들이 있다.

## operator
`operator` 모듈은 `+`, `-` 등의 연산자를 대신할 수 있는 함수들을 제공한다. 이 함수들은 함수적 프로그래밍에 매우 유용하다. 이 강좌에서는 `sorted()` 함수에 인자로 정렬 키를 지정하는 지정할 때에 이 모듈에서 제공하는 `itemgetter()` 함수를 이용한다. 이 함수의 사용법은 정렬을 다룰 때에 보인다.

# 텍스트 처리 실습
이제 텍스트 파일 처리를 경험해 보자.

## 정형 텍스트 파일 처리
### 예제 파일
예제로 다룰 데이터는 서울 열린 데이터 광장에서 제공하는 CSV 형식의 서울시 공공 와이파이 위치 정보 파일이다. 이 파일은 해당 데이터의 배포 페이지(<http://data.seoul.go.kr/openinf/sheetview.jsp?infId=OA-1218>)에서 내려받을 수 있다. 원래 파일의 이름은 `서울시 공공와이파이 위치정보.csv`인데 지난 강의에서 설명한 파일과 디렉토리 이름 주의 사항에 따라 `seoul_wifi.csv`로 이름을 바꾸어 `notebook` 디렉토리에 저장한다.

>수강자들의 편의를 위해 `seoul_wifi.csv` 파일을 `data\textproc` 디렉토리에 넣어두었다. 이 파일을 복사하여 사용해도 된다.

이 파일을 앞서 설치한 노트패드++로 열어서 살펴보자. 마우스 오른쪽 버튼으로 클릭하여 "Edit with Notepad++"를 실행한다. 더블클릭하면 기본 연결 프로그램인 엑셀이 실행되므로 주의하자. 그러면 다음과 같이 표시된다.

![노트패드++로 연 CSV 파일](figs/notepadpp-csv.png)

위의 화면에서 파악할 수 있는 예제 파일의 주요 속성은 다음과 같다.

* 이 파일은 일반 텍스트 파일(normal text file)이다. 노트패드++는 여러 프로그래밍 언어의 문법을 자동 인식한다. 자동 인식이 이루어지지 않으면 일반 텍스트 파일로 간주한다.
* 이 파일은 길이가 247,330이다. 단위는 바이트이다. 이는 글자 수와는 다르다.
* 이 파일에는 2,995 줄이 들어있다. 텍스트 파일의 중요한 특징 가운데 하나가 줄(line)로 구성된다는 것이다. 줄의 구분은 개행(New Line) 문자에 의해 이루어진다(개행 문자를 줄끝(EOL) 문자라고 부르기도 함).
* 이 파일은 유닉스 형식의 줄바꿈 문자(LF)가 사용되었다. 윈도우에서는 CR과 LF 두 개의 문자로 줄바꿈을 나타내는 것이 표준이다. 따라서 이 파일을 메모장으로 열면 줄바꿈이 이루어지지 않은 채로 표시된다.
* 이 파일은 UTF-8 방식으로 인코딩되었으며 바이트 순서 표식(BOM)이 달려있다. 윈도우의 표준 인코딩은 CP949이지만 UTF-8 인코딩 파일도 많은 프로그램에서 제대로 표시할 수 있다.   바이트 순서 표식은 UTF-8 인코딩 파일에서는 별로 의미가 없으므로 메뉴에서 **인코딩** -- **UTF-8 (BOM 없음)로 변환**을 실행하여 바이트 순서 표식을 없애고 저장하는 것이 좋다.
* 이 파일은 CSV 파일이며, 각 필드는 큰따옴표(`"`)로 감싸여 있다.
* 이 파일의 첫줄은 필드명을 나타내는 헤더이다.

텍스트 편집기로는 파일의 속성을 파악할 뿐만 아니라 여러 가지 전처리도 수행할 수 있다. 예를 들어 큰따옴표를 찾기 바꾸기를 이용하여 모두 없애고, 쉼표를 같은 방법으로 탭 문자로 바꾸면 CSV 파일을 TSV로 바꿀 수 있다.

>더 안전하고 진보적인 방법은 `","` 문자열을 탭 문자로 바꾸고 정규식을 이용하여 줄 처음와 끝의 `"` 문자를 제거하는 것이다.

### 줄수 세기
텍스트 파일을 줄수는 다음과 같은 방법으로 셀 수 있다.

In [None]:
# 텍스트 파일 줄수 세기
# 계수 변수(counter variable) 이용
input_file_name = "../data/textproc/seoul_wifi.csv"
line_count = 0

# window 한글인경우 encoding은 "cp949"로 지정해주면 된다.
with open(input_file_name, "r", encoding="utf-8-sig") as input_file:  # textfile은 line의 리스트로 본다.
    for line in input_file:   # line에는 줄바꿈 문자가 포함되어있다.
        # print(line)
        # line_count = line_count + 1
        line_count += 1
        
print("주어진 텍스트 파일 {}의 줄수는 {}입니다.".format(input_file_name, line_count))

# 텍스트파일 처리

In [None]:
# 텍스트 파일 줄수 세기
# 계수 변수(counter variable) 이용
input_file_name = "../data/textproc/seoul_wifi.csv"
line_count = 0

# window 한글인경우 encoding은 "cp949"로 지정해주면 된다.
with open(input_file_name, "r", encoding="utf-8-sig") as input_file:  # textfile은 line의 리스트로 본다.
    text = input_file.read()  # 전체를 읽는 방법...

#lines = text.split("\n")
lines = text.splitlines()
print(len(lines))        

위에 보인 코드에서 익힐 핵심은 다음과 같다.

* 파일을 열 때에는 `open()` 함수를 사용한다. 인자로는 열 파일의 이름, 파일 오픈 모드, 그리고 인코딩을 넘겨준다. 예제 파일은 BOM을 지닌 utf-8 파일이므로 인코딩을 `utf-8-sig`로 지정한다. BOM이 없는 파일은 `utf-8`을 지정한다.
* `open()` 함수를 `with` 문 안에서 사용하여 파일이 자동적으로 닫히도록 하는 것이 권장된다.
* `for` 문을 파일 객체에 적용하면 파일의 내용을 줄 단위로 읽어 온다.
* `+=` 연산자로 누계를 할 수 있다.

In [None]:
# CSV 라인을 TSV 라인으로 바꾸어 인쇄하기
input_file_name = "../data/textproc/seoul_wifi.csv"

with open(input_file_name, "r", encoding="utf-8-sig") as input_file:
    for csv_line in input_file:
        csv_line = csv_line.strip()
        tsv_line = csv_line[1:-1]
        tsv_line = tsv_line.replace('","', "\t")
        print(tsv_line)

* 줄바꿈 문자를 제거하기 위해 `strip()` 메소드를 사용한다. 공백문자, 탭, 줄바꿈문자: whitespace
* 각 줄의 맨 앞과 끝에 있는 큰따옴표를 없애기 위해 문자열 스플라이싱을 이용한다.
* `replace()` 메소드를 이용하여 CSV 라인을 TSV 라인으로 바꾼다.

헤더인 첫줄은 출력하지 않으려면 다음과 같이 할 수 있다.

In [None]:
# CSV 라인을 TSV 라인으로 변환하여 인쇄하기
# 헤더 건너 뛰기
input_file_name = "../data/textproc/seoul_wifi.csv"

with open(input_file_name, "r", encoding="utf-8-sig") as input_file:
    for line_num, csv_line in enumerate(input_file):
        if line_num == 0:
            continue
            
        csv_line = csv_line.strip()
        tsv_line = csv_line[1:-1]
        tsv_line = tsv_line.replace('","', "\t")
        print(tsv_line)

### CSV 파일을 TSV 파일로 변환하기
위에서 보인 코드에 파일 출력을 덧붙이면 간단히 구현할 수 있다.

In [None]:
# CSV 파일을 TSV 파일로 변환하기
input_file_name = "../data/textproc/seoul_wifi.csv"
output_file_name = "../data/textproc/seoul_wifi.tsv"

with open(input_file_name, "r", encoding="utf-8-sig") as input_file, \
        open(output_file_name, "w", encoding="utf-8") as output_file:
    for line in input_file:
        line = line.strip()
        line = line[1:-1]
        line = line.replace('","', "\t")
        print(line, file=output_file)

* `with` 문에 `open()` 함수를 두 번 포함하여 입력 파일과 출력 파일을 동시에 열 수 있다.
* 소스 코드의 한 줄이 너무 길어지면 역사선(back slash) 문자로 줄바꿈을 명시적으로 표시하고 줄바꿈을 할 수 있다. 이 때 줄바꿈이 되어 넘어간 내용은 들여쓰기를 한 단계 더 하여 실제 들여쓰기 된 코드와 구분하는 것이 좋다.

### TSV 파일을 읽어서 데이터를 리스트에 저장하기
TSV 파일에 저장된 데이터를 읽어서 리스트에 저장하는 일은 흔히 이루어지는 일이다. 각 줄 역시 데이터 항목이 구분된 리스트이므로 전체 데이터는 리스트의 리스트이다.

In [None]:
# TSV 파일을 읽어서 데이터를 리스트에 저장하기
input_file_name = "../data/textproc/seoul_wifi.tsv"
data = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        elems = line.split("\t")
        data.append(elems)

print(data)

위에서 데이터를 저장할 때 사용한 자료 구조인 리스트의 리스트는 2차원 리스트로 볼 수 있다. 두 차원은 각각 2차원으로 표현되는 자료의 행(row)과 열(column)에 해당한다. 2차원 리스트의 개별 항목은 다음과 같이 2차원 인덱싱을 통하여 참조할 수 있다.

In [None]:
print(data[0][0])
print(data[2][5])

이와 같은 2차원 자료 구조는 행과 열, 또는 레코드와 필드로 구성되는 전형적인 형태의 자료 처리에 널리 쓰인다.

### TSV 파일을 읽어서 딕셔너리에 저장하기
2차원 자료를 저장할 때에 목적에 따라 딕셔너리를 이용할 수도 있다. 구체적으로는 딕셔너리의 딕셔너리를 이용할 수도 있고, 리스트의 딕셔너리를 사용할 수도 있다. 다음은 리스트의 딕셔너리를 이용한 예이다.

In [None]:
# TSV 파일을 읽어서 리스트의 딕셔너리에 저장하기

# 리스트의 딕셔너리 초기화
field_names = ["구명", "유형", "지역명", "설치위치(X좌표)", "설치위치(Y좌표)",  
               "설치기관(회사)"]
data = {}

for field_name in field_names:
    data[field_name] = []

# TSV 파일 읽어서 데이터 저장히기
input_file_name = "../data/textproc/seoul_wifi.tsv"

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line_num, line in list(enumerate(input_file))[:11]:
        if line_num == 0:
            continue
            
        line = line.strip()
        elems = line.split("\t")
        
        for elem, field_name in zip(elems, field_names):
            # l = data[field_name]
            # l.append(elem)
            # data[field_name] = l
            data[field_name].append(elem)
            
print(data)

In [None]:
list(enumerate([3,4,5,6,7,8]))

* 자료를 저장한 자료 구조는 리스트의 딕셔너리로 키는 컬럼 이름, 값은 자료 항목들을 담는 리스트이다.
* 각 컬럼의 이름을 하드 코딩한다.
* `zip()` 함수를 이용하여 각 컬럼의 값을 적절한 리스트에 추가한다.

컬럼 이름의 하드 코딩을 하지 않고 리스트의 초기화를 간단히 하는 코드를 아래에 보인다. 

In [None]:
import collections

# default dict 초기화. value가 list, dict, set일때 사용할 것.
data = collections.defaultdict(list)

# TSV 파일 읽어서 데이터 저장히기
input_file_name = "../data/textproc/seoul_wifi.tsv"

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line_num, line in enumerate(input_file):
        line = line.strip()
        elems = line.split("\t")
        
        if line_num == 0:
            field_names = elems
            continue
            
        for elem, field_name in zip(elems, field_names):
            data[field_name].append(elem)
            
print(data)

* collections 모듈의 defaultdict 클래스를 사용한다.

## JSON 파일 처리

우리는 앞서 대표적인 정형 텍스트 형식인 CSV와 TSV 형식의 파일 처리를 간략히 살펴보았다. 이들 형식과 함께 현업에서 많이 사용하는 형식으로 JSON(JavaScript Object Notation, <http://json.org>) 형식이 있다. 이름에서 알 수 있듯이 이 형식은 자바스크립트에서 유래한 것으로 CSV나 TSV보다는 다소 복잡하지만, 키와 값을 명시적으로 표기하여 이독성을 높일 수 있으며, 리스트 등의 내포 구조를 표현할 수 있는 등의 장점이 많아 널리 사용되고 있다.

### JSON 파일
우리는 앞서 실습에서 CSV 형식의 서울시 공공 와이파이 위치 정보를 사용했는데, 데이터 배포 페이지(<http://data.seoul.go.kr/openinf/sheetview.jsp?tMenu=11&leftSrvType=S&infId=OA-1218>)에서는 JSON 형식의 파일도 제공한다. 이 파일을 내려 받아 편집기로 열어서 내용을 살펴보면 다음과 같다.

>이 파일을 내려받아 저장할 때 `seoul_wifi.json`과 같이 로만 알파벳으로 공백 없이 파일 이름을 바꾸어 저장하는 것을 잊지 말자. 강의참여자들의 편의를 위해 `data\textproc` 디렉토리에 해당 파일을 넣어 두었다.

```json
{
"DESCRIPTION" : {"PLACE_NAME":"지역명","CATEGORY":"유형","INSTL_X":"설치위치(X좌표)","INSTL_Y":"설치위치(Y좌표)","GU_NM":"구명","INSTL_DIV":"설치기관(회사)"}, 
"DATA" : [
{"PLACE_NAME":"(재)서울산업통상진흥원","CATEGORY":"공공기관","INSTL_X":"127.0717546","INSTL_Y":"37.4955815","GU_NM":"강남구","INSTL_DIV":"LGU+"}, {"PLACE_NAME":"(재)서울산업통상진흥원서울신기술창업센타","CATEGORY":"공공기관","INSTL_X":"127.0380541","INSTL_Y":"37.4976121","GU_NM":"강남구","INSTL_DIV":"LGU+"},
{"PLACE_NAME":"U강남도시관제센터","CATEGORY":"공공기관","INSTL_X":"127.0409920","INSTL_Y":"37.5084025","GU_NM":"강남구","INSTL_DIV":"강남구"},
...
{"PLACE_NAME":"상봉동 거리","CATEGORY":"주요거리","INSTL_X":"127.0940500","INSTL_Y":"37.6043750","GU_NM":"중랑구","INSTL_DIV":"LGU+"}
]
}
```

잘 살펴보면 이 파일의 형식은 파이썬의 딕셔너리를 문자열로 표현한 형식과 똑같다. 즉, 전체가 하나의 딕셔너리이다. 이 JSON 파일의 최상위 키는 `DESCRIPTION`과 `DATA`이고, `DESCRIPTION`의 값은 영어 필드명을 키로, 한국어 필드명을 값으로 하는 딕셔너리이며, `DATA`의 값은 와이파이 설치 장소의 정보를 키와 값으로 나타낸 딕셔너리 형식의 개별 데이터 항목의 리스트이다.

이제 이 파일을 읽어서 조작해 보자.

In [None]:
# JSON 파일 읽어서 딕셔너리로 만들기
import json

file_name = "../data/textproc/seoul_wifi.json"

with open(file_name, "r", encoding="utf-8") as input_file:
    text = input_file.read()
    
doc = json.loads(text)
print(str(doc)[:500])

In [None]:
textlines = text.splitlines()
textlines[:5]

* 가장 먼저 해야 할 일은 JSON 조작을 위해 json 모듈을 임포트하는 것이다.
* 예제 파일 전체가 하나의 JSON 문자열이므로 파일의 내용 전체를 한 번에 읽어야 한다. 파일 객체의 `read()` 메소드를 이용한다.
* JSON 문자열을 딕셔너리 형의 JSON 객체로 만들기 위해 json 모듈의 `loads()` 함수를 사용한다.

이번에는 반대로 파이썬 딕셔너리를 JSON 문자열로 바꾸는 과정을 살펴보자.

In [None]:
# 딕셔너리를 JSON 문자열로 만들기
import json

dogs = {
    "description": "반려견의 종별 특징",
    "data": [
        {
            "name": "코카스파니엘",
            "feature": "귀여운 외모, 아름다운 털, 환경에 잘 적응, 30cm 중반대"
        },
        {
            "name": "포메리안",
            "feature": "부드러운 털, 말 잘 들으나 흥분 쉽게 함, 26-27cm 이내"
        },
        {
            "name": "비글",
            "feature": "악마견, 귀여운 외모, 총명함"
        }
    ]
}

esc_str = json.dumps(dogs)
print(esc_str)

unesc_str = json.dumps(dogs, ensure_ascii=False)
print(unesc_str)

In [None]:
print(dogs)

* `loads()` 함수와 대비되며 파이썬 객체를 JSON 문자열로 바꾸는 함수는 `dumps()` 함수이다.
* `dumps()` 함수는 정수, 문자열, 리스트 등 많은 형의 객체를 JSON 문자열로 바꿀 수 있지만 일반적으로 딕셔너리를 이용한다.
* JSON 표준을 엄격하게 적용하면 한글 등 ASCII 문자로 표현할 수 없는 문자는 이스케이핑을 해야 하지만, 기준을 완화하여 ASCII 문자가 아닌 문자도 이스케이핑하지 않고 표시하도록 하는 것이 편리하다.

### JSON 라인 파일
앞서 살펴본 JSON 파일은 파일의 내용 전체가 하나의 JSON 객체에 해당한다. 한편 줄 단위로 JSON 문자열을 저장한 파일도 많이 쓰이는데 이를 JSON 라인 파일(JSON lines text file format, <http://jsonlines.org>)이라 부른다. 다음은 `seoul_wifi.json` 파일을 가공하여 JSON 라인 파일로 만든 `seoul_wifi.jsonl` 파일의 내용의 일부이다.

```json
{"PLACE_NAME":"(재)서울산업통상진흥원","CATEGORY":"공공기관","INSTL_X":"127.0717546","INSTL_Y":"37.4955815","GU_NM":"강남구","INSTL_DIV":"LGU+"}
{"PLACE_NAME":"(재)서울산업통상진흥원서울신기술창업센타","CATEGORY":"공공기관","INSTL_X":"127.0380541","INSTL_Y":"37.4976121","GU_NM":"강남구","INSTL_DIV":"LGU+"}
{"PLACE_NAME":"U강남도시관제센터","CATEGORY":"공공기관","INSTL_X":"127.0409920","INSTL_Y":"37.5084025","GU_NM":"강남구","INSTL_DIV":"강남구"}
...
```

JSON 라인 형식은 각 줄이 JSON 문자열로 이루어져 있고 각 줄의 구분은 당연히 줄바꿈 문자로 한다. 각 줄의 끝에 `,`가 있으면 안된다는 것을 잊지 말자. 이제 이 파일을 읽어서 파이썬 객체를 생성하는 예제를 살펴보자.

In [None]:
# JSON 라인 파일 읽기
import json

data = []
file_name = "../data/textproc/seoul_wifi.jsonl"

with open(file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        datum = json.loads(line)
        data.append(datum)

위의 예제는 JSON 라인 파일을 줄 단위로 읽어서 객체를 만들어 리스트에 추가하는 전형적인 예이다. 각 줄의 구분자인 줄바꿈 문자를 `strip()` 메소드를 이용하여 없애주지 않아도 딕녀너리 객체가 제대로 만들어진다.

In [None]:
# JSON 라인 파일 쓰기
import json

data = [
    {
        "name": "코카스파니엘",
        "feature": "귀여운 외모, 아름다운 털, 환경에 잘 적응, 30cm 중반대"
    },
    {
        "name": "포메리안",
        "feature": "부드러운 털, 말 잘 들으나 흥분 쉽게 함, 26-27cm 이내"
    },
    {
        "name": "비글",
        "feature": "악마견, 귀여운 외모, 총명함"
    }
]

file_name = "../data/textproc/dogs.txt"

with open(file_name, "w", encoding="utf-8") as output_file:
    for datum in data:
        line = json.dumps(datum, ensure_ascii=False)
        print(line, file=output_file)

>JSON 파일과 JSON 라인 파일의 확장자로 `json`과 `jsonl`을 사용하였는데 반드시 그렇게 해야하는 것은 아니다.

>현장에서는 표준 모듈인 json보다 훨씬 속도가 빠른 ujson 모듈을 많이 사용한다. ujson 모듈은 표준 모듈은 아니지만 쉽게 설치할 수 있다.

## 비정형 텍스트 파일 처리

### 예제 파일
예제 비정형 파일로는 인터넷에서 구한 이청준의 단편 소설 "벌레 이야기" 파일을 사용한다. 이 파일은 앞서와 마찬가지로 `data\textproc` 디렉토리에 들어 있다.

이 파일은 정형적인 비정형 텍스트 파일로 대체로 하나의 줄이 하나의 단락으로 구성되어 있는 것 외에는 별다른 외현적 구조를 가지고 있지 않다. 맨 윗줄이 소설의 제목이고 숫자로만 이루어진 단락은 장 혹은 절 구분이라는 구조는 암묵적으로 주어져 있다.

>요즘에는 문장의 중간, 심지어 한 어절의 중간에서 물리적인 줄바꿈이 이루어진 텍스트 파일이 그리 많지 않다. 어절이 잘린 텍스트 파일을 제대로 처리하기 위해서는 상당히 번거로운 전처리 과정이 필요하다.

### 어절의 분절과 계수
한국어에서 어절은 일반적으로 공백 문자로 구분된 문자열로 정의한다. 그러므로 어절의 분절은 문자열의 `split()` 메소드를 이용하여 다음과 같이 할 수 있다.

In [None]:
# 어절의 분절
input_file_name = "../data/textproc/worm.txt"

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()  # newline character를 제거
        wordforms = line.split()
        
        for wordform in wordforms:
            print(wordform)

이제 분절된 어절의 빈도를 세보자. 빈도를 세는 데에는 보통 딕셔너리를 사용한다. 이 때 각 어절이 딕셔너리의 키가 되고 해당 어절의 빈도가 값이 된다. 텍스트 파일의 앞에서부터 순차적으로 누계가 이루어지면서 빈도가 갱신되어 파일의 모든 내용을 처리하고 나면 최종 빈도가 얻어진다. 최근에는 빈도 계수에 특화된 Counter 클래스를 딕셔너리 대신에 사용하는 것이 권장된다.

In [None]:
# 어절의 계수

from collections import Counter

input_file_name = "../data/textproc/worm.txt"
wordform_counter = Counter()

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        wordforms = line.split()
        
        for wordform in wordforms:
            wordform_counter[wordform] += 1
       # wordform_counter.update(wordforms)     
for wordform, freq in wordform_counter.most_common():
    print("{}\t{}".format(wordform, freq))

* Counter 클래스는 앞서 사용한 defaultdict 클래스와 비슷하게 동작하여 빈도의 기본값인 0이 모든 키에 대해서 미리 상정된다.
* Counter 클래스의 `most_common()` 메소드는 빈도 계수 결과를 빈도 역순으로 정렬하여 출력할 때에 매우 요긴하다.

### 문장의 분절
문장은 텍스트 파일의 내재적 단위가 아니다. 즉, 문장과 문장을 구분하는 명시적인 구분자가존재하지 않는다. 언어학에서도 문장을 명확하게 정의하는 것은 그리 쉬운 일이 아니다. 텍스트 처리에서는 문장을 문장의 종결을 나타내는 문장 부호인 `.`, `?`, `!`로 구분하는 방법을 많이 사용한다. 그런데 이들 문장 부호가 때로 문장의 종결이 아닌 곳에서도 사용될 수 있기 때문에 이들 부호에 공백 문자가 연이어진 경우를 문장의 구분이 이루어지는 것으로 보는 것이 안전하다.  실제 구현에 있어서는 문장의 구분을 줄의 구분과 일치시켜서 문장의 구분이 텍스트 파일의 외현적 구조에 반영되도록 하는 것이 편리하다.

In [None]:
# 문장의 분절

input_file_name = "../data/textproc/worm.txt"
sentences = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        line = line.strip()
        line = line.replace(". ", ".\n")
        line = line.replace("? ", "?\n")
        line = line.replace("! ", "!\n")
        sub_sentences = line.splitlines()
        sentences += sub_sentences   # 리스트끼리 더하는 형태. 
        #sentences.append(sub_sentences)  # 리스트를 원소로 append하는 형태. 리스트내 리스트 구조
        
for sentence in sentences:
    print(sentence)

* `replace()` 메소드를 사용하여 설정된 문장 구분을 줄의 구분으로 바꾼다.
* 줄의 구분을 위해 `splitlines()` 메소드를 사용한다.
* 전체 문장 리스트를 갱신하기 위해 `+=` 연산자를 리스트에 적용한다.

>위의 방법은 같은 문자열에 대하여 여러번 문자열 치환 연산을 반복하기 때문에 효율적이지 못하다. 한 번의 경로(single path)로 문자열 치환이 이루어지는 방법(예: 정규식)을 이용하는 것이 효율적이다.

위의 문장 분절 부분은 분리하여 사용자 함수로 구성하는 것이 좋다.

In [None]:
# 문장의 분절
# 사용자 함수 작성

def split_sentences(text):
    text = text.strip().replace(". ", ".\n").replace("? ", "?\n").replace("! ", "!\n")
    sentences = text.splitlines()
    
    return sentences


input_file_name = "../data/textproc/worm.txt"
sentences = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        sub_sentences = split_sentences(line)
        sentences += sub_sentences
        
for sentence in sentences:
    print(sentence)

이 강좌에서는 정규식을 본격적으로 다루지 않지만 위의 함수를 정규식을 이용하여 효율적으로 바꾼 코드를 아래에 보인다.

In [None]:
# 문장의 분절
# 정규식을 이용한 문장 분절 함수 작성
import re

def split_sentences_re(text):
    sentences = re.split("(?<=[.?!]) ", text.strip())
    
    return sentences


input_file_name = "../data/textproc/worm.txt"
sentences = []

with open(input_file_name, "r", encoding="utf-8") as input_file:
    for line in input_file:
        sub_sentences = split_sentences_re(line)
        sentences += sub_sentences
        
for sentence in sentences:
    print(sentence)

In [32]:
m = re.search("\\wb", "abc def 123")
m.group(0)

'ab'

# 연습 문제
1. 제공하는 `daily-weather-headlines.txt` 파일을 읽어서 월별 어절 빈도를 구조화하여 출력하라.
1. 빈도 상위 20 개의 어절에 대하여 스프레드시트에서 월별 빈도 차트를 그릴 수 있는 형태의 TSV 파일을 생성하라.

In [35]:
from collections import defaultdict, Counter
input_file_name = "../data/textproc/daily-weather-headlines.txt"


word_dic = defaultdict(list)
with open(input_file_name, "r", encoding="utf-8") as  input_file:
    for line in input_file:
        line = line.strip()
        wordforms = line.split()
        word_dic[wordforms[0]] += wordforms[1:]
        

In [84]:
month_keys = []
for day_key in list(word_dic.keys()):
    month_keys.append(day_key[:6])
month_keys = set(month_keys)    

In [87]:
month_counter_dic = defaultdict(dict)
for month_key in month_keys:
    month_counter_dic[month_key] = Counter()

In [76]:
month_counter_dic['201608']

Counter()

In [78]:
for key in word_dic:
    month_key = key[:6]
    month_counter_dic[month_key].update(word_dic[key])
    
    

In [79]:
month_counter_dic['201607']

Counter({'"너무': 3,
         '"더운날엔': 1,
         '"비가': 1,
         '"아니,': 1,
         '"어제는': 1,
         '"요즘': 1,
         '"우산,': 1,
         '"잊을만': 1,
         '"찜질방': 1,
         '"폭염아': 1,
         "'들꽃길'": 1,
         "'물폭탄'": 1,
         "'산행길'은?": 1,
         "'소강'": 1,
         "'소나기'": 1,
         "'장맛비'…입산": 1,
         "'찜통더위'…중부ㆍ영남내륙": 1,
         "'홍수주의보'": 1,
         '...': 2,
         '100.5㎜…대전·충남': 1,
         '11일': 1,
         '13일': 1,
         '15일': 1,
         '18일': 1,
         '1일': 1,
         '20㎜': 1,
         '21일': 1,
         '22일': 1,
         '26일': 1,
         '27일': 1,
         '28일': 1,
         '2번째': 1,
         '32℃...모레부터': 1,
         '33도·...': 1,
         '36.7도…올': 1,
         '39도': 1,
         '4일': 1,
         '5.0': 1,
         '53.9도…한국도': 1,
         '60개': 1,
         '6일까지': 1,
         '7월': 12,
         '7일': 1,
         '8월': 1,
         '9일': 1,
         '[날씨]': 7,
         '[날씨톡톡]': 12,
         '[등산날씨]': 4,
         '[오늘의'

In [73]:
month_counter_dic

defaultdict(dict,
            {'201601': Counter({'"감기': 1,
                      '"다': 1,
                      '"바람아,': 1,
                      '"바람한테': 1,
                      '"사랑하는': 1,
                      '"아구~': 1,
                      '"우리나라': 1,
                      '"이제': 1,
                      '"찬바람이': 1,
                      "'기승'…주말": 1,
                      "'주의'": 1,
                      '...': 2,
                      '0도': 1,
                      '10시': 1,
                      '11시': 1,
                      '11일': 1,
                      '13일': 1,
                      '15도·전국': 1,
                      '15일': 1,
                      '18도': 1,
                      '18일': 1,
                      '1㎞도': 1,
                      '1시': 1,
                      '1월': 8,
                      '20.5㎝': 1,
                      '20cm': 1,
                      '22일': 1,
                      '27일': 1,
                      '29일': 1,
                      '2월인