## 토큰화 & 형태소 분석
토큰화 (Tokenizing) : 글, 문단, 문장 따위를 그 하위 요소(문단, 문장, 단어)로 분절하는 것 

형태소 분석 (morpheme analysis) : 이러한 토큰화 중 문장을 의미가 있는 요소 별로 분절하여 이를 분석하는 것 

### 문장의 토큰화와 형태소 분석을 위해 필요한 함수/라이브러리

* from konlpy.tag import Okt
: 한국어 자연어 처리를 위한 konlpy 라이브러리 Okt 모듈 <br>
Okt 모듈은 konlpy에 속한 여러 형태소 분석기 중 하나 <br><br>

* Okt.morphs(sentence)
: 한국어 문장인 sentence를 형태소에 따라 분할 <br><br>

* Okt.pos(sentence)
: 한국어 문장인 sentence를 형태소와 그에 따른 품사에 따라 분할 <br>

In [1]:
import numpy as np
from konlpy.tag import Okt

In [2]:
def load_data(path):
    with open(path, 'r', encoding='UTF-8') as f:
        data = f.read()
    return data

'\n1. \'문서\'를 \'문단\'의 리스트로 변환하는 함수 doc2para를 완성합니다.\n\n   Step01. 문장의 마침표(.) 뒤에 있는 개행 표시(\n)를 기준으로 \n           문서 내 글들을 리스트 요소 즉, 문단으로 나눕니다.\n           \n   Step02. 나누어진 글들 중 마지막 글자가 "."인 경우만 \n           문단이 나누어진 것으로 보고 그 외의 문장들은 서로 \n           병합하여 줍니다.\n'

### doc2para
'문서'를 '문단'의 리스트로 변환하는 함수
* 문장의 마침표(.) 뒤에 있는 개행 표시(\n)를 기준으로 문서 내 글들을 리스트 요소 즉, 문단으로 나눈다.
* 나누어진 글들 중 마지막 글자가 "."인 경우만 문단이 나누어진 것으로 보고 그 외의 문장들은 서로 병합한다.

In [3]:
def doc2para(writing):
    
    paragraphs = []
    # 개행문자를 구분해서 처리
    splited = writing.split('\n')
    # 리스트의 길이가 0보다 큰 값 (공백인 경우 제거)
    splited = list(filter(lambda x: len(x) > 0 , splited))
    para = ""
    
    for sentence in splited:
        if sentence[-1] != '.':
            para += sentence
        else:
            paragraphs.append(para)
            # 아래 코드를 추가하여 문단 내 마지막 문장을 읽어올 수 있습니다.
            para += sentence
    
    return paragraphs

### para2sen
'문단'을 '문장'의 리스트로 변환하는 함수
* 문단을 "."으로 나누어 리스트로 만들고, 변수 sentences에 저장
* sentences 내 문장들에 대해서 "?"로 재분할 한 후,<br> ndarray.flatten()을 활용하여 재분할된 문장이 합쳐질 수 있도록 리스트로 만든다. <br> ("!"에 대해서도 마찬가지로 적용)

In [4]:
def para2sen(paragraph):
    
    sentences = []
    
    # Step01.
    sentences = paragraph.split('.')
    
    # Step02. 
    sentences = [sentence.split('?') for sentence in sentences]
    sentences = np.array(sentences).flatten()
    sentences = [sentence.split('!') for sentence in sentences]
    sentences = np.array(sentences).flatten()
    sentences = [ sentence.replace('"','') for sentence in sentences]
    
    return sentences

### sen2words_byspace
띄어쓰기로 문장을 구분하는 함수

In [5]:
def sen2words_byspace(sentence):
    
    words = []
    words = sentence.strip().split(" ")
    
    return words

### sen2morph
'Okt()'로 선언된 Tokenizer인 'analyzer'를 이용해 형태소에 따라 분할된 문장의 리스트를 변수 'morphs'에 저장하는 sen2morph
    함수 
* Okt.morphs 메소드를 사용

In [6]:
def sen2morph(sentence):
    
    morphs = []
    
    analyzer = Okt()
    morphs = analyzer.morphs(sentence)
    
    return morphs

### analyzing_morphs
'Okt()'로 선언된 Tokenizer인 'analyzer'를 이용해 형태소와 그에 따른 품사를 분할하는 analyzing_morphs 함수
* Okt.pos 메소드를 사용

In [7]:
def analyzing_morphs(sentence):
    
    analyzer = Okt()
    
    return analyzer.pos(sentence)

In [10]:
def main():
    
    DATA_PATH = "blood_rain.txt"
    
    blood_rain = load_data(DATA_PATH)
    paragraphs = doc2para(blood_rain)
    sentences = para2sen(paragraphs[4])
    words_byspace = sen2words_byspace(sentences[3])
    words_bymorphs = sen2morph(sentences[3])
    morphs_analyzed = analyzing_morphs(sentences[3])
    
    # 출력을 통해 토큰화가 잘 되었는지 확인합니다.
    
    print("문장으로 구분된 5번째 문단: ", sentences)
    print("\n띄어쓰기로 구분된 문장 (5번째 문단의 4번째 문장): ", words_byspace)
    print("\n형태소 별로 구분된 문장 (5번째 문단의 4번째 문장): ", words_bymorphs)
    print("\n형태소와 그에 따른 품사로 분류된 문장 (5번째 문단의 4번째 문장): ", morphs_analyzed)
    
    return words_byspace, words_bymorphs, morphs_analyzed

if __name__=='__main__':
    main()

문장으로 구분된 5번째 문단:  ['\ufeff혈(血)의 누(淚)일청전쟁(日淸戰爭)의 총소리는 평양 일경이 떠나가는 듯하더니, 그 총소리가 그치매 사람의 자취는 끊어지고 산과 들에 비린 티끌뿐이라', '평양성의 모란봉에 떨어지는 저녁 볕은 뉘엿뉘엿 넘어가는데, 저 햇빛을 붙들어매고 싶은 마음에 붙들어매지는 못하고 숨이 턱에 닿은 듯이 갈팡질팡하는 한 부인이 나이 삼십이 될락말락하고, 얼굴은 분을 따고 넣은 듯이 흰 얼굴이나 인정 없이 뜨겁게 내리쪼이는 가을 볕에 얼굴이 익어서 선앵둣빛이 되고, 걸음걸이는 허둥지둥하는데 옷은 흘러내려서 젖가슴이 다 드러나고 치맛자락은 땅에 질질 끌려서 걸음을 걷는 대로 치마가 밟히니, 그 부인은 아무리 급한 걸음걸이를하더라도 멀리 가지도 못하고 허둥거리기만 한다', '남이 그 모양을 볼 지경이면 저렇게 어여쁜 젊은 여편네가 술 먹고 한길에 나와서 주정한다 할터이나, 그 부인은 술 먹었다 하는 말은 고사하고 미쳤다, 지랄한다 하더라도 그따위 소리는 귀에 들리지 아니할 만하더라', '무슨 소회가 그리 대단한지 그 부인더러 물을 지경이면 대답할 여가도 없이 옥련이를 부르면서돌아다니더라', '“옥련아, 옥련아 옥련아 옥련아, 죽었느냐 살았느냐', ' 죽었거든 죽은 얼굴이라도 한번 다시 만나보자', ' 옥련아 옥련아, 살았거든 어미 애를 그만 쓰이고 어서 바삐 내 눈에 보이게 하여라', ' 옥련아, 총에 맞아 죽었느냐, 창에 찔려 죽었느냐, 사람에게 밟혀 죽었느냐', ' 어리고 고운 살에 가시가 박힌 것을 보아도 어미 된 이내 마음에 내 살이 지겹게 아프던 내 마음이라', ' 오늘 아침에 집에서 떠나올 때에 옥련이가 내 앞에 서서 아장아장 걸어다니면서, 어머니 어서 갑시다 하던 옥련이가 어디로 갔느냐', '”하면서 옥련이를 찾으려고 골몰한 정신에, 옥련이보다 열 갑절 스무 갑절 더 소중하게 생각하는사람을 잃고도 모르고 옥련이만 부르며 다니다가 목이 쉬고 기운이 탈진하여 산비탈 잔디풀 위에 털썩 주저앉았다가 혼자말로 옥련 아버지는 옥련이 

---

### 전체 코드

In [None]:
def doc2para(writing):
    
    paragraphs = []
    
    splited = writing.split('\n')
    # 리스트의 길이가 0보다 큰 값 (공백인 경우 제거)
    splited = list(filter(lambda x: len(x) > 0 , splited))
    para = ""
    
    for sentence in splited:
        if sentence[-1] != '.':
            para += sentence
        else:
            paragraphs.append(para)
            # 아래 코드를 추가하여 문단 내 마지막 문장을 읽어올 수 있다.
            para += sentence
    
    return paragraphs


def para2sen(paragraph):
    
    sentences = []
    
    # 1.split
    sentences = paragraph.split('.')
    
    # 2.split, replace
    sentences = [sentence.split('?') for sentence in sentences]
    sentences = np.array(sentences).flatten()
    sentences = [sentence.split('!') for sentence in sentences]
    sentences = np.array(sentences).flatten()
    sentences = [ sentence.replace('"','') for sentence in sentences]
    
    return sentences



def sen2words_byspace(sentence):
    
    words = []
    words = sentence.strip().split(" ")
    
    return words


def sen2morph(sentence):
    
    morphs = []
    
    analyzer = Okt()
    morphs = analyzer.morphs(sentence)
    
    return morphs

 

def analyzing_morphs(sentence):
    
    analyzer = Okt()
    
    return analyzer.pos(sentence)
    
# 위에서 정의한 함수들을 바탕으로 문서를 토큰화를 진행합니다.

def main():
    
    DATA_PATH = "blood_rain.txt"
    
    blood_rain = load_data(DATA_PATH)
    paragraphs = doc2para(blood_rain)
    sentences = para2sen(paragraphs[4])
    words_byspace = sen2words_byspace(sentences[3])
    words_bymorphs = sen2morph(sentences[3])
    morphs_analyzed = analyzing_morphs(sentences[3])
    
    # 출력을 통해 토큰화가 잘 되었는지 확인합니다.
    
    print("문장으로 구분된 5번째 문단: ", sentences)
    print("\n띄어쓰기로 구분된 문장 (5번째 문단의 4번째 문장): ", words_byspace)
    print("\n형태소 별로 구분된 문장 (5번째 문단의 4번째 문장): ", words_bymorphs)
    print("\n형태소와 그에 따른 품사로 분류된 문장 (5번째 문단의 4번째 문장): ", morphs_analyzed)
    
    return words_byspace, words_bymorphs, morphs_analyzed
    
if __name__=='__main__':
    main()