## 1.3.2 한글 토크나이징 라이브러리
### 한글은 언어 특성상 영어를 위한 도구를 사용하기에는 적합하지 않다.(현태소 분석, 음소 분리 등)
### 한글 자연어 처리에 많이 사용하는 파이썬 라이브러리로 KoNLPy가 있다.

### KoNLPy
#### KoNLPy는 한글 자연어 처리를 쉽고 간결하게 처리할 수 있도록 만들어진 오픈소스 라이브러리이다.
#### 국내에 이미 만들어져 사용되고 있는 여러 형태소 분석기를 사용할 수 있게 허용한다.
#### 형태소 분석으로 형태소 단위의 토크나이징을 가능하게 하고, 구문 분석을 가능하게 해서 언어 분석을 하는 데 유용한 도구다.

#### 형태소 단위 토크나이징
##### 한글의 경우 형태소 단위 토크나이징이 필요할 때가 있다.
##### KoNLPy에서는 여러 형태소 분석기를 제공하며, 각 분석기별로 분석한 결과는 다를 수 있다.
##### 각 분석기는 클래스 형태로 돼있고, 이를 객체로 생성한 후 메서드를 호출해서 토크나이징할 수 있다.

#### 형태소 분석 및 품사 태깅
##### 형태소란 의미를 가지는 가장 작은 단위로서 더 쪼개면 의미를 상실하는 것들을 말한다.
##### 즉, 형태소 분석이란 의미르르 가지는 단위를 기준으로 문장을 살펴보는 것을 의미한다.
##### KoNLPy에는 다음과 같은 형태소 분석기가 있다.
###### - Hannanum
###### - Kkma
###### - Komoran
###### - Mecab                      * 윈도우에서 사용 불가
###### - Okt(Twitter)
##### 각기 성능이 조금씩 다르므로 직접 비교해보고 자신의 데이터를 가장 잘 분석하는 분석기 사용을 권장한다.
##### 이번 실습에서는 Okt를 사용한다.

#### Okt

In [1]:
#konlpy에서 Okt를 불러온다
import konlpy
from konlpy.tag import Okt

In [2]:
# Okt객체를 생성한다
okt = Okt()

##### Okt는 다음과 같은 4개의 함수를 제공한다.
###### okt.morphs(): 텍스트를 형태소 단위로 나눈다. 옵션으로는 norm과 stem이 있다. 각각 True 혹은 False 값을 받으며, norm은 normalize의 약자로서 문장을 정규화 하는 역할을 하고, stem은 각 단어에서 어간을 추출하는 기능이다. 각각 True로 설정하면 각 기능이 적용된다. 옵션을 지정하지 않으면 기본값은 둘 다 False로 설정된다.
###### okt.nouns(): 텍스트에서 명사만 뽑아낸다.
###### okt.phrases(): 텍스트에서 어절을 뽑아낸다.
###### okt.pos(): 위의 세 함수는 어간/명사/어절 등을 추출해내는 추출기로 동작했다면 pos함수는 각 품사를 태깅하는 역할을 한다. 품사를 태깅한다는 것은 주어진 텍스트를 형태소 단위로 나누고 , 나눠진 각 형태소를 그에 해당하는 품사와 함께 리스트화 하는 것이다. 이 함수에서도 옵션을 설정할 수 있는데, morphs 함수와 마찬가지로 norm, stem 옵션이 있고 추가적으로 join 함수가 있는데 이 옵션값을 True로 설정하면 나눠진 형태소와 품사를 '형태소/품사' 형태로 같이 붙여서 리스트화한다.

In [4]:
# 임의의 텍스트 생성
text = "한글 자연어 처리는 재밌다 이제부터 열심히 해야지 ㅎㅎㅎ"
# 형태소 단위로 나눈다
print(okt.morphs(text))
# 형태소 단위로 나눈 후 어간을 추출
print(okt.morphs(text, stem=True))

# 어간 추출의 경우 '해야지'의 어간인 '하다'로 추출된 것을 볼 수 있다.

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']
['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


In [5]:
# 명사만 추출
print(okt.nouns(text))
# 어절 단위로 추출
print(okt.phrases(text))

# 각자 목적에 맞게 결과를 출력함을 확인할 수 있다.

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


In [6]:
# 형태소와 품사 추출
print(okt.pos(text))
# 형태소와 품사를 붙여서 리스트화
print(okt.pos(text, join=True))

# 각자 설정한대로 출력되는 것을 확인할 수 있다.

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


#### KoNLPy 데이터
##### KoNLPy 라이브러리는 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있다.
##### 데이터의 종류는 다음과 같다.
###### kolaw: 한국 법률 말뭉치. 'constitution'파일로 저장돼 있다.
###### kobill: 대한민국 국회 의안 말뭉치. 각 id 값을 가지는 의안으로 구성돼 있고 파일은 '189809.txt'부터 '1809899.txt' 까지로 구성돼있다.

In [8]:
#라이브러리 사용을 위해 각 말뭉치를 불러온다.
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

In [9]:
# 법률 말뭉치중 앞의 20개만 불러온다.
kolaw.open('constitution.txt').read()[:20]

# 앞의 20가가 출력됨을 확인할 수 있다.

'대한민국헌법\n\n유구한 역사와 전통에 '

In [None]:
# 국회 의안 말뭉치 중 '1809890.txt' 의안을 불러온다.
kobill.open('1809890.txt'.read())

# 해당 의안이 출력됨을 확인할 수 있다.