# Konlpy 사용법

### KoNLPy 라이브러리에는 한글 자연어 처리에 활용할 수 있는 한글 데이터를 포함하고 있어 라이브러리를 통해 데이터를 바로 사용할 수 있다.

In [36]:
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

In [37]:
kolaw.open( 'constitution.txt' ).read()[ : 30 ]

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국'

In [39]:
kobill.open( '1809890.txt' ).read()[ : 30 ]

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n'

In [6]:
text = '한국어 분석을 시작합니다. 재미있어요~~~'

## Okt( 구. Twitter ) 형태소 분석기

In [27]:
from konlpy.tag import Okt

In [28]:
okt = Okt()

### 형태소 분리

In [29]:
okt.morphs( text ) # 형태소 분리

['한국어', '분석', '을', '시작', '합니다', '.', '재미있어요', '~~~']

In [30]:
okt.morphs( text, stem = True ) # 형태소 분리, 어간 추출

['한국어', '분석', '을', '시작', '하다', '.', '재미있다', '~~~']

In [31]:
okt.morphs( text, norm = True ) # 형태소 분리, 정규화

['한국어', '분석', '을', '시작', '합니다', '.', '재미있어요', '~~~']

### 명사( nouns ) token 분리

In [32]:
okt.nouns( text )

['한국어', '분석', '시작']

### 어절 분리

In [33]:
okt.phrases( text )

['한국어', '한국어 분석', '시작', '분석']

### 형태소( pos ) 품사 태깅

In [34]:
okt.pos( text )

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation'),
 ('재미있어요', 'Adjective'),
 ('~~~', 'Punctuation')]

In [35]:
okt.pos( text, join = True ) # join은 나눠진 형태소와 품사를 '형태소/품사' 형태로 같이 붙여서 리스트화

['한국어/Noun',
 '분석/Noun',
 '을/Josa',
 '시작/Noun',
 '합니다/Verb',
 './Punctuation',
 '재미있어요/Adjective',
 '~~~/Punctuation']

## Kkma( 꼬꼬마 ) 형태소 분석기

In [22]:
from konlpy.tag import Kkma

In [3]:
kkma = Kkma()

### 문장( sentences ) token 분리

In [7]:
kkma.sentences( text )

['한국어 분석을 시작합니다.', '재미있어요~~~']

### 명사( nouns ) token 분리

In [8]:
kkma.nouns( text )

['한국어', '분석']

### 형태소( pos ) 품사 태깅

In [10]:
kkma.pos( text )

[('한국어', 'NNG'),
 ('분석', 'NNG'),
 ('을', 'JKO'),
 ('시작하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF'),
 ('재미있', 'VA'),
 ('어요', 'EFN'),
 ('~~~', 'SW')]

## 한나눔( Hannanum ) 형태소 분석기

In [23]:
from konlpy.tag import Hannanum

In [12]:
hannanum = Hannanum()

### 명사( nouns ) token 분리

In [14]:
hannanum.nouns( text )

['한국어', '분석', '시작']

### 형태소( pos ) 품사 태깅

In [16]:
hannanum.pos( text )

[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('.', 'S'),
 ('재미있', 'P'),
 ('어요', 'E'),
 ('~~~', 'S')]