#### Kkma 형태소 분석기

In [1]:
from konlpy.tag import Kkma

kkma = Kkma()
text = '아버지가 방에 들어갑니다'

In [2]:
#형태소 추출
morphs = kkma.morphs(text)  # ① text 변수에 저장된 문장을 형태소 단위로 토크나이징 합니다.  
                            # 토크나이징된 형태소들은 리스트 형태로 반환 됩니다.

print(morphs)


['아버지', '가', '방', '에', '들어가', 'ㅂ니다']


In [3]:
#형태소와 품사 태그 추출  
pos = kkma.pos(text)  # Ⓒ text 변수에 저장된 문장을 품사 태깅합니다. 
                      # 태깅된 품사와 형태소들은 리스트 형태로 반환됩니다.

print(pos)


[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN')]


In [4]:
#명사만 추출
nouns = kkma.nouns(text)  # ③ text 변수에 저장된 문장에서 품사가 명사인 단어들만 추출합니다.

print(nouns)


['아버지', '방']


In [5]:

#문장 분리
sentences = "국내 코스피가 3000선을 돌파하였습니다! 이번 해는 정말 기대가 되네요!"
s = kkma.sentences(sentences) # ④ 복합 문장(2개 이상의 문장)이 있을 때 문장 단위로 토크나이징합니다.
print(s)

['국내 코스 피가 3000 선을 돌파하였습니다!', '이번 해는 정말 기대가 되네요!']


    Kkma의 경우 다른 형태소 분석기에 비해 분석 시간이 느리지만 Okt(𝑂𝑝𝑒𝑛 𝐾𝑜𝑟𝑒𝑎𝑛 𝑡𝑒𝑥𝑡) 기준의 품사 태그에 비해 지원하는 품사 태그가 다양합니다. 
    따라서 속도가 느리더라도 정확한 품사 정보가 필요할 때는 Kkma를 많이 사용합니다.


#### Okt 한국어 처리기

    Okt의 경우 앞서 소개한 형태소 분석기들보다 분석되는 품사 정보는 작지만 분석 속도는 제일 빠릅니다. 
    또한 normalize() 함수를 지원해 오타가 섞인 문장을 정규화해서 처리하는 데 효과적입니다.


In [6]:
from konlpy.tag import Okt
okt = Okt()	#Okt 형태소 분석기 객체 생성

text = "인공지능을 배우는 채널 코드라이언"


In [7]:
morphs = okt.morphs(text)  #형태소 추출
print(morphs)

['인공', '지능', '을', '배우는', '채널', '코드', '라이언']


In [8]:
pos = okt.pos(text)  #형태소와 품사 태그 추출
print(pos)

[('인공', 'Noun'), ('지능', 'Noun'), ('을', 'Josa'), ('배우는', 'Verb'), ('채널', 'Noun'), ('코드', 'Noun'), ('라이언', 'Noun')]


In [9]:
nouns = okt.nouns(text)  #명사만 추출
print(nouns)

['인공', '지능', '채널', '코드', '라이언']


In [10]:
text = "롤 한판 하실래욬ㅋㅋ?"
print(okt.normalize(text))  #정규화, 어구 추출

롤 한판 하실래요ㅋㅋ?


    화자가 챗봇에 질의할 때는 구어체나 오타가 섞인 채 입력하는 경우가 많습니다. 이때 입력된 문장을 정규화 하면 성능 향상에 도움이 됩니다


In [None]:
# text 변수에 저장된 문장을 어구 단위로 추출합니다.
print(okt.phrases(text))

#### Komoran

In [4]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "코모란은 형태소 분석기의 종류 중 하나이다."
pos = komoran.pos(text)
print(pos)

# [('코', 'NNG'), ('모란', 'NNP'), ('은', 'JX'), ('형태소', 'NNP'), ('분석기', 'NNG'), ('의', 'JKG'), 
#  ('종류', 'NNG'), ('중', 'NNB'), ('하나', 'NR'), ('이', 'VCP'), ('다', 'EF'), ('.', 'SF')]

[('코', 'NNG'), ('모란', 'NNP'), ('은', 'JX'), ('형태소', 'NNP'), ('분석기', 'NNG'), ('의', 'JKG'), ('종류', 'NNG'), ('중', 'NNB'), ('하나', 'NR'), ('이', 'VCP'), ('다', 'EF'), ('.', 'SF')]


In [5]:
komoran = Komoran(userdic='data/user_dic.tsv')
text = "코모란은 형태소 분석기의 종류 중 하나이다."
pos = komoran.pos(text)
print(pos)

# [('코모란', 'NNP'), ('은', 'JX'), ('형태소', 'NNP'), ('분석기', 'NNG'), ('의', 'JKG'), 
# ('종류', 'NNG'),  ('중', 'NNB'), ('하나', 'NR'), ('이', 'VCP'), ('다', 'EF'), ('.', 'SF')]



[('코모란', 'NNP'), ('은', 'JX'), ('형태소', 'NNP'), ('분석기', 'NNG'), ('의', 'JKG'), ('종류', 'NNG'), ('중', 'NNB'), ('하나', 'NR'), ('이', 'VCP'), ('다', 'EF'), ('.', 'SF')]


In [7]:
from konlpy.tag import Kkma

kkma = Kkma()
text = "유재석은 개그맨"
pos = kkma.pos(text)
print(pos)

# [('유', 'NNG'), ('재석', 'NNG'), ('은', 'JX'), ('개그맨', 'NNG')]

[('유', 'NNG'), ('재석', 'NNG'), ('은', 'JX'), ('개그맨', 'NNG')]


In [8]:
kkma = Kkma(userdic='data/user_dic.tsv')
text = "유재석은 개그맨"
pos = kkma.pos(text)
print(pos)



TypeError: __init__() got an unexpected keyword argument 'userdic'

In [9]:
from konlpy.tag import Okt
okt = Okt()
text = "유재석은 개그맨"
pos = okt.pos(text)
print(pos)

[('유재석', 'Noun'), ('은', 'Josa'), ('개그맨', 'Noun')]
