In [1]:
from konlpy.tag import Kkma
# KoNLPy 코엔엘파이 라이브러리 (한국어 자연어 처리)

# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()

text = "아버지가 방에 들어가신다."
# 형태소 추출 morphs - 인자로 문장을 형태소 단위로 토크나이징. 리스트 형태로 반환
morphs = kkma.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출 pos - POS tagger, 형태소를 추출한 뒤 품사 태깅, 추출된 형태소와 품사가 튜플 형태로 묶여서 리스트로 반환
pos = kkma.pos(text)
print(pos)

# 명사만 추출 nouns - 인자로 입력한 문장에서 품사가 명사인 토큰만 추출
nouns = kkma.nouns(text)
print(nouns)

# 문장 분리 sentences - 여러 문장을 분리해주는 역할. 리스트 형태로 반환
sentences = "오늘 날씨는 어때요? 내일은 덥다던데."
s = kkma.sentences(sentences)
print(s)


['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN'), ('.', 'SF')]
['아버지', '방']
['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


In [2]:
from konlpy.tag import Komoran
# pip install PyKomoran (설치)

# 코모란 형태소 분석기 객체 생성
komoran  = Komoran()

text = "아버지가 방에 들어가신다."

# 형태소 추출 - morphs 문장을 형태소 단위로 토크나이징. 리스트 형태로 반환
morphs = komoran.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출 - pos POS tagger, 문장에서 형태소를 추출한 뒤 품사 태깅. 튜플 형태로 묶여서 리스트로 반환
pos = komoran.pos(text)
print(pos)

# 명사만 추출 - nonus 문장에서 품사가 명사인 토큰들만 추출
nouns = komoran.nouns(text)
print(nouns)

['아버지', '가', '방', '에', '들어가', '시', 'ㄴ다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EF'), ('.', 'SF')]
['아버지', '방']


In [4]:
from konlpy.tag import Okt
# Okt는 띄어쓰기가 어느 정도 되어 있는 문장을 빠르게 분석할때 많이 사용

# Okt 형태소 분석기 객체 생성
okt = Okt()

text = "아버지가 방에 들어가신다."

# 형태소 추출 - morphs 문장을 형태소 단위로 토크나이징. 리스트 형태로 반환
morphs = okt.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출 pos - POS tagger, 형태소를 추출한 뒤 품사 태깅, 추출된 형태소와 품사가 튜플 형태로 묶여서 리스트로 반환
pos = okt.pos(text)
print(pos)

# 명사만 추출 - nonus 문장에서 품사가 명사인 토큰들만 추출
nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출 - mormalize 입력한 문장을 정규화시킨다.(사랑햌ㅋ => 사랑해ㅋㅋ), phrase 문장의 어구를 추출 (오늘 날씨가 좋아요 => '오늘', '오늘 날씨', '날씨')
text = "오늘 날씨가 좋아욬ㅋㅋ"
print(okt.normalize(text))
print(okt.phrases(text))

['아버지', '가', '방', '에', '들어가신다', '.']
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb'), ('.', 'Punctuation')]
['아버지', '방']
오늘 날씨가 좋아요ㅋㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


In [5]:
from konlpy.tag import Komoran

komoran = Komoran(userdic='./python_ex19.tsv')
text = "코리 우리 챗봇은 엔엘피를 좋아합니다."
pos = komoran.pos(text)
print(pos) 

[('코리', 'NNP'), ('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]
