In [None]:
# 자연어 처리(Natural Language Processing) : 자연어를 컴퓨터가 처리

# 토크나이징 : 토큰(의미가 있는 가장 작은 정보)단위로 정보를 나누는 작업

# * 한국어 9품사
#   명사
#   대명사 : 명사를 대신할때 (ex. 너, 우리, 무엇, 그것)
#   수사 : 숫자 or 순서 (ex. 하나, 둘, 1, 2, 첫째, 둘째)
#   동사 
#   형용사 : 사물의 성질 or 상태 (ex. 아름답다, 맵다, 희다)
#   관형사 : 체언(명사, 대명사, 수사)을 수식 (ex. 이, 그, 저, 새, 헌 , 옛)
#   부사 : (ex. 정말, 매우, 벌써)
#   조사 : 명사, 부사에 붙어 관계를 맺어줌 (ex. ~이, ~가, ~에서)
#   감탄사 : (ex. 꺄, 우아, 아하)

In [None]:
# KoNLPy(코엔엘파이) : 한국어 자연어 처리 라이브러리 (https://konlpy.org/ko/latest/)
# pip install konlpy

# 형태소 분석기 1.
# Kkma(꼬꼬마) 
# : + 분석 품질 좋음, 지원하는 품사태그 가장 많음
#   - 느림, 사용자 사전 관리 어려움 
from konlpy.tag import Kkma

kkma = Kkma() # 객체 생성

text = '아버지가 방에 들어갑니다.'

# 형태소 추출
morphs = kkma.morphs(text) 
print(morphs)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']


In [None]:
# [(형태소, 품사 태그), ...]
pos = kkma.pos(text) 
print(pos)

# 품사 태그 (cf. http://kkma.snu.ac.kr/documents/?doc=postag)
# NNG : 명사
# JKS : 주격 조사
# JKM : 부사격 조사
# VV : 동사
# EFN : 평서형 종결 어미
# SF : ./?/!

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


In [None]:
# 명사만 추출
nouns = kkma.nouns(text) 
print(nouns)

['아버지', '방']


In [None]:
sentences = '오늘 날씨는 어때요? 내일은 덥다던데.'

# 문장 분리
s = kkma.sentences(sentences) 
print(s)

['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


In [19]:
# 형태소 분석기 2. 
# Komoran(Korean Morphological ANalyzer, 코모란) 
# : 자바로 개발
# : + 오탈자에 강함, 사용자 사전 관리 용이, 적당한 분석 품질과 속도
from konlpy.tag import Komoran

komoran = Komoran() # 객체 생성

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']


In [17]:
# [(형태소, 품사 태그), ...]
pos = komoran.pos(text) 
print(pos)

# 품사 태그 (cf. https://docs.komoran.kr/firststep/postypes.html)
# JKB : 부사격 조사
# EF : 종결 어미

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]


In [18]:
# 명사만 추출
nouns = komoran.nouns(text) 
print(nouns)

['아버지', '방']


In [20]:
# 한국어 처리기
# Okt(Open-source Korean Text Processor) (https://openkoreantext.org/)
# : + 제일 빠름, 정규화
#   - 품사 태그 적음, 사용자 사전 관리 어려움, 용언 분석에 일관성 부족
from konlpy.tag import Okt

okt = Okt() # 객체 생성

# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

['아버지', '가', '방', '에', '들어갑니다', '.']


In [22]:
# [(형태소, 품사 태그), ...]
pos = okt.pos(text)
print(pos)

# 품사 태그
# Noun : 명사
# Verb : 동사
# Adjective : 형용사
# Josa : 조사
# Punctuation : 구두점

[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]


In [23]:
# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

['아버지', '방']


In [24]:
text = '오늘 날씨가 좋아욬ㅋㅋ'

# 정규화
print(okt.normalize(text))

오늘 날씨가 좋아요ㅋㅋ


In [25]:
# 어구 추출
print(okt.phrases(text))

['오늘', '오늘 날씨', '좋아욬', '날씨']


In [27]:
# 사용자 사전 
text = '우리 챗봇은 엔엘피를 좋아해.' # '엔엘피'라는 새로운 단어 등장!

pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]


In [39]:
komoran = Komoran(userdic='./user_dic.tsv')

pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔엘피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]
