# 3.2.1 Kkma

In [6]:
from konlpy.tag import Kkma

### morphs(phrase)
- 인자로 입력한 문장을 형태소 단위로 토크나이징
- 토크나이징된 형태소들은 리스트 형태로 반환됨

### nouns(phrase)
- 인자로 입력한 문장에서 품사가 명사인 토큰만 추출

### pos(phrase, flatten=True)
- POS tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅
- 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환됨

### sentences(phrase)
- 인자로 입력한 여러 문장을 분리해주는 역할
- 분리된 문장은 리스트 형태로 반환됨

In [7]:
# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()

text = "아버지가 방에 들어갑니다."

# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)

# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

#문장 분리
sentences = "오늘 날씨는 어때요? 내일은 덥다던데."
s = kkma.sentences(sentences)
print(s)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
['아버지', '방']
['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


- NNG - 일반 명사
- JKS - 주격 조사
- JKM - 부사격 조사
- VV - 동사
- EFN - 평서형 종결 어미
- SF - 마침표, 물음표, 느낌표

# 3.2.2 Komoran

In [8]:
from konlpy.tag import Komoran

### morphs(phrase)
- 인자로 입력한 문장을 형태소 단위로 토크나이징
- 토크나이징 된 형태소들은 리스트 형태로 반환됨

### nouns(phrase)
- 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출

### pos(phrase, flatten=True)
- POS tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅
- 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환됨

In [10]:
# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

text = "아버지가 방에 들어갑니다."

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]
['아버지', '방']


- NNG - 일반 명사
- JKS - 주격 조사
- JKB - 부사격 조사
- VV - 동사
- EF - 평서형 종결 어미
- SF - 마침표, 물음표, 느낌표

# 3.2.3 Okt

In [11]:
from konlpy.tag import Okt

### mophs(phrase)
- 인자로 입력한 문장을 형태소 단위로 토크나이징
- 토크나이징 된 형태소들은 리스트 형태로 반환됨

### nouns(phrase)
- 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출

### pos(phrase, stem=False, join=False)
- POS tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅
- 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환됨

### normalize(phrase)
- 입력한 문장을 정규화
- 사랑햌ㅋ -> 사랑해ㅋㅋ

### phrases(phrase)
- 입력한 문장에서 어구를 추출
- input: 오늘 날씨가 좋아요
- output: ['오늘', '오늘 날씨', '날씨']

In [12]:
# Okt 형태소 분석기 객체 생성
okt = Okt()

text = "아버지가 방에 들어갑니다."

# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출
text = "오늘 날씨가 좋아욬ㅋ ㅋ"
print(okt.normalize(text))
print(okt.phrases(text))

['아버지', '가', '방', '에', '들어갑니다', '.']
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]
['아버지', '방']
오늘 날씨가 좋아요ㅋ ㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


- Nouns - 명사
- Verb - 동사
- Adjective - 형용사 
- Josa - 조사
- Punctuation - 구두점

# 3.2.4 사용자 사전 구축

In [13]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "우리 챗봇은 엔엘피를 좋아해."
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]


#### [단어] Tab [품사]
- 엔엘피 Tab NNG
- 나는 내일, 어제의 너와 만난다 Tab NNG
- 시샵

In [23]:
from konlpy.tag import Komoran

komoran = Komoran(userdic='./user_dic.tsv')
text = '우리 챗봇은 엔엘피를 좋아해.'
pos = komoran.pos(text)
print(pos)

# 오류

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EF'), ('.', 'SF')]
