<a href="https://colab.research.google.com/github/Haebuk/nlp/blob/main/Tokenizing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
!pip install konlpy -q

[K     |████████████████████████████████| 19.4MB 1.5MB/s 
[K     |████████████████████████████████| 92kB 7.7MB/s 
[K     |████████████████████████████████| 450kB 35.1MB/s 
[?25h

## Kkma
- `morphs(phrase)`: 형태소 단위로 토크나이징, 리스트 형태로 반환
- `nouns(phrase)`: 명사인 토큰만 추출
- `pos(phrase, flatten=True)`: 형태소 추출 후 품사 태깅
- `sentences(phrase)`: 문장 분리

다른 형태소 분석기에 비해 느리지만 Okt에 비해 지원하는 품사 태그가 다양

속도가 느리더라도 정확한 품사 정보가 필요할 때 많이 사용

56개의 품사 태그가 있음. 공식 문서 참조

In [None]:
# 꼬꼬마 형태소 분석기 사용
from konlpy.tag import Kkma

# 꼬꼬마 형태소 분석기 개체 생성
kkma = Kkma()

text = '아버지가 방에 들어갑니다.'

# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)

# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

# 문장 분리
sentences = '오늘 날씨는 어때요? 내일은 덥다던데.'
s = kkma.sentences(sentences)
print(s)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
['아버지', '방']
['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


- NNG: 일반 명사
- JKS: 주격 조사
- JKM: 부사격 조사
- VV: 동사
- EFN: 평서형 종결 어미
- SF: 마침표, 물음표, 느낌표

## Komoran
- `morphs(phrase)`: 형태소 단위로 토크나이징, 리스트 형태로 반환
- `nouns(phrase)`: 명사인 토큰만 추출
- `pos(phrase, flatten=True)`: 형태소 추출 후 품사 태깅

In [3]:
from konlpy.tag import Komoran

# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

text = '아버지가 방에 들어갑니다.'

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]
['아버지', '방']


- NNG: 일반 명사
- JKS: 주격 조사
- JKM: 부사격 조사
- VV: 동사
- EF: 종결 어미
- SF: 마침표, 물음표, 느낌표

## Okt
- 띄어쓰기가 어느 정도 되어 있는 문장을 빠르게 분석할 때 많이 사용

- `morphs(phrase)`: 형태소 단위로 토크나이징, 리스트 형태로 반환
- `nouns(phrase)`: 명사인 토큰만 추출
- `pos(phrase, stem=False, join=False)`: 형태소 추출 후 품사 태깅
- `normalize(phrase)`: 입력한 문장을 정규화
    - 예) 정규화 이전: 사랑햌ㅋ
    -     정규화 이후: 사랑해ㅋㅋ
- `phrase(phrase)`: 입력한 문장에서 어구 추출
    - 예) 입력: 오늘 날씨가 좋아요.
    -     출력: ['오늘', '오늘 날씨', '날씨']

In [4]:
from konlpy.tag import Okt

# Okt 형태소 분석기 객체 생성
okt = Okt()

text = '아버지가 방에 들어갑니다.'

# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출
text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.normalize(text))
print(okt.phrases(text))

['아버지', '가', '방', '에', '들어갑니다', '.']
[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]
['아버지', '방']
오늘 날씨가 좋아요ㅋㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


- Noun: 명사
- Verb: 동사
- Adjective: 형용사
- Josa: 조사
- Punctuation: 구두점