# 토크나이징

- 토큰(token)
    - 일정한 의미가 있는 가장 작은 단어들
    
- 토크나이징
    - 주어진 문장에서 토큰 단위로 정보를 나누는 작업
    - 문장 형태의 데이터를 처리하기 위해 제일 처음 수행하는 기본적인 작업
    - 텍스트 전처리 과정에서 사용됨
    - 토크나이징을 어떻게 처리하느냐에 따라 성능 차이가 날 수 있음
    
- 한국어 토크나이징에는 KoNLPy 가 많이 사용됨

# KoNLPy

- 기본적인 한국어 자연어 처리를 위한 파이썬 라이브러리
- 한국어는 토큰 단위를 형태소 단위로 사용할 때 단어와 품사의 정보를 같이 활용할 수 있기 때문에 효과적임
- 형태소 분석기
    - 한국어의 복잡한 특성에 따라 문장에서 형태소를 분석할 수 있는 도구
    - 문장에서 형태소, 어근, 접두사/접미사, 품사 등 다양한 언어적 속성의 구조를 파악해줌
    - 형태소의 의미를 고려해 품사를 태깅

## Kkma

- 서울대학교 IDS(Intelligent Data Systems) 연구실에서 자연어 처리를 위해 개발한 한국어 형태소 분석기
- 다른 형태소 분석기에 비해 속도가 느리지만 지우너하는 품사 태그가 다양해서 속도가 느리더라도 정확한 품사 정보가 필요할 때 사용

In [2]:
from konlpy.tag import Kkma

In [3]:
# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()

In [4]:
text = "아버지가 방에 들어갑니다."

In [5]:
# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)

['아버지', '가', '방', '에', '들어가', 'ㅂ니다', '.']


- 형태소 단위로 토크나이징
- 리스트 형태로 반환됨

In [6]:
# 형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


http://kkma.snu.ac.kr/documents/?doc=postag

- 꼬꼬마 공식 홈페이지, 품사 태그 목록

- 품사 태깅
- 리스트 형태로 반환됨

In [7]:
# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

['아버지', '방']


- 품사가 명사인 단어들만 추출

In [8]:
# 문장 분리
sentences = "오늘 날씨는 어때요? 내일 덥다던데."
s = kkma.sentences(sentences)
print(s)

['오늘 날씨는 어 때요?', '내일 덥다 던데.']


- 복합 문장(2개 이상의 문장)이 있을 때 문장 단위로 토크나이징

## Komoran

- Korean Morphological Analyzer
- Shineware 에서 자바로 개발한 한국어 형태소 분석기
- 공백이 포함된 형태소 단위로도 분석이 가능

In [10]:
from konlpy.tag import Komoran

In [11]:
# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

In [12]:
# 형태소 품사 태그 추출
pos = komoran.pos(text)
print(pos)

[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('ㅂ니다', 'EF'), ('.', 'SF')]


In [13]:
# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

['아버지', '방']


## OKT

- Open-source Korean Text Processor
- 트위터에서 개발한 Twitter 한국어 처리기에서 파생된 오픈소스 한국어 처리기
- 간단한 한국어 처리를 통해 색인어를 추출하는 목표를 갖고 있기 때문에 완전한 수준의 형태소 분석을 지향하지 않음

In [14]:
from konlpy.tag import Okt

In [15]:
# Okt
okt = Okt()

In [16]:
# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

['아버지', '가', '방', '에', '들어갑니다', '.']


In [17]:
# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

[('아버지', 'Noun'), ('가', 'Josa'), ('방', 'Noun'), ('에', 'Josa'), ('들어갑니다', 'Verb'), ('.', 'Punctuation')]


In [18]:
# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

['아버지', '방']


In [19]:
# 정규화, 어구 추출
text = "오늘 날씨가 좋아욬ㅋㅋ"
print(okt.normalize(text))
print(okt.phrases(text))

오늘 날씨가 좋아요ㅋㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


# 사용자 사전 구축

- 신조어는 형태소 분석기에서 인식이 안되는 경우가 많음
- 이를 해결하기 위해 대부분의 형태소 분석기들은 사용자 사전을 추가할 수 있도록 구성됨

In [20]:
text = "우리 챗봇은 엔엘피를 좋아해"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


- 엔엘피라는 단어를 엔, 엘, 피 로 분리해 명사로 인식해 정확한 형태소 분석이 되지 않음

In [21]:
komoran = Komoran(userdic = "user_dic.tsv")

In [22]:
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔엘피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]
