## Preprocessing: Tokenizing

---
- 참고도서
  - 김기현의 자연어 처리 딥러닝 캠프-파이토치편(김기현, 한빛미디어)
  - Do it! BERT와 GPT로 배우는 자연어처리(이기창, 이지스퍼블리싱)
---

추가적으로 cs231n 공부 후 정리 

전처리의 표준적인 형태는 데이터를 0으로 평균을 맞추고 표준편차로 정규화하는 것이다.  
0으로 중심을 맞추는 것은 모든 입력이 양수인

## 일반적인 전처리 과정 

Corpus -> Normalization -> 문장 단위 분절Tokenizing -> 분절 -> 병렬 코퍼스 정렬 -> 서브워드 분절

### Corpus, 말뭉치 
언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합


NLP를 위하여 머신러닝/딥러닝을 수행하려면 훈련데이터가 필요하며, 다수의 문장으로 구성된 코퍼스가 훈련데이터로 사용된다. 

* Corpus의 종류로는 단일언어, 이중 언어, 다중 언어와 구성 방법에 따른 분류로 병렬 코러스가 있다.

##### 자연어 처리를 위한 파이썬 패키지 nltk를 이용해 corpus 가져오기

In [1]:
import nltk
nltk.download("book", quiet=True)
from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


In [2]:
# 저작권이 말소된 문학 작품을 포함하는 gutenberg corpus에는 작품 샘플이 포함 

nltk.corpus.gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

In [3]:
moby_dict = nltk.corpus.gutenberg.raw('melville-moby_dick.txt')
print(moby_dict[:1000])

[Moby Dick by Herman Melville 1851]


ETYMOLOGY.

(Supplied by a Late Consumptive Usher to a Grammar School)

The pale Usher--threadbare in coat, heart, body, and brain; I see him
now.  He was ever dusting his old lexicons and grammars, with a queer
handkerchief, mockingly embellished with all the gay flags of all the
known nations of the world.  He loved to dust his old grammars; it
somehow mildly reminded him of his mortality.

"While you take in hand to school others, and to teach them by what
name a whale-fish is to be called in our tongue leaving out, through
ignorance, the letter H, which almost alone maketh the signification
of the word, you deliver that which is not true." --HACKLUYT

"WHALE. ... Sw. and Dan. HVAL.  This animal is named from roundness
or rolling; for in Dan. HVALT is arched or vaulted." --WEBSTER'S
DICTIONARY

"WHALE. ... It is more immediately from the Dut. and Ger. WALLEN;
A.S. WALW-IAN, to roll, to wallow." --RICHARDSON'S DICTIONARY


### 정제(Normalization, 정규화 )

텍스트를 사용하기 위한 필수 과정 

* 전각 문자제거, 대소문자 통일, 특수기호 제거, 불필요한 단어의 제거(등장빈도거 적거나 길이가 짧은 단어) 

#### 정규표현식 사용

- 참고사이트
  - http://pythonstudy.xyz/python/article/401-정규-표현식-Regex

In [4]:
# Regex를 위한 모듈 임포트
import re

# 정규 표현식 지정
regex1 = r"([\w]+\s*:? \s*)?\(?\+?([0-9]{1,3})?\-?[0-9]{2,3}(\)|\-)?[0-9]{3,4}\-?[0-9]{4}"

In [5]:
text = "문의사항이 있으면 032-252-3123 으로 연락주시기 바랍니다."
 
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group(1)
num = matchobj.group(2)
fullNum = matchobj.group()
print(areaCode, num) # 032 232-3245

032 252-3123


In [6]:
# 인덱싱 대신 그룹 명을 지정하여 사용할 수도 있음(Named Capturing Group)
# Named Capturing Group을 사용하는 방법은 (?P<그룹명>정규식) 와 같이 정규식 표현 앞에 ?P<그룹명>을 사용함
# 이후 MatchObject에서 group('그룹명') 을 호출하면 캡쳐된 그룹 값을 얻을 수 있음

regex = re.compile(r'(?P<area>\d{3})-(?P<num>\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group("area")
num = matchobj.group("num")
print(areaCode, num)  # 032 232-3245

032 252-3123


### 문장 단위 분절 

분절이란 자연어 처리에 사용되는 데이터 
* 입력단위 : 기본적으로 문장 단위, 한 줄에 한 문장 요구 되지만 여러 문장이 한줄 에 있거나, 한 문장이 여러 줄에 걸쳐있는 경우 분절이 요구 됨

- NLTK (Natural Language Toolkit)
  - Punkt Sentence Tokenizer 모듈
    - sent_tokenize(): 파이썬에서 문자열로 인식하는 텍스트는 무엇이든지 받아서 문장 별로 토큰화 할 수 있다.
    - word_tokenize(): 파이썬에서 문자열로 인식하는 텍스트는 무엇이든지 받아서 단어 별로 토큰화 할 수 있다.

In [7]:
# NLTK의 Punkt sentence tokenizer 모듈 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [8]:
text1 = "The Matrix is everywhere its all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes."
tokens1 = nltk.sent_tokenize(text1)
print(tokens1)

['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [9]:
text2 = "자연어 처리는 인공지능의 한 줄기 입니다. 시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어 처리는 새로운 전기를 맞이하게 되었습니다. 문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다."
tokens2 = nltk.sent_tokenize(text2)
print(tokens2)

['자연어 처리는 인공지능의 한 줄기 입니다.', '시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어 처리는 새로운 전기를 맞이하게 되었습니다.', '문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다.']


In [10]:
if text2.strip() != "" :
    line = re.sub(r'([a-z])\.([A-Z])', r'\1. \2',text2.strip())
    sentences  = nltk.sent_tokenize(line)
    
    for s in sentences :
        if s != "" :
            print(s)

자연어 처리는 인공지능의 한 줄기 입니다.
시퀀스 투 시퀀스의 등장 이후로 딥러닝을 활용한 자연어 처리는 새로운 전기를 맞이하게 되었습니다.
문장을 받아 단순히 수치로 나타내던 시절을 넘어, 원하는대로 문장을 만들어낼 수 있게 된 것입니다.


### 분절 

In [11]:
moby_dict = nltk.corpus.gutenberg.raw('melville-moby_dick.txt')
moby = moby_dict[:300]

In [12]:
from nltk.tokenize import word_tokenize

word_tokenize(moby)

['[',
 'Moby',
 'Dick',
 'by',
 'Herman',
 'Melville',
 '1851',
 ']',
 'ETYMOLOGY',
 '.',
 '(',
 'Supplied',
 'by',
 'a',
 'Late',
 'Consumptive',
 'Usher',
 'to',
 'a',
 'Grammar',
 'School',
 ')',
 'The',
 'pale',
 'Usher',
 '--',
 'threadbare',
 'in',
 'coat',
 ',',
 'heart',
 ',',
 'body',
 ',',
 'and',
 'brain',
 ';',
 'I',
 'see',
 'him',
 'now',
 '.',
 'He',
 'was',
 'ever',
 'dusting',
 'his',
 'old',
 'lexicons',
 'and',
 'grammars',
 ',',
 'with',
 'a',
 'queer',
 'handkerchief',
 ',',
 'mockingly',
 'embellished',
 'with']

- 한글을 영문처럼 띄어쓰기로 분절하고자 하면 NLTK에서는 잘 되지 않음
  - 토크나이저에 충분한 정보, 데이터가 반영되어 있지 않기 때문
  - KoNLPy 등의 한국어 지원 토크나이저가 필요한 이유

In [13]:
word_tokenize(text2)

['자연어',
 '처리는',
 '인공지능의',
 '한',
 '줄기',
 '입니다',
 '.',
 '시퀀스',
 '투',
 '시퀀스의',
 '등장',
 '이후로',
 '딥러닝을',
 '활용한',
 '자연어',
 '처리는',
 '새로운',
 '전기를',
 '맞이하게',
 '되었습니다',
 '.',
 '문장을',
 '받아',
 '단순히',
 '수치로',
 '나타내던',
 '시절을',
 '넘어',
 ',',
 '원하는대로',
 '문장을',
 '만들어낼',
 '수',
 '있게',
 '된',
 '것입니다',
 '.']

### 병렬 코퍼스 정렬 

- 주로 CTK(Champollion Tool kit, Perl로 작성됨) 등의 도구를 활용
- 직접 구현하려면 많은 시간과 노력을 요구함

### 토큰화(Tokenizing)
- 한국어로는 형태소 분석이라고도 부름
- 대표적인 Global Tokenizer는 NLTK 등이 있음

주어진 문장에서 토큰 단위로 정보를 나누는 작업, 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야하는 작업이다.

* 토큰화 과정 - 문장을 일정한 의미가 있는 가장 작은 단어로 나눈다. 나눠진 단어들의 의미 분석

In [14]:
# 단순 띄어쓰기로 토큰화 

text = "A Dog Run back corner near spare bedrooms"
print(text.split())

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


- 한국어는 조사, 접사 등으로 인해 단순히 띄어쓰기 단위로 나누면 같은 단어가 다른 단어로 인식되어서 단어 집합(vocabulary)의 크기가 불필요하게 커지기 때문에 토큰화 작업이 까다로움.

In [15]:
kor_text = "사과의 놀라운 효능이라는 글을 봤어. 그래서 오늘 사과를 먹으려고 했는데 사과가 썩어서 슈퍼에 가서 사과랑 오렌지 사왔어"
print(kor_text.split())

['사과의', '놀라운', '효능이라는', '글을', '봤어.', '그래서', '오늘', '사과를', '먹으려고', '했는데', '사과가', '썩어서', '슈퍼에', '가서', '사과랑', '오렌지', '사왔어']


In [16]:
# nltk 한국어 지원 

text = "NLTK는 Natural Language Toolkit의 줄임말입니다. Python 프로그래밍 언어로 작성된 영어의 기호 및 통계 자연 언어 처리를 위한 라이브러리 및 프로그램 모음입니다" 

word_tokens = nltk.word_tokenize(text) 
print(word_tokens) 

print("----------------------------------------------------------------------")

sent_tokens = nltk.sent_tokenize(text) 
print(sent_tokens)

['NLTK는', 'Natural', 'Language', 'Toolkit의', '줄임말입니다', '.', 'Python', '프로그래밍', '언어로', '작성된', '영어의', '기호', '및', '통계', '자연', '언어', '처리를', '위한', '라이브러리', '및', '프로그램', '모음입니다']
----------------------------------------------------------------------
['NLTK는 Natural Language Toolkit의 줄임말입니다.', 'Python 프로그래밍 언어로 작성된 영어의 기호 및 통계 자연 언어 처리를 위한 라이브러리 및 프로그램 모음입니다']


###  spaCy
- Python의 고급 자연어 처리를 위한 라이브러리
- 최신 연구를 기반으로 구축되었으며 처음부터 실제 제품에 사용되도록 설계됨
- 사전 훈련된 파이프라인과 함께 제공
- 60개 이상의 언어에 대한 토큰화 및 훈련을 지원
- 태깅, 구문 분석, 명명된 엔터티 인식, 텍스트 분류 등을 위한 최첨단 속도 및 신경망 모델, BERT와 같은 사전 훈련된 변환기를 통한 다중 작업 학습, 생산 준비 교육
- 시스템 및 쉬운 모델이 특징
- MIT 라이선스에 따라 출시된 상용 오픈 소스 소프트웨어

In [17]:
import spacy

* Text: The original word text.
* Lemma: The base form of the word.
* POS: The simple UPOS part-of-speech tag.
* Tag: The detailed part-of-speech tag.
* Dep: Syntactic dependency, i.e. the relation * between tokens.
* Shape: The word shape – capitalization, punctuation, digits.
* is alpha: Is the token an alpha character?
* is stop: Is the token part of a stop list, i.e. the most common words of the language?



In [23]:
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")

for token in doc:
    print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
            token.shape_, token.is_alpha, token.is_stop)

Apple Apple PROPN NNP nsubj Xxxxx True False
is be AUX VBZ aux xx True True
looking look VERB VBG ROOT xxxx True False
at at ADP IN prep xx True True
buying buy VERB VBG pcomp xxxx True False
U.K. U.K. PROPN NNP compound X.X. False False
startup startup NOUN NN dobj xxxx True False
for for ADP IN prep xxx True True
$ $ SYM $ quantmod $ False False
1 1 NUM CD compound d False False
billion billion NUM CD pobj xxxx True False


In [18]:
nlp = spacy.load('en')
text  = text = "Mary, don't slap the green witch"
print([str(token) for token in nlp (text.lower())])

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


In [19]:
# 한국어 

from spacy.lang.ko.examples import sentences
sentences

['애플이 영국의 신생 기업을 10억 달러에 구매를 고려중이다.',
 '자동 운전 자동차의 손해 배상 책임에 자동차 메이커에 일정한 부담을 요구하겠다.',
 '자동 배달 로봇이 보도를 주행하는 것을 샌프란시스코시가 금지를 검토중이라고 합니다.',
 '런던은 영국의 수도이자 가장 큰 도시입니다.']

In [21]:
text = sentences[0]
print([i for i in nlp(text)])

[애플이, 영국의, 신생, 기업을, 10억, 달러에, 구매를, 고려중이다.]


In [22]:
for token in nlp(text):
  print(token.text, token.pos_, token.dep_)

애플이 PROPN compound
영국의 PROPN dep
신생 PROPN nsubj
기업을 PROPN ROOT
10억 PROPN compound
달러에 PROPN compound
구매를 PROPN compound
고려중이다. PROPN dobj


#### Kkma
- 서울대학교 지능형 데이터 시스템(IDS) 연구소에서 개발함
- 자바로 작성된 형태소 분석기 및 자연어 처리 시스템
- 참고: Kkma 품사 태그
  - NNG: 일반 명사
  - JKS: 주격 조사
  - JKM: 부사격 조사
  - VV: 동사
  - EFN: 평서형 종결 어미
  - SF: 마침표, 물음표, 느낌표

In [27]:
pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 6.1 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 33.0 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


In [28]:
from konlpy.tag import Kkma

In [29]:
kkma = Kkma()
text  = "미국 중앙은행(Fed)이 22년 만에 기준금리를 50bp(1bp=0.01%포인트) 인상하는 ‘빅스텝’을 밟았다. Fed의 보유 자산을 줄이는 양적긴축도 다음달부터 시작한다. 41년 만의 최고 수준인 인플레이션과의 전쟁이 본격화했다는 분석이 나온다."

In [30]:
# 형태소 추출

morphs = kkma.morphs(text)
print(morphs)

['미국', '중앙', '은행', '(', 'Fed', ')', '이', '22', '년', '만', '에', '기준', '금리', '를', '50', 'bp', '(', '1', 'bp', '=', '0.01', '%', '포인트', ')', '인상', '하', '는', '‘', '빅', '스텝', '’', '을', '밟', '았', '다', '.', 'Fed', '의', '보유', '자산', '을', '줄이', '는', '양적', '긴축', '도', '다음달', '부터', '시작하', 'ㄴ다', '.', '41', '년', '만', '의', '최고', '수준', '이', 'ㄴ', '인플레이션', '과', '의', '전쟁', '이', '본격화', '하', '었', '다는', '분석', '이', '나오', 'ㄴ다', '.']


In [31]:
# 형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)

[('미국', 'NNP'), ('중앙', 'NNG'), ('은행', 'NNG'), ('(', 'SS'), ('Fed', 'OL'), (')', 'SS'), ('이', 'MDT'), ('22', 'NR'), ('년', 'NNM'), ('만', 'NNB'), ('에', 'JKM'), ('기준', 'NNG'), ('금리', 'NNG'), ('를', 'JKO'), ('50', 'NR'), ('bp', 'OL'), ('(', 'SS'), ('1', 'NR'), ('bp', 'OL'), ('=', 'SW'), ('0.01', 'NR'), ('%', 'SW'), ('포인트', 'NNG'), (')', 'SS'), ('인상', 'NNG'), ('하', 'XSV'), ('는', 'ETD'), ('‘', 'SS'), ('빅', 'NNG'), ('스텝', 'NNG'), ('’', 'SS'), ('을', 'NNG'), ('밟', 'VV'), ('았', 'EPT'), ('다', 'EFN'), ('.', 'SF'), ('Fed', 'OL'), ('의', 'JKG'), ('보유', 'NNG'), ('자산', 'NNG'), ('을', 'JKO'), ('줄이', 'VV'), ('는', 'ETD'), ('양적', 'NNG'), ('긴축', 'NNG'), ('도', 'JX'), ('다음달', 'NNG'), ('부터', 'JX'), ('시작하', 'VV'), ('ㄴ다', 'EFN'), ('.', 'SF'), ('41', 'NR'), ('년', 'NNM'), ('만', 'NNB'), ('의', 'JKG'), ('최고', 'NNG'), ('수준', 'NNG'), ('이', 'VCP'), ('ㄴ', 'ETD'), ('인플레이션', 'NNG'), ('과', 'JKM'), ('의', 'JKG'), ('전쟁', 'NNG'), ('이', 'JKS'), ('본격화', 'NNG'), ('하', 'XSV'), ('었', 'EPT'), ('다는', 'ETD'), ('분석', 'NNG'), ('이', 'JKS'), 

In [32]:
# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

['미국', '중앙', '중앙은행', '은행', '22', '22년', '년', '만', '기준', '기준금리', '금리', '50', '1', '0.01', '포인트', '인상', '빅', '빅스텝', '스텝', '을', '보유', '자산', '양적', '양적긴축', '긴축', '다음달', '41', '41년', '최고', '수준', '인플레이션', '전쟁', '본격화', '분석']


In [33]:
# 문장 분리
sentences = "오늘 날씨는 어때요? 내일은 덥다던데."
s = kkma.sentences(sentences)
print(s)

['오늘 날씨는 어 때요?', '내일은 덥다 던데.']


#### Okt
- 스칼라로 작성된 오픈소스 한국어 형태소 분석기
- 참고: Okt 품사 태그
  - Noun: 명사
  - Verb: 동사
  - Adjective: 형용사
  - Josa: 조사
  - Punctuation: 구두점

In [34]:
from konlpy.tag import Okt

In [35]:
okt = Okt() 
text  = "미국 중앙은행(Fed)이 22년 만에 기준금리를 50bp(1bp=0.01%포인트) 인상하는 ‘빅스텝’을 밟았다. Fed의 보유 자산을 줄이는 양적긴축도 다음달부터 시작한다. 41년 만의 최고 수준인 인플레이션과의 전쟁이 본격화했다는 분석이 나온다."

In [37]:
# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

['미국', '중앙은행', '(', 'Fed', ')', '이', '22년', '만에', '기준금리', '를', '50', 'bp', '(', '1', 'bp', '=', '0.01%', '포인트', ')', '인상', '하는', '‘', '빅스', '텝', '’', '을', '밟았다', '.', 'Fed', '의', '보유', '자산', '을', '줄이는', '양적', '긴축', '도', '다음', '달', '부터', '시작', '한', '다', '.', '41년', '만의', '최고', '수준', '인', '인플레이션', '과의', '전쟁', '이', '본격', '화했다는', '분석', '이', '나온다', '.']


In [38]:
# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

[('미국', 'Noun'), ('중앙은행', 'Noun'), ('(', 'Punctuation'), ('Fed', 'Alpha'), (')', 'Punctuation'), ('이', 'Noun'), ('22년', 'Number'), ('만에', 'Josa'), ('기준금리', 'Noun'), ('를', 'Josa'), ('50', 'Number'), ('bp', 'Alpha'), ('(', 'Punctuation'), ('1', 'Number'), ('bp', 'Alpha'), ('=', 'Punctuation'), ('0.01%', 'Number'), ('포인트', 'Noun'), (')', 'Punctuation'), ('인상', 'Noun'), ('하는', 'Verb'), ('‘', 'Foreign'), ('빅스', 'Noun'), ('텝', 'Noun'), ('’', 'Punctuation'), ('을', 'Josa'), ('밟았다', 'Verb'), ('.', 'Punctuation'), ('Fed', 'Alpha'), ('의', 'Noun'), ('보유', 'Noun'), ('자산', 'Noun'), ('을', 'Josa'), ('줄이는', 'Verb'), ('양적', 'Noun'), ('긴축', 'Noun'), ('도', 'Josa'), ('다음', 'Noun'), ('달', 'Noun'), ('부터', 'Josa'), ('시작', 'Noun'), ('한', 'Josa'), ('다', 'Adverb'), ('.', 'Punctuation'), ('41년', 'Number'), ('만의', 'Josa'), ('최고', 'Noun'), ('수준', 'Noun'), ('인', 'Josa'), ('인플레이션', 'Noun'), ('과의', 'Josa'), ('전쟁', 'Noun'), ('이', 'Josa'), ('본격', 'Noun'), ('화했다는', 'Adjective'), ('분석', 'Noun'), ('이', 'Josa'), ('나온다', 'Ve

In [39]:
# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

['미국', '중앙은행', '이', '기준금리', '포인트', '인상', '빅스', '텝', '의', '보유', '자산', '양적', '긴축', '다음', '달', '시작', '최고', '수준', '인플레이션', '전쟁', '본격', '분석']


In [40]:
# 정규화, 어구 추출
text = "오늘 날씨가 좋아요 ㅋㅋ"
print(okt.normalize(text))
print(okt.phrases(text))

오늘 날씨가 좋아요 ㅋㅋ
['오늘', '오늘 날씨', '날씨']


###  사용자 사전 구축

자연어처리에서  많은 시간을 소요하는 작업
자연어처리는 사전을 만들면 만들 수록 품질이 좋아지게 되는데 이는 현재 존재하는 오픈 품사 사전이 매우 적으며, 개체명과 신조어 같은 것들이 포함이 되어 있지 않기 떄문이다. 

* Komoran을 이용해서 사전 구축 

In [42]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "우리 챗봇은 엔엘피를 좋아해"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


In [44]:
filepath = "user_dic.txt"
komoran = Komoran(userdic=filepath)
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('챗봇은', 'NA'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('를', 'JKO'), ('좋아하', 'VV'), ('아', 'EC')]


- 문제점
  - 공식 가이드대로 작성하여도 동작하지 않음
  - 각 패키지별로 사용자 사전을 추가하는 기능이 제공되지만 오류로 인해 동작하지 않거나 설치할 수 없는 경우가 많음
  - 주로 Java, C++ 등을 기반으로 개발되었고 파이썬으로 사용할 수 있도록 기능 지원을 추가한 형태여서 파이썬 작업만으로는 제대로 사용하지 못하는 경우가 많음