# 자연어 전처리

## 토큰화(Tokenization)
코퍼스를 토큰단위로 나누는 작업
토큰의 단위가 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의

-고려사항
1.구두점이나 특수 문자를 단순 제외해서는 안 된다
2.줄임말과 단어 내에 띄어쓰기가 있는 경우


-단어 토큰화(가장 일반적)
특정 구분기호를 가지고 텍스트를 나누는 방법, 영어의 경우 기본적으로 공백을 통해 나눔(구두점도 제거) -> word2vec, glove
한국어와 맞지 않음

단점:
OOV 문제(Out of Vocabulary): 입력된 데이터가 이미 만들어진 단어사전에 없는경우
단어 사전(토큰 리스트)는 코퍼스 데이터 내에서 만들어지기 때문에 모델 예측시 훈련때 없던 단어가 입력으로 들어올 수 있음
훈련때 없었으므로 처리 불가
간단한 해결책 UNK(Unkown Token) 훈련때 많이 등장하지 않았던 값을 UNK로 사전 등록 -> 문제점:모든 OOV단어가 UNK가 됨

-문장 토큰화
문장 단위로 토큰화를 진행

-문자 토큰화(단어 토큰화 문제 해결)
문자 단위로 코퍼스를 분리 영어는 알파벳, 한글은 자음 모음 분리, OOV문제 해결및 메모리 문제 해결(단어가 아닌 문자만 사전에 등록하면 되기때문)

단점:
입력 내용이 길어짐, 입력이 길어지는 만큼 단어사이의 거리가 멀어짐, 단어간의 관계를 학습하기 어려움


-서브 워드 토큰화(단어, 문자 토큰화 중간 각 장점만을 취함)
n개의 문자(n-gram characters)를 가지고 나누는 방법(문자 토큰화 확장판)
대표적인 서브 워드를 만드는 알고리즘 BPE(Byte Pair Encoding)
한국어에서 좋은 성능을 보여줌, 문장을 형태소로 나누어서 각 형태소 별로 인코딩을 하는 방법

-한국어 토큰화
한국어 특징
1.한국어는 교착어 - 서로 다른 조사를 분리해줄 필요가 있음
2.띄어쓰기가 영어보다 잘 지켜지지 않음

한국어는 형태소 토큰화를 수행해야 함 -> 형태소 분석기 필요

## 정제(Cleaning), 정규화(Normalization)

정제: 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦

정규화 방법
1. 규칙에 기반한 표기가 다른 단어들 통합
    - 필요에 따라 직접 코딩을 통해 표기가 다른 단어들을 하나의 단어로 정규화
    - 표제어 추출, 어간 추출
2. 대,소문자 통합
    - 대, 소문자를 통합하여 단어의 개수를 줄일 수 있음 단, 무작정 통합해서는 안됨 EX) 회사 이름, 사람 이름 등
    - 문장 앞글자만 대문자 뒤는 소문자로 바꾸는 방법도 있음
3. 노이즈 제거
    - 노이즈 데이터는 자연어가 아닌 아무 의미도 갖지 않는 글자들(특수문자등)을 의미하기도 하지만, 목적에 맞지 않는 불필요 단어도 해당함
    - 등장 빈도가 적은 단어, 길이가 짧은 단어 제거(영어권 언어 기준) -> 길이가 짧은면 크게 의미가 없는 경우 많음
4. 정규표현식
    - 노이즈 데이터의 특징을 잡아서 제거

## 표제어 추출(Lemmatization)
표제어(Lemma) - 기본 사전형 단어(가장 기본이 되는 단어?)
표제어 추출은 단어들로부터 표제어를 찾아가는 과정
다른 형태를 가지더라도, 그 뿌리가 되는 단어가 존재 -> 이를 통해 단어의 개수를 줄일수 있는지 판단
예시) am, is, are -> 뿌리단어 be

표제어 추출을 하는 가장 섬세하는 방법은 parsing -> 즉,형태소 단위로 파싱

참고)
형태소(morpheme) - 의미를 가진 가장 작은 단위
형태학(morphology) - 형태소로부터 단어들을 만들어가는 학문

형태소는 두가지 종류 존재
어간(stem): 단어의 의미를 담고 있는 핵심 부분
접사(affix): 단어에 추가적인 의미를 주는 부분
Cats -> cat(어간) + -s(접사)


## 어간 추출(Stemming)
어간을 추출하는 작업, 정해진 규칙으로 단어의 어미를 잘라냄
추출후 결과는 사전에 없는 단어일 수 있음
어간(stem)과 어미(ending) 분리

```
결과 차이
Stemming
am → am
the going → the go
having → hav

Lemmatization
am → be
the going → the going
having → have
```

# 실습

## 토큰화

In [1]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer  # 구두점을 별도로 분리 해주는 토크나이저

print('단어 토큰화1:', word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1: ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [2]:
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [4]:
from nltk.tokenize import sent_tokenize  # 문장 단위 토큰화

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [5]:
#  단순히 마침표를 구분자로 지정하지 않았기 때문에 문장 중간에 마침표가 있어도 잘 인식함
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [6]:
import kss  # 한국어 문장 토큰화 -> konlpy.tag.Mecab

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Kss]: Because there's no supported C++ morpheme analyzer, Kss will take pecab as a backend. :D
For your information, Kss also supports mecab backend.
We recommend you to install mecab or konlpy.tag.Mecab for faster execution of Kss.
Please refer to following web sites for details:
- mecab: https://github.com/hyunwoongko/python-mecab-kor
- konlpy.tag.Mecab: https://konlpy.org/en/latest/api/konlpy.tag/#mecab-class



한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


## 품사 태깅

In [7]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [8]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [9]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


## 표제어 추출

In [10]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


표제어 추출후 dy, ha같이 의미를 알 수 없는 단어를 출력하게 됨
이렇게 결과가 나오는 이유는 표제어 추출기가 본래 단어의 품사 정보를 알아야만 정확한 결과가 나오기 때문

In [11]:
lemmatizer.lemmatize('dies', 'v')

'die'

## 어간 추출

In [12]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [13]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전 :',words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


In [14]:
# 포터, 랭커스터 알고리즘 비교
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 불용어

In [15]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

In [16]:
stop_words_list = stopwords.words('english')
print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :',stop_words_list[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [17]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []

for word in word_tokens:
    if word not in stop_words:
        result.append(word)

print('불용어 제거 전 :',word_tokens)
print('불용어 제거 후 :',result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


한국어에서 불용어를 제거하는 방법으로는 간단하게는 토큰화 후에 조사, 접속사 등을 제거하는 방법이 있음
하지만 불용어를 제거하려고 하다보면 조사나 접속사와 같은 단어들뿐만 아니라 명사, 형용사와 같은 단어들 중에서 불용어로 제거하고 싶은 단어들이 생기기도 함

In [18]:
okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if word not in stop_words]

print('불용어 제거 전 :',word_tokens)
print('불용어 제거 후 :',result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


## 정규표현식

[정규표현식 문법 참조](https://wikidocs.net/21703)

In [19]:
import re
from nltk.tokenize import RegexpTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"

tokenizer1 = RegexpTokenizer('[\w]+')  # 문자 또는 숫자가 1개 이상
tokenizer2 = RegexpTokenizer('\s+', gaps=True)  # 공백을 기준으로 토큰화 gaps는 해당 정규표현식을 토큰으로 나누는 기준으로 사용한다 의미

print(tokenizer1.tokenize(text))
print(tokenizer2.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 정수 인코딩(Integer Encoding)
텍스트를 숫자로 바꾸는 방법

In [20]:
#  dictoionary 사용
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [21]:
# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [22]:
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence:
        word = word.lower() # 모든 단어를 소문자로 변환하여 토큰 개수 줄임
        if word not in stop_words: # 불용어 제거
            if len(word) > 2: # 단어 길이가 2이하면 제거
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    preprocessed_sentences.append(result) # 문장마다 불용어 제거후 저장
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [23]:
print('단어 집합:', vocab)

단어 집합: {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [24]:
print(vocab['barber'])

8


In [25]:
# 빈도수가 높은 순서로 정렬
vocab_sorted = sorted(vocab.items(), key=lambda x: x[1], reverse=True)

In [26]:
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [27]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1: # 빈도수가 작은 단어는 무시
        i = i + 1
        word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [28]:
vocab_size = 5

# 인덱스가 5 초과인 단어 제거
words_frequency = [word for word, index in word_to_index.items() if index > vocab_size]

# 해당 단어에 대한 인덱스 정보를 삭제
for w in words_frequency:
    del word_to_index[w]

# 상위 5개 단어
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [29]:
# 단어 집합에 없는 단어 OOV를 새로 추가
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}


In [30]:
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            # 단어 집합에 있다면 해당 단어의 정수 저장
            encoded_sentence.append(word_to_index[word])
        except:
            # 없는 단어라면 OOV로 저장
            encoded_sentence.append(word_to_index['OOV'])
    encoded_sentences.append(encoded_sentence)

In [31]:
print(encoded_sentences)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


### NLTK의 FreqDist 사용

In [32]:
from nltk import FreqDist
import numpy as np

In [33]:
# np.hstack으로 문장 구분 제거
vocab = FreqDist(np.hstack(preprocessed_sentences))

In [34]:
print(vocab['barber'])

8


In [35]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 상위 5개 단어만 저장
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


In [36]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 패딩(Padding)
자연어 처리시 각 문장 또는 문서의 길이가 다를 수 있음
기계는 길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고 묶어서 처리가 가능
병렬처리를 위해 문장의 길이를 동일하게 맞춤

In [37]:
max_len = max(len(item) for item in encoded_sentences)
print('최대 길이:', max_len)

최대 길이: 7


In [38]:
# 제로 패딩
for sentence in encoded_sentences:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded_sentences)
padded_np

array([[1, 5, 0, 0, 0, 0, 0],
       [1, 6, 5, 0, 0, 0, 0],
       [1, 3, 5, 0, 0, 0, 0],
       [6, 2, 0, 0, 0, 0, 0],
       [2, 4, 3, 2, 0, 0, 0],
       [3, 2, 0, 0, 0, 0, 0],
       [1, 4, 6, 0, 0, 0, 0],
       [1, 4, 6, 0, 0, 0, 0],
       [1, 4, 2, 0, 0, 0, 0],
       [6, 6, 3, 2, 6, 1, 6],
       [1, 6, 3, 6, 0, 0, 0]])

### 원-핫 인코딩(One-Hot Encoding)

In [39]:
from konlpy.tag import Okt

okt = Okt()
tokens = okt.morphs('나는 자연어 처리를 배운다')
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [40]:
word_to_index = {word: index for index, word in enumerate(tokens)}
print('단어 집합:', word_to_index)

단어 집합: {'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [41]:
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0]*(len(word_to_index))
    index = word_to_index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [42]:
one_hot_encoding('자연어', word_to_index)

[0, 0, 1, 0, 0, 0]

## 한국어 전처리 패키지

### 1.PyKoSpacing
pip install git+https://github.com/haven-jeon/PyKoSpacing.git
띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지(tf 필요)

In [43]:
'''
from pykospacing import Spacing

sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

new_sent = sent.replace(' ', '')
print(new_sent)
'''

"\nfrom pykospacing import Spacing\n\nsent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'\n\nnew_sent = sent.replace(' ', '')\nprint(new_sent)\n"

### 2.Py-Hanspell
pip install git+https://github.com/ssut/py-hanspell.git
네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지

In [44]:
'''
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)
print(spelled_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
'''

'\nfrom hanspell import spell_checker\n\nsent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "\nspelled_sent = spell_checker.check(sent)\nprint(spelled_sent)\n\nhanspell_sent = spelled_sent.checked\nprint(hanspell_sent)\n'

### 3.SOYNLP
품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저
비지도 학습으로 단어 토큰화를 한다는 특징이 있으며, 데이터에 자주 등장하는 단어들을 단어로 분석함
soynlp 단어 토크나이저는 내부적으로 단어 점수 표로 동작
점수는 응집 확률(cohesion probability)과 브랜칭 엔트로피(branching entropy)를 활용

In [45]:
# 기존 형태소 분석기 문제점 -> 신조어 문제
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


In [46]:
# soynlp는 기본적으로 학습에 기반한 토크나이저이므로 학습에 필요한 한국어 문서를 다운
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x10930c4d0>)

In [47]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [48]:
# 상위 3개 문서만 출력
i = 0
for document in corpus:
    if len(document) > 0:
        print(document)
        i += 1
    if i == 3:
        break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [49]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 1.496 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


응집 확률은 내부 문자열이 얼마나 응집하여 자주 등장하는지 판단하는 척도
응집 확률은 문자열을 문자 단위로 분리하여 내부 문자열을 만드는 과정에서 왼쪽부터 순서대로 문자를 추가하면서 각 문자열이 주어졌을 때 그 다음 문자가 나올 확률을 계산하여 누적곱을 한 값
이 값이 높을수록 전체 코퍼스에서 이 문자열 시퀀스는 하나의 단어로 등장할 가능성이 높음

수식
![nn](img/soynlp01.png)

'반포한강공원에' 7의 길이를 가진 문자 시퀀스에 대해서 각 내부 문자열의 스코어를 구하는 과정
![nn](img/soynlp02.png)

### 응집 확률

In [50]:
# '반포한'의 응집 확률
word_score_table['반포한'].cohesion_forward

0.08838002913645132

In [51]:
word_score_table['반포한강'].cohesion_forward

0.19841268168224552

In [52]:
word_score_table['반포한강공'].cohesion_forward

0.2972877884078849

In [53]:
word_score_table['반포한강공원'].cohesion_forward

0.37891487632839754

In [54]:
word_score_table['반포한강공원에'].cohesion_forward

0.33492963377557666

응집도를 통해 판단한 결과 하나의 단어로 판단하기에 가장 적합한 단어는 '반포한강공원'이라고 볼 수 있음

### 브랜칭 엔트로피
확률 분포의 엔트로피값을 사용하여 주어진 문자열에서 얼마나 다음 문자가 등장할 수 있는지를 판단하는 척도
브랜칭 엔트로피를 주어진 문자 시퀀스에서 다음 문자 예측을 위해 햇갈리는 정도로 생각할 수 있음
브랜칭 엔트로피의 값은 하나의 완성된 단어에 가까워질수록 문맥으로 인해 점점 정확히 예측할 수 있게 되면서 점점 줄어드는 양상을 보임

In [55]:
word_score_table['디스'].right_branching_entropy

1.6371694761537934

In [56]:
# '디스플' 이후에 나올 문자는 '레'가 명확하기 때문에 0값을 가짐
word_score_table['디스플'].right_branching_entropy

-0.0

In [57]:
# 단어가 완성된 뒤에 조사나 다른 단어 등 다양한 경우가 존재하기 때문에 값이 확 증가
word_score_table['디스플레이'].right_branching_entropy

3.1400392861792916

#### L Tokenizer
한국어는 띄어쓰기 단위로 나눈 어절 토큰은 주로 L 토큰 + R 토큰의 형식을 가질 때가 많음
예를들어 '공원에'는 '공원' + '에'로 나눌 수 있음
L 토크나이저는 L 토큰 + R 토큰으로 나누되, 분리 기준을 점수가 가장 높은 L 토큰을 찾아내는 원리를 가짐

In [58]:
from soynlp.tokenizer import LTokenizer

scores = {word: score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize('국제사회와 우리의 노력들로 범죄를 척결하자', flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

#### 최대 점수 토크나이저
최대 점수 토크나이저는 띄어쓰기가 되지 않은 문장에서 점수가 높은 글자 시퀀스를 순차적으로 찾아내는 토크나이저

In [59]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize('국제사회와우리의노력들로범죄를척결하자')

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

#### 반복되는 문자 정제

In [60]:
from soynlp.normalizer import *

print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [61]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


### Customized KoNLPy

형태소 분석기 사용시 발생할 수 있는 상황
```
형태소 분석 입력 : '은경이는 사무실로 갔습니다.'
형태소 분석 결과 : ['은', '경이', '는', '사무실', '로', '갔습니다', '.']
```


In [62]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [63]:
twitter.add_dictionary('은경이', 'Noun')

In [64]:
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']