## 토큰화(Tokenization)
주어진 코퍼스(corpus)에서 토큰이라 불리는 단위로 나누는 작업.     
토큰의 단위는 상황에 따라 다른데 보통 의미를 갖는 단위로 토큰을 정의한다.

#### 1. Word tokenization
토큰의 기준을 단어로 하는 경우. 여기서 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로 간주되기도 한다        
토큰화 작업은 단순히 구두점이나 특수문자를 전부 제거하는 작업으로만 해결되지 않음.(전부 제거하면 의미를 잃어버리는 경우도 발생함)     
게다가 한국어의 경우 띄어쓰기만으로는 단어 토큰을 구분하기 어렵다.

#### 2. 토큰화 중 생기는 선택의 순간
예시) '가 들어가 있는 단어를 어떻게 토큰으로 분류해야 할까     
Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.    
위 문장에서 Don't와 Jone's는 어떻게 토큰화할 수 있을까?     
=> 영어 corpus tokenizaion에 사용하는 nltk 패키지로 '를 처리해보자.

- word_tokenize 사용

In [1]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- wordPunctTokenizer => 구두점을 별도로 분류하므로, work_tokenize와 달리 don't를 don , ', t로 분류하고 Jone's를 Jone, ', s로 분류함

In [2]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


- keras의 text_to_word_sequence: 기본적으로 모든 알파벳을 소문자로 바꾸고, 마침표나 콤마 느낌표 등의 구두점을 제거함. 그러나 '는 보존한다.

In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


#### 3. 토큰화에서 고려해야할 사항
- 구두점이나 특수 문자를 단순히 제외해서는 안됨
- 줄임말 또는 단어 내 띄어쓰기

예) Penn Treebank Tokenization: 표준으로 쓰이고 있는 토큰화 방법 중 하나     
- 규칙 1. 하이픈(-)으로 구성된 단어는 하나로 유지한다.
- 규칙 2. dosen't과 같이 아포스트로피(')로 '접어'가 함께하는 단어는 분리한다.

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


-> home-base는 규칙1에 따라 하나로 취급되고, dosen't의 경우 규칙2에 따라 dose와 n't로 분리한다.

#### 4. 문장 토큰화: 토큰의 단위가 문장일 때
코퍼스가 문장 단위로 구분되어있지 않는 상태일 때 문장 토큰화가 필요함.        
문장의 중간에 마침표가 들어가는 경우가 있기 때문에 단순이 마침표 등으로 문장을 토큰화하기는 힘들다.       
예) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.        
         
따라서 어떤 국적의 언어인지, 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는지에 따라 직접 규칙을 정의해볼 수 있다.

In [5]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


- 문장 중간에 마침표가 들어가는 경우

In [6]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


nltk에서는 단순히 마침표로 문장을 구분하지 않음 => Ph.D를 문장 내의 단어로 인식해서 성공적으로 인식한다!

*문장토큰화에서 마침표 처리를 위해, 입력에 따라 두개의 클래스로 분류하는 이진분류기를 사용하기도 한다.      
이때 두개의 클래스: 마침표가 단어의 일부분(약어로 쓰임) / 마침표가 문장의 구분자인 경우.     
이진 분류기는 임의의 규칙을 함수로 코딩하거나, 머신러닝으로 분류기를 구현함.

- 한국어 문장 토큰화 도구 : KSS (Korean Sentence Splitter)

In [7]:
#pip install kss

Collecting kssNote: you may need to restart the kernel to use updated packages.
  Downloading kss-2.5.1-py3-none-any.whl (65 kB)
Installing collected packages: kss
Successfully installed kss-2.5.1



In [8]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


영어의 경우 단어 단위로 띄어쓰기가 이루어지지만,     
한국어의 경우 띄어쓰기 단위는 '어절'임. 어절 토큰화는 단어 토큰화와 다르기 때문에 한국어 NLP에서는 지양되고 있다.          
             
한국어NLP가 어려운 이유      
1) 한국어는 교착어임: 조사라는게 존재해서 단어 하나에 여러 조사가 띄어쓰기 없이 붙는다. => 한국어 NLP에서 조사는 분리해줘야 함.         
=> 형태소의 개념에 대한이해 필요. (형태소: 뜻을 가진 가장 작은 말의 단위)         
            
*형태소           
- 자립 형태소: 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 됨 -> 체언(명사,대명사,수사), 수식언(관형사,부사), 감탄사 등      
- 의존 형태소: 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간 등
               
               
2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다: 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있음.

#### 5. 품사 태깅(Part-of-speech tagging)
같은 표기의 단어라도 품사에 따라 단어의 의미가 달라지기도 함(예: fly는 동사로 날다, 명사로 파리)        
따라서 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분하기도 하는데, 이 작업을 __품사 태깅__이라고 한다.

- NLTK: 영어 코퍼스에 Penn Treebank POS Tage라는 기준을 사용하여 품사 태깅을 한다.

In [12]:
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [13]:
from nltk.tag import pos_tag

x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

PRP: 인칭대명사, VBP: 동사, RB: 부사, VBG: 현재부사, IN: 전치사, NNP: 고유명사, NNS: 복수형명사, CC: 접속사, DT: 관사

- 한국어 자연어 처리: KoNLPy 활용.        
KoNLPy를 통해 Okt(open korea text. 이전에 Twitter라는 이름으로 많이 알려짐), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)라는 형태소 분석기들을 사용할 수 있음. 상황에 따라 적절한 분석기를 사용하자!                 
              
한국어 NLP에서 형태소 분석기는 단어 토큰화가 아니라 형태소 토큰화를 수행하는 것!

- Okt 형태소 분석기

In [1]:
# morphs: 형태소 추출
from konlpy.tag import Okt
okt=Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [2]:
# pos: 품사 태깅
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [3]:
# nouns: 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


- 꼬꼬마 형태소 분석기

In [4]:
from konlpy.tag import Kkma
kkma=Kkma()
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [5]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [6]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


*한국어 형태소 분석기 성능 비교        
https://iostream.tistory.com/144
http://www.engear.net/wp/%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0-%EB%B9%84%EA%B5%90/

## 정제(Cleaning)와 정규화(Normalization)
- 정제: 코퍼스로부터 노이즈 데이터를 제거
- 정규화: 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어줌.

1) 표기가 다른 단어들의 통합 - 필요에 따라 직접 코딩을 통해 구현         
2) 대,소문자 통합 - 주로 소문자로 통합하는 방법이 많이 쓰임         
3) 불필요한 단어 제거 - 등장 빈도가 적은 단어, 길이가 짧은 단어(영어권 언어에 주로 효과적! 한국어는 짧아도 중요한 경우 많음) 등

In [8]:
#길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


*정규표현식.... 뒤에서 자세히 배우자

## 표제어 추출(Lemmatization)
- 표제어(Lemma): 기본 사전형 단어        
표제어 추출: 단어들로부터 표제어를 찾아가는 과정. 예)am, are, is 모두 표제어 be
- 표제어 추출을 위해 코퍼스를 형태소의 두 종류인 어간과 접사로 분리하는 과정이 필요함.(-> 형태학적 파싱이라고 한다.)           
*어간(stem): 단어의 핵심 부분 / 접사(affix): 단어에 추가적인 의미를 주는 부분.   
예) cats: cat(어간) + -s (접사)        
- 추출시 문맥을 고려하여 해당 단어의 품사 정보(POS 태그)를 보존한다(뒤에 나올 어간추출과의 차이점)

- NLKT에서의 표제어 추출: WordNetLemmatizer

In [9]:
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


적절하지 못한 단어들이 출력됨(dy, ha 등)-> Lemmatizer가 본래 단어의 품사 정보를 알아야 정확한 결과를 얻을 수 있기 때문

In [10]:
n.lemmatize('dies', 'v')

'die'

In [11]:
n.lemmatize('watched', 'v')

'watch'

In [12]:
n.lemmatize('has', 'v')

'have'

## 어간 추출(Stemming)
어간을 추출하는 작업. 정해진 규칙에 따라 단어의 의미를 자르기 때문에 어간 추출 결과가 사전에 존재하지 않을 수도 있다.  

- 예: 포터 알고리즘(Porter Algorithm): 영어 어간추출 중 가장 정확도가 높은 편.

In [1]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s=PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [2]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [3]:
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


- nltk에서 지원하는 포터 알고리즘과 랭커스터 스태머(Lancaster Stemmer) 알고리즘 비교

In [5]:
from nltk.stem import LancasterStemmer
s=PorterStemmer()
l=LancasterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([s.stem(w) for w in words])
print([l.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


#### 한국어 어간추출
|언|품사|
|:---|:--------|
|체언|명사, 대명사, 수사|
|수식언|관형사, 부사|
|관계언|조사|
|독립언|감탄사|
|용언|동사, 형용사|      
용언의 동사, 형용사는 어간(stem)과 어미(ending)의 결합으로 구성된다.

활용(conjugation): 용언의 어간이 어미를 가지는 일.      
1) 규칙 활용: 어간이 어미를 취할 때 어미의 모습이 일정한 것.       
  =>규칙 기반으로 어미를 단순히 분리해서 어간추출 가능!
2) 불규칙 활용: 어간이 어미를 취할 때 어간의 모습이 바뀌거나, 취하는 어미가 특수한 경우.         
  =>단순한 분리를 넘어서 더 복잡한 규칙으로 어간을 추출해야 함.

## 불용어(Stopword)
의미 분석에 그닥 도움 안되는 단어들.

#### nltk 불용어 확인하기

In [7]:
from nltk.corpus import stopwords
stopwords.words('english')[:20]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his']

#### nltk로 불용어 제거하기

In [9]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result=[]
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print(word_tokens)
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


#### 한국어에서 불용어 제거하기
- 간단하게는 토큰화 후에 조사, 접속사 등을 제거할 수 있음.
- 그러나 불용어로 제거하고 싶은 단어들이 생겨 사용자가 직접 불용어 사전을 만드는 경우가 많음!
- 보편적인 한국어 불용어 리스트 https://www.ranks.nl/stopwords/korean
- txt 파일이나 csv 파일로 수많은 불용어를 정리해두고, 필요할 때 불러와서 사용하는 것도 좋은 방법이다!

In [10]:
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"

stop_words = stop_words.split(" ")
word_tokens = word_tokenize(example)

result=[]
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


## 정수 인코딩
각 단어를 고유한 정수에 mapping시킴.      
인덱스 부여는 단어에 대한 빈도수 기준으로 정렬해서 부여한다

#### 1) dictionary 사용하기 (뒤에 방법들을 더 많이 사용하긴 함 ...)
- 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만들고, 빈도수가 높은 순서대로 차례로 정수를 부여하는 방법.

In [1]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [2]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [3]:
#문장 토큰화
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [5]:
#정제 작업을 병행한 토큰화
vocab = {}
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i)
    result= []
    
    for word in sentence:
        word = word.lower()   #소문자화
        if word not in stop_words:   #불용어 제거
            if len(word) >2 :        #단어 길이가 2 이하면 제거
                result.append(word)
                
                if word not in vocab:
                    vocab[word] = 0   # 사전에 그 단어가 없으면 새로 만들기
                
                vocab[word] +=1      # 사전에 몇번 나왔는지 count
    sentences.append(result)         # 전처리 다 한 토큰들로 묶인 문장들
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [6]:
print(vocab)   #key: 단어, value: 빈도수

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [7]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key=lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [8]:
# 빈도수가 높은 순서대로 낮은 정수 인덱스 부여
word_to_index = {}
i=0
for (word, frequency) in vocab_sorted:
    if frequency > 1 :     #빈도수가 적은 단어는 제외
        i = i+1
        word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [9]:
# 빈도수 상위 5개의 단어만 사용한다고 가정
vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c>= vocab_size+1] #인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w]  # 5 초과하는 인덱스의 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [11]:
# 단어 토큰화를 거친 sentences에 저장되어 있는 모든 단어를 정수로 바꾸기.
# 이 때 word_to_index에 존재하지 않는 단어들이 존재하므로,
# word_to_index에 OOV(Out-Of-Vocabulary)를 새롭게 추가한다.
word_to_index['OOV'] = len(word_to_index) + 1

encoded = []
for s in sentences:
    temp=[]
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


#### 2) Counter 사용하기

In [12]:
from collections import Counter

In [13]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [15]:
# 리스트 한겹 없애서 하나의 리스트로 만들기.
words = sum(sentences, [])   # 또는 words = np.hstack(sentences)
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [17]:
# Counter(): 중복 제거하고 단어의 빈도수를 기록
vocab = Counter(words)
print(vocab)
print(vocab['barber'])

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})
8


In [18]:
#  most_common(): 상위 빈도수를 가진 주어진 수의 단어만 return
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [19]:
#빈도수가 높은 순서대로 낮은 정수 인덱스 부여
word_to_index = {}
i=0
for (word, frequency) in vocab:
    i=i+1
    word_to_index[word]=i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


#### 3) NLTK의 FreqDist 사용하기 (빈도수 계산 도구)

In [20]:
from nltk import FreqDist
import numpy as np

In [22]:
# np.hstack으로 문장구분 없는 하나의 리스트를 input으로 사용함.
vocab = FreqDist(np.hstack(sentences))
print(vocab["barber"])

8


In [23]:
# 상위권 5개
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [24]:
# 높은 빈도수일수록 낮은 인덱스 부여. (enumerate 사용)
word_to_index = {word[0]: index+1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


#### 4) keras의 텍스트 전처리

In [25]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [27]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [29]:
# Tokenizer().fit_on_texts(corpus) : 빈도수를 기준으로 인덱스 부여 => 정수인코딩!
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

In [30]:
# word_index: 부여된 인덱스 확인!
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [31]:
# word_counts: 각 단어 빈도수 확인
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [33]:
# texts_to_sequences(corpus): corpus를 정해진 인덱스로 변환!
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


*상위 5개단어만 사용하는 경우      
num_words 이용해서 사용할 숫자 제한! 이 때 num_words는 숫자를 0부터 카운트하므로 1번부터 4번단어만 남는다. 따라서 5+1을 넣어줘야 함!       
(0번째는 padding)

In [34]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size +1)  # 상위 5개 단어만 사용하도록 재정의
tokenizer.fit_on_texts(sentences)

In [37]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [38]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


상위 5개 사용은 texts_to_sequences를 사용할 때 적용된다! 위의 두 함수에는 적용 x

In [39]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


=> 상위 5개 이외의 나머지 단어들은 제거함!        
상위 단어 집합에 없는 단어들을 OOV로 보존하고 싶을 경우, Tokenizer의 인자 oov_token을 사용한다. __(keras tokenizer에서 OOV의 인덱스는 1임!!)__

In [40]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

In [43]:
print(tokenizer.word_index)

{'OOV': 1, 'barber': 2, 'secret': 3, 'huge': 4, 'kept': 5, 'person': 6, 'word': 7, 'keeping': 8, 'good': 9, 'knew': 10, 'driving': 11, 'crazy': 12, 'went': 13, 'mountain': 14}


In [41]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


## 패딩(Padding)
각 문장(또는 문서)의 길이가 다를 때, 병렬 연산을 위해 여러 문장의 길이를 임의로 동일하게 맞춰주는 작업.

#### 1) Numpy로 패딩하기

In [2]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [3]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [4]:
# 정수 인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) #빈도수를 기준으로 한 단어집합 생성

In [5]:
encoded = tokenizer.texts_to_sequences(sentences) #텍스트 시퀀스 정수 맵핑
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [6]:
# 문장들 중 가장 길이가 긴 문장의 길이 계산
max_len = max(len(item) for item in encoded)
print(max_len)

7


가장 길이가 긴 문장의 길이가 7 -> 모든 문장의 길이를 7로 맞춰준다!         
7이 안되는 문장은 남는 칸을 0으로 채움 __(=> zero padding)__

In [7]:
for item in encoded:
    while len(item)< max_len: 
        item.append(0)
        
padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

=> 이제 모든 문장의 길이가 7이므로 병렬 처리 가능!

#### 2) keras 전처리 도구로 패딩하기

In [8]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [10]:
## 1)에서 한 패딩값이 적용되어 있으므로 패딩 이전의 값으로 되돌리기!
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [11]:
#keras의 pad_sequences를 이용하여 패딩
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

=> pad_sequences는 default로 앞을 0으로 채운다.       
뒤를 0으로 채우려면 padding='post'

In [12]:
padded = pad_sequences(encoded, padding='post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

maxlen을 인자로 주면 꼭 가장 길이가 긴 문장 기준으로 맞추지 않고 길이에 제한을 둘 수 있다! 대신 maxlen보다 길이가 긴 데이터는 손실됨.

In [14]:
padded = pad_sequences(encoded, padding='post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

paddnig값의 default는 0.     
value 인자를 사용해서 0대신 단어 집합의 크기보다 1 큰 숫자 사용해보기

In [15]:
last_value=len(tokenizer.word_index) + 1
print(last_value)   #14 -> padding값을 14로 설정한다

14


In [16]:
padded = pad_sequences(encoded, padding='post', value=last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

## One-Hot Encoding

#### 단어집합(vocabulary. 사전이라고도 함)
- <span style="color:blue">중복되지 않는 서로 다른</span> 단어들의 집합
- 단어 집합에서는 book과 books와 같이 단어의 변형 형태도 다른 단어로 간주한다. one-hot encoding을 위해서는 먼저 단어 집합을 만들고, 단어 집합에 대해 정수 인코딩을 진행해야 한다.

#### 원-핫 인코딩(One-Hot Encoding)
단어 집합의 크기를 벡터의 차원으로 하고,       
표현하고 싶은 단어의 인덱스에 1을 부여, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식.      
- 각 단어에 고유한 인덱스 부여(정수 인코딩)      
- 표현하고 싶은 단어의 인덱스에 1, 다른 단어는 0을 부여함.

예) 나는 자연어 처리를 배운다

In [17]:
# 문장 토큰화
from konlpy.tag import Okt
okt=Okt()
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [19]:
# 각 토큰에 고유한 인덱스 부여
word2index={}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [20]:
#One-Hot Encoding 함수 만들기
def one_hot_encoding(word, word2index):
    one_hot_vector = [0] * (len(word2index))
    index = word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0]

#### keras를 이용한 One-Hot Encoding
to_categorical() 함수를 이용

In [21]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나는 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [22]:
#정수인코딩
t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)  # 각 단어에 대한 인코딩 결과

{'갈래': 1, '점심': 2, '햄버거': 3, '나는': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [25]:
encoded=t.texts_to_sequences([text])[0]
print(encoded)

[4, 2, 5, 1, 2, 6, 3, 1, 1, 3, 7]


In [26]:
# One-Hot Encoding
one_hot = to_categorical(encoded)
print(one_hot)  # 각 토큰에 대한 one-hot encoding

[[0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


#### One-Hot Encoding의 한계
- 단어 집합의 크기만큼 벡터의 차원이 생기는 것이므로 저장 공간 측면에서 매우 비효율적임.
- 단어의 유사도를 표현하지 못함.      
=> 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법      
1) 카운트 기반의 벡터화 방법(LSA, HAL 등)      
2) 예측 기반 벡터화 방법(NNLM, RNNLM, Word2Vec, FastText 등)     
3) 카운트 기반과 예측 기반 두가지 방법 모두 사용(GloVe)

## 한국어 전처리 패키지

### 1. PyKospacing
한국어 띄어쓰기 패키지: 띄어쓰기가 되어있지 않은 문장을 띄어쓰기가 된 한 문장으로 변환해주는 패키지.

In [1]:
#!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to c:\users\tfx5075g\appdata\local\temp\pip-req-build-qo1f8n9k
Collecting tensorflow==2.5.0
  Downloading tensorflow-2.5.0-cp38-cp38-win_amd64.whl (422.6 MB)
Collecting h5py==3.1.0
  Downloading h5py-3.1.0-cp38-cp38-win_amd64.whl (2.7 MB)
Collecting argparse>=1.4.0
  Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Collecting grpcio~=1.34.0
  Downloading grpcio-1.34.1-cp38-cp38-win_amd64.whl (2.9 MB)
Collecting six~=1.15.0
  Downloading six-1.15.0-py2.py3-none-any.whl (10 kB)
Collecting numpy>=1.17.5
  Downloading numpy-1.19.5-cp38-cp38-win_amd64.whl (13.3 MB)
Collecting keras-nightly~=2.5.0.dev
  Downloading keras_nightly-2.5.0.dev2021032900-py2.py3-none-any.whl (1.2 MB)
Collecting tensorboard~=2.5
  Downloading tensorboard-2.5.0-py3-none-any.whl (6.0 MB)
Collecting flatbuffers~=1.12.0
  Downloading flatbuffers-1.12-py2.py3-none-any.whl (15 kB)
Collecting typing-

  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git 'C:\Users\TFX5075G\AppData\Local\Temp\pip-req-build-qo1f8n9k'
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
conda-repo-cli 1.0.4 requires pathlib, which is not installed.


In [2]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [3]:
# 위 문장을 임의로 띄어쓰기가 없는 문장으로 만들기
new_sent = sent.replace(" ", '')
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [4]:
# PyKoSpacing 사용하기
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

# 원래 띄어쓰기와 pykospacing 함수를 거친 띄어쓰기 비교하기
print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


=> 정확히 일치한다!

### 2. Py-Hanspell
네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지.

In [5]:
#!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git

  Running command git clone -q https://github.com/ssut/py-hanspell.git 'C:\Users\TFX5075G\AppData\Local\Temp\pip-req-build-ap0io85q'


  Cloning https://github.com/ssut/py-hanspell.git to c:\users\tfx5075g\appdata\local\temp\pip-req-build-ap0io85q
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py): started
  Building wheel for py-hanspell (setup.py): finished with status 'done'
  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4894 sha256=c78e892a0d5bae61c935a5447a86d6b12aec5efde171bdb3f4916ae52f5ca597
  Stored in directory: C:\Users\TFX5075G\AppData\Local\Temp\pip-ephem-wheel-cache-23y9jl89\wheels\3f\a5\73\e4d2806ae141d274fdddaabf8c0ed79be9357d36bfdc99e4b4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1





In [11]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)  # 맞춤법이 지켜졌는지 여부를 토큰별로 확인

hanspell_sent = spelled_sent.checked  # 맞춤법 교정
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


hanspell을 이용한 띄어쓰기 보정

In [12]:
spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
print(kospacing_sent) # 앞의 kospacing에서 얻은 결과와 비교

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


조금 다른부분이 있음!

### 3. SOYNLP를 통한 단어 토큰화
soynlp: 품사 태깅, 단어 토큰화 등을 지원.        
비지도 학습으로 단어 토큰화 -> 데이터에 자주 등장하는 단어들을 단어로 분석한다.

In [13]:
#!pip install soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


#### 1) 신조어 문제
기존 형태소 분석기의 문제점: 신조어나 형태소 분석기에 등록되지 않은 단어는 제대로 구분하지 못함.

In [14]:
# 앞에서 배운 형태소 분석기 예시
from konlpy.tag import Okt
tokenizer=Okt()
print(tokenizer.morphs("세븐틴 에스쿱스 8월 최애돌 기부 요정"))

['세븐', '틴', '에스', '쿱스', '8월', '최애', '돌', '기부', '요정']


=> 한 단어인 세븐틴, 에스쿱스, 최애돌을 모두 분리해서 결과로 보여줌.      
__soynlp__ :세븐틴이라는 문자열이 자주 연결되어 등장하면 한 단어로 판단하고, '가수', '실력'과 같은 독립된 단어들이 세븐틴이라는 단어 앞뒤에 계속해서 등장하면 세븐틴을 한 단어로 파악하는 방식!

#### 2) 학습하기

In [16]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

soynlp는 학습에 기반한 토크나이저이므로 학습에 필요한 한국어 문서를 다운로드한다.

In [17]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x22d243ebdf0>)

In [18]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [19]:
# 30091개의 문서 중 상위 3개 문서만 출력
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

학습을 통해 단어 토크나이저 생성      
전체 코퍼스로부터 응집 확률과 브랜칭 엔트로피 단어 점수표를 만들어야 한다!

In [21]:
# wordExtractor.extract()를 통해 전체 코퍼스에 대한 단어 점수표 계산
word_extractor=WordExtractor()
word_extractor.train(corpus)   
word_score_table = word_extractor.extract()

training was done. used memory 2.936 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


__응집확률__ : 내부 문자열(substring)이 얼마나 응집하여 자주 등장하는지를 판단하는 척도.          
각 문자열이 주어졌을 때 그 다음 문자가 나올 확률을 계산해서 누적곱을 한다. 값이 높을수록 하나의 단어로 등장할 가능성이 높다!
![image.png](attachment:image.png)

예) '반포한강공원에' 라는 문자 시퀀스에 대해 각 내부 문자열의 스코어를 구하는 과정
![image.png](attachment:image.png)

In [22]:
#응집확률 계산
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [23]:
word_score_table["반포한강"].cohesion_forrward

0.19841268168224552

In [24]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [25]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [26]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

'반포한강공원'일 때 가장 높다! ==> 응집도를 통해 하나의 단어로 판단하기에 가장 적합한 문자열은 '반포한강공원'이라고 볼 수 있다.

#### 4) SOYNLP의 브랜칭 엔트로피(branchin entropy)

branching entropy: 주어진 문자 시퀀스에서 다음 문자 예측을 위해 헷갈리는 정도           
=> 주어진 문자열에서 얼마나 다음 문자가 등장할 수 있는지를 판단하는 척도    
낮을수록 다음으로 올 문자열이 명백하다는 뜻

In [27]:
word_score_table["디스"].right_branching_entropy

1.6371694761537934

In [28]:
word_score_table["디스플"].right_branching_entropy

-0.0

In [29]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

'디스플레이' 다음으로는 조사나 다른 단어 등 다양한 경우가 있을 수 있으므로 브랜칭 엔트로피 값이 증가함! => __이 값으로 단어를 판단할 수 있다__

#### 5) SOYNLP의 L tokenizer
한국어의 띄어쓰기를 기준으로 한 어절 토큰은 주로 L 토큰 + R 토큰을 형식을 가질 때가 많다 (예: '공원에' => '공원+에')     
soynlp의 L tokenizer: L 토큰 + R 토큰으로 나누되 분리 기준을 점수가 가장 높은 L 노큰을 찾아내는 원리를 가진다.

In [31]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}

In [32]:
l_tokenizer=LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

#### 6) 최대 점수 토크나이저
띄어쓰기가 되지 않는 문장에서 점수가 높은 글자 시퀀스를 순차적으로 찾아내는 토크나이저.

In [33]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

### 4. 반복되는 문자 정제 by SOYNLP
반복되는 것을 하나로 정규화시킴(예: ㅋㅋ, ㅋㅋㅋ, ㅋㅋㅋㅋㅋㅋㅋㅋㅋ)

In [34]:
from soynlp.normalizer import *

In [35]:
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼ㅠㅠ
아ㅋㅋ영화존잼ㅠㅠ
아ㅋㅋ영화존잼ㅠㅠ
아ㅋㅋ영화존잼ㅠㅠ


In [36]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


### 5. Customized KoNLPy
단어가 분리되지 않기 위해 형태소 분석기에 사용자 사전을 추가하기.

In [37]:
#!pip install customized_konlpy

Collecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
Installing collected packages: customized-konlpy
Successfully installed customized-konlpy-0.0.64


customized_konlpy의 형태소 분석기 Twitter를 이용한 토큰화

In [38]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

이름인 은경이가 '은', '경이'로 분리됨 => 형태소 분석기에 add_dictionary('단어', '품사') 형식으로 사전을 추가한다!

In [39]:
twitter.add_dictionary("은경이", "Noun")

In [40]:
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']

=> 이제 하나의 토큰으로 인식한다