# 자연어 데이터 전처리(Preprocessing, 정제)


## 기본적인 전처리(정제) 파이프라인

<img src='https://miro.medium.com/max/897/1*rsWKtPMawArG5U_kUQfonQ.png'>

  - 정제 작업은 토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해서 토큰화 작업보다 앞서 이루어지기도 하지만, 
  - 토큰화 작업 이후에도 여전히 남아있는 노이즈들을 제거하기위해 지속적으로 이루어지기도 합니다. 
  - 사실 완벽한 정제 작업은 어려운 편이라서, 대부분의 경우 이 정도면 됐다.라는 일종의 합의점을 찾기도 합니다.

한국어에서의 다양한 전처리 방식들을 실습합니다.

* Basic
 - 가장 기초적인 전처리
 - html tag 제거
 - 숫자 제거
 - Lowercasing
 - "@%*=()/+ 와 같은 punctuation 제거

* 정규화(Normalization)
  -표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
  

* Spell check
 - 사전 기반의 오탈자 교정
 - 줄임말 원형 복원 (e.g. I'm not happy -> I am not happy)

* Part-of-Speech
 - 형태소 분석
 - Noun, Adjective, Verb, Adverb만 학습에 사용
* Stemming
 - 형태소 분석 이후 동사 원형 복원
* Stopwords
 - 불용어 제거



# 토큰화

  - 단어 토큰화
  - 문장 토큰화

  

## 토큰화에서 고려해야할 사항

1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.
  - 구두점조차도 하나의 토큰으로 분류하기도 합니다. 
  - 예를 들어보자면, 마침표(.)와 같은 경우는 문장의 경계를 알 수 있는데 도움이 되므로 단어를 뽑아낼 때, 마침표(.)를 제외하지 않을 수 있습니다.

2) 줄임말과 단어 내에 띄어쓰기가 있는 경우
  - we're: we are의 줄임말. re를 접어(clitic)라고 한다.
  - Ph.D, AT&T, $1,000,000.00, 01/02/2021, 45.55등
  - rock 'n' roll, New York: 하나의 토큰으로 봐야하는 경우


      

## 단어 토큰화

### 형태소(Morpheme)

한국어 토큰화에서는 형태소(morpheme)란 개념을 반드시 이해해야 합니다. 

  - 형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위를 말합니다. 
  - 두 가지 형태소가 있는데 자립 형태소와 의존 형태소입니다.
    - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 해당
    - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.
  ```
    예를 들어 다음과 같은 문장이 있다고 합시다.
    문장 : 에디가 딥러닝책을 읽었다
    이를 형태소 단위로 분해하면
    자립 형태소 : 에디, 딥러닝책
    의존 형태소 : -가, -을, 읽-, -었, -다
  ````

이를 통해 유추할 수 있는 것은 한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절(띄어쓰기의 단위) 토큰화가 아니라 형태소 토큰화를 수행해야한다는 겁니다. 그 근본적인 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 교착어라는 점에서 기인합니다. 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어를 말합니다.


### NLTK 

  - word_tokenize
  - Word_PunctTokenizer

In [None]:
# 단어 토큰화 (Word Tokenization)

import nltk
from nltk.tokenize import word_tokenize  
nltk.download('punkt')
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리한 것을 확인할 수 있습니다.

In [None]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에, 앞서 확인했던 word_tokenize와는 달리 Don't를 Don과 '와 t로 분리하였으며, 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리한 것을 확인할 수 있습니다.

### Keras
  - 토큰화 도구로서 text_to_word_sequence를 지원

In [None]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))


["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거합니다. 하지만 don't나 jone's와 같은 경우 아포스트로피는 보존하는 것을 볼 수 있습니다.

## 문장 토큰화(Sentence Tokenization)

참고: [How to Split Sentences](https://www.grammarly.com/blog/engineering/how-to-split-sentences/)

### NLTK 

  - sent_tokenize

In [None]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))


['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [None]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


### 한국어 문장 토큰화

  - 한국어에 대한 문장 토큰화 도구: KSS(Korean Sentence Splitter)를 추천 
  

In [None]:
!pip install kss
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

Collecting kss
  Downloading kss-2.5.1-py3-none-any.whl (65 kB)
[K     |████████████████████████████████| 65 kB 1.9 MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.5.1
['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

  - 한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다) 파이썬 패키지를 사용할 수 있습니다. 
  - 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.
  


In [None]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


### NLTK POS Tagging

```
  Abbreviation	                                  Meaning
      CC	                              coordinating conjunction
      CD	                              cardinal digit
      DT	                              determiner
      EX	                              existential there
      FW	                              foreign word
      IN	                              preposition/subordinating conjunction
      JJ	                              This NLTK POS Tag is an adjective (large)
      JJR	                              adjective, comparative (larger)
      JJS	                              adjective, superlative (largest)
      LS	                              list market
      MD	                              modal (could, will)
      NN	                              noun, singular (cat, tree)
      NNS	                              noun plural (desks)
      NNP	                              proper noun, singular (sarah)
      NNPS	                            proper noun, plural (indians or americans)
      PDT	                              predeterminer (all, both, half)
      POS	                              possessive ending (parent\ 's)
      PRP	                              personal pronoun (hers, herself, him,himself)
      PRP$	                            possessive pronoun (her, his, mine, my, our )
      RB	                              adverb (occasionally, swiftly)
      RBR	                              adverb, comparative (greater)
      RBS	                              adverb, superlative (biggest)
      RP	                              particle (about)
      TO	                              infinite marker (to)
      UH	                              interjection (goodbye)
      VB	                              verb (ask)
      VBG	                              verb gerund (judging)
      VBD	                              verb past tense (pleaded)
      VBN	                              verb past participle (reunified)
      VBP	                              verb, present tense not 3rd person singular(wrap)
      VBZ	                              verb, present tense with 3rd person singular (bases)
      WDT	                              wh-determiner (that, what)
      WP	                              wh- pronoun (who)
      WRB	                              wh- adverb (how)
  ```

In [None]:
import nltk
nltk.download('averaged_perceptron_tagger')
from nltk.tag import pos_tag
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
x=word_tokenize(text)
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

### KoNLPy 설치

In [None]:
!set -x \
&& pip install konlpy \
&& curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

+ pip install konlpy
Collecting konlpy
  Downloading konlpy-0.5.2-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 8.3 MB/s 
[?25hCollecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 38.9 MB/s 
[?25hCollecting beautifulsoup4==4.6.0
  Downloading beautifulsoup4-4.6.0-py3-none-any.whl (86 kB)
[K     |████████████████████████████████| 86 kB 7.2 MB/s 
Collecting colorama
  Downloading colorama-0.4.4-py2.py3-none-any.whl (16 kB)
Installing collected packages: JPype1, colorama, beautifulsoup4, konlpy
  Attempting uninstall: beautifulsoup4
    Found existing installation: beautifulsoup4 4.6.3
    Uninstalling beautifulsoup4-4.6.3:
      Successfully uninstalled beautifulsoup4-4.6.3
Successfully installed JPype1-1.3.0 beautifulsoup4-4.6.0 colorama-0.4.4 konlpy-0.5.2
+ curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh
+

In [None]:
# MeCab installation needed 
# Mecab Class:  해당 분석기는 일본어용 형태소 분석기를 한국어를 사용할 수 있도록 수정한 것 입니다.
# morphs(text):  텍스트에서 형태소를 반환한다
# nouns(text):  텍스트에서 명사를 반환한다
# pos(text): 텍스트에서 품사 정보를 부착하여 반환한다

from konlpy.tag import Mecab 

mecab = Mecab() 

print(mecab.morphs(u'영등포구청역에 있는 맛집 좀 알려주세요.'))
print(mecab.nouns(u'우리나라에는 무릎 치료를 잘하는 정형외과가 없는가!'))
print(mecab.pos(u'자연주의 쇼핑몰은 어떤 곳인가?'))

['영등포구청역', '에', '있', '는', '맛집', '좀', '알려', '주', '세요', '.']
['우리', '나라', '무릎', '치료', '정형', '외과']
[('자연주의', 'NNG'), ('쇼핑몰', 'NNG'), ('은', 'JX'), ('어떤', 'MM'), ('곳', 'NNG'), ('인가', 'VCP+EF'), ('?', 'SF')]


In [None]:
sent = '아버지가방에들어가신다'
print(mecab.morphs(sent))
print(mecab.nouns(sent))
print(mecab.pos(sent))


['아버지', '가', '방', '에', '들어가', '신다']
['아버지', '방']
[('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('신다', 'EP+EC')]


In [None]:
text = '아이폰 기다리다 지쳐 애플공홈에서 언락폰질러버렸다 6+ 128기가 실버ㅋ''아버지가방에들어가신다'
print(mecab.morphs(text))
print(mecab.nouns(text))
print(mecab.pos(text))

['아이폰', '기다리', '다', '지쳐', '애플', '공홈', '에서', '언락', '폰', '질러', '버렸', '다', '6', '+', '128', '기', '가', '실버', 'ㅋ', '아버지', '가', '방', '에', '들어가', '신다']
['아이폰', '애플', '공홈', '언락', '폰', '기', '실버', '아버지', '방']
[('아이폰', 'NNP'), ('기다리', 'VV'), ('다', 'EC'), ('지쳐', 'VV+EC'), ('애플', 'NNP'), ('공홈', 'NNG'), ('에서', 'JKB'), ('언락', 'NNG'), ('폰', 'NNG'), ('질러', 'VV+EC'), ('버렸', 'VX+EP'), ('다', 'EC'), ('6', 'SN'), ('+', 'SY'), ('128', 'SN'), ('기', 'NNG'), ('가', 'JKS'), ('실버', 'NNP'), ('ㅋ', 'IC'), ('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('신다', 'EP+EC')]


In [None]:
import re
from konlpy.tag import Mecab

tagger = Mecab()

corpus = ['평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라']
tokens = tagger.morphs(re.sub("(\.)", "", str(corpus)))

vocab = {}
bow = []

for tok in tokens:
    if tok not in vocab.keys():
        vocab[tok]=len(vocab)
        bow.insert(len(vocab)-1, 1)
    else:
        index = vocab.get(tok)
        bow[index] = bow[index]+1
        
print(bow)
print(vocab)  

[1, 1, 1, 2, 2, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1, 1]
{'[': 0, "'": 1, '평생': 2, '살': 3, '것': 4, '처럼': 5, '꿈': 6, '을': 7, '꾸': 8, '어라': 9, '그리고': 10, '내일': 11, '죽': 12, '오늘': 13, '아라': 14, "']": 15}


### Customized KoNLPy

영어권 언어는 띄어쓰기만해도 단어들이 잘 분리되지만, 한국어는 그렇지 않다고 앞에서 몇 차례 언급했었습니다
한국어 데이터를 사용하여 모델을 구현하는 것만큼 이번에는 형태소 분석기를 사용해서 단어 토큰화를 해보겠습니다. 그런데 형태소 분석기를 사용할 때, 이런 상황에 봉착한다면 어떻게 해야할까요?

```
형태소 분석 입력 : '은경이는 사무실로 갔습니다.'
형태소 분석 결과 : ['은', '경이', '는', '사무실', '로', '갔습니다', '.'
```
사실 위 문장에서 '은경이'는 사람 이름이므로 제대로 된 결과를 얻기 위해서는 '은', '경이'와 같이 글자가 분리되는 것이 아니라 '은경이' 또는 최소한 '은경'이라는 단어 토큰을 얻어야만 합니다. 이런 경우에는 형태소 분석기에 사용자 사전을 추가해줄 수 있습니다. '은경이'는 하나의 단어이기 때문에 분리하지말라고 형태소 분석기에 알려주는 것입니다.

사용자 사전을 추가하는 방법은 형태소 분석기마다 다른데, 생각보다 복잡한 경우들이 많습니다. 이번 실습에서는 Customized Konlpy라는 사용자 사전 추가가 매우 쉬운 패키지를 사용합니다. 

In [None]:
pip install customized_konlpy

Collecting customized_konlpy
  Downloading customized_konlpy-0.0.64-py3-none-any.whl (881 kB)
[K     |████████████████████████████████| 881 kB 3.9 MB/s 
Installing collected packages: customized-konlpy
Successfully installed customized-konlpy-0.0.64


In [None]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [None]:
twitter.add_dictionary('은경이', 'Noun')

In [None]:
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']

### Mecab vs Kkma vs Okt vs Komoran vs Hannanum

참고: [한국어 형태소 분석기 체험 및 비교(Okt, Mecab, Komoran, Kkma)](https://soohee410.github.io/compare_tagger)

In [None]:
from konlpy.tag import Mecab 

mecab = Mecab() 

print(mecab.morphs('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))
print(mecab.pos('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))
print(mecab.nouns('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))

['열심히', '코딩', '한', '당신', ',', '연휴', '에', '는', '여행', '을', '가', '봐요']
[('열심히', 'MAG'), ('코딩', 'NNG'), ('한', 'XSA+ETM'), ('당신', 'NP'), (',', 'SC'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('봐요', 'EC+VX+EC')]
['코딩', '당신', '연휴', '여행']


In [None]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
['코딩', '당신', '연휴', '여행']


In [None]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
['코딩', '당신', '연휴', '여행']


In [None]:
from konlpy.tag import Komoran  
kom=Komoran()  
print(kom.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(kom.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  
print(kom.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

['열심히', '코', '딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가', '아', '보', '아요']
[('열심히', 'MAG'), ('코', 'NNG'), ('딩', 'MAG'), ('하', 'XSV'), ('ㄴ', 'ETM'), ('당신', 'NNP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('아', 'EC'), ('보', 'VX'), ('아요', 'EC')]
['코', '당신', '연휴', '여행']


In [None]:
from konlpy.tag import Hannanum  
han=Hannanum()  
print(han.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print(han.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  
print(han.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에는', '여행', '을', '가', '아', '보', '아']
[('열심히', 'M'), ('코딩', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('당신', 'N'), (',', 'S'), ('연휴', 'N'), ('에는', 'J'), ('여행', 'N'), ('을', 'J'), ('가', 'P'), ('아', 'E'), ('보', 'P'), ('아', 'E')]
['코딩', '당신', '연휴', '여행']


## 맞춤법, 띄어쓰기

  - PyKoSpacing

    전희원님이 개발한 PyKoSpacing은 한국어 띄어쓰기 패키지로 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. PyKoSpacing은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능을 가지고 있습니다.

  - Py-Hanspell

    Py-Hanspell은 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지입니다.

  - SOYNLP를 이용한 단어 토큰화

  soynlp는 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저입니다. 비지도 학습으로 단어 토큰화를 한다는 특징을 갖고 있으며, 데이터에 자주 등장하는 단어들을 단어로 분석합니다. soynlp 단어 토크나이저는 내부적으로 단어 점수 표로 동작합니다. 이 점수는 응집 확률(cohesion probability)과 브랜칭 엔트로피(branching entropy)를 활용합니다.
  

In [None]:
# PyKoSpacing

!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-xltz_gx6
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-xltz_gx6
Collecting argparse>=1.4.0
  Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Building wheels for collected packages: pykospacing
  Building wheel for pykospacing (setup.py) ... [?25l[?25hdone
  Created wheel for pykospacing: filename=pykospacing-0.5-py3-none-any.whl size=2255828 sha256=0499610464e3039f51dd9de597a3a988de8db106e0fb0d3ee72619919dc94217
  Stored in directory: /tmp/pip-ephem-wheel-cache-aotmgdkj/wheels/9b/93/81/a2a7dc8c66ede5bf30634d20635f32b95eac7ca2ea8844058b
Successfully built pykospacing
Installing collected packages: argparse, pykospacing
Successfully installed argparse-1.4.0 pykospacing-0.5


In [None]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [None]:
# 앞셀에서 얻어진 출력을 PyKoSpacing의 입력으로 사용하여 원 문장과 비교해봅시다.

from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent) 

print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


In [None]:
spacing('아버지가방에들어가신다')

'아버지가 방에 들어가신다'

In [None]:
# Py-Hanspell

!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-31cq037j
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-31cq037j
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4870 sha256=91087b845de59334095d2adb4c7008c6e3ad4b8b90ee07bd3303b0cc1044b5bf
  Stored in directory: /tmp/pip-ephem-wheel-cache-vd2jrnfe/wheels/ab/f5/7b/d4124bb329c905301baed80e2ae45aa14e824f62ebc3ec2cc4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [None]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은데로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

# 비교

맞춤법 틀리면 왜 안돼? 쓰고 싶은 데로 쓰면 되지


<img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=http%3A%2F%2Fcfile26.uf.tistory.com%2Fimage%2F99728F375BB2006A19944F">

In [None]:
# 이 패키지는 띄어쓰기 또한 보정합니다. PyKoSpacing에 사용한 예제를 그대로 사용해봅시다.

spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
print(kospacing_sent) # 앞서 사용한 kospacing 패키지에서 얻은 결과

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
