# 한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)

<br>

## PyKoSpacing 
- `PyKoSpacing`은 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지
- `PyKoSpacing`은 대용량 코퍼스를 학습하여 만들어진 띄어쓰기 딥 러닝 모델로 준수한 성능

```python
pip install git+https://github.com/haven-jeon/PyKoSpacing.git
```

In [2]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [3]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


# 

#### `pykospacing.Spacing()` : 띄어쓰기 보정 객체
#### `pykospacing.Spacing().spacing(문자열)` : 띄어쓰기 보정

In [4]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent) 

print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


# 
# 

## soynlp
- `soynlp`는 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저
- 비지도 학습으로 단어 토큰화를 한다는 특징을 갖고 있으며, 데이터에 자주 등장하는 단어들을 단어로 분석
- `soynlp` 단어 토크나이저는 내부적으로 단어 점수 표로 동작하며, 이 점수는 응집 확률(cohesion probability)과 브랜칭 엔트로피(branching entropy)를 활용

```Python
pip install soynlp
```

In [2]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

In [3]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x1b42f8a4070>)

- 훈련 데이터를 다수의 문서로 분리

In [4]:
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [5]:
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

# 

- `soynlp`는 학습 기반의 단어 토크나이저이므로 기존의 KoNLPy에서 제공하는 형태소 분석기들과는 달리 학습 과정이 필요. 
- 이는 전체 코퍼스로부터 응집 확률과 브랜칭 엔트로피 단어 점수표를 만드는 과정

# 

#### `soynlp.word.WordExtractor()` : `soynlp` 학습 객체
#### `soynlp.word.WordExtractor().train()`
#### `soynlp.word.WordExtractor().extract()` : 학습을 기반으로 전체 코퍼스로 부터 응집 확률과, 엔트로피 단어 점수표 생성

In [6]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 0.768 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


# 

### soynlp 응집 확률(cohesion probability)
- **응집 확률은 내부 문자열(substring)이 얼마나 응집하여 자주 등장하는지를 판단하는 척도**
- 응집 확률은 문자열을 문자 단위로 분리하여 내부 문자열을 만드는 과정에서, 왼쪽부터 순서대로 문자를 추가하면서 각 문자열이 주어졌을 때 그 다음 문자가 나올 확률을 계산하여 누적곱을 한 값
- 이 값이 높을수록 전체 코퍼스에서 이 문자열 시퀀스는 하나의 단어로 등장할 가능성이 높음


![title](https://wikidocs.net/images/page/92961/%EC%88%98%EC%8B%9D.png)

# 
- '반포한강공원에' 라는 7의 길이를 가진 문자 시퀀스에 대해서 각 내부 문자열이 스코어를 구하는 과정은 다음과 같음

![title](https://wikidocs.net/images/page/92961/%EC%88%98%EC%8B%9D2.png)

# 
-  '반포한'의 응집 확률

In [7]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

- '반포한강'의 응집 확률 : '반포한강'은 '반포한'보다 응집 확률이 높음

In [8]:
word_score_table["반포한강"].cohesion_forward

0.19841268168224552

- '반포한강공'의 응집 확률 : '반포한강'보다 응집 확률이 높음

In [9]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

- '반포한강공원'의 응집 확률 : '반포한강공'보다 응집 확률이 높음

In [10]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

- 조사 '에'를 붙인 '반포한강공원에'의 응집 확률 : 오히려 '반포한강공원'보다 응집도가 낮아짐

    - 결국 결합도는 '반포한강공원'일 때가 가장 높음 $\rightarrow$ **응집도를 통해서 판단하기에는, 하나의 단어로 판단하기에 가장 적합한 문자열은 '반포한강공원'**

In [11]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

# 
# 
### soynlp의 브랜칭 엔트로피(branching entropy)
- Branching Entropy는 확률 분포의 엔트로피값을 사용 : **주어진 문자열에서 얼마나 다음 문자가 등장할 수 있는지를 판단하는 척도**

    - **주어진 문자 시퀀스에서 다음 문자 예측을 위해 헷갈리는 정도**
    - **브랜칭 엔트로피의 값은 하나의 완성된 단어에 가까워질수록 문맥으로 인해 점점 정확히 예측할 수 있게 되면서 점점 줄어드는 양상** 

# 

```
퀴즈를 하나 내보겠습니다. 제가 어떤 단어를 생각 중인데, 한 문자씩 말해드릴테니까 매번 다음 문자를 맞추는 것이 퀴즈입니다. 첫번째 문자는 '디'입니다. 다음에 등장할 문자를 맞춰보세요. 솔직히 가늠이 잘 안 가지요? '디'로 시작하는 단어가 얼마나 많은데요. 정답은 '스' 입니다.

이제 '디스'까지 나왔네요. '디스 '다음 문자는 뭘까요? '디스카운트'라는 단어가 있으니까 '카'일까? 아니면 '디스코드'라는 단어가 있으니까 '코'인가? 생각해보니 '디스코'가 정답일 수도 있겠네요. 그러면 '코'인가? '디스아너드'라는 게임이 있으니까 '아'? 이 단어들을 생각하신 분들은 전부 틀렸습니다. 정답은 '플'이었습니다.

'디스플'까지 왔습니다. 다음 문자 맞춰보세요. 이제 좀 명백해집니다. 정답은 '레'입니다. '디스플레' 다음에는 어떤 문자일까요? 정답은 '이'입니다. 제가 생각한 단어는 '디스플레이'였습니다.

``` 

# 
- **'디스' 다음에는 다양한 문자가 올 수 있기에 1.63이라는 값을 가지는 반면, '디스플'이라는 문자열 다음에는 다음 문자로 '레'가 오는 것이 너무나 명백하기 때문에 0이란 값을 가짐**

In [19]:
print(word_score_table["디스"].right_branching_entropy)
print(word_score_table["디스플"].right_branching_entropy)

1.6371694761537934
-0.0


# 
- **문자 시퀀스 '디스플레이'라는 문자 시퀀스 다음에는 조사나 다른 단어와 같은 다양한 경우가 있음 $\rightarrow$ 브랜칭 엔트로피가 증가**

    - 하나의 단어가 끝나면 그 경계 부분부터 다시 브랜칭 엔트로피 값이 증가하게 됨을 의미 (이 값으로 단어를 판단하는 것이 가능)

In [20]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

# 
# 
### soynlp L tokenizer
- 한국어는 띄어쓰기 단위로 나눈 어절 토큰은 주로 L 토큰 + R 토큰의 형식을 가질 때가 많음. 
    - e.g '공원에' = '공원 + 에' / '공부하는' = '공부 + 하는'
- **L 토크나이저는 L 토큰 + R 토큰으로 나누되, 분리 기준을 점수가 가장 높은 L 토큰을 찾아내는 원리**

In [23]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

# 
# 
### soynlp를 이용한 반복되는 문자 정제
- SNS나 채팅 데이터와 같은 한국어 데이터의 경우에는 'ㅋㅋ', 'ㅎㅎ' 등의 이모티콘의 경우 불필요하게 연속되는 경우가 많은데 'ㅋㅋ', 'ㅋㅋㅋ', 'ㅋㅋㅋㅋ' 같은 경우를 모두 서로 다른 단어로 처리하는 것은 불필요.
- 반복되는 것은 하나로 정규화

# 

#### `soynlp.normalizer.emoticon_normalize(문자열, num_repeats)` : 'ㅋㅋㅋ'등의 이모티콘에 대한 문자열 반복 제거

In [29]:
from soynlp.normalizer import *

print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


# 

#### `soynlp.normalizer.repeat_normalize(문자열, num_repeats)` : 반복되는 문자열에 대한 반복 제거

In [30]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


# 
# 

## Customized KoNLPy
- customized_KoNLPy는 확실히 알고 있는 단어들에 대해서는 라이브러리를 거치지 않고 주어진 어절을 아는 단어들로 토크나이징 / 품사판별을 하는 기능을 제공

https://github.com/lovit/customized_konlpy

# 
# 

### Py-Hanspell
- py-hanspell은 네이버 맞춤법 검사기를 이용한 파이썬용 한글 맞춤법 검사 라이브러리

https://github.com/ssut/py-hanspell