##  한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)

### 1. PyKoSpacing
---

- `PyKoSpacing`은 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지이다. 

In [None]:
pip install git+https://github.com/haven-jeon/PyKoSpacing.git

In [3]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

> 임의의 문장을 띄어쓰기가 없는 문장으로 만들기

In [4]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


> 이를 `PyKoSpacing`의 입력으로 사용하여 원문장과 비교


In [5]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


결과가 정확하게 일치한다. 

### 2. Py-Hanspell
---

- `Py-Hanspell`은 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지이다.

In [None]:
pip install git+https://github.com/ssut/py-hanspell.git

In [7]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


- 띄어쓰기 또한 보정해준다. 

In [8]:
spelled_sent = spell_checker.check(new_sent)
hanspell_sent = spelled_sent.checked

In [9]:
print(hanspell_sent)
print(kospacing_sent)

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


### 3. SOYNLP를 이용한 단어 토큰화

---

- soynlp는 품사 태깅, 단어 토큰화 등을 지원하는 단어 tokenizer이다. 

> 비지도 학습 방식이며, 내부적으로 단어 점수 표를 사용하는데, 이 점수는 **응집 확률(cohesion probability)**과 브랜칭 엔트로피(branching entropy)를 활용한다.

In [10]:
pip install soynlp

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[K     |████████████████████████████████| 416 kB 8.3 MB/s 
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493


In [12]:
!pip install konlpy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.1-cp37-cp37m-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[K     |████████████████████████████████| 465 kB 31.2 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


> 기존 형태소 분석기의 문제점
- 신조어 또는 등록되지 않은 단어의 경우 제대로 구분하지 못함

In [13]:
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


- ‘에이비식스’, ‘이대휘’, ‘최애돌’ 등의 단어를 제대로 분리하지 못함

> 특정 문자 시퀀스가 함께 등장하는 빈도가 높고, 앞뒤로 조사 또는 완전히 다른 단어가 등장하는 것을 고려해 형태소를 판단하는 토크나이저가 필요

`**soynlp!!**`