# 한국어 전처리
- [패키지 설치 참고](https://github.com/wjsrlahrlco1998/TIL/blob/master/Unstructured_text_analysis/K_text_preprocessing_2.md)

## 1. 패키지 로드

In [21]:
import re

from kss import split_sentences
from hanspell import spell_checker

## 2. 클래스 정의

In [22]:
class K_preprocessing:
    @classmethod
    def remove_special_char(self, sent):
        '''
문장에서 한글과 숫자를 제외하고 모두 제거하는 함수.

Parameters
----------
sent : String

Returns
-------
한글과 숫자만 존재하는 문장 : String
'''
        return re.sub('[^가-힣0-9 ]', '', sent)
    
    @classmethod
    def tokenize_sent(self, document):
        '''
문서의 문장 토큰화하는 함수.

Parameters
----------
document : String

Returns
-------
문장 토큰화된 리스트 : List
'''
        return split_sentences(document)
    
    @classmethod
    def correct_spell(self, sent):
        '''
한글 문장의 맞춤법을 교정해주는 함수.

Parameters
----------
sent : String

Returns
-------
맞춤법이 교정된 문장 : String
'''
        ck_sent = spell_checker.check(sent)
        
        return ck_sent.checked

## 3. 테스트

### 1) remove_special_char 테스트
- 입력문장에서 한국어와 숫자를 제외하고 모두 제거하는 함수

In [17]:
K_preprocessing.remove_special_char('정규표현식에 a는 문자 a와 매칭되지만 (는 (와 매칭되지 않습니다. 메타문자인 소괄호인 (를 매칭하고자 하면 백슬래쉬인 \를 앞에 붙여 \( 라 작성해야 문자 (와 매칭이 가능합니다. 이에 관한 설명은 https://brownbears.tistory.com/62 에서 확인할 수 있습니다.')

'정규표현식에 는 문자 와 매칭되지만 는 와 매칭되지 않습니다 메타문자인 소괄호인 를 매칭하고자 하면 백슬래쉬인 를 앞에 붙여  라 작성해야 문자 와 매칭이 가능합니다 이에 관한 설명은 62 에서 확인할 수 있습니다'

### 2) tokenize_sent 테스트
- 입력문서를 문장단위로 토큰화하는 함수

In [16]:
K_preprocessing.tokenize_sent('정규표현식에 a는 문자 a와 매칭되지만 (는 (와 매칭되지 않습니다. 메타문자인 소괄호인 (를 매칭하고자 하면 백슬래쉬인 \를 앞에 붙여 \( 라 작성해야 문자 (와 매칭이 가능합니다. 이에 관한 설명은 https://brownbears.tistory.com/62 에서 확인할 수 있습니다.')

['정규표현식에 a는 문자 a와 매칭되지만 (는 (와 매칭되지 않습니다.',
 '메타문자인 소괄호인 (를 매칭하고자 하면 백슬래쉬인 \\를 앞에 붙여 \\( 라 작성해야 문자 (와 매칭이 가능합니다.',
 '이에 관한 설명은 https://brownbears.tistory.com/62 에서 확인할 수 있습니다.']

### 3) correct_spell 테스트
- 입력문장(한글)의 맞춤법을 교정해주는 함수
- 100% 정확한 교정은 아니지만 어느정도의 교정을 해준다.

In [25]:
K_preprocessing.correct_spell('나는 외 않되? 나도 할수있으면돼지')

'나는 왜 안돼? 나도 할 수 있으면 되지'