# 정제
- 텍스트를 사용하기에 앞서 필수적인 과정으로 원하는 업무와 문제에 따라, 또는 응용 분야에 따라 필요한 정제의 수준이나 깊이가 다를 수 있다.
- 음성인식의 경우는 괄호 똔느 별표와 같은 기호나 특수 문자를 포함하면 안된다.
- 개인정보나 민감한 정보들은 제거하거나 변조해서 모델링해야하 수 있다.

## 전각 문자 제거
- 다음 문자들을 각 문자에 해당하는 반각 문자로 바꾸어 주는 작업이 필요하다.
- ![](../img/full_character.png)


## 대소문자 통일
- 하나의 의미를 지니는 여러 단어를 하나의 형태로 통일해 희소성을 줄이는 효과를기대할수 있다.
- 하지만 딥러닝 시대에 접어들어 단어 임베딩을 통한 효율적인 표현이 가능해지면서 다양한 단어들을 비슷한 값의 벡터로 나타낼 수 잇게 되자
- 대소문자 통일 같은(전체 코퍼스에서 차지하는 비율이 낮은)문제를 해결할 필요성이 줄어들었다.

## 정규 표현식을 사용한 정제
- 특수문자, 기호등에 의해 노이즈가 섞일 때가 많다. 이러한 노이즈들을 효율적으로 감지하고 없애려면 인덱스의 사용은 필수이다.
### []
- []안에 들어있는 문자를 각각 or로 엮어주는 역할을 한다.
### -
- 연속된 숫자 또는 알파벳등을 표현할 수 있다.
### [^]
- Not을 의미한다.
### ()
- 그룹을 만들 수 있다.
### |
- or을 의미한다.
### ?
- 앞의 수식하는 부분이 나타나지 않거나 한번만 나타날 때 사용한다.
### +
- 앞의 수식하는 부분이 한 번 이상 나타날 경우 사용한다.
### *
- 앞의 수식하는 부분이 나타나지 않거나 여러번 나타날 경우 사용한다.
### {n}
- 정확하게 반복 횟수의 범위를 알고 있다면 이것을 사용하는 것이 더 좋다
### {n,}
- n번 이상 반복됨을 표현하는 식이다.
### {n,m}
- n번에서 m번사이를 반복
### .
- 어떤 글자도 .에 포함될 수 있다.
### ^와$
- ^은 라인의 시작을 의미 $은 라인의 종료를 의미
### 지정문자 사용
- \s : 공백 문자
- \S : 공백 문자를 제외한 모든 문자
- \w : alphanumeric(알파벳 + 숫자) + '_'([A-Za-z0-9_]와 같음)
- \W : non-alphanumeric 문자 및 '_' 제외([^A-Za-z0-9_와 같음]) 
- \d : 숫자 ([0-9]와 같음)
- \D : 숫자를 제외한 모든 문자([^0-9]와 같음)


## 예제

In [1]:
import re
regex = r"([\w]+\s*:?\s*)?\(?\+?([0-9]{1,3})?\-?[0-9]{2,3}(\)|\-)?[0-9]{3,4}\-?[0-9]{4}"
x = "Ki: +82-10-1234-5678"
re.sub(regex, "REMOVED", x)


'REMOVED'

In [2]:
x = "CONTENT jiu 02)1234-5678"
re.sub(regex, "REMOVED",x)

'CONTENT REMOVED'

## 치환자 사용

In [3]:
x = '''abcedfg
12345
ab12
a1bc2d
12ab
a1b
1a2
a1
1a
hijklmnop
'''

regex = r'([a-z])[0-9]+([a-z])'
to = r'\1\2'

y = '\n'.join([re.sub(regex, to, x_i) for x_i in x.split('\n')])


In [4]:
y

'abcedfg\n12345\nab12\nabcd\n12ab\nab\n1a2\na1\n1a\nhijklmnop\n'