# 정제 Cleaning
: 텍스트 데이터를 정리하고 깨끗하게 만드는 과정
* 데이터(=corpus)의 노이즈, 불필요한 정보, 오류, 형식의 일관성 부재 등을 제거 혹은 수정
* 데이터를 표준화하고 분식에 적합한 형태로 만듬

# 정규화 Normalization
: 텍스트 데이터를 일관된 형태로 가공하는 과정
* 텍스트의 다양한 형태를 유사한 형태로 변환하여 데이터를 표준화
* 단어의 대소문자 통일, 특수 문자나 숫자의 제거, 어간 추출 등을 포함

## 정규 표현식 Regular Expression

### 정규표현식 이해

#### 정규표현식 없이 주민등록번호 뒷자리 마스킹

In [1]:
data = '''
park 981025-1234567
kim  030901-3456789
'''

In [2]:
data = data.split('\n')
data = [data[1], data[2]]
data

['park 981025-1234567', 'kim  030901-3456789']

In [3]:
for i in range(len(data)):
    data[i] = data[i].replace('  ',' ')
    data[i] = data[i].split(' ')
    
data

[['park', '981025-1234567'], ['kim', '030901-3456789']]

In [4]:
for i in range(len(data)):
    a,b = (data[i])[1].split('-')
    b = '*'*7
    (data[i])[1] = a + '-' +  b
data


[['park', '981025-*******'], ['kim', '030901-*******']]

In [5]:
(data[1])[1]

'030901-*******'

In [6]:
data = '''
park 981025-1234567
kim  030901-3456789
'''

results = []
for line in data.split('\n'):
    word_result = []
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
            
        word_result.append(word)
    results.append(' '.join(word_result))
print(results)
print('\n'.join(results))

['', 'park 981025-*******', 'kim  030901-*******', '']

park 981025-*******
kim  030901-*******



#### 정규표현식 써보기

In [7]:
import re

data = '''
park 981025-1234567
kim  030901-3456789
'''

# .compile: 정규 표현식 패턴 정의
#d{6} = 숫자 여섯개 + 하이픈 + d{7} 숫자 일곱개
pot = re.compile("(\d{6})[-]\d{7}")

# 정규표현식과 매칭되는 부분 대체
print(pot.sub(r'\1-*******', data))
print(pot.sub('\g<1>-*******', data))


park 981025-*******
kim  030901-*******


park 981025-*******
kim  030901-*******



In [8]:
import re

data2 = '''
park 981025-1234567-090
kim  030901-3456789-090
'''

# .compile: 정규 표현식 패턴 정의
#d{6} = 숫자 여섯개 + 하이픈 + d{7} 숫자 일곱개
pot = re.compile("(\d{6})[-]\d{7}[-]\d{3}")

# 정규표현식과 매칭되는 부분 대체
print(pot.sub('\g<1>-*******-123',data2))




park 981025-*******-123
kim  030901-*******-123



### 정규표현식 기초/메타 문자
    메타 문자: 원래 가지고 있는 의미가 아닌 특별한 의미를 부여한 문자
* $ * ? ( ) [ ] \ 등

#### brackets[], hyphen-, caret^

In [9]:
'''
1. [] 활용: 포함/미포함
[abc] : a,b,c 중 한 개의 문자가 포함되면 True
문자열 'a','before','dude'

'a' -> 'a'가 있으므로 True
'before' 'b'가 포함되어 있으므로 True
'dude' -> a,b,c 중 어떤 것도 포함되어 있지 않으므로 False
\
    
2. - 활용: 범위(between)의 의미
[a-c] : a부터 c까지
[a-zA-Z]: a부터 대문자 Z까지
[0-9]: 0부터 9까지 (=모든 숫자)

3. ^ 활용: 반대의 의미
[^0-9] : (0-9)에 포함되지 않는 것 = (모든 숫자)가 아닌 것 = 문자
'''

"\n1. [] 활용: 포함/미포함\n[abc] : a,b,c 중 한 개의 문자가 포함되면 True\n문자열 'a','before','dude'\n\n'a' -> 'a'가 있으므로 True\n'before' 'b'가 포함되어 있으므로 True\n'dude' -> a,b,c 중 어떤 것도 포함되어 있지 않으므로 False\n    \n2. - 활용: 범위(between)의 의미\n[a-c] : a부터 c까지\n[a-zA-Z]: a부터 대문자 Z까지\n[0-9]: 0부터 9까지 (=모든 숫자)\n\n3. ^ 활용: 반대의 의미\n[^0-9] : (0-9)에 포함되지 않는 것 = (모든 숫자)가 아닌 것 = 문자\n"

In [10]:
'''
자주 쓰는 문자 클래스(소문자-대문자는 서로 반대의 의미로 작용함)

\d : 숫자와 매치
\D : 숫자가 아닌 것과 매치 

\s : 화이트스페이스 문자와 매치,[ \t\n\r\f\v]와 동일
\S : 화이트스페이스가 아닌 것, [^ \t\n\r\f\v]와 동일

\w : 문자-숫자와 매치, [a-zA-Z0-9_]와 동일
\W : 문자-숫자가 아닌 것, [^a-zA-Z0-9_]와 동일

'''

'\n자주 쓰는 문자 클래스(소문자-대문자는 서로 반대의 의미로 작용함)\n\n\\d : 숫자와 매치\n\\D : 숫자가 아닌 것과 매치 \n\n\\s : 화이트스페이스 문자와 매치,[ \t\n\r\x0c\x0b]와 동일\n\\S : 화이트스페이스가 아닌 것, [^ \t\n\r\x0c\x0b]와 동일\n\n\\w : 문자-숫자와 매치, [a-zA-Z0-9_]와 동일\n\\W : 문자-숫자가 아닌 것, [^a-zA-Z0-9_]와 동일\n\n'

#### dot .

In [11]:
'''
.[dot] 문자 -\n을 제외한 모든 문자 하나
a.b = a + 모든 문자 + b

문자열 'aab','abb','abc'

[]사이에 들어간 . 은 escape
a[.]b = a + '.' + b
pattern = re.compile(r'a[.]b')
a.b -> True
aab -> False
'''

"\n.[dot] 문자 -\n을 제외한 모든 문자 하나\na.b = a + 모든 문자 + b\n\n문자열 'aab','abb','abc'\n\n[]사이에 들어간 . 은 escape\na[.]b = a + '.' + b\npattern = re.compile(r'a[.]b')\na.b -> True\naab -> False\n"

In [12]:
# .match: 문자열 패턴에 부합하는지 체크
import re

words = ['aab', 'abb', 'abc','aaab']
pattern = re.compile(r'a.b')

for word in words:
    match = pattern.match(word)
    print(f"{word} matches the pattern: {bool(match)}")


aab matches the pattern: True
abb matches the pattern: True
abc matches the pattern: False
aaab matches the pattern: False


#### apostrophe *

In [13]:
'''
* : *앞에 있는 문자 중복 허용
ca*t : 문자 a가 0 부터 무한대까지 반복되어도 c와 t 사이에 있는 한 True

'''

'\n* : *앞에 있는 문자 중복 허용\nca*t : 문자 a가 0 부터 무한대까지 반복되어도 c와 t 사이에 있는 한 True\n\n'

In [14]:
# .match: 문자열 패턴에 부합하는지 체크
import re

words = ['cat', 'caaaat', 'caat','c.t','ct']
pattern = re.compile(r'ca*t')

for word in words:
    match = pattern.match(word)
    print(f"{word} matches the pattern: {bool(match)}")


cat matches the pattern: True
caaaat matches the pattern: True
caat matches the pattern: True
c.t matches the pattern: False
ct matches the pattern: True


#### plus +

In [15]:
'''
+ : +앞에 있는 문자 중복 허용
ca+t : + 앞에 있는 문자 a가 최소 1번 이상 반복, c와 t 사이에 있는 한 True
'''

'\n+ : +앞에 있는 문자 중복 허용\nca+t : + 앞에 있는 문자 a가 최소 1번 이상 반복, c와 t 사이에 있는 한 True\n'

In [16]:
# .match: 문자열 패턴에 부합하는지 체크
import re

words = ['cat', 'caaaat', 'caat','c.t','ct']
pattern = re.compile(r'ca+t')

for word in words:
    match = pattern.match(word)
    print(f"{word} matches the pattern: {bool(match)}")


cat matches the pattern: True
caaaat matches the pattern: True
caat matches the pattern: True
c.t matches the pattern: False
ct matches the pattern: False


#### braces / curly brackets {}

In [17]:
'''
* {2}
ca{2}t = c + a를 반드시 두 번 이상 반복 + t

{n,N} : 반복 횟수가 n부터 N까지인 문자와 매치
{3,} : 반복 횟수가 3 이상
{,3} : 반복 횟수가 3 이하
{1,}은 +, {0,}은 *랑 동일


*** *, +, ? 는 모두 {} 형식으로 고쳐 쓰는 것이 가능하지만 * + ? 를 쓰는 것을 권장
'''

'\n* {2}\nca{2}t = c + a를 반드시 두 번 이상 반복 + t\n\n{n,N} : 반복 횟수가 n부터 N까지인 문자와 매치\n{3,} : 반복 횟수가 3 이상\n{,3} : 반복 횟수가 3 이하\n{1,}은 +, {0,}은 *랑 동일\n\n\n*** *, +, ? 는 모두 {} 형식으로 고쳐 쓰는 것이 가능하지만 * + ? 를 쓰는 것을 권장\n'

In [18]:
# .match: 문자열 패턴에 부합하는지 체크
import re

words = ['cat', 'caaaat', 'caat','c.t','ct']
pattern = re.compile(r'ca{2}t')

for word in words:
    match = pattern.match(word)
    print(f"{word} matches the pattern: {bool(match)}")


cat matches the pattern: False
caaaat matches the pattern: False
caat matches the pattern: True
c.t matches the pattern: False
ct matches the pattern: False


#### question mark ?

In [19]:
'''
ab?c = ? 앞에 있는 글자가 있어도 되고 없어도 됨
'''

'\nab?c = ? 앞에 있는 글자가 있어도 되고 없어도 됨\n'

In [20]:
# .match: 문자열 패턴에 부합하는지 체크
import re

words = ['cat', 'caaaat', 'caat','c.t','ct']
pattern = re.compile(r'ca?t')

for word in words:
    match = pattern.match(word)
    print(f"{word} matches the pattern: {bool(match)}")


cat matches the pattern: True
caaaat matches the pattern: False
caat matches the pattern: False
c.t matches the pattern: False
ct matches the pattern: True


### 정규 표현식 모듈 : re
    import re

In [21]:
import re

p = re.compile('ab*')

* .match: 문자열 첫자리부터 정규식과 매치되는지 

In [22]:
p = re.compile('정규표현식')
m = p.match('조사할 문자열')
if m:
    print('Match found: ', m.group())
else:
    print(m)

None


In [30]:
import re
p = re.compile('[a-z]+')
m = p.match('python')
print('python: ',m)
print('---')
m = p.match('3 python')
print('3 python: ',m)
print('---')
m = p.match('py333thon')
print('py333thon: ',m)
print('---')

python:  <re.Match object; span=(0, 6), match='python'>
---
3 python:  None
---
py333thon:  <re.Match object; span=(0, 2), match='py'>
---


* .search: 문자열 전체를 검색하여 정규식과 매치되는지 조사

In [31]:
m = p.search('python')
print('python: ',m)
print('---')
m = p.search('3 python')
print('3 python: ',m)
print('---')
m = p.search('py333thon')
print('py333thon: ',m)
print('---')

python:  <re.Match object; span=(0, 6), match='python'>
---
3 python:  <re.Match object; span=(2, 8), match='python'>
---
py333thon:  <re.Match object; span=(0, 2), match='py'>
---


* .findall: 정규식과 매치되는 모든 문자열을 리스트로 리턴

In [25]:
m = p.findall('Life is too short')
print('Life is too short: ',m)
print('---')
m = p.findall('Lifeistoo short')
print('Lifeistoo short: ',m)
print('---')

Life is too short:  ['ife', 'is', 'too', 'short']
---
Lifeistoo short:  ['ifeistoo', 'short']
---


* .finditer: 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴

In [26]:
result = p.finditer('Life is too short')
print(result)
print('---')

for r in result: print(r)

<callable_iterator object at 0x1072418d0>
---
<re.Match object; span=(1, 4), match='ife'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


#### .match / search 객체의 메서드
* group(): 조건에 맞는 문자 합치기
* start(): 조건에 맞는 문자가 시작하는 인덱스
* end(): 조건에 맞는 문자가 나오는 마지막 인덱스
* span(): 조건에 맞는 문자가 나오는 인덱스 범위

In [27]:
# 메서드 확인 : match 버전
p = re.compile('[a-z]+')
m = p.match('python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [28]:
# 메서드 확인: search 버전
p = re.compile('[a-z]+')
m = p.search('3 python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
2
8
(2, 8)
