# 왜 정규식을 해야 하는가?

## 비 정규식 풀이

In [4]:
data="""
park 800905-1049118
kim 700905-1059119
"""

In [5]:
result = []
for line in data.split("\n"):
    word_result = []

    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6]+"-"+"*******"
        word_result.append(word)

    result.append(" ".join(word_result))

print("\n".join(result))


park 800905-*******
kim 700905-*******



## 정규식 풀이

In [2]:
import re

### 간결한 풀이 방식을 확인만 하고 넘어가자!

In [9]:
pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******",data))


park 800905-*******
kim 700905-*******



---

## 파이썬에서 정규식 적용하는 방식

In [55]:
pattern = re.compile('abc') # compile에는 정규식
result = pattern.match('abc')        # match안에는 원본 문자열
result

<re.Match object; span=(0, 3), match='abc'>

In [12]:
# <re.Match object; span=(0, 3), match='abc'> <= Match object 반환
# span안의 숫자는 매칭되는 구간
# match는 매칭이 되는 문자열

In [56]:
pattern = re.compile('abc') 
pattern.match('ab')      # abc 문자열과 ab 문자열은 다르기 때문에 매치가 되지 않는다.

In [70]:
result = pattern.match('ab')
result

In [72]:
print(result)  # 매치가 되지 않은 결과는 None 이며 주피터에서는 None은 print하지 않으면 출력하지 않는다.

None


## 문자 클래스

* 문자 클래스로 만들어진 정규식은 "[ ] 사이의 문자들과 매치"라는 의미
* 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"

In [25]:
pattern = re.compile('[abc]') 
match_result = pattern.match('a')
match_result

<re.Match object; span=(0, 1), match='a'>

In [26]:
pattern.match('before')

<re.Match object; span=(0, 1), match='b'>

In [27]:
pattern.match('dude')

* "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치
* "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
* "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음

### 문자클래스와 일반 문자 조합

In [28]:
pattern = re.compile('S[abc]')

In [30]:
pattern.match('Sang')

<re.Match object; span=(0, 2), match='Sa'>

In [32]:
pattern = re.compile('s[abc]')  

In [33]:
pattern.match('Sang') # 정규식은 대소문자를 구분한다.

### 하이픈

In [35]:
p = re.compile('[a-c]')

In [36]:
p.match('apple')

<re.Match object; span=(0, 1), match='a'>

In [37]:
p.match('travel')

In [38]:
p = re.compile('[a-z]')

In [39]:
p.match('travel')

<re.Match object; span=(0, 1), match='t'>

In [40]:
p.match('Travel')

In [41]:
p = re.compile('[a-zA-Z]')

In [42]:
p.match('Travel')

<re.Match object; span=(0, 1), match='T'>

In [43]:
p = re.compile('[0-9]')

In [44]:
p.match('1st')

<re.Match object; span=(0, 1), match='1'>

In [45]:
p.match('2nd')

<re.Match object; span=(0, 1), match='2'>

In [61]:
original_text="a1b2c3"
p=re.compile('[a-zA-Z0-9][0-9]')
p.match(original_text)

<re.Match object; span=(0, 2), match='a1'>

### ^ 연산

* 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)라는 의미

In [46]:
p = re.compile('[^0-9]')

In [48]:
p.match('Good Bye 2022')

<re.Match object; span=(0, 1), match='G'>

In [49]:
p.match('2022 Good Bye')

### 자주 사용하는 문자 클래스 표현식

* \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
* \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
* \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
* \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
* \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
* \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

In [62]:
p=re.compile('[\d]') #[0-9]
m = p.match('1')
print(m)
m = p.match('5')
print(m)
m = p.match('a')
print(m)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='5'>
None


In [63]:
p=re.compile('[\D]') #[^0-9]
m = p.match('1')
print(m)
m = p.match('5')
print(m)
m = p.match('a')
print(m)

None
None
<re.Match object; span=(0, 1), match='a'>


In [64]:
p=re.compile('[\s]') # [ ] or re.compile(' ')
m = p.match('1')
print(m)
m = p.match(' 1') # 공백
print(m)
m = p.match('   1') # \t
print(m)
m = p.match('''
1''') # \n
print(m)

None
<re.Match object; span=(0, 1), match=' '>
<re.Match object; span=(0, 1), match=' '>
<re.Match object; span=(0, 1), match='\n'>


In [65]:
p=re.compile('[\S]') # [ ] or re.compile(' ')
m = p.match('1')
print(m)
m = p.match(' 1') # 공백
print(m)
m = p.match('   1') # \t
print(m)
m = p.match('''
1''') # \n
print(m)

<re.Match object; span=(0, 1), match='1'>
None
None
None


In [66]:
p=re.compile('[\w]') # [ ] or re.compile(' ')
m = p.match('1')
print(m)
m = p.match('a')
print(m)
m = p.match('K')
print(m)
m = p.match('-')
print(m)
m = p.match('$')
print(m)
m = p.match(' ')
print(m)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='K'>
None
None
None


In [67]:
p=re.compile('[\W]') # [ ] or re.compile(' ')
m = p.match('1')
print(m)
m = p.match('a')
print(m)
m = p.match('K')
print(m)
m = p.match('-')
print(m)
m = p.match('$')
print(m)
m = p.match(' ')
print(m)

None
None
None
<re.Match object; span=(0, 1), match='-'>
<re.Match object; span=(0, 1), match='$'>
<re.Match object; span=(0, 1), match=' '>
