In [1]:
data = """
park 800905-1049118
kim 700905-1059119
"""

In [2]:
result = []
for line in data.split("\n"):
    word_result = []

    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6]+"-"+"*******"
        word_result.append(word)

    result.append(" ".join(word_result))

print("\n".join(result))


park 800905-*******
kim 700905-*******



## 정규식 풀이

In [3]:
import re

In [4]:
pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******",data))


park 800905-*******
kim 700905-*******



---

## 파이썬에서 정규식 적용하는 방식

In [6]:
pattern = re.compile('abc') # compile 함수 안에 정규표현식 입력
result = pattern.match('abc') # 컴파일한 인스턴스에서 제공하는 함수안에 
                              # 검색하고자하는 문자열 원본을 입력한다.
result

<re.Match object; span=(0, 3), match='abc'>

In [9]:
# 원본은 'ab'인데 'abc'를 검색하려고하니 매치가 되지않는다.
pattern = re.compile('abc') 
result = pattern.match('ab')
result        # 매치가 되지않은경우에 None을 반환한다.
              # 하지만 주피터에서는 None은 출력되지않는다.

In [8]:
print(result)  # None 결과를 명시적으로 확인하기위해 print함수를 사용한다.

None


---

## 문자클래스

* 문자 클래스로 만들어진 정규식은 "[ ] 사이의 문자들과 매치"라는 의미
* 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"

In [13]:
pattern = re.compile('abc')
match_result = pattern.match('a') # 원본이 a인데 여기에 abc문자가 있는지 검색

match_result

In [14]:
pattern = re.compile('[abc]')
match_result = pattern.match('a') # 원본이 a인데 여기에 abc중 하나의 문자가 있는지 검색

match_result

<re.Match object; span=(0, 1), match='a'>

In [27]:
p = re.compile('[abc]') # 관용적으로 변수명을 p로 사용한다.
                        # abc문자중 첫번째 글자와 매치
p.match('a')

<re.Match object; span=(0, 1), match='a'>

In [28]:
p.match('before')

<re.Match object; span=(0, 1), match='b'>

In [29]:
p.match('climb') # abc 문자열 중 c와 매치가 됨.

<re.Match object; span=(0, 1), match='c'>

In [23]:
p.match('dumb') # 문자열 클래스는 단 하나의 문자와 매치 => 'd'만 비교
                # 매치가 되지않는다.

<re.Match object; span=(0, 4), match='dumb'>

In [24]:
p = re.compile('dum[abc]') # dum으로 시작하고 네번째글자가 abc중 하나와 일치
p.match('dumb')

<re.Match object; span=(0, 4), match='dumb'>

## 문자클래스와 일반 문자 조합

In [30]:
p = re.compile('S[abc]')
p.match('Sang')

<re.Match object; span=(0, 2), match='Sa'>

In [32]:
p = re.compile('s[abc]')
print(p.match('Sang')) # 정규식은 대소문자를 구별한다

None


## 하이픈

In [33]:
p = re.compile('[a-c]')
p.match('apple')

<re.Match object; span=(0, 1), match='a'>

In [34]:
p.match('Nana')

In [35]:
p = re.compile('[a-z]')
p.match('Nana')

In [36]:
p.match('nana')

<re.Match object; span=(0, 1), match='n'>

In [39]:
p = re.compile('[a-zA-Z]') # 모든 알파벳을 표현
print(p.match('Nana'))
print(p.match('nana'))

<re.Match object; span=(0, 1), match='N'>
<re.Match object; span=(0, 1), match='n'>


In [42]:
p = re.compile('[1-9]')
p.match('1st')

<re.Match object; span=(0, 1), match='1'>

In [43]:
p.match('first')

In [44]:
p.match('2nd')

<re.Match object; span=(0, 1), match='2'>

In [46]:
# 첫번째문자는 숫자(첫번째 문자클래스)이고 
# 두번째문자는 소문자알파벳(두번째 문자클래스)과 매칭
p = re.compile('[1-9][a-z]')
p.match('1st')

<re.Match object; span=(0, 2), match='1s'>

## ^(not) 연산

* 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)의 의미
* Not의 의미는 문자 클래스 안에서 적용하는 문법

In [47]:
p = re.compile('[0-9]')
p.match('Good Bye 2022!')

In [49]:
p = re.compile('[^0-9]')
p.match('Good Bye 2022!')

<re.Match object; span=(0, 1), match='G'>

In [50]:
p = re.compile('[^0-9][^0-9][^0-9][^0-9]')
p.match('Good Bye 2022!')

<re.Match object; span=(0, 4), match='Good'>

## 자주 사용하는 문자 클래스 표현식

* \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
* \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
* \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
* \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
* \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
* \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

In [51]:
p = re.compile('[\d]')
m = p.match('1')
print(m)
m = p.match('5')
print(m)
m = p.match('a')
print(m)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='5'>
None


In [52]:
p = re.compile('[\D]')
m = p.match('1')
print(m)
m = p.match('5')
print(m)
m = p.match('a')
print(m)

None
None
<re.Match object; span=(0, 1), match='a'>


In [53]:
p = re.compile('[\s]')
m = p.match('1')
print(m)
m = p.match(' 1')
print(m)
m = p.match('\t 1')
print(m)
m = p.match('''
1''')
print(m)

None
<re.Match object; span=(0, 1), match=' '>
<re.Match object; span=(0, 1), match='\t'>
<re.Match object; span=(0, 1), match='\n'>


In [54]:
p = re.compile('[\S]')
m = p.match('1')
print(m)
m = p.match(' 1')
print(m)
m = p.match('\t 1')
print(m)
m = p.match('''
1''')
print(m)

<re.Match object; span=(0, 1), match='1'>
None
None
None


In [55]:
p = re.compile('[\w]')
m = p.match('1')
print(m)
m = p.match('a')
print(m)
m = p.match('K')
print(m)
m = p.match('-')
print(m)
m = p.match('$')
print(m)
m = p.match(' ')
print(m)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='K'>
None
None
None


In [56]:
p = re.compile('[\W]')
m = p.match('1')
print(m)
m = p.match('a')
print(m)
m = p.match('K')
print(m)
m = p.match('-')
print(m)
m = p.match('$')
print(m)
m = p.match(' ')
print(m)

None
None
None
<re.Match object; span=(0, 1), match='-'>
<re.Match object; span=(0, 1), match='$'>
<re.Match object; span=(0, 1), match=' '>
