# 비 정규식 풀이

In [4]:
data = """
    park 800905-1049118
    kim 700905-1059119
    """

In [5]:
result = []
for line in data.split("\n"):
    word_result = []

    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6]+"-"+"*******"
        word_result.append(word)

    result.append(" ".join(word_result))

print("\n".join(result))


    park 800905-*******
    kim 700905-*******
    


# 정규식 풀이

In [6]:
import re

In [7]:
pat = re.compile("(Wd{6})[-]Wd{7}")
print(pat.sub("Wg<1>-*******",data))


    park 800905-1049118
    kim 700905-1059119
    


In [8]:
# 정규식을 사용하면 코드가 한줄로 줄어든다

---

## 파이썬에서 정규식 적요하는 방식

In [9]:
pattern = re.compile('abc') # complie 함수 안에 정규 표현식 입력
result = pattern.match('abc') # 컴파일한 인스턴스에서 제공하는 함수 안에
                              # 검색하고자하는 문자열 원본을 입력한다.
result

<re.Match object; span=(0, 3), match='abc'>

In [12]:
pattern = re.compile('abc') 
result = pattern.match('ab') 
result  # 매치가 되지 않은 경우에는 None을 반환한다.
        # 하지만 주피터에서는 None은 출력되지 않는다.

In [None]:
# print(result) # 명시적으로 None 결과를 확인하기 위해 print함수를 사용한다.

---

# 문자 클래스

* 문자 클래스로 만들어진 정규식은 "[ ] 사이의 문자들과 매치"라는 의미
* 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"

In [14]:
pattern = re.compile('abc')
match_result = pattern.match('a') # 원본이 a인데 여기에 abc문자가 있는지 검색
match_result

In [16]:
pattern = re.compile('[abc]')
match_result = pattern.match('a')
# 원본이 a인데 여기에 abc중 하나의 문자가 있는지 검색
match_result

<re.Match object; span=(0, 1), match='a'>

In [17]:
p = re.compile('[abc]') # 관용적으로 변수명을 p로 사용한다.
                        # abc문자중 원본의 첫번째 글자와 매치
p.match('a')

<re.Match object; span=(0, 1), match='a'>

In [18]:
p.match('before')

<re.Match object; span=(0, 1), match='b'>

In [19]:
p.match('climb') # abc 문자열 중 c와 매치

<re.Match object; span=(0, 1), match='c'>

In [22]:
p.match('dumb') # 문자열 클래스는 단 하나의 문자와 매치. 즉 첫글자만 확인
                # d는 정규식에서 지정한 패턴에 있지 않아서 매치되지 않음

In [23]:
p = re.compile('dum[abc]') # dum으로 시작하고 네번째 글자가 abc중 하나인 패턴
p.match('dumb')

<re.Match object; span=(0, 4), match='dumb'>

## 문자 클래스와 일반 문자 조합

In [56]:
p = re.compile('S[abc]')
p.match('Sang')

<re.Match object; span=(0, 2), match='Sa'>

In [26]:
p = re.compile('s[abc]')
print(p.match('Sang')) # 정규식은 대소문자를 구분한다.

None


## 하이픈

In [29]:
p = re.compile('[a-c]')
p.match('apple')

<re.Match object; span=(0, 1), match='a'>

In [31]:
p.match('Nanayang')

In [32]:
p = re.compile('[a-z]')
p.match('Nanayang')

In [33]:
p.match('nanayang')

<re.Match object; span=(0, 1), match='n'>

In [37]:
p = re.compile('[a-zA-Z]') #  모든 알파벳을 표현
print(p.match('Nanayang'))
print(p.match('nanayang'))

<re.Match object; span=(0, 1), match='N'>
<re.Match object; span=(0, 1), match='n'>


In [38]:
p = re.compile('[1-9]')
p.match('1st')

<re.Match object; span=(0, 1), match='1'>

In [39]:
p.match('first')

In [40]:
p.match('2nd')

<re.Match object; span=(0, 1), match='2'>

In [41]:
# 첫번째는 숫자[1-9](문자클래스)이고 두번째 문자는 소문자 알파벳[a-z](두번째 문자클래스)과 매칭
p = re.compile('[1-9][a-z]')
p.match('1st')

<re.Match object; span=(0, 2), match='1s'>

## ^(not) 연산

* 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)의 의미
* Not의 의미는 문자클래스 안에서 적용하는 문법

In [44]:
p = re.compile('[0-9]')
p.match('Good Bye 2022!')

In [45]:
p = re.compile('[^0-9]')
p.match('Good Bye 2022!')

<re.Match object; span=(0, 1), match='G'>

In [46]:
p = re.compile('[^0-9][^0-9][^0-9][^0-9]')
p.match('Good Bye 2022!')

<re.Match object; span=(0, 4), match='Good'>

## 자주 사용하는 문자 클래스 표현식

* \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
* \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
* \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
* \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
* \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
* \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

In [47]:
p = re.compile('[\d]')
m = p.match('1')
print(m)
m = p.match('5')
print(m)
m = p.match('a')
print(m)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='5'>
None


In [48]:
p = re.compile('[\D]')
m = p.match('1')
print(m)
m = p.match('5')
print(m)
m = p.match('a')
print(m)

None
None
<re.Match object; span=(0, 1), match='a'>


In [52]:
p = re.compile('[\s]')
m = p.match('1')
print(m)
m = p.match(' 1') # 공백
print(m)
m = p.match('\t1') # 탭(\t)
print(m)
m = p.match('''
            1''') # 엔터(\n)
print(m)

None
<re.Match object; span=(0, 1), match=' '>
<re.Match object; span=(0, 1), match='\t'>
<re.Match object; span=(0, 1), match='\n'>


In [53]:
p = re.compile('[\S]')
m = p.match('1')
print(m)
m = p.match(' 1') # 공백
print(m)
m = p.match('\t1') # 탭(\t)
print(m)
m = p.match('''
            1''') # 엔터(\n)
print(m)

<re.Match object; span=(0, 1), match='1'>
None
None
None


In [54]:
p = re.compile('[\w]')
m = p.match('1')
print(m)
m = p.match('a') 
print(m)
m = p.match('K') 
print(m)
m = p.match('-') 
print(m)
m = p.match('$') 
print(m)
m = p.match(' ') 
print(m)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='K'>
None
None
None


In [55]:
p = re.compile('[\W]')
m = p.match('1')
print(m)
m = p.match('a') 
print(m)
m = p.match('K') 
print(m)
m = p.match('-') 
print(m)
m = p.match('$') 
print(m)
m = p.match(' ') 
print(m)

None
None
None
<re.Match object; span=(0, 1), match='-'>
<re.Match object; span=(0, 1), match='$'>
<re.Match object; span=(0, 1), match=' '>
