# 정규식 사용 vs 비사용
- 주민등록번호를 포함하고 있는 문자열에서 주민등록번호 뒷자리를 '*' 문자로 변경

In [1]:
data = """
park 800904-1234567
kim 841130-1023451
"""

result = []
for line in data.split('\n'):
    word_result=[]
    for word in line.split():
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
        word_result.append(word)
    result.append(' '.join(word_result))
print('\n'.join(result))


park 800904-*******
kim 841130-*******



- [xy] : 문자 선택을 표현하며 x 와 y 중에 하나를 의미한다.
 
- [^xy]: not 을 표현하며  x 및 y 를 제외한 문자를 의미한다.
 
- [x-z]: range를 표현하며 x ~ z 사이의 문자를 의미한다. 

- \^   : escape 를 표현하며 ^ 를 문자로 사용함을 의미한다.
 
- \b: word boundary를 표현하며 문자와 공백사이의 문자를 의미한다.
 
- \B: non word boundary를 표현하며 문자와 공백사이가 아닌 문자를 의미한다.
 
- \d: digit 를 표현하며 숫자를 의미한다. 

- \D: non digit 를 표현하며 숫자가 아닌 것을 의미한다. 
 
- \s: space 를 표현하며 공백 문자를 의미한다. 
 
- \S: non space를 표현하며 공백 문자가 아닌 것을 의미한다.
 
- \t: tab 을 표현하며 탭 문자를 의미한다.
 
- \v: vertical tab을 표현하며 수직 탭(?) 문자를 의미한다.
 
- \w: word 를 표현하며 알파벳 + 숫자 + _ 중의 한 문자임을 의미한다. 
 
- \W: non word를 표현하며 알파벳 + 숫자 + _ 가 아닌 문자를 의미한다. 

In [2]:
import re
#)은 묶음, []는 문자, {}는 갯수

data = """
park 800904-1234567
kim 841130-1023451
"""

pat = re.compile('(\d{6})[-](\d{7})')
print(pat.sub(r'\1-*******',data)) #러스트링 형태가 뭐지 \1 == 패턴에 들어가있는 첫번째 그룹을 가져와라


park 800904-*******
kim 841130-*******



- 파이썬에서 정규 표현식 사용
    - re 모듈 사용
    - re 모듈의 compile 함수를 이용하여 정규 표현식을 컴파일 한다
    
- 정규식을 사용한 문자열 검색
    - 컴파일된 객체를 이용하여 다음의 함수를 이용하여 문자열 검색을 할 수 있다.
    - match() : 문자열의 처음 시작부터 검색하여 일치하지 않는 부분이 나올 때까지 찾는다.
    - search() : 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다
    - findall() : 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.
    - finditer() : 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환한다.
    
- 컴파일과 매치의 동시수행
    - m  =re.match('[a-z]+','python')

# 문자열 검색

In [3]:
import re

# 알파벳 소문자가 1개 이상이면 매치
p = re.compile('[a-z]+')

## match()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [4]:
m1 = p.match('python')
print(m1)

m2 = p.match('pYthon')
print(m2)

m3 = p.match('3 python')
print(m3)

m = p.match('python')

if m:
    print('Match Found:',m.group()) # 매치된 문자열을 반환
else:
    printnt('Not Match')

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 1), match='p'>
None
Match Found: python


## search()
- 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.

In [5]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


## [문제]전화번호 추출하기
- 다음의 전화번호 데이터에서 전화번호만 추출하는 정규 표현식을 작성하시오.
- phone = ['홍길동:010-1111-111','우리집:02-555-5555']
- 참고: \d,{n}

In [6]:
phone = ['홍길동:010-1111-1111','우리집:02-555-5555']
p = re.compile('(\d{2,3})[-]\d{3,4}[-]\d{4}')
for i in phone:
    print(p.search(i).group())

010-1111-1111
02-555-5555


## findall()
- 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.

In [7]:
p = re.compile('[a-z]+')
result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


## finditer()
- 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 반환한다.

In [8]:
result = p.finditer('life is too short')
for m in result:
    print(m)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


# Match 객체 함수

In [9]:
import re

p = re.compile('[a-z]+')
m = p.search('python')

print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


# 컴파일 옵션

# DOTALL
- dot(.) 메타 문자가 줄바꿈 문자(\n)을 포함한 모든 문자와 매치된다.

In [10]:
import re

m = re.match('a.b', 'a\nb')
print(m)

p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [11]:
s = '''hello
python'''

p = re.compile('hello.python', re.DOTALL)
m = p.match(s)
print(m)

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
- 대소문자에 관계 없이 매치한다.

In [12]:
p = re.compile('[a-z]+', re.IGNORECASE)
m = p.match('python')
print(m)

m = p.match('Python')
print(m)

m = p.match('PYTHON')
print(m)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


## MULTILINE
- 여러 줄의 문자열에 대해 ^, & 메타문자를 적용할 수 있다.

In [13]:
# p = re.compile('^python\s\w+') # 매치되는 첫번째 줄만: ['python one']
# p = re.compile('python\s\w+')
# MULTILINE은 ^, $ 메타 문자를 문자열의 각 줄마다 적용한다.
p = re.compile('^python\s\w+', re.MULTILINE)

text = '''python one
lisf is too short
python two
you need %%python
python three'''

m = p.findall(text)
print(m)

['python one', 'python two', 'python three']


## VERBOSE
- VERBOS 옵션을 사용하면 패턴 문자열에 사용된 공백은 컴파일 시 제거된다.
- 패턴 문자열에 주석을 넣을 수 있다.

In [14]:
p = re.compile(r'''
&[#]           # start of a numeric entity reference
(
    0[0-7]+    # Octal form
    |[0-9]+    # Decimal form
)
''', re.VERBOSE)

# 백슬레시 문제

In [15]:
import re

# '(\s)ection'으로 해석된 문자열이 전달되어 [\t\n\r\f\v]ection 과 같은 의미로 해석
p = re.compile('\\section')
# \section -> ection으로 수정하면 검색 됨
m = p.search('What is ection and example?')
print(m)

p = re.compile(r'\\section')
m = p.search('What is \section and example?')
print(m)

<re.Match object; span=(7, 14), match=' ection'>
<re.Match object; span=(8, 16), match='\\section'>


# 메타 문자 

## |
- or의 의미

In [16]:
import re

p = re.compile('Crow|Servo')
m = p.match('ServoHello')
print(m)

<re.Match object; span=(0, 5), match='Servo'>


## ^
- ^ 다음에 나오는 문자열로 시작하는지 판단

In [17]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


## $
- 문자열의 끝과 일치하는지 판단

In [18]:
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need %%python'))

<re.Match object; span=(12, 17), match='short'>
None


## \A
- 문자열의 처음과 일치함을 의미
- MUTILINE 옵션 안먹힘
- MUTILINE 옵션 안쓴 ^ 와 동일

In [19]:
p = re.compile('\Apython\s\w+', re.MULTILINE)
text = '''python one
life is too short
python two
you need python
python three'''

m = p.findall(text)
print(m)

['python one']


## \b
- 단어 앞뒤가 공백으로 구분되어 있는지 검사
- 매치 결과로 공백을 포함하지 않는다.
- \s는 공백을 포함하고 있는지를 검사. 즉, 공백도 일치하는 문자열로 검색결과에 포함
- Raw String 문자 r을 붙여줘야 한다.

In [20]:
# p = re.compile(r'\bclass\b') \b: 공백을 포함하지 않고 매치 결과를 반환
p = re.compile(r'\sclass\s') # \s: 공백을 포함한 매치 결과를 반환

print(p.search('no class at all'))
print(p.search('the declassfied algotithm'))
print(p.search('one subclass is'))

<re.Match object; span=(2, 9), match=' class '>
None
None


## \B
- 단어 앞뒤가 공백으로 구분된 단어가 아닌 경우 일치

In [21]:
p = re.compile(r'\Bclass\B') 
print(p.search('no class at all'))
print(p.search('the declassfied algotithm'))
print(p.search('one subclass is'))

None
<re.Match object; span=(6, 11), match='class'>
None


## \
- 정규 표현식에서 사용하는 메타 문자를 문자 그대로 표현하려면 앞에 \를 붙임

In [22]:
m = re.search('안녕하세요\?', '여러분 안녕하세요?')
print(m)

<re.Match object; span=(4, 10), match='안녕하세요?'>


# 그룹핑

In [23]:
import re

p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group()) # m.group(0) 과 동일
print(m.group(1)) # 첫 번째 그룹에 해당하는 문자열 반환

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [24]:
p = re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group())
print(m.group(1))
print(m.group(2))

park 010-1234-1234
park
010-1234-1234


- 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가한다.

In [25]:
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group(3))

010


- \번호 를 이용한 그룹 재참조
- Raw String으로 표현해야 한다.

In [26]:
re.match(r'(a)(b)\1\2', 'abab') # \1:a, \2:b 앞 그룹 재참조 

<re.Match object; span=(0, 4), match='abab'>

In [27]:
# p = re.compile(r'(\b\w)\s+\1') ??
p = re.compile(r'\b(\w+)\s+\1\b')
p.search('Paris is the the spring').group()

'the the'

- 그룹에 이름 붙이기
- (?<그룹 이름>)

In [28]:
p = re.compile('(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))

park


# 전방탐색 / 후방탐색

## 긍정 전방 탐색

In [39]:
import re

# URL에서 프로토콜 이름만 검색
# p = re.compile('.+(?=:)') # 아래와 동일
p = re.compile('\w+(?=:)')
m = p.match('http://www.naver.com')
print(m.group())

http


## 부정 전방 탐색

In [30]:
# 파일 이름의 확장자 중 bat 파일만 제외하고 추출하기
filenames = ['autoexe.bat', 'python.exe', 'sysinfo.cf']

p = re.compile('.+[.](?!bat).+') # 뒤에 .+ -> 확장자까지 일치 문자열로 찾기 위해 
for filename in filenames:
    m = p.search(filename)
    if m:
        print(m.group())

python.exe
sysinfo.cf


## 후방 탐색

In [31]:
p = re.compile('(?<=\$)\d+[.]\d+')
m = p.search('ABC01: $23.45')
print(m.group())

23.45


# 문자열 바꾸기

In [32]:
p = re.compile('blue|white|red')
# count=0 또는 생략하면 전체를 다 바꾼다.
p.sub('color', 'blue socks and red socks')#, count=0)

'color socks and color socks'

# 정규표현식 실습

## 한글 찾기 / 한글 제거

In [33]:
s = '한글이에요. good mornig. 안녕하세요'
# m = re.findall('[ㄱ-힣]+', s) # 한글만 찾기
m = re.findall('[^\.\sㄱ-힣]+', s) # 한글만 제거
print(m)

['good', 'mornig']


## 대문자로 시작하는 단어찾기

In [34]:
text = 'Edit the Expression & Text to see matches. Roll over matches or the expression for details. PCRE & JavaScript flavors or RegEx are supported. Validate your expression with Test mode.'
m = re.findall('[A-Z]\w+', text)
# m = re.findall('[A-Z][a-z]+', text) # PCRE 빠짐
print(m)

['Edit', 'Expression', 'Text', 'Roll', 'PCRE', 'JavaScript', 'RegEx', 'Validate', 'Test']


## 문장 안에 이메일 주소 추출하기


In [35]:
text = 'Ryan has sent an invoice email to john.d@yahoo.com by using his email id ryan.arjun@gmail.com and he also shared a copy to his boss rosy.gray@amazon.co.uk on the cc part.'

In [36]:
# re.findall('[\w\.]+[@][\w\.]+', text)

In [37]:
p = re.compile('[a-zA-Z]\w*[.]?\w*@[a-zA-Z]\w*[.]\w*[.]?\w*')
m = p.findall(text)
print(m)

['john.d@yahoo.com', 'ryan.arjun@gmail.com', 'rosy.gray@amazon.co.uk']


## 입력 받은 주민번호의 유효성 검증

In [41]:
jumin = input("주민번호를 입력해주세요: ")
# p = re.compile('\d{2}[0-1]\d{1}[0-3]\d{1}-[1-4]\d{6}')
# (0[1-9]|1[0-2]) 월의 앞자리가 0일 때 뒷자리는 1~9까지 또는(|) 앞자리가 1일 때 뒷자리는 0~2까지 허용
p = re.compile('\d{2}(0[1-9]|1[0-2])(0[1-9]|1[0-2]|2[0-9]|3[0-1])-[1-4]\d{6}')
m = p.match(jumin)
if m:
    print('유효한 주민번호 형식입니다.')
else:
    print('유효한 주민번호 형식이 아닙니다.')
print(m)

주민번호를 입력해주세요: 8916521234567
유효한 주민번호 형식이 아닙니다.
None
