# 정규식 비사용 vs 사용

In [3]:
data = """
park 800904-1234567
kim 841204-1035412
"""

# 주민 번호 뒷자리를 *로 표기하기
result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split():  # 주민번호 추출
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():  # 주민번호 유효성 체크, 주민번호 형식인지
            word = word[:6] + '-' + '*******'
        word_result.append(word)
    result.append(' '.join(word_result))
print('\n'.join(result))


park 800904-*******
kim 841204-*******



In [6]:
import re

data = """
park 800904-1234567
kim 841204-1035412
"""

pat = re.compile('(\d{6})[-]\d{7}')    # \d():숫자(몇자리), []: 문자, 바깥 괄호: 그룹지정  
print(pat.sub(r'\1-*******', data).strip())    # sub: 대체하기    (대체할 패턴, 원데이터)

park 800904-*******
kim 841204-*******


# 문자열 검색

In [1]:
import re

p = re.compile('[a-z]+')   # 알파벳 소문자가 한 개 이상

## match()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [4]:
m1 = p.match('python')
print(m1)

m2 = p.match('pYthon')
print(m2)   # 매치된 객체 출력

m3 = p.match('3 python')
print(m3)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 1), match='p'>
None


## search()
- 문자열 전체를 검색하여 **처음으로** 매치되는 문자열을 찾는다

In [7]:
m = p.search('3 python')
print(m.group())  # 매치된 객체의 결과 출력

python


[문제] 전화번호 추출하기
<pre>
    다음의 전화번호 데이터에서 전화번호만 추출하는 정규표현식을 작성하세요.
</pre>

In [16]:
phone = ['홍길동:010-1234-5678', '우리집:02-555-3333']
pat = re.compile('[0-9]+[-{1}][0-9]+[-{1}][0-9]+')

for word in phone:
    mynum = pat.search(word)
    print(mynum.group())

010-1234-5678
02-555-3333


In [17]:
# answer
phone = ['홍길동:010-1234-5678', '우리집:02-555-3333']

pattern = re.compile('\d{2,3}-\d{3,4}-\d{4}')
for p in phone:
    s = pattern.search(p)
    print(s.group())    

010-1234-5678
02-555-3333


## findall()
- 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환

In [18]:
p = re.compile('[a-z]+')
result = p.findall('life is too short')
print(result)

['life', 'is', 'too', 'short']


## finditer()
- 정규식과 매치되는 모든 문자열을 찾아 반복가능한 객체로 반환

In [19]:
result = p.finditer('life is too short')
for  m in result:
    print(m)   # 매치 객체로 반환

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


# Match 객체 함수

In [22]:
import re
p = re.compile('[a-z]+')
m = p.search('python')

print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


# 컴파일 옵션

## DOTALL
- dot(.) 메타문자가 줄바꿈 문자(\n)을 포함해서 모든 문자와 일치한다.

In [24]:
m = re.match('a.b', 'a\nb')
print(m)   # \n 포함x

p = re.compile('a.b', re.DOTALL)
m =  p.match('a\nb')
print(m)   # \n 포함

None
<re.Match object; span=(0, 3), match='a\nb'>


In [26]:
s= """hello
python"""
p = re.compile('hello.python', re.DOTALL)
m = p.match(s)
print(m)

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
- 대소문자에 관계없이 매치한다.

In [27]:
p =  re.compile('[a-z]+', re.IGNORECASE)
m = p.match('pYthon')
print(m)

<re.Match object; span=(0, 6), match='pYthon'>


## MULTILINE
- 여러 줄의 문자열에 대해 ^,$ 메타문자를 적용할 수 있다.

In [28]:
p = re.compile('^python\s\w+')  # python으로 시작하고 공백문자 문자나 숫자가 한 개 이상 반복
text = """python one
life is too short
python two
you need python
python three
"""

m = p.findall(text) 
print(m)    # 첫쨰 줄에 대해서만 일치 여부 확인하여 반환

['python one']


In [29]:
p = re.compile('^python\s\w+', re.MULTILINE) 
text = """python one
life is too short
python two
you need python
python three
"""

m = p.findall(text) 
print(m)   # 모든 줄에 대해서 일치 여부 확인

['python one', 'python two', 'python three']


In [31]:
p = re.compile('python\s\w+') 
text = """python one
life is too short
python two
you need python
python three
"""

m = p.findall(text) 
print(m)  # 줄 끝에 있는 python도 포함됨

['python one', 'python two', 'python\npython']


# 백슬래시 문제

In [34]:
import re

p = re.compile('\\section')  # '\section'으로 해석됨, [\t\n\r\f\v]ection 문자열과 일치됨을 찾음
m = p.search('What is \section and example?')
print(m)  # None
m2 = p.search('What is ection and example?')  # (공백)ection과 일치됨을찾음
print(m2)

p = re.compile(r'\\section')   # raw string
m = p.search('What is \section and example?')
print(m)

None
<re.Match object; span=(7, 14), match=' ection'>
<re.Match object; span=(8, 16), match='\\section'>


# 메타문자

## |
- 'or'의 의미

In [35]:
import re

p = re.compile('Crow|Servo')
m = p.match('ServoHello')
print(m)

<re.Match object; span=(0, 5), match='Servo'>


## $
- 문자열의 끝과 일치함을 의미

In [37]:
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python')) 

<re.Match object; span=(12, 17), match='short'>
None


## \A
- 문자열의 처음과 일치함을 의미
- MULTILINE 옵션 안먹힘
- MULTILINE 옵션 안쓴 ^와 동일

In [38]:
p = re.compile('\Apython\s\w+', re.MULTILINE) 
text = """python one
life is too short
python two
you need python
python three
"""

m = p.findall(text) 
print(m)  # MULTILINE 옵션 적용 안됨, 문자열 전체의 처음만 확인

['python one']


## \b
- 단어의 앞뒤가 공백으로 구분되어 있는지 검사
- \s는 공백을 포함하는지를 검사

In [45]:
p = re.compile(r'\bclass\b')  # 공백을 포함하지 않고 매치 결과 반환
# p = re.compile(r'\sclass\s')    # 공백을 포함해서 매치 결과 반환
print(p.search('no class at all'))
print(p.search('class at all'))
print(p.search('one subclass is'))

<re.Match object; span=(3, 8), match='class'>
<re.Match object; span=(0, 5), match='class'>
None


## \
- 정규표현식에서 사용하는 문자 그대로 표현하려면 앞에 \를 붙임
- 즉, 문자열 안에 포함된 메타문자(. ? $ 등)를 원래 문자로 사용

In [47]:
# 패턴 '안녕하세요?'는 ?앞에 문자가 하나 있거나 없으면 매치, 즉 '안녕하세요' '안녕하세' 문자열과 일치
m = re.search('안녕하세요\?', '여러분 안녕하세요?')
print(m)

<re.Match object; span=(4, 10), match='안녕하세요?'>


# 그룹핑

In [50]:
import re

p =re.compile('(ABC)+')  # ABC를 그룹으로 묶고 그 그룹이 한 번 이상 반복
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())  # or m.group(0), 일치된 전체 문자열
print(m.group(1)) # 첫 번째 그룹에 해당하는 문자열

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [52]:
# 이름과 전화번호를 그룹으로 지정하여 분리
s = 'park 010-1234-5678'
p =  re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search(s)

print(m.group())
print(m.group(1))
print(m.group(2))

park 010-1234-5678
park
010-1234-5678


In [54]:
# 전화번호에서 국번만 추출
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스가 증가한다.
s = 'park 010-1234-5678'
p =  re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search(s)

print(m.group(3))

010


- '\번호'를 이용한 재참조
- raw string을 이용해야 함

In [55]:
re.match(r'(a)(b)\1\2', 'abab') 

<re.Match object; span=(0, 4), match='abab'>

In [57]:
# 동일한 단어가 연속적으로 사용된 문자열 찾기

# \b(\w+)\b: 단어 경계를 기준으로 문자와 숫자로 이루어진 한 단어를 찾는다. 그리고 그 단어를 그룹으로 지정
# \s+: 하나 이상의 공백 문자를 찾는다
# \b\1\b: 단어 경계를 기준으로 한 단어를 찾으며 그룹 참조를 통해 이전에 그룹화된 단어와 동일한 단어를 찾는다.
p = re.compile(r'\b(\w+)\b\s+\b\1\b')
m = p.search('I have a dog dog in my house')
print(m.group())

dog dog


In [58]:
# 그룹에 이름 붙이기
# (?P<그룹이름>)
p = re.compile('(?P<name>\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1111-2222')
print(m.group('name'))

park


# 전방탐색 / 후방탐색

## 긍정 전방탐색

In [60]:
import re

# URL에서 프로토콜 이름만 검색
p = re.compile('.+(?=:)')  # 패턴 뒤의 표현식까지 매치되는지 찾고 매치되는 뒤의 표현식은 반환 x
m = p.search('http://www.google.com')
print(m.group())

http


## 부정 전방탐색

In [62]:
# 파일 이름의 확장자 중 bat 파일만 제외하고 추출하기

file_names = ['autoexe.bat', 'python.exe', 'sysinfo.cf']
p = re.compile('[a-zA-Z]+\w*[.](?!bat)[a-zA-Z]+')       # 부정전방탐색의 표현식과 매치되지 않는 것 반환
                                                        # 부정 전방탐색 뒤의 패턴 -> 확장자 패턴
for file in file_names:
    m = p.search(file)
    if m:
        print(m.group())

python.exe
sysinfo.cf


## 긍정 후방탐색

In [65]:
p = re.compile('(?<=\$)[0-9]+[.][0-9]+')  # 달러 사인 제외한 금액만 찾고 싶을 경우
m = p.search('ABC01: $23.45')
print(m.group())

23.45


In [71]:
# 금액에 소수점이 없는 숫자인 경우를 고려한 패턴
p = re.compile('(?<=\$)[0-9]+[.]?[0-9]*')  # [.]은 있을수도 없을수도
m = p.search('ABC01: $23')
print(m.group())

23.45


## 전후방 동시 탐색

In [73]:
# <p> ~ </p> 사이의 문자열 추출하기
# 후방탐색 시 <p>까지 일치가 돼야 하고, 전방탐색시 <p/>까지 일치가 돼야 함
p = re.compile('(?<=<p>)\w+(?=</p>)')
m = p.search('kakao <p>ryan</p> keep a straight face.')
print(m.group())

ryan


# 문자열 바꾸기

In [76]:
# pattern 객체.sub(바꿀 문자열, 대상 문자열, 바꿀 횟수)

p = re.compile('blue|white|red')
# count=0: 전체를 다 바꿈
p.sub('color','blue socks and red shoes', count=1)

'color socks and red shoes'

[문제] 이메일 형식 검증
<pre>
    사용자로부터 입력 받은 임의의 이메일 주소에 대해 유효한 형식인지를 검증하는 함수를 작성하세요
    def valid_email(email):
        return '이메일 검증 결과'

    일반적인 이메일은 '알파벳 및 숫자@도메인 이름'으로 되어있다.
    위 함수는 다음의 이메일을 올바른 이메일 형식으로 결과 값을 반환한다.
    - mike@korea.co.kr
    - mike@daum.net
    - mike.kim@gmail.com

    위 함수는 다음의 이메일을 올바른 이메일 형식이 아님을 결과 값으로 반환한다.
    - mysite.com
    - mike@good
</pre>

In [94]:
def valid_email(email):
    regex = '\w+[.]?\w*[@]\w+[.]\w+[.]?\w*'   # '[a-zA-Z]+\w*[.]?\w*[@]\w+[.]\w+[.]?\w{2,3}'
    pat = re.compile(regex)
    if pat.match(email) == None:
        return 'invalid email'
    else:
        return 'valid email'

valid_email('mike.kim33@gmail.com')

'valid email'

In [96]:
# answer
def valid_email(email):
    regex = '[a-zA-Z]+\w*[.]?\w*[@]\w+[.]\w+[.]?\w{2,3}'
    valid = re.match(regex, email)

    if valid:
        return 'valid email'
    else:
        return 'invalid email'

input_email = input('이메일  입력: ')
print(input_email, end=': ')
print(valid_email(input_email))

이메일  입력:  mike@google.com


mike@google.com: valid email


[실습] 한글 찾기 / 한글 제거

In [98]:
s = '한글이에요. good morning. 안녕하세요.'
# m = re.findall('[ㄱ-힣]+', s)
m = re.findall('[a-zA-Z]+', s)
print(m)

['good', 'morning']


[문제] 주민번호의 유효성 검증
<pre>
    사용자로부터 입력받은 임의의 주민등록번호가 올바른 형식인지 검증하는 정규표현식을 작성하세요.
    주민번호 형식: 생년월일(6자리)-성별(1자리)나머지 6자리 숫자
    - 년도 숫자 두자리
    - 월은 앞자리가 0일 때 뒷자리는 1~9, 앞자리는 1일 때 뒷자리는 0~2
    - 일은 앞자리가 0일 때 뒷자리는 1~9, 앞자리가 1,2일때 뒷자리는 0~9, 앞자리가 3일때 뒷자리는 0,1
    - 성별 숫자는 1~4까지 허용
</pre>

In [112]:
p = '\d{2}(0[1-9]|1[0-2])(0[1-9]|1[0-9]|2[0-9]|3[0-1])[-][1-4]\d{6}'
print(re.match(p,'001010-4183920'))

<re.Match object; span=(0, 14), match='001010-4183920'>


In [113]:
#  answer
jumin = input('주민번호 입력: ')
p = re.compile('\d{2}(0[1-9]|1[0-2])(0[1-9]|((1|2)[0-9])|3[0-1])[-][1-4]\d{6}')
m = p.match(jumin)
if m:
    print('유효한 주민번호 형식')
else:
    print('유효하지않은 주민번호 형식')

주민번호 입력:  001010-4187544


유효한 주민번호 형식
