# 정규식 비사용 vs 사용

In [1]:
data = """
park 800904-1234567
kim 841204-1234543
"""

In [6]:
result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split():
        if len(word)==14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
        word_result.append(word)
    result.append(' '.join(word_result))
print('\n'.join(result).strip())

park 800904-*******
kim 841204-*******


In [8]:
import re # 정규표현식 패키지

pat = re.compile('(\d{6})[-]\d{7}') # 패턴을 만듦
print(pat.sub(r'\1-*******', data).strip()) # 패턴의 첫 번째 그룹은 그대로 사용 

park 800904-*******
kim 841204-*******


# 문자열 검색

In [10]:
import re

p = re.compile('[a-z]+') # 알파벳 소문자 1개 이상

## match()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [14]:
m1 = p.match('python')
print(m1)

m2 = p.match('pYthon')
print(m2)

m3 = p.match('3 python')
print(m3)

if m1:
    print('Match found:', m1.group()) #group() : 매치된 문자열 반환
else:
    print('Not Match')

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 1), match='p'>
None
Match found: python


## search()
- 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.

In [15]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


[문제] 전화번호 추출하기  
다음의 전화번호 데이터에서 전화번호만 추출하는 정규표현식을 작성하세요.

In [20]:
phone = ['홍길동:010-1234-5555','우리집, 02-555-3333']

pat = re.compile('\d{2,3}-\d{3,4}-\d{4}') # '[0-9]{2,3}...'
for p in phone:
    m = pat.search(p)
    print(m.group())

010-1234-5555
02-555-3333


## findall()
- 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.

In [22]:
result = re.findall('[a-z]+', 'life is too short')
print(result)

['life', 'is', 'too', 'short']


# Match 객체 함수

In [3]:
import re

p = re.compile('[a-z]+')
m = p.search('python')

print(m.group())
print(m.start())
print(m.end())
print(m.span()) # 튜플

python
0
6
(0, 6)


# 컴파일 옵션

## DOTALL
- dot(.) 메타 문자가 줄바꿈 문자(\n)를 포함하여 모든 문자와 일치한다.

In [6]:
m = re.match('a.b','a\nb')
print(m)

p=re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [30]:
s = '''hello
python'''
p = re.compile('hello.python', re.DOTALL)
print(p.match(s))

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
- 대소문자에 관계 없이 일치한다.

In [31]:
p = re.compile('[a-z]+', re.IGNORECASE)
print(p.match('python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='PYTHON'>


## MULTILINE 
- 여러 줄의 문자열에 대해 ^,$ 메타 문자를 적용할 수 있다.

In [32]:
p = re.compile('^python\s\w+')
text = '''python one
Life is too short
python two
you need python
python 3'''
m = p.findall(text)
print(m)

['python one']


In [33]:
p = re.compile('python\s\w+')
text = '''python one
Life is too short
python two
you need python
python 3'''
m = p.findall(text)
print(m)

['python one', 'python two', 'python\npython']


In [34]:
# MULTILINE 은 ^,$ 메타 문자를 문자열의 각 줄마다 적
p = re.compile('^python\s\w+', re.MULTILINE)
text = '''python one
Life is too short
python two
you need python
python 3'''
m = p.findall(text)
print(m)

['python one', 'python two', 'python 3']


# 백슬래시 문제

In [36]:
import re

p = re.compile('\\section') # \section 으로 해석된 문자열이 전달되어 [\t\n\r\f\v]ection과 같은 의미로 해석
m = p.search('What is \section and example?')
print(m)

p = re.compile(r'\\section') # \section 으로 해석된 문자열이 전달되어 [\t\n\r\f\v]ection과 같은 의미로 해석
m = p.search('What is \section and example?')
print(m)

None
<re.Match object; span=(8, 16), match='\\section'>


# 메타문자 

## |
- or의 의미

In [37]:
import re

p = re.compile('Crow|Servo')
m = p.match('ServoHello')
print(m)

<re.Match object; span=(0, 5), match='Servo'>


## \A
- 문자열의 처음과 일치함을 의미
- MULTILINE 옵션 안먹힘

In [38]:
p = re.compile('\Apython\s\w+', re.MULTILINE)
text = '''python one
Life is too short
python two
you need python
python 3'''
m = p.findall(text)
print(m)

['python one']


## \b
- 단어 경계를 나타낸다.
- 공백으로 구분된 단어를 찾는다.
- \s는 공백을 포함하는지를 검사
- raw string 문자(r)를 붙여줘야 함

In [46]:
# p = re.compile(r'\bclass\b') # 공백을 포함하지 않고 매치 결과 반환
p = re.compile(r'\sclass\s') # class 단어 앞뒤에 공백이 있으면 매치, 공백을 포함해서 매치 결과 반환
print(p.search('no class at all'))
print(p.search('class at all'))

<re.Match object; span=(2, 9), match=' class '>
None


In [45]:
# dog라는 독립된 단어를 찾는다.
# \b는 단어문자와 비단어 문자 사이의 경계를 의미
m = re.search(r'\bdog\b', 'I have a dog.')
print(m)

<re.Match object; span=(9, 12), match='dog'>


In [48]:
p = re.compile(r'\b단어\b')
print(p.search('한글에서 "단어"문자 찾기'))

<re.Match object; span=(6, 8), match='단어'>


## \
- 정규표현식에서 사용하는 문자 그대로 표현하려면 앞에 \를 붙임
- 즉, 문자열 안에 포함된 메타 문자(.?$ 등)을 원래 문자로 사용

In [50]:
m = re.search('안녕하세요\?','여러분, 안녕하세요?')
print(m)

<re.Match object; span=(5, 11), match='안녕하세요?'>


# 그룹핑

In [55]:
import re

p = re.compile('(ABC)+') # 괄호가 없는 ABC+ 는 ABC 또는 ABCCC..., 괄호가 있는 (ABC)+는 ABCABCABC..
m = p.search('ABCABCABCABC OK?')
print(m)
print(m.group(0)) # 일치된 전체 문자열 or m.group()과 동일
print(m.group(1)) # 첫 번째 그룹에 해당하는 문자열

<re.Match object; span=(0, 12), match='ABCABCABCABC'>
ABCABCABCABC
ABC


In [61]:
p = re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group(0))
print(m.group(1))
print(m.group(2))

park 010-1234-5678
park
010-1234-5678


In [63]:
# 그룹이 중첩된 경우 바깥쪽부터 시작해서 안쪽으로 들어갈수록 인덱스가 증가한다.
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group(3)) 

010


- '\번호'를 이용한 그룹 재참조

In [1]:
import re 
re.match(r'(a)(b)\1\2', 'abab') #abab

<re.Match object; span=(0, 4), match='abab'>

- 동일한 단어가 연속적으로 사용된 문자열 찾기

In [2]:
# \b(\w+)\b : 단어 경계를 기준으로 한 단어를 찾는다.
# \s+ : 하나 이상의 공백 문자를 찾는다.
# \b\1\b : 단어 경계를 기준으로 한 단어를 찾으며, 그룹 참조를 통해 이전에 그룹화된 단어와 동일한 단어를 찾는다.
p = re.compile(r'\b(\w+)\b\s+\b\1\b')
p.search('I have a dog dog in my house').group()

'dog dog'

In [5]:
# 그룹에 이름 붙이기 : (?P<그룹 이름>)
p = re.compile('(?P<name>\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group())
print(m.group('name'))

park 010-1234-5678
park


# 전방탐색/후방탐색

## 긍정 전방 탐색

In [12]:
import re

# 어떤 문자든 하나 이상 반복되고 그 다음에 ':'문자가 나오면 일치됨
#  : 문자는 매치 결과로 반환하지 않는다.
# URL에서 프로토콜 이름만 검색
# p = re.compile('.+:')
p = re.compile('.+(?=:)') # .(dot) -> 모든 문자와 일치됨
m = p.search('http://www.google.com')
print(m.group())

http


## 부정 전방 탐색

In [13]:
# 파일 이름의 확장자 중 bat 파일만 제외하고 추출하기
file_names = ['autoexe.bat','python.exe','sysinfo.cf']
p = re.compile('[a-zA-Z]+\w*[.](?!bat)[a-zA-Z]+') # 파일 이름은 숫자로 시작할 수 없기 때문에 \w*로 시작할 수 없음
for file_name in file_names:
    m = p.search(file_name)
    if m:
        print(m.group()) # None인 객체를 가지고 그룹을 만들면 안되기 때문에 if문으로 만들어줌

python.exe
sysinfo.cf


## 후방 긍정 탐색

In [14]:
# $는 문자열의 끝과 일치함을 나타내는 메타 문자여서 $ 문자로 인식되기 위해 앞에 \를 붙여줌
p = re.compile('(?<=\$)[0-9]+[.][0-9]+')
m = p.search('ABC01: $23.45')
print(m.group())

23.45


# 문자열 바꾸기

In [16]:
p = re.compile('blue|white|red')
p.sub('color', 'blue socks and red shoes') #, count = 1)

'color socks and color shoes'

[실습] 이메일 형식 검증

In [22]:
import re

def valid_email(email):
    regex = '[a-zA-Z]+\w*[.]?\w+[@]\w+[.]\w+[.]?\w{2,3}'
    valid = re.search(regex, email) #re.search(패턴, 문자열)

    if valid:
        print('valid email')
    else:
        print('invalid email')

email = 'mysite.com'
print(email, end =' : ')
valid_email(email)

email = 'mike@korea.com'
print(email, end =' : ')
valid_email(email)

email = 'mike@naver.com'
print(email, end =' : ')
valid_email(email)

email = 'mike.lee@google.com'
print(email, end =' : ')
valid_email(email)

email = 'mike@google'
print(email, end =' : ')
valid_email(email)

mysite.com : invalid email
mike@korea.com : valid email
mike@naver.com : valid email
mike.lee@google.com : valid email
mike@google : invalid email


[실습] 한글 찾기 / 한글 제거

In [23]:
s = '한글이에요. good morning. 안녕하세요'
# m = re.findall('[ㄱ-힣]+', s)
m = re.findall('[a-zA-Z]+', s)
print(m)

['good', 'morning']


[문제] 입력 받은 주민번호의 유효성 검증하기
- 키보드로 입력 받은 주민번호의 유효성을 검증하여 그 결과를 출력한다.
- 931231-1234567

In [None]:
import re

jumin = input('주민번호 입력: ')
# p = re.compile('\d{6}-\d{7}(?!\d+)')
p = re.compile('\d{2}(0[0-9]|1[0-2])(0[1-9|1[0-9]|2[0-9]|3[0-1])-[1-4]\d{6}(?!\d+)')
m = p.match(jumin)
if m:
    print('유효한 주민번호 형식입니다.')
else:
    print('유효하지 않은 주민번호 형식입니다.')