# 정규식 비사용 vs 사용

In [4]:
data = """
park 800904-1234567
kim 841204-1234543
"""

result =[]
for line in data.split('\n'):
    word_result =[]
    for word in line.split():
        if len(word)==14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-' + '*******'
        word_result.append(word)
    result.append(' '.join(word_result))
print('\n'.join(result).strip())

park 800904-*******
kim 841204-*******


In [7]:
import re

pat = re.compile('(\d{6})[-]\d{7}')
print(pat.sub(r'\1-*******',data).strip())

park 800904-*******
kim 841204-*******


# 문자열 검색

In [9]:
import re

p = re.compile('[a-z]+') #알파벳 소문자 1개 이상

## match ()
- 문자열의 처음부터 정규식과 매치되는지 조사

In [15]:
m1 = p.match('python')
print(m1)
m2 = p.match('pYthon')
print(m2)
m3 = p.match('3 python')
print(m3)
if m1:
    print('Match found:', m1.group()) # group(): 매치된 문자열 반환
else:
    print('Not Match')

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 1), match='p'>
None
Match found: python


## search()
- 문자열 전체를 검색하여 처음으로 매치되는 문자열을 찾는다.

In [16]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


In [None]:
[문제] 전화번호 추출하기  
다음의 전화번호 데이터에서 전화번호만 추출하는 정규표현식을 작성하세요.

In [22]:
phone = ['홍길동:010-1234-5555', '우리집,02-555-3333']
pat = re.compile('\d{2,3}-\d{3,4}-\d{4}')
for p in phone:
    m = pat.search(p)
    print(m.group())

010-1234-5555
02-555-3333


## findall()
- 정규식과 매치되는 모든 문자열을 찾아 리스트로 반환한다.

In [24]:
result = re.findall('[a-z]+', 'life is too short')
print(result)

['life', 'is', 'too', 'short']


# Match 객체 함수

In [26]:
import re

p = re.compile('[a-z]+')
m = p.search('python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


# 컴파일 옵션

## DOTALL
- dot(.) 메타 문자가 줄바꿈 문자(\n)를 포함하여 모든 문자와 일치한다.

In [28]:
m = re.match('a.b', 'a\nb')
print(m)
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

None
<re.Match object; span=(0, 3), match='a\nb'>


In [30]:
s = '''hello
python'''
p = re.compile('hello.python', re.DOTALL)
print(p.match(s))

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
- 대소문자에 관계 없이 일치한다.

In [32]:
p = re.compile('[a-z]+', re.IGNORECASE)
print(p.match('python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='PYTHON'>


## MULTILINE
- 여러 줄의 문자열에 대해 ^, $ 메타문자를 적용할 수 있다.

In [33]:
p = re.compile('^python\s\w+')

text = '''python one
life is too short
python two
you need python
python three'''
m = p.findall(text)
print(m)

['python one']


In [34]:
p = re.compile('python\s\w+')

text = '''python one
life is too shortp
python two
you need python
python three'''
m = p.findall(text)
print(m)

['python one', 'python two', 'python\npython']


In [35]:
#MULTILINE은 ^, $ 메타문자를 문자열의 각 줄마다 적용한다.
p = re.compile('^python\s\w+', re.MULTILINE)

text = '''python one
life is too shortp
python two
you need python
python three'''
m = p.findall(text)
print(m)

['python one', 'python two', 'python three']


# 백슬래시 문제

In [37]:
import re

p = re.compile('\\section') #\section으로 해석된 문자열이 전달되어 [\t\n\r\f\v]ection 과 같은 의미로 해석

m = p.search('What is \section and example?')
print(m)

p = re.compile(r'\\section') 
m = p.search('What is \section and example?')
print(m)

None
<re.Match object; span=(8, 16), match='\\section'>


# 메타문자

## |
- or 의 의미

In [38]:
import re
p = re.compile('Crow|Servo')
m = p.match('ServoHello')
print(m)

<re.Match object; span=(0, 5), match='Servo'>


In [None]:
## \A
- 문자열의 처음과 일치함을 의미
- MULTILINE 옵션 안먹힘

In [44]:
p = re.compile('\Apython\s\w+', re.MULTILINE)

text = '''python one
life is too short
python two
you need python
python three'''
m = p.findall(text)
print(m)

['python one']


In [None]:
## \b
- 단어 경계를 나타낸다.
- 공백으로 구분된 단어를 찾는다.
- \s는 공백을 포함하는지를 검사
- raw string 문자(r)를 붙여줘야 함

In [42]:
p = re.compile(r'\bclass\b')# 공백을 포함하지 않고 매치결과 반환
p = re.compile(r'\sclass\s') # CLASS 단어 앞 뒤에 공백이 있으면 MATCH, 공백을 포함해서 매치 결과를 반환
print(p.search('no class at all'))
print(p.search('class at all'))

<re.Match object; span=(2, 9), match=' class '>
None


In [None]:
# dog라는 독립된 단어를 찾는다.
#\b는 단어문자와 비단어 문자 사이의 경계를 의미
m = re.search('r\bdog\b', 'I have a dog.')
print(m)

In [45]:
p = re.compile(r'\b단어\b')
print(p.search('한글에서 "단어"문자 찾기'))

<re.Match object; span=(6, 8), match='단어'>


## \
- 정규표현식에서 사용하는 문자 그대로 표현하려면 앞에 \를 붙임
- 즉, 문자열 안에 포함된 메타문자(.?$ 등)을 원래 문자로 사용

In [46]:
m = re.search('안녕하세요?', '여러분, 안녕하세요?')
print(m)

<re.Match object; span=(5, 10), match='안녕하세요'>


# 그룹핑

In [48]:
import re

p = re.compile('(ABC)+')
m = p.search('ABCABCABCABC OK?')
print(m)
print(m.group(0)) # 일치된 전체 문자열 or m.group()과 동일
print(m.group(1)) #첫 번째 그룹에 해당하는 문자열

<re.Match object; span=(0, 12), match='ABCABCABCABC'>
ABCABCABCABC
ABC


In [53]:
p = re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
#print(m)
print(m.group(1))
print(m.group(2))

park
010-1234-5678


In [55]:
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈 수록 인덱스가 증가한다.
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group(3))

010
