# 정규식 사용 vs 비사용

In [7]:
data = '''
park 800904-1234567
kim 841204-1015334
'''
result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split():
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + '-'+'*******'
        word_result.append(word)
    result.append(' '.join(word_result))
print(result)    
print('\n'.join(result))
            

['park 800904-*******', 'kim 841204-*******']
park 800904-*******
kim 841204-*******


In [3]:
import re

data = '''
park 800904-1234567
kim 841204-1015334
'''

pat = re.compile('(\d{6})[-]\d{7}')
print(pat.sub('\g<1>-*******',data))  #substitute


park 800904-*******
kim 841204-*******



In [3]:
import re
p = re.compile('ab\sc') 
print(p.match('ab cd'))


<re.Match object; span=(0, 4), match='ab c'>


# 문자열 검색

In [17]:
import re

p = re.compile('[a-z]+') # 찾고자 하는 문자열이 소문자 알파벳으로 되어있는지
# + = 최소 한번 이상 반복

## match( )
- 문자열의 처음부터 정규식과 매치되는지를 조사

In [23]:
m1 = p.match('python')
print(m1.group())
#group 함수는 일치되는 문자열을 반환

m2 = p.match('Python')
print(m2)
#P가 대문자이기 때문에 매치가 안됨

m3 = p.match('3 python')
print(m3)

m4 = p.match('pYthon')
print(m4)

python
None
None
<re.Match object; span=(0, 1), match='p'>


## search( )
- 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색한다


In [24]:
m = p.search('3 python')
print(m)

<re.Match object; span=(2, 8), match='python'>


## [문제] 전화번호 추출하기
다음의 전화번호 데이터에서 전화번호만 추출하는 정규 표현식을 작성하시오

In [34]:
phone = ['홍길동:010-1234-5678', '우리집: 02-555-3333']
pat = re.compile('\d+-\d+-\d+')
for i in phone:
    print(pat.search(i).group())

010-1234-5678
02-555-3333


In [32]:
phone = ['홍길동:010-1234-5678', '우리집, 02-555-3333']
for i in phone:
    m = re.search('\d{2,3}-\d{3,4}-\d{4}', i)
    print(m.group())

010-1234-5678
02-555-3333


## findall()

In [1]:
import re

p = re.compile('[a-z]+')
result = p.findall('life is to short')
print(result)

['life', 'is', 'to', 'short']


# 컴파일 옵션

## DOTALL

In [37]:
import re

m = re.match('a.b','a\nb')
# . == a와 b사이에 \n 을 제외한 아무 문자나 와도 됨
print(m)

None


In [4]:
import re
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m.group())
# . == a와 b사이에 \n 을 제외한 아무 문자나 와도 됨
print(m)

a
b
<re.Match object; span=(0, 3), match='a\nb'>


In [44]:
s = '''hello
python'''

p = re.compile('hello.python', re.DOTALL)
m = p.match(s)
print(m)

<re.Match object; span=(0, 12), match='hello\npython'>


## IGNORECASE
-대소문자 구분 없이 찾아내는 것

In [45]:
p = re.compile('[a-z]+', re.IGNORECASE)
m = p.match('Python')
print(m)

<re.Match object; span=(0, 6), match='Python'>


## MULTILINE
- MULTILINE은 ^, $ 메타 문자를 문자열 각 줄마다 적용한다

In [46]:
text= '''python one
life is to short
python two
you need python
python three'''
p = re.compile('^python\s\w+')
# python으로 시작 \s 공백 \w 숫자나 문자가  + 하나이상 반복
m = p.findall(text)
print(m)

['python one']


In [47]:
text= '''python one
life is to short
python two
you need python
python three'''
p = re.compile('^python\s\w+', re.MULTILINE)
# python으로 시작 \s 공백 \w 숫자나 문자가  + 하나이상 반복
m = p.findall(text)
print(m)

['python one', 'python two', 'python three']


# 백슬레시 문제

In [50]:
import re

p = re.compile('\\section')
m = p.search('What is \section and example?')
print(m)

None


In [6]:
p = re.compile(r'\\section')
m = p.search('What is \section and example?')
print(m.group())

\section


In [51]:
p = re.compile('\\\\section')
m = p.search('What is \section and example?')
print(m)

<re.Match object; span=(8, 16), match='\\section'>


# 메타문자

## |
- or 의 의미

In [8]:
p = re.compile('Crow|Servo')
m = p.match('CrowServo')
print(m.group())

Crow


## \b
- 단어의 앞뒤가 공백으로 구분된 단어와 일치
- Raw String 문자 (r) 을 붙여줘야 함

In [3]:
import re
p = re.compile (r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))
print(p.search('one subclass is'))


<re.Match object; span=(3, 8), match='class'>
None
None


\b와 \s의 차이

In [6]:
import re

#공백을 포함하지 않고 매치 결과를 반환
m = re.search(r'[a-zA-Z]\w*\b', '123 abc 123')
print(m)

n = re.search(r'[a-zA-Z]\w*\s', '123 abc 123')
print(n)

<re.Match object; span=(4, 7), match='abc'>
<re.Match object; span=(4, 8), match='abc '>


## \
- 정규표현식에서 사용하는 문자 그대로 표현하려면 앞에 \를 붙임

In [57]:
m = re.search('안녕하세요?', '여러분 안녕하세요?')
print(m)
#정규 표현식에서는 '?'가 있거나 없거나로 해석됨(메타문자)

<re.Match object; span=(4, 9), match='안녕하세요'>


In [58]:
m = re.search('안녕하세요\?', '여러분 안녕하세요?')
print(m)

<re.Match object; span=(4, 10), match='안녕하세요?'>


# 그룹핑

In [70]:
import re

p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group(0)) #일치된 전체 문자열 반환
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [74]:
p = re.compile('(\w+)\s+(\d+[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group())
print(m.group(1))
print(m.group(2))

park 010-1234-5678
park
010-1234-5678


In [2]:
# 그룹이 중첩된 경우에는 바깥쪽부터 시작하여 안쪽으로 들어갈수록
# 인덱스가 증가한다.
p = re.compile('(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m)
print(m.group())
print(m.group(1))
print(m.group(2))
print(m.group(3))

<re.Match object; span=(0, 18), match='park 010-1234-5678'>
park 010-1234-5678
park
010-1234-5678
010


### \번호를 이용한 그룹 재참조

In [11]:
k = re.match(r'(a)(b)\1\2', 'abab')
k.group()

'abab'

In [79]:
# 2개의 동일한 단어를 연속적으로 사용해야 일치
p = re.compile(r'(\b\w+)\s+\1')
#\b ==> 공백으로 구분된 단어를 찾는 것
#\s ==> 공백이 있는지 찾음
p.search("Paris in the the spring").group()

'the the'

In [83]:
p = re.compile('(?P<name>\w+)\s+(?P<phone_number>(?P<region_number>\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-5678')
print(m.group('name'))
print(m.group('phone_number'))
print(m.group('region_number'))

park
010-1234-5678
010


# 전방탐색 / 후방탐색 (조건부 탐색)

## 긍정 전방 탐색

In [84]:
import re

p = re.compile('.+(?=:)')
m = p.search('http://www.naver.com')
print(m.group())

http


## 부정 전방 탐색

In [89]:
import re

#파일 이름의 확장 중 bat 파일만 제외하고 추출하기
file_names = ['autoexec.bat', 'python.exe', 'sysinfo.cf']
p = re.compile('.+[.](?!bat).+')
for file in file_names:
    m = p.search(file)
    if m : print(m.group())

python.exe
sysinfo.cf


## 후방 탐색

In [87]:
import re

p = re.compile('(?<=\$)\d+[.]\d+')
m = p.search('ABC01: $23.45')
print(m.group())


23.45


## 부정 후방 탐색

# 문자열 바꾸기

In [14]:
data = 'blue socks and red shoes'
p = re.compile('blue|white|red')
print(p.sub('color','blue socks and red shoes', count = 1))
print(p.sub('color','blue socks and red shoes'))

print(p.sub('color',data,count =1))

color socks and red shoes
color socks and color shoes
color socks and red shoes


# 한글 찾기 or 한글 제거

In [17]:
s = '한글이에요. good morning. 안녕하세요'
m = re.findall('[ㄱ-힣]+',s)
print(m)

for i in m:
    print(i)

['한글이에요', '안녕하세요']
한글이에요
안녕하세요


In [94]:
s = '한글이에요. good morning. 안녕하세요'
#m = re.findall('[^ㄱ-힣]+',s)
m = re.findall('[^.\sㄱ-힣]+',s) #. , 공백, ㄱ-힣 (한글) 제거

print(m)

['good', 'morning']
