# 정규 표현식

In [2]:
import re

In [4]:
# match 연습
p = re.compile('crow|brow')
m = p.match('crowbello')
print(m)

<re.Match object; span=(0, 4), match='crow'>


In [5]:
# search 연습
p = re.compile('crow|brow')
m = p.search('crolbrown')
print(m)

<re.Match object; span=(4, 8), match='brow'>


In [6]:
# search 위치 파악
m.span()

(4, 8)

#### ^ 메타 문자

In [8]:
# ^ 메타 문자는 문자열의 맨 처음과 일치함을 의미, 앞에서 살펴본 컴파일 옵션 re.MULTILINE을 사용할 경우에는 여러 줄의 문자열일 때
# 각 줄의 처음과 일치하게 된다.

print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))


<re.Match object; span=(0, 4), match='Life'>
None


#### $ 메타 문자

In [11]:
# $ 메타 문자는 문자열의 끝과 매치함을 의미
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))
# ^, $ 문자 그자체를 매치하고 싶은 경우에는 \^ \$ 사용

<re.Match object; span=(12, 17), match='short'>
None


In [29]:
# MULTILINE을 통하면 줄마다 ^로 처음 부분 체크 가능
p = re.compile('^시작',re.MULTILINE)
sentence = """
시작 안녕
바이바이
시작 하이
하이 시시
시작냐
"""
print(sentence)
m = p.finditer(sentence)
for i in m:
    print(i.span())


시작 안녕
바이바이
시작 하이
하이 시시
시작냐

(1, 3)
(12, 14)
(24, 26)


#### \A , \Z

In [57]:
# 하지만, \A는 MULTILINE을 써도 전체 문자열에 대해서 시작 점만 구한다. 
p = re.compile(r'\A시작')
sentence = "시작"
print(sentence)
m = p.search(sentence)
print(m)

시작
<re.Match object; span=(0, 2), match='시작'>


In [65]:
# \Z 는 전체 문자열에 대해서 마지막 점만 구한다. 
p = re.compile(r'끝\Z')
sentence = """
fasdf
ewofwe
qwneonqw
gfogd
foawefno
마지막 끝"""
m = p.search(sentence)
print(m)

<re.Match object; span=(42, 43), match='끝'>


#### 단어구분자 \b

In [68]:
# 단어구분자 \b : 보통 단어는 whitespace에 의해 구분
p = re.compile(r'\bclass\b')
m1 = p.search('no class at all')
m2 = p.search('starclass')
print(m1)
print(m2)

<re.Match object; span=(3, 8), match='class'>
None


#### 단어구분자 \B

In [70]:
# \B 메타문자는 \b 메타문자의 반대의 경우, 즉 whitespace로 구분된 단어가 아닌 경우에만 매치
# 단어구분자 \b : 보통 단어는 whitespace에 의해 구분
p = re.compile(r'\Bclass\B')
m1 = p.search('no class at all')
m2 = p.search('starclass')
m3 = p.search('starclassstar')
print(m1)
print(m2)
print(m3)


None
None
<re.Match object; span=(4, 9), match='class'>


#### 그루핑

In [72]:
# 그루핑 () 활용
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group())

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC


In [80]:
# 그루핑 예시
# 이름 + " " + 전화번호
p = re.compile(r'\w+\s+\d+[-]\d+[-]\d+')
m= p.search('park 010-2334-3456')
print(m)

# 위에서 이름만 뽑고싶을 때는 어떻게 할까?
p = re.compile(r'(\w+)\s+\d+[-]\d+[-]\d+')
m= p.search('park 010-2334-3456')
print(m.group(1))
# 이름 부분을 그루핑 -> 그루핑한 부분은 group(n)으로 표시
# group(n)은 n번째 그룹에 해당되는 문자열 

<re.Match object; span=(0, 18), match='park 010-2334-3456'>
park


In [81]:
# 그룹을 중첩되게 사용도 가능
# 그럴경우에는 바깥쪽-> 안쪽 순서로 인덱스가 증가
p = re.compile(r'(\w+)\s+(\d+[-](\d+)[-]\d+)')
m= p.search('park 010-2334-3456')
print(m.group(1))
print(m.group(2))
print(m.group(3))


park
010-2334-3456
2334


#### 그루핑된 문자열 재참조

In [82]:
# 그루핑의 장점: 그루핑한 문자열은 재참조 가능
# \1 -> 정규식의 그룹 중 첫번째 그룹을 지칭
# \n -> 정규식의 그룹 중 n번째 그룹을 지칭
p = re.compile(r'(\b\w+)\s+\1')
p.search('Paris in the the spring').group()


'the the'

#### 그루핑된 문자열에 이름 붙이기

In [3]:
# 매우 많이 그루핑이 있으면 혼란스럽기 때문에 
# 그루핑마다 '이름'을 붙여준다.
# ?P<name> 을 붙여준다. (?...) 표현식은 정규 표현식의 확장 구문
# ?P<그룹이름>
import re
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search("park 010-1234-1234")
print(m.group('name'))




park


In [6]:
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(?P<front>\d+)[-]\d+[-]\d+)')
m = p.search("park 010-1234-1234")
print(m.group('phone'))
print(m.group('front'))
print(m.group('name'))

010-1234-1234
010
park


#### 전방 탐색

In [7]:

p = re.compile(".+:")
m = p.search('http://google.com')
print(m.group())

# 위의 상황에서 :을 제외하고 출력하려면 어떻게 해야할까?
# 이럴때 사용가능한게, '전방탐색'이다.
# 전방탐색은 긍정(Positive), 부정(Negative)의 2종류가 있고 다음과 같이 표현
# 긍정형 전방 탐색(?=...) : ...에 해당되는 정규식과 매치되어야 하며, 조건이 통과되어도 문자열이 소비되지 않는다.
# 부정형 전방 탐색(?!...) : ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소비되지 않는다.

http:


In [8]:
# 긍정형 전방탐색
p = re.compile(".+(?=:)")
m = p.search("http://google.com")
print(m.group())

http


In [None]:
'.*[.].*$' # 파일이름 + . + 확장자
# 이 정규식에 확장자가 'bat'인 파일은 제외해야 한다는 조건을 추가
'.*[.][^b].*$' -> # 'bat' 파일을 걸러내지만 'bar' 파일마저 걸러버린다.
'.*[.]([^b]..|.[^a].|..[^t])$' 
# 'bat'파일만 집어서 완벽히 걸러내지만, .cf 처럼 확장자의 문자개수가 2개인 케이스를 포함하지 못하는 오동작을 하기 시작
'.*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$' #엄청 길어지고 복잡해진다.

# 이럴때 해결방안이 '부정형 전방탐색'이다.
'.*[.](?!bat$).*$' # 확장자가 bat가 아닌경우에만 통과

# exe역시 제외 조건 추가
'.*[.](?!bat$|exe$).*$'

#### 문자열 바꾸기
-sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있다.

In [2]:
# 형태: sub('바꿀문자열', '대상문자열')
import re
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks are red shoes')


'colour socks are colour shoes'

In [3]:
# 1번만 출력하ㅊ고 싶을때는, count=1 추가해준다.
import re
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks are red shoes', count=1)

# sub 메서드와 유사한 subn 메서드
# subn : 동일한 기능 but 리턴: tuple (변경된문자열, 바꾸기가 발생한 횟수)

'colour socks are red shoes'

In [4]:
# sub 메서드 사용 시 참조 구문 사용 
# \g<그룸이름> 으로 그룹 참조
p = re.compile(r'(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)')

print(p.sub('\g<phone> \g<name>', 'park 010-2342-1242'))

010-2342-1242 park


In [14]:
import pandas as pd
import re
numlist = ['12,345', '23534', '13,580', '14,258', '13234']

p = re.compile('(?P<first>\d+)[,](?P<last>\d+)')
for i in numlist:
    # print(p.match(i))
    print(p.sub('\g<first>\g<last>', i))

# for i in numlist:
#     print(p.findall(i))

numlist

<re.Match object; span=(0, 6), match='12,345'>
12345
None
23534
<re.Match object; span=(0, 6), match='13,580'>
13580
<re.Match object; span=(0, 6), match='14,258'>
14258
None
13234
