In [1]:
import re

<br>
<br>

# 기본 사용법

In [2]:
str = 'an example word:cat!!'

# search() : 특정 패턴을 찾음
# \w : 문자 또는 숫자
result = re.search(r'word:\w\w\w', str)

if result:
    # group() : 일치하는 문자열을 구함
    print('found', result.group())
else:
    print('did not find')
    

found word:cat


In [3]:
result = re.search(r'iii', 'piiig')
result.group()


'iii'

In [4]:
# . : 임의의 문자
result = re.search(r'..g', 'piiig')
result.group()


'iig'

In [5]:
# \d : 숫자
result = re.search(r'\d\d\d', 'p123g')
result.group()


'123'

In [6]:
# | : 둘 중에 하나
result = re.search(r'a|z', 'abcde')
result.group()


'a'

In [7]:
# ^ : 가장 앞의 글자가 일치해야 함
result = re.search(r'^abc', 'abcde')

if result:
    print('found', result.group())
else:
    print('did not find')
    

found abc


In [8]:
result = re.search(r'^bc', 'abcde')

if result:
    print('found', result.group())
else:
    print('did not find')
    

did not find


In [9]:
# $ : 가장 뒤의 글자가 일치해야 함
result = re.search(r'de$', 'abcde')

if result:
    print('found', result.group())
else:
    print('did not find')
    

found de


In [10]:
result = re.search(r'bc$', 'abcde')

if result:
    print('found', result.group())
else:
    print('did not find')
    

did not find


<br>
<br>

# 문자열의 r 기호

In [11]:
# \n : 개행문자
print('hi\nhi')


hi
hi


In [12]:
# r을 붙이면 raw string으로 인식
print(r'hi\nhi')


hi\nhi


In [13]:
# \를 캐릭터를 처리하려면 \ 하나를 더 붙임
result = re.search(r'\\c', 'ab\c')
result.group()


'\\c'

In [14]:
# r을 사용하지 않으며 \\ 두 개를 붙여야 함
result = re.search('\\\c', 'ab\c')
result.group()


'\\c'

<br>
<br>

# 반복

In [15]:
# + : 하나 이상 반복
result = re.search(r'pi+', 'piiig')
result.group()


'piii'

In [16]:
# * : 0 또는 하나 이상 반복
# \d : 숫자
# \s : 공백
result = re.search(r'\d\s*\d\s*\d', 'xx1 2   3xx')
result.group()


'1 2   3'

In [17]:
result = re.search(r'\d\s*\d\s*\d', 'xx12  3xx')
result.group()


'12  3'

In [18]:
result = re.search(r'\d\s*\d\s*\d', 'xx123xx')
result.group()


'123'

In [19]:
# ? : 0 또는 하나
result = re.search(r'ab?c', 'abcdef')
result.group()


'abc'

In [20]:
result = re.search(r'ab?c', 'acdef')
result.group()


'ac'

In [21]:
# {} : 횟수만큼 반복
result = re.search(r'bc{2}', 'abccd')
result.group()


'bcc'

In [22]:
result = re.search(r'bc{2,5}', 'abcccd')
result.group()


'bccc'

In [23]:
# 0번 이상
result = re.search(r'bc{0,}', 'abd')
result.group()


'b'

In [24]:
# 1번 이하
result = re.search(r'bc{,1}', 'abcd')
result.group()


'bc'

<br>
<br>

# 이메일 예제

In [25]:
str = 'purple alice-b@google.com monkey dishwasher'

result = re.search(r'\w+@\w+', str)
result.group()


'b@google'

In [26]:
# [] : 괄호안에 있는 문자들 중 하나
result = re.search(r'[\w.-]+@[\w.-]+', str)
result.group()


'alice-b@google.com'

<br>
<br>

# 그룹 추출

In [27]:
str = 'purple alice-b@google.com monkey dishwasher'

# () : 그룹을 지정
result = re.search(r'([\w.-]+)@([\w.-]+)', str)
print(result.group())  # 전체
print(result.group(1)) # 첫 번째 그룹
print(result.group(2)) # 두 번째 그룹


alice-b@google.com
alice-b
google.com


<br>
<br>

# 문자열의 위치

In [28]:
result = re.search(r'bc', 'abcde')
result.group()


'bc'

In [29]:
result = re.search(r'bc', 'abcde')
result.start() # 시작 위치


1

In [30]:
result = re.search(r'bc', 'abcde')
result.end() # 끝 위치


3

In [31]:
result = re.search(r'bc', 'abcde')
result.span() # 범위


(1, 3)

<br>
<br>

# 일치

In [32]:
# match() : 제일 앞부분부터 일치 판정
result = re.match(r'python', 'python123')

if result:
    print('found', result.group())
else:
    print('did not find')
    

found python


In [33]:
result = re.match(r'123', 'python123')

if result:
    print('found', result.group())
else:
    print('did not find')
    

did not find


In [34]:
result = re.search(r'123', 'python123')

if result:
    print('found', result.group())
else:
    print('did not find')
    

found 123


<br>
<br>

# 전체 검색

In [35]:
str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

# search() : 가장 왼쪽의 일치 부분만 구함
# findall() : 일치하는 부분을 모두 구함
emails = re.findall(r'[\w.-]+@[\w.-]+', str)

for email in emails:
    print(email)
    

alice@google.com
bob@abc.com


<br>
<br>

# 치환

In [36]:
str = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher'

# sub() : 문자열을 찾아서 치환
# search()와 달리 치환된 문자열을 바로 리턴
# \1 : 그룹1의 문자열
# \2 : 그룹2의 문자열
result = re.sub(r'([\w.-]+)@([\w.-]+)', r'\1@yo-yo-dyne.com', str)
result


'purple alice@yo-yo-dyne.com, blah monkey bob@yo-yo-dyne.com blah dishwasher'

<br>
<br>

# 컴파일

In [37]:
# 패턴을 미리 정의하고 재사용
pattern = re.compile(r'[a-z]+')
result = pattern.search('python123')
result.group()


'python'