파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어, ^, $, *, +, ?, {}, [], \, |, () 등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공 -> import해서 쓰면 됨
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

주요 기능:
- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인
- re.search(pattern, string): 문자열의 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.

- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.

In [4]:
import re

match = re.match('apple','apple pie')
print(match.group())
print(match.group(0))
print(match.start())
print(match.end())
print(match.span())

apple
apple
0
5
(0, 5)


In [12]:
# 그룹 선택
p = r'(apple) pie'
t = 'apple pie'

match = re.match(p,t)
print(match.group(1))

apple


In [18]:
# Q. 위의 예제를 수정해서  group(2)를 출력해보세요.
p = r'(apple) (pie)'
t = 'apple pie'

match = re.match(p,t)
print(match.group(2))

pie


In [11]:
import re

search = re.search('apple','sweet apple pie')
print(search.group())
print(search.group(0))
print(search.start())
print(search.end())
print(search.span())

apple
apple
6
11
(6, 11)


In [2]:
import re

# 검색하기
if re.search('apple','apple pie'):
    print("Found an apple!")

# 모든 일치 항목 찾기
print(re.findall('a','ab ac ad')) # 어떤 한 문자와 일치

# 문자열 대체하기
print(re.sub('blue', 'red', 'blue sky and blue ocean'))

# 패턴 컴파일하기
pattern = re.compile('[a-e]')
print(pattern.findall('hello world'))

Found an apple!
['a', 'a', 'a']
red sky and red ocean
['e', 'd']


#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들 <- 메타문자는 외워야 한다.
- `.`: 어떤 한 문자와 일치 (\n 제외)
- ^: 문자열의 시작과 일치
- $: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복 -> {m} 은 m번 반복
- []: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치) -> [0-9] 0에서 9까지 중 하나와 일치 혹은 숫자니깐 \d로 표현할 수 있음
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 문자와 일치
- \s: 공백 문자와 일치 <-즉 \n \t 같은 것
- \S: 공백이 아닌 문자와 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 것과 일치

1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb", "a*b", "a3b"
  - 불일치 예시: "ab", "a\nb"
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world"
  - 불일치 예시: "world, Hello"
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$
  - 매칭 예시: "It's the end"
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b
  - 매칭 예시: "b", "ab", "aaab"
  - 불일치 예시: "a" <-뒤에 b가 없어서
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b", "a" <-b 같은 경우는 앞에 a 가 하나도 없어서 안되는 것.
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab"
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3}
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a", "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc]
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d"
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c"
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c
  - 매칭 예시: "ac", "bc"

Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내의 백슬래시(\)를 이스케이프 시퀀스로 처리하지 않도록 하는 것이다.
- 예를 들어:
    - 일반 문자열: "\\\d" (정규 표현식에서 숫자를 의미하는 \d를 나타내려면 두 개의 백슬래시가 필요)
    - 로우 스트링: r"\d" (한 개의 백슬래시만으로도 정규 표현식에서 \d를 나타낼 수 있음)

In [19]:
import re

# 정규 표현식 태편: YYYY-MM-DD 형식의 날짜 (예: 2023-04-30)
pattern = r'(\d{4})-(\d{2})-(\d{2})' #r은 rowstring 이라는 의미로 이스케이프 문자로서의 기능이 아닌 역슬래시 그대로 쓰려고 쓰임.

# 검색할 문자열
text = "오늘의 날짜는 2023-04-30입니다."

# 패턴 검색
match = re.search(pattern, text)

# 매치 결과 확인
if match:
    print("전체 날짜: ", match.group()) #전체 매치 ('2023-04-30')
    print("연도: ", match.group(1)) # 첫 번째 그룹 ('2023')
    print("월: ", match.group(2)) # 두 번째 그룹('04')
    print("일: ", match.group(3)) # 세 번째 그룹('30')
else:
    print("매치되는 날짜가 없습니다.")

전체 날짜:  2023-04-30
연도:  2023
월:  04
일:  30


In [22]:
import re
p = re.compile('[a-z]+\s')
m = p.match('python python')
m.group()

'python '

In [23]:
re.match('[a-z]+\s','python python').group()

'python '

In [24]:
p.findall('python python ')

['python ', 'python ']

In [25]:
m = p.match('3python ')
print(m)

None


In [26]:
m = p.search('3python ')
print(m)

<re.Match object; span=(1, 8), match='python '>


In [30]:
# 문자 클래스 : []
pattern = re.compile('[a-z]+')
#pattern = re.compile('[a-zA-Z]+') #알파벳 전부다
#pattern = re.compile('[a-zA-Z0-9]+') #알파벳 숫자 전부다
p1 = pattern.search('Banker')
p2 = pattern.search('banker')
print(p1)
print(p2)

<re.Match object; span=(1, 6), match='anker'>
<re.Match object; span=(0, 6), match='banker'>


In [31]:
# group() 매치된 문자열을 리턴
# Q. '12345abc'에서 'a'만 출력하세요.
import re
regex = re.compile('[a]')
text = '12345abc'
m = regex.search(text)
m.group()

'a'

In [32]:
#Q. 'abc12345Abc'에서 'A'만 출력하세요.
import re
regex = re.compile('[A-Z]')
text = 'abc12345Abc'
m = regex.search(text)
m.group()

'A'

In [34]:
# Q. 'KOREA 대한민국'에서 대'만 출력하세요.
import re
regex = re.compile('[가-힣]')
text = 'KOREA 아대한민국'
m = regex.search(text)
m.group()

'아'

In [35]:
# search는 문자열 전체를 검색하여 정규식과 매칭되는 패턴을 찾는다.
# a{2}는 a를 2회 반복하여 사용
# Q.'122333c'를 모두 출력하세요.
import re
regex = re.compile('12{2}3{3}c')
text = '122333c'
m = regex.search(text)
m.group()

'122333c'

In [36]:
# Q. 'aaaaBBBcccDDDeee'을 모두 출력하세요.
import re
regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
text = 'aaaaBBBcccDDDeee'
m = regex.search(text)
m.group()

'aaaaBBBcccDDDeee'

In [40]:
# Q. BC, CC, ABC 모두 C가 출력되는 정규 표현식을 ()에 작성하세요.
pattern = re.compile('C')
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2)
print(p3)

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(2, 3), match='C'>


In [42]:
# finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체(iterator object)를 돌려준다.
# 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.
p = re.compile('[a-z]+')
result = p.finditer('life is too short')
for r in result: print(r.group())

life
is
too
short


In [43]:
# Q. '1234a1234'에서 '1','2','3','4'를 모두 출력하세요.
import re
regex = re.compile('[1234]')
text = '1234a1234'

regex.findall(text)

['1', '2', '3', '4', '1', '2', '3', '4']

In [44]:
# Q. ' Python3 is very good programming language!'에서 ['Python', 'is', 'very', 'good', 'programming', 'language']를
# 모두 출력하세요.
pattern = re.compile('[a-zA-Z]+')
pattern.findall(' Python3 is very good programming language!')

['Python', 'is', 'very', 'good', 'programming', 'language']

In [45]:
# Dot(.) 메타 문자는 줄바꿈 문자 (\n)을 제외한 모든 문자와 매치
import re
p = re.compile('a.+b')
m1 = p.match('a\nb')
m2 = p.match('acb')
m3 = p.match('a12?Ab')
print(m1)
print(m2)
print(m3)

None
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 6), match='a12?Ab'>


In [47]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [58]:
# Q. text에서 what are you doing?만 출력하세요
text = 'what are you doing?\nit is going to be late for school\nwe need to hurry up'
p = re.compile('.*') # 줄바꿈은 되지 않기 때문에 .*는 전부

print(p.search(text).group())

<re.Match object; span=(0, 19), match='what are you doing?'>


In [59]:
# Q. text에서 전체문장 모두 출력하세요.
text = 'what are you doing?\nit is going to be late for school\nwe need to hurry up'
p = re.compile('.*', re.DOTALL) 
print(p.search(text).group())

what are you doing?
it is going to be late for school
we need to hurry up


In [60]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행시 사용
p = re.compile('[a-z]+',re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


In [80]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요
text = 'Friend fRiend friEnd FRIEND'
p = re.compile(r'friend.+',re.I)
print(p.match(text).group())

Friend fRiend friEnd FRIEND


In [79]:
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요
text = 'Friend fRiend friEnd FRIEND'
p = re.compile(r'friend',re.I)
print(p.findall(text))

['Friend', 'fRiend', 'friEnd', 'FRIEND']


In [81]:
# python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 오는 경우
import re
p = re.compile('^python\s\w+')

data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one']


In [82]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
import re
p = re.compile("^python\s\w+", re.M)

data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one', 'python two', 'python three']


In [83]:
# 메타 문자
# |(or와 동일한 의미), ^(문자열의 맨처음), $(문자열의 끝과 매치)
import re
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)
print()
print(re.search('^Life','Life is too short'))
print(re.search('^Life$','Life is too short'))
print(re.search('Life$','My Life'))

<re.Match object; span=(0, 4), match='Crow'>

<re.Match object; span=(0, 4), match='Life'>
None
<re.Match object; span=(3, 7), match='Life'>


In [85]:
# Q. 'we are going home'에서 home만 출력하세요.
text = 'we are going home'
print(re.search(r'home$',text).group())

home


In [87]:
# Q. '199305, 1923A, a93247'에서 '199305'만 출력하세요.
text = '199305, 1923A, a93247'
print(re.search(r'\d{6}',text).group())

199305


In [89]:
regrex = re.compile(r'\d+')
mo = regrex.search('199305,1923A,a93247')
mo.group()

'199305'

In [92]:
# Q. '99food234, a93456\n, a9356ba' 에서 '99food234'만 출력하세요.
regex = re.compile(r'^\w+\d')
regex.findall('99food234, a93456\n, a9356ba ')

['99food234']

In [93]:
# \b whitespace에 의해 구분
# \B whitespace로 구분된 단어가 아닌 경우에만 매치
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithm'))
print()
q = re.compile(r'\Bclass\B')
print(q.search('no class at all'))
print(q.search('the declassified algorithm'))

<re.Match object; span=(3, 8), match='class'>
None

None
<re.Match object; span=(6, 11), match='class'>


In [94]:
# \1은 첫 번째 캡처 그룹 ((\b\w+))이 매치한 텍스트와 동일한 텍스트를 다시 찾는다.
# Capturing Group ((\b\w+)): 괄호는 캡처 그룹을 만듭니다. 이 경우 \b\w+는 단어 경계로 시작하는 하나 이상의 단어 문자로 이루어진
# 시퀀스를 캡처
import re

pattern = r'(\b\w+)\s+\1'
text = "이것은 중복 중복 단어입니다."

match = re.search(pattern, text)

if match:
    print(match.group())

중복 중복


In [95]:
# 첫 번째 숫자 그룹은 비캡처 그룹 (?:\d{4})로 설정되어 있어, 매치 결과는 저장되지 않고 '월'과 '일'만 캡처된다.
import re

pattern = r'(?:\d{4})-(\d{2})-(\d{2})'
text = "오늘의 날짜는 2023-04-30입니다."

match = re.search(pattern, text)

if match:
    print("월: ", match.group(1)) #'04'
    print("일: ", match.group(2)) # '30'
    print(match.group(0))

월:  04
일:  30
2023-04-30


In [96]:
p = re.compile('((AB)(CD)(EF))+')
m = p.search('DEFABCDEFDEF OK?')
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(3, 9), match='ABCDEF'>
ABCDEF
ABCDEF
AB
CD
EF


In [98]:
# Q. 정규표현식을 사용하여 text에서 지역코드만 출력하세요.
import re

text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
pattern = r'(\d{3})-(\d{3})-(\d{4})'
print(re.search(pattern,text).group(1))

032


In [99]:
text = '문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다.'
p = re.compile('(\d{3})-(\d{3})-(\d{4})')
print(p.search(text).group(1))

032


In [100]:
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스 증가
# Q. 정규표현식을 사용하여 'park 010-1234-1234'에서 지역코드만 출력하세요.

p = re.compile(r'(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m)
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group())

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
010-1234-1234
010
park 010-1234-1234


괄호 ()는 '그룹화'를 위해 사용 : 주로 여러 문자열 패턴을 하나의 단위로 묶거나, 특정 부분의 문자열을 추출하는 데 사용

그룹화의 주요 용도:
- 패턴의 일부를 하나의 단위로 묶기 : 괄호는 여러 문자 또는 문자 집합을 하나의 단위로 묶어서, 그 전체에 대해 수량자 (예: *, +, ?, {m,n} 등)를 적용할 수 있게 한다.

- 텍스트 캡처 : 괄호로 묶인 부분은 '캡처 그룹'이 되어, 매칭된 텍스트를 나중에 사용하기 위해 저장. 예를 들어, re.search()나 re.match() 등의 함수로 매치 객체를 얻은 후, group() 메서드를 사용하여 이 텍스트를 추출할 수 있다.

- 백레퍼런스(backreferences): 정규 표현식 내에서 앞서 정의된 그룹을 다시 참조할 수 있다. 이는 패턴이 이전에 매치된 동일한 텍스트와 일치해야 할 때 유용.

- 비캡처 그룹(non-capturing groups): 때로는 괄호를 사용하여 그룹을 만들지만, 매치된 내용을 나중에 사용하고 싶지 않을 때가 있다. 이 경우 (?:...) 형태를 사용하여 그룹을 만든다. 이 그룹은 매칭에는 영향을 주지만, 결과를 저장하지는 않는다.

In [3]:
import re
# 그룹핑된 문자열에 이름 붙이기 : 확장 구문 (?P<name>\w+)
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))
print(m.group(1))
print(m.group(2))
print(m.group(3))

park
park
010-1234-1234
010


In [4]:
# 그룹명을 이용하여 정규식 내에서 재참조 ?P=그룹명
p = re.compile(r'(?P<word>\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

In [5]:
# Q. 이름으로 그룹을 참조하여 'Lots of punctuation' 에서 Lots를 출력하세요.
p = re.compile(r'(\b\w+\b)')
m = p.search('((((Lots of punctuation))))')
m

<re.Match object; span=(4, 8), match='Lots'>

정규 표현식에서 전방탐색(Lookahead)
- 특정 패턴 뒤에 오는 문자열을 확인하는 방법으로, 긍정 전방탐색과 부정 전방탐색 두 가지 형태가 있다. 
- 이들은 매칭을 결정하는 조건을 설정하지만, 실제로 해당 문자열을 결과에 포함시키지는 않는다. 즉, 문자열을 '소모(consume)'하지 않는다..

- 긍정 전방탐색 (Positive Lookahead)
    - 형식: (?=...)
    - 설명: 긍정 전방탐색은 ...에 해당하는 정규식 패턴이 일치해야 하지만, 해당 부분은 결과에 포함되지 않는다.
    - 예시: X(?=Y)는 'Y'가 뒤따르는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 포함되지 않는다.
- 부정 전방탐색 (Negative Lookahead)
    - 형식: (?!...)
    - 설명: 부정 전방탐색은 ...에 해당하는 정규식 패턴이 일치하지 않아야 합니다. 여기서도 일치하는 부분은 결과에 포함되지 않는다.
    - 예시: X(?!Y)는 'Y'가 뒤따르지 않는 'X'에 일치합니다. 'X'는 결과에 포함되지만, 'Y'는 검사 대상이지 결과에 포함되지 않는다.

In [6]:
# 전방 탐색
# 긍정(?=...) ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않음
# 부정(?!...)...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소모되지 않음

p = re.compile(r'.+:')
m = p.search('http://google.com')
print(m.group())
print()
p = re.compile(r'.+(?=:)') # :에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음(검색에는 포함되지만 결과에는 제외)
m = p.search('http://google.com')
print(m.group())
print()

http:

http



In [7]:
# 문자열 바꾸기
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있음
# 바꾸기 횟수를 제어하려면 세 번째 매개변수로 count 값을 넘기면 됨
# subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 돌려줌. 두 번째 요소는 바꾸기 발생 횟수
p = re.compile('(blue|white|red)')
print(p.sub('colour','blue socks and red shoes'))
print(p.sub('colour','blue socks and red shoes', count=1)) # 바꾸기 횟수를 제어
print(p.subn('colour', 'blue socks and red shoes'))

colour socks and colour shoes
colour socks and red shoes
('colour socks and colour shoes', 2)


In [8]:
import re
p = re.compile('\d')
p.sub('','12345abc')

'abc'

In [10]:
# Q. '12345abc'에서 '12345'만 출력하세요.
import re
str = '12345abc'
# p1 = re.compile('[abc]')
# p1.sub('',str)
re.sub('[^0-9]','',str)

'12345'

In [13]:
# sub 메서드를 사용할 때 참조 구문을 사용
# 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예
# sub의 바꿀 문자열 부분에 \g<그룹이름>을 사용하면 정규식의 그룹 이름을 참조
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [14]:
# 그룹 이름 대신 참조 번호를 사용할 수 있음
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


In [15]:
# sub 메서드의 매개변수로 함수 넣기
# hexrepl 함수는 match 객체(위에서 숫자에 매치되는)를 입력으로 받아 16진수로 변환하여 돌려주는 함수
# sub의 첫 번째 매개변수로 함수를 사용할 경우 해당 함수의 첫 번째 매개변수에는 정규식과 매치된 match 객체가 입력
# 매치되는 문자열은 함수의 반환 값으로 변환

def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

Greedy (탐욕스러운) 매칭
- Greedy 매칭은 가능한 한 많은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 긴 것을 찾는다.
- 예를 들어, 정규 표현식 a.*b는 a로 시작하고 b로 끝나는 가장 긴 문자열 부분과 일치한다.

Non-Greedy (비탐욕스러운) 매칭
- Non-Greedy 매칭은 가능한 한 적은 문자와 일치하려고 한다. 즉, 주어진 패턴과 일치하는 문자열 중 가장 짧은 것을 찾는다.
- 예를 들어, 정규 표현식 a.*?b는 a로 시작하고 b로 끝나는 가장 짧은 문자열 부분과 일치합니다.

In [16]:
import re

text = "<div>Hello</div><div>World</div>"
pattern = r'<div>.*</div>'
matches = re.findall(pattern, text)
print(matches)

['<div>Hello</div><div>World</div>']


In [18]:
pattern_ng = r'<div>.*?</div>'
matches_ng = re.findall(pattern_ng, text)
print(matches_ng)

['<div>Hello</div>', '<div>World</div>']


1. *? (Non-Greedy Kleene Star)
- Greedy: *는 0회 이상 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: *?는 0회 이상 반복하는 가장 짧은 문자열을 찾는다.
2. +? (Non-Greedy Plus)
- Greedy: +는 1회 이상 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: +?는 1회 이상 반복하는 가장 짧은 문자열을 찾는다.
3. ?? (Non-Greedy Question Mark)
- Greedy: ?는 0회 또는 1회 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: ??는 0회 또는 1회 반복하는 가장 짧은 문자열을 찾는다.
4. {m,n}? (Non-Greedy 범위 반복자)
- Greedy: {m,n}은 m회에서 n회까지 반복하는 가장 긴 문자열을 찾는다.
- Non-Greedy: {m,n}?은 m회에서 n회까지 반복하는 가장 짧은 문자열을 찾는다.

In [19]:
import re

text = "<div>First</div><div>Second</div>"
# Greedy 매칭
print(re.findall(r'<div>.*</div>', text))
# Non-Greedy 매칭
print(re.findall(r'<div>.*?</div>', text))

text = "Hellooooo"
# Greedy 매칭
print(re.findall(r'o+', text))
# Non-Greedy 매칭
print(re.findall(r'o+?', text))

text = "Hello?"
# Greedy 매칭
print(re.findall(r'o?', text))
# Non-Greedy 매칭
print(re.findall(r'o??', text))

text = "Helloooo"
# Greedy 매칭
print(re.findall(r'o{2,4}', text))
# Non-Greedy 매칭
print(re.findall(r'o{2,4}?', text))

['<div>First</div><div>Second</div>']
['<div>First</div>', '<div>Second</div>']
['ooooo']
['o', 'o', 'o', 'o', 'o']
['', '', '', '', 'o', '', '']
['', '', '', '', '', 'o', '', '']
['oooo']
['oo', 'oo']
