# 정규표현식 기본 개념

한 영화관에서는 예매 시 사용자의 휴대폰 번호를 입력받아야 합니다. 예매 정보는 해당 번호와 함께 저장됩니다. 그러나 종종 잘못된 번호가 입력되어 예매 정보가 유실되는 문제가 발생했습니다.

이런 문제를 해결하기 위해, 영화관은 **정규표현식**을 사용해 휴대폰 번호를 검증하기로 결정했습니다. 이제 사용자가 휴대폰 번호를 입력할 때, 정확한 형식으로 입력되었는지 확인하고, 유효한 번호만 저장할 수 있습니다.

## 정규표현식이란?

정규표현식(Regular Expression)은 문자열에서 특정한 패턴을 찾거나, 대체하거나, 추출하는데 사용되는 문자열입니다. 즉, 문자열에서 원하는 문자를 찾거나 바꾸기 위한 일종의 패턴이라고 생각할 수 있습니다.


예를 들어, 정규표현식에서 '.'은 어떤 문자 하나를 의미하고, '*'는 바로 앞의 문자가 0번 이상 반복됨을 의미합니다. 또한, '|'는 OR 조건을 의미하고, '^'는 문자열의 시작을 의미합니다.

파이썬에서는 정규표현식을 처리하기 위해 're' 모듈을 제공합니다. 're' 모듈을 사용하면 문자열에서 패턴을 찾거나, 추출하거나, 대체할 수 있습니다.



In [1]:
# 문자열에서 숫자만 추출하는 예시

import re

text = "Hello, my number is 12345."

# text 문자열에서 숫자만을 추출
# '\d+'는 하나 이상의 숫자를 의미하는 정규표현식
numbers = re.findall('\d+', text)
print(numbers)

['12345']


## 정규표현식의 장단점

[장점]
1.	유연성: 정규표현식을 사용하면 다양한 패턴을 표현할 수 있습니다. 예를 들어, 특정 문자열이 특정 패턴을 따르는지 여부를 확인하거나, 특정 패턴을 가진 문자열을 찾아내는 등 다양한 용도로 사용할 수 있습니다.
2.	간결성: 문자열에서 원하는 정보를 추출하는 데에는 정규표현식이 다른 방법에 비해 더 간단하고 직관적입니다.
3.	속도: 정규표현식은 문자열을 일일이 검색하는 것보다 더 빠른 속도로 패턴을 찾아낼 수 있습니다.

[단점]
1.	복잡성: 정규표현식은 다양한 패턴을 표현할 수 있지만, 그만큼 문법이 복잡합니다. 특히 초보자에게는 익숙해지기까지 시간이 걸릴 수 있습니다.
2.	이식성: 언어나 툴마다 문법이 조금씩 다르기 때문에, 한 번 익힌 정규표현식이 다른 환경에서는 작동하지 않을 수도 있습니다.
3.	가독성: 정규표현식을 사용하면 코드의 가독성이 떨어질 수 있습니다. 특히, 매우 복잡한 정규표현식을 작성하면 코드가 길어지고 가독성이 나빠질 수 있습니다.
위와 같이, 정규표현식은 다양한 장단점을 가지고 있습니다. 그러나 정규표현식은 파이썬을 비롯한 다양한 프로그래밍 언어에서 사용되는 유용한 도구입니다. 아래는 파이썬 코드로 정규표현식을 사용한 문자열 패턴 매칭 예시입니다.




In [2]:
# 정규표현식을 이용하여 전화번호를 추출하는 예시
import re

# 정규표현식 패턴 설정
pattern = r"\d{3}-\d{4}-\d{4}"

# 문자열에서 패턴 매칭
phone_numbers = ["010-1234-5678", "02-555-1234", "031-222-3333"]
matched_numbers = []
for number in phone_numbers:
    if re.match(pattern, number):
      matched_numbers.append(number)
      print(matched_numbers)

['010-1234-5678']


## 정규표현식의 구성 요소

정규표현식은 다음과 같은 구성 요소를 가집니다.

- 문자: 특정 문자를 표현합니다. 예를 들어, 'a'는 문자 'a'를 의미합니다.
- 메타 문자: 특별한 의미를 가지는 문자입니다. 예를 들어, '.'은 어떤 문자에도 매치되는 문자입니다.
- 문자 클래스: 여러 개의 문자 중 하나를 선택합니다. 대괄호([])로 표현합니다. 예를 들어, '[abc]'는 'a', 'b', 'c' 중 하나에 매치됩니다.
- 반복: 문자 또는 메타 문자가 반복되는 횟수를 지정합니다. '', '+', '?', '{m}', '{m,n}' 등으로 표현합니다. 예를 들어, 'a'는 'a'가 0번 이상 반복되는 문자열에 매치됩니다.
- 그룹: 하나의 문자 또는 메타 문자의 집합을 그룹화합니다. 괄호()로 표현합니다. 예를 들어, '(abc)+'는 'abc'가 1번 이상 반복되는 문자열에 매치됩니다.

In [3]:
import re

# 문자 패턴
pattern1 = r'a'
text1 = 'apple'
print(re.findall(pattern1, text1))  # 결과: ['a']

# 메타 문자 패턴
pattern2 = r'.'
text2 = 'apple'
print(re.findall(pattern2, text2))  # 결과: ['a', 'p', 'p', 'l', 'e']

# 문자 클래스 패턴
pattern3 = r'[aeiou]'
text3 = 'apple'
print(re.findall(pattern3, text3))  # 결과: ['a', 'e']

# 반복 패턴
pattern4 = r'ba*na'
text4 = 'banaana'
print(re.findall(pattern4, text4))  # 결과: ['banaa', 'na']

# 그룹 패턴
pattern5 = r'(ba)*na'
text5 = 'banaana'
print(re.findall(pattern5, text5))  # 결과: ['bana', 'na']


['a']
['a', 'p', 'p', 'l', 'e']
['a', 'e']
['bana']
['ba', '']


### 정규표현식의 기초, 메타문자

- . ^ $ * + ? {} [] \ | ()
- [] 문자 클래스
 - \d 숫자와 매치, [0-9]와 동일한 표현식
 - \D 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식
 - \s whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
 - \S whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식
 - \w 문자 + 숫자와 매치, [a-zA-Z0-9]와 동일한 표현식
 - \W 문자 + 숫자가 아닌 문자와 매치, [^a-zA-Z0-9]와 동일한 표현식
- whitespace
 -  스페이스 바 (아스키코드 32)
 -  ＼b  뒤로 한 칸 이동 (Backspace) (아스키코드 8)
 -  ＼t  수평탭 간격 띄우기 (아스키코드 9)
 -  ＼n  줄바꿈 (Linefeed) (아스키코드 10)
 -  ＼v  수직탭 간격 띄우기 (아스키코드 11)
 -  ＼f  프린트 출력 용지를 한 페이지 넘김 (Form feed) (아스키코드 12)
 -  ＼r  동일한 줄의 맨 앞으로 커서 이동 (Carriage Return) (아스키코드 13)
- Dot(.) 메타 문자는 줄바꿈 문자인 \n를 제외한 모든 문자와 매치됨을 의미
- 반복(\*) ca*t 0부터 무한대로 반복
- 반복(\+) ca+t 최소 1번 이상 반복
- ca{m,n} a 반복 횟수가 m부터 n까지인 것을 매치
- ca{2}t는 c+a(2번 반복)+t의 의미
- 반복횟수가 {1,}은 1 이상, {0,}은 0 이상인 경우로 각각 +, *와 동일하며 {,1}은 반복횟수가 1 이하를 의미.
- ab?c b가 0~1번 사용되면 매치되는 것으로 ?은 앞의 b가 있어도 되고 없어도 된다 

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

정규식을 이용한 문자열 검색
- match(): 문자열의 처음부터 정규식과 매치되는지 조사
- search(): 문자열의 전체를 검색하여 정규식과 매치되는지 조사
- findall(): 정규식과 매치되는 모든 문자열을 리스트로 리턴
- finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴

In [None]:
import re
p = re.compile('[a-z]+\s')
m = p.match('python python')
m

<re.Match object; span=(0, 7), match='python '>

In [None]:
re.match('[a-z]+\s', 'python python')

<re.Match object; span=(0, 7), match='python '>

In [None]:
p.findall('python python ')

['python ', 'python ']

In [None]:
p.findall('python python')

['python ']

In [None]:
m = p.match('3python ')
print(m)

None


In [None]:
m = p.search('3python ')
print(m)

<re.Match object; span=(1, 8), match='python '>


In [None]:
# 문자 클래스 : []
pattern = re.compile('[a-z]+')
p1 = pattern.search('Banker')
p2 = pattern.search('banker')
print(p1)
print(p2)

<re.Match object; span=(1, 6), match='anker'>
<re.Match object; span=(0, 6), match='banker'>


In [None]:
# group() 매치된 문자열을 리턴
# Q. '12345abc'에서 'a'만 출력하세요.
import re
regex = re.compile('[a]')
text = '12345abc'
m = regex.search(text)
m.group()

'a'

In [None]:
# Q. 'abc12345Abc'에서 'A'만 출력하세요.
import re
regex = re.compile('[A-Z]')
text = 'abc12345Abc'
m = regex.search(text)
m.group()

'A'

In [None]:
# Q. 'KOREA 대한민국'에서 '대'만 출력하세요.
import re
regex = re.compile('[가-하]')
text = 'KOREA 아대한민국'
m = regex.search(text)
m.group()

'아'

In [None]:
# search는 문자열 전체를 검색하여 정규식과 매칭되는 패턴을 찾는다.
# a{2}는 a를 2회 반복하여 사용
# Q. '122333c'를 모두 출력하세요.
import re
regex = re.compile('12{2}3{3}c')
text = '122333c'
m = regex.search(text)
m.group()

'122333c'

In [None]:
# Q. 'aaaaBBBcccDDDeee'을 모두 출력하세요.
import re
regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
text = 'aaaaBBBcccDDDeee'

li = regex.search(text)
li.group()

'aaaaBBBcccDDDeee'

In [None]:
# Q. BC, CC, ABC 모두 C가 출력되는 정규 표현식을 ( )에 작성하세요.
pattern = re.compile(   )
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2)
print(p3)

In [None]:
# A
import re
pattern = re.compile('A?C')
text1 = 'BC'
text2 = 'CC'
text3 = 'ABC'
p1 = pattern.search(text1)
p2 = pattern.search(text2)
p3 = pattern.search(text3)
print(p1)
print(p2)
print(p3)

<re.Match object; span=(1, 2), match='C'>
<re.Match object; span=(0, 1), match='C'>
<re.Match object; span=(2, 3), match='C'>


In [None]:
p = re.compile('[a-z]+')
# result = p.findall('life is too short')
result = p.search('life is too short')
print(result)

<re.Match object; span=(1, 5), match='life'>


In [None]:
# finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체(iterator object)를 돌려준다.
# 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.
result = p.finditer('life is too short')
# print(list(result))
for r in result:print(r.group())

life
is
too
short


In [None]:
# Q. '1234a1234'에서  '1', '2', '3', '4'를 모두 출력하세요.
import re
regex = re.compile('[1234]')
text = '1234a1234'

regex.findall(text)

['1', '2', '3', '4', '1', '2', '3', '4']

In [None]:
# Q. ' Python3 is very good programming language!'에서  ['Python', 'is', 'very', 'good', 'programming', 'language']를 
# 모두 출력하세요.
pattern = re.compile('[a-zA-Z]+')
pattern.findall(' Python3 is very good programming language!')

['Python', 'is', 'very', 'good', 'programming', 'language']

In [None]:
# match 객체
l = p.match('life ')
i = p.match( 'is ' )
t = p.match('too ')
print(l.group())
print(i.group())
print(t.group())

life 
is 
too 


In [None]:
# match 객체의 메소드
import re
p = re.compile('[a-z]+')
m = p.match('python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
0
6
(0, 6)


In [None]:
m = p.search('3 python')
print(m.group())
print(m.start())
print(m.end())
print(m.span())

python
2
8
(2, 8)


In [None]:
# 모듈 단위로 수행하기
m = re.match('[a-z]+', 'python')
print(m.group())

python


In [None]:
# Dot(.) 메타 문자는 줄바꿈 문자(\n)을 제외한 모든 문자와 매치
import re
p = re.compile('a.+b')
m1 = p.match('a\nb')
m2 = p.match('acb')
m3 = p.match('a12?Ab')
print(m1)
print(m2)
print(m3)

None
<re.Match object; span=(0, 3), match='acb'>
<re.Match object; span=(0, 6), match='a12?Ab'>


In [None]:
# re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 \n에 상관없이 검색시 사용
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [None]:
# 줄바꿈 문자의 조작. 일반적으로 . 도트(모든 것) * 별(0개 이상)을 컴파일하면 
# 줄바꿈 문자 \n 전까지 매치한다. 줄바꿈 문자가 있는 파일의 모든 범위를 
# 매치하려면 compile 메소드에 두번째 매개변수를 re.DOTALL 로 지정한다. 

# Q. text에서 what are you doing?만 출력하세요 
text = 'what are you doing?\nit is going to be late for school'
             '\nwe need to hurry up'
regex = re.compile('.*')
mo = regex.search(text)
print(mo.group())

IndentationError: unexpected indent (Temp/ipykernel_8596/1681242705.py, line 7)

In [None]:
# Q. text에서 전체문장 모두 출력하세요 
regex = re.compile('.*',re.DOTALL)
mo = regex.search('what are you doing?\nit is going to be late for school'
             '\nwe need to hurry up')
print(mo.group())

what are you doing?
it is going to be late for school
we need to hurry up


In [None]:
# re.IGNORECASE 또는 re.I 옵션은 대소문자 구분 없이 매치를 수행시 사용
p = re.compile('[a-z]+',re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


In [None]:
print(p.search('3 python'))
print(p.search('3 Python'))
print(p.search('3 PYTHON'))

<re.Match object; span=(2, 8), match='python'>
<re.Match object; span=(2, 8), match='Python'>
<re.Match object; span=(2, 8), match='PYTHON'>


In [None]:
# 대소문자를 구분하지 않고 매치시키려면 compile 메소드의 두번째 매개변수를 re.I로 넘겨준다. (re 모듈의 상수다)
# Q. text에서 대소문자 구분없이 전체문장 모두 출력하세요 

text = 'Friend fRiend friEnd FRIEND'
regex = re.compile(r'friend',re.I)
list = regex.findall(text)
for i in list:
    print(i)

Friend
fRiend
friEnd
FRIEND


In [None]:
# python이라는 문자열로 시작하고 그 뒤에 whitespace, 그뒤에 단어가 오는 경우
import re
p = re.compile('^python\s\w+')

data = """python one 
life is too short
python  two
you need python
python three"""
print(p.findall(data))

['python one']


In [None]:
# re.MULTILINE 또는 re.M옵션으로 ^메타 문자를 각 라인의 처음으로 인식시킴
import re
p = re.compile("^python\s\w+",re.M)

data = """python one 
life is too short
python two
you need python
python three"""
print(p.findall(data))

['python one', 'python two', 'python three']


In [None]:
# re.VERBOSE 또는 re.X : 이해하기 어려운 정규식을 주석 또는 라인 단위로 구분
# charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

charref = re.compile(r"""
&[#]               # Start of a numeric entity reference
(
    0[0-7]+        # Octal form
  | [0-9]+         # Decimal form 
  | x[0-9a-fA-F]+  # Hexadecimal form
)
;                  # Trailing semicolon 
""",re.VERBOSE)

In [None]:
# 정규식 문자열 앞에 r문자를 삽입하면 Raw String 규칙에 의하여 백슬래시 2개 대신 1개 사용
# 파이썬 문자열 리터럴 규칙에 의하여 \\이 \으로 변경되어 \section이 전달
p = re.compile(r'\\section')

print(p.match('\section'))
p.findall('\section\section')

<re.Match object; span=(0, 8), match='\\section'>


['\\section', '\\section']

In [None]:
# 메타 문자
# |(or와 동일한 의미), ^(문자열의 맨처음), $(문자열의 끝과 매치)
import re
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)
print()
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))
print()
print(re.search('Life$', 'Life is too short'))
print(re.search('Life$', 'My Life'))

<re.Match object; span=(0, 4), match='Crow'>

<re.Match object; span=(0, 4), match='Life'>
None

None
<re.Match object; span=(3, 7), match='Life'>


In [None]:
# \A(문자열의 처음과 매치. 단, re.MULTILINE 옵션 사용시 ^와은 달리 전체 문자열의 처음하고만 매치)
# \Z(문자열의 끝과 매치. 단, re.MULTILINE 옵션 사용시 ^와은 달리 전체 문자열의 끝하고만 매치)
import re
p = re.compile('\ALife', re.MULTILINE)
data = """Life is too short
Life is good
Life is valuable"""
print(p.findall(data))
print()
q = re.compile('^Life', re.MULTILINE)
data = """Life is too short
Life is good
Life is valuable"""
print(q.findall(data))
print()
p1 = re.compile('good\Z', re.MULTILINE)
data1 = """Life is too short
Life is good
Life is very good"""
print(p1.findall(data1))
print()
q1 = re.compile('good$', re.MULTILINE)
data1 = """Life is too short
Life is good
Life is very good"""
print(q1.findall(data1))

['Life']

['Life', 'Life', 'Life']

['good']

['good', 'good']


In [None]:
# Q. 'we are going home'에서 home만 출력하세요.
regex = re.compile(r'home$')
mo1 = regex.search('we are going home')
mo1.group()

'home'

In [None]:
# Q. 'home sweet'에서 home만 출력하세요.
regex = re.compile(r'^home')
mo2 = regex.search('home sweet')
mo2.group()

'home'

In [None]:
# Q. '199305, 1923A, a93247'에서 '199305'만 출력하세요.
regex = re.compile(r'^\d+')
mo = regex.search('199305, 1923A, a93247')
mo.group()

'199305'

In [None]:
# Q. '99food234, a93456\n, a9356ba '에서 '99food234'만 출력하세요.
regex = re.compile(r'^\w+\d')
 
regex.findall('99food234, a93456\n, a9356ba ')

['99food234']

In [None]:
# \b whitespace에 의해 구분
# \B whitespace로 구분된 단어가 아닌 경우에만 매치
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('the declassified algorithim'))
print()
q = re.compile(r'\Bclass\B')
print(q.search('no class at all'))
print(q.search('the declassified algorithim'))

<re.Match object; span=(3, 8), match='class'>
None

None
<re.Match object; span=(6, 11), match='class'>


In [None]:
# Q. 정규표현식을 사용하여 test에서 전화번호만  출력하세요
# text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
import re
 
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
 
# regex = re.compile(r'\d+-\d+-\d+')
regex = re.compile(r'(\d+)-(\d+)-(\d+)')
matchobj = regex.search(text)
phonenumber = matchobj.group()
print(phonenumber) 

032-232-3245


In [None]:
# Q. 정규표현식을 사용하여 text에서 에러가 들어간 부분만 포함하는 리스트를 출력하세요. 
# text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"

import re
text = "에러 1122, 레퍼런스 오류, 에러 1033, 아규먼트 오류, 에러 xxx"
regex = re.compile("에러\s\w+")
mc = regex.findall(text)
print(mc)

['에러 1122', '에러 1033', '에러 xxx']


In [None]:
# Q. (     )에 정규표현식을 작성하여 아래와 같이 출력하세요.
# ['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']

import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'
regex = re.compile(      )
list = regex.findall(li)
print(list)

In [None]:
# A.
import re
li = '1 apple, 5 oranges, 3 boys, 4 girls; 10 army| 11 mr'
regex = re.compile(r'\d+\s\w+')
list = regex.findall(li)
print(list)

['1 apple', '5 oranges', '3 boys', '4 girls', '10 army', '11 mr']


In [None]:
# Q. text에서 'H,h'만 출력하세요.
text = 'Hello my friend! Life is short you need Python!'

customRegex = re.compile(r'[Hh]')
list = customRegex.findall(text)
print(list)

['H', 'h', 'h']


In [None]:
# Q. text에서 'H,h'가 아닌 것 모두를 출력하세요.
text = 'Hello my friend! Life is short you need Python!'
customRegex = re.compile(r'[^Hh]')
list = customRegex.findall(text)
print(list)

['e', 'l', 'l', 'o', ' ', 'm', 'y', ' ', 'f', 'r', 'i', 'e', 'n', 'd', '!', ' ', 'L', 'i', 'f', 'e', ' ', 'i', 's', ' ', 's', 'o', 'r', 't', ' ', 'y', 'o', 'u', ' ', 'n', 'e', 'e', 'd', ' ', 'P', 'y', 't', 'o', 'n', '!']


In [None]:
# 그룹핑 : 매치된 문자열 중에서 특정 부분의 문자열만 뽑아내는 경우 ()으로 만들어 준다.
# group(0) 매치된 전체 문자열, 1 첫번째 그룹, 2 두번째 그룹, n n번째 그룹
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)
print(m.group(0))
print(m.group(1))

<re.Match object; span=(0, 9), match='ABCABCABC'>
ABCABCABC
ABC


In [None]:
p = re.compile('((AB)(CD)(EF))+')
m = p.search('DEFABCDEFDEF OK?')
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(3, 9), match='ABCDEF'>
ABCDEF
ABCDEF
AB
CD
EF


In [None]:
p = re.compile('((AB)(CD)(EF))+')
m = p.match('ABCDEFDEF OK?')
print(m)
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(0, 6), match='ABCDEF'>
ABCDEF
ABCDEF
AB
CD
EF


In [None]:
# Q. 정규표현식을 사용하여 text에서 지역코드만 출력하세요.
import re
 
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
 
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
areaCode = matchobj.group(1)
# num = matchobj.group(2)
# fullNum = matchobj.group()
print(areaCode) # 032 232-3245

032


In [None]:
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
p = re.compile('(\d{3})-(\d{3})-(\d{4})')
obj = p.search(text)
print(obj.group(1))

032


In [None]:
# Q. 정규표현식을 사용하여 text에서 지역코드 제외한 번호만 출력하세요.

import re
 
text = "문의사항이 있으면 032-232-3245 으로 연락주시기 바랍니다."
 
regex = re.compile(r'(\d{3})-(\d{3}-\d{4})')
matchobj = regex.search(text)
# areaCode = matchobj.group(1)
num = matchobj.group(2)
# fullNum = matchobj.group()
print(num) # 032 232-3245

232-3245


In [None]:
# 그룹이 중첩되어 있는 경우는 바깥쪽부터 시작하여 안쪽으로 들어갈수록 인덱스 증가
# Q. 정규표현식을 사용하여 'park 010-1234-1234'에서 지역코드만 출력하세요.

p = re.compile(r'(\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m)
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.groups())

<re.Match object; span=(0, 18), match='park 010-1234-1234'>
park
010-1234-1234
010
('park', '010-1234-1234', '010')


In [None]:
# 그룹핑된 문자열 재참조
# \1은 재참조 메타 문자로서 정규식의 첫번째 그룹을 지칭 - 2개의 동일한 단어가 연속적으로 사용되어야 매치
p = re.compile(r'(\w+)\s+\1+\s+\1+\s')
p.search('Paris in the the the spring').group()

'the the the '

In [None]:
# Q. 'Paris is very very beautiful.'에서 'very very'를 출력하세요.

p = re.compile(r'\b(\w+)\s+\1')
p.search('Paris is very very beautiful.').group()

'very very'

In [None]:
text = 'Paris is very very beautiful.'
p = re.compile(r'\s(\w+)\s+\1')
p.search(text).group()

' very very'

In [None]:
# Q.'abcdefghij' 에 대하여 중첩을 적용한 서브그룹 5개로 컴파일하여 group()함수를 이용하여 
# 'abcdefghi'와 e'를 출력하세요

p = re.compile('(a(b(c(d(e)f)g)h)i)j')
m = p.match('abcdefghij')
# print(m.group(0))
print(m.group(1))
m.group(5)

abcdefghi


'e'

In [None]:
# Q. 위 문제에서 모든 서브 그룹에 대한 문자열을 포함하는 튜플을 출력하세요.
m.groups()

('abcdefghi', 'bcdefgh', 'cdefg', 'def', 'e')

In [None]:
# 그룹핑된 문자열에 이름 붙이기 : 확장 구문 (?P<name>\w+)
p = re.compile(r'(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)')
m = p.search('park 010-1234-1234')
print(m.group('name'))

park


In [None]:
# 그룹명을 이용하여 정규식 내에서 재참조
p = re.compile(r'(?P<word>\w+)\s+(?P=word)')
p.search('Paris in the the spring').group()

'the the'

In [None]:
# Q. 이름으로 그룹을 참조하여 'Lots of punctuation 에서 Lots를 출력하세요.
p = re.compile(r'(?P<word>\b\w+\b)')
m = p.search( '(((( Lots of punctuation Lots of punctuation)))' )
print(m.group('word'))

Lots


In [None]:
p = re.compile(r'(\b\w+\b)')
m = p.search( '(((( Lots of punctuation )))' )
m.group()

'Lots'

In [None]:
p = re.compile(r'(\b\w+\b)')
m = p.findall( '(((( Lots of punctuation )))' )
m

['Lots', 'of', 'punctuation']

In [None]:
# 전방 탐색
# 긍정(?=...) ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않음
# 부정(?!...) ...에 해당되는 정규식과 매치되지 않아야 하며 조건이 통과되어도 문자열이 소모되지 않음

p = re.compile(r'.+:')
m = p.search('http://google.com')
print(m.group())
print()
p = re.compile(r'.+(?=:)')  # :에 해당되는 문자열이 정규식 엔진에 의해 소모되지 않음(검색에는 포함되지만 결과에는 제외)
m = p.search('http://google.com')
print(m.group())
print()

http:

http



In [None]:
# 파일명+.+확장자를 나타내는 정규식
p =re.compile('.*[.].*$')
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
for i in list:
    if p.match(i):
        print(i)

foo.exe
autoexec.bat
sendmail.cf


In [None]:
# 확장자가 bat 혹은 exe가 아닌 경우만 통과된다는 부정적 전방탐색
p =re.compile('.*[.](?!bat$|exe$).*$')
list = ['foo.exe', 'autoexec.bat', 'sendmail.cf']
for i in list:
    if p.match(i):
        print(i)

sendmail.cf


In [None]:
# 문자열 바꾸기
# sub 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있음
# 바꾸기 횟수를 제어하려면 세 번째 매개변수로 count 값을 넘기면 됨
# subn 역시 sub와 동일한 기능을 하지만 반환 결과를 튜플로 돌려줌. 두 번째 요소는 바꾸기 발생 횟수
p = re.compile('(blue|white|red)')
print(p.sub('colour', 'blue socks and red shoes'))
print(p.sub('colour', 'blue socks and red shoes', count=1)) # 바꾸기 횟수를 제어
print(p.subn( 'colour', 'blue socks and red shoes'))

colour socks and colour shoes
colour socks and red shoes
('colour socks and colour shoes', 2)


In [None]:
# Q. '12345abc'에서 'abc'만 출력하세요.
import re
str = '12345abc'
re.sub('\d','',str)

'abc'

In [None]:
import re
p = re.compile('\d')
p.sub('','12345abc')

'abc'

In [None]:
# Q. '12345abc'에서 '12345'만 출력하세요.
import re
str = '12345abc'
re.sub('[^0-9]','',str) 

'12345'

In [None]:
# sub 메서드를 사용할 때 참조 구문을 사용
# 이름 + 전화번호의 문자열을 전화번호 + 이름으로 바꾸는 예
# sub의 바꿀 문자열 부분에 \g<그룹이름>을 사용하면 정규식의 그룹 이름을 참조
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<phone> \g<name>", "park 010-1234-1234"))

010-1234-1234 park


In [None]:
# 그룹 이름 대신 참조 번호를 사용할 수 있음
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub("\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


In [None]:
# sub 메서드의 매개변수로 함수 넣기
# hexrepl 함수는 match 객체(위에서 숫자에 매치되는)를 입력으로 받아 16진수로 변환하여 돌려주는 함수 
# sub의 첫 번째 매개변수로 함수를 사용할 경우 해당 함수의 첫 번째 매개변수에는 정규식과 매치된 match 객체가 입력 
# 매치되는 문자열은 함수의 반환 값으로 변환

def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

In [None]:
# Greedy vs Non-Greedy
# * 메타 문자는 매우 탐욕스러워서 매치할 수 있는 최대한의 문자열인 <html><head><title>Title</title> 문자열을 모두 소비
# non-greedy 문자인 ?는 *의 탐욕을 제한하여 최소한의 반복을 수행. *?, +?, ??, {m,n}?와 같이 사용
s = '<html><head><title>Title</title>'
print(s)
print()
print(len(s))
print()
print(re.match('<.*>', s).span())
print()
print(re.match('<.*>', s).group())
print()
print(re.match('<.*?>', s).group())
print()
print(re.match('<.*?>', s).span())

<html><head><title>Title</title>

32

(0, 32)

<html><head><title>Title</title>

<html>

(0, 6)
