# Regular Expression

- 특정한 규칙을 가진 문자열을 표현하는 데 사용되는 형식 언어
- 특정한 규칙과 일치하는 문자열을 ‘검색’, ‘치환’, ‘제거’ 하는 기능을 지원
- 정규표현식의 도움없이 패턴을 찾는 작업(Rule 기반)은 불완전 하거나, 작업의 cost가 높음
    - e.g) 이메일 형식 판별, 전화번호 형식 판별, 숫자로만 이루어진 문자열 등
- 정규 표현식은 복잡하고 다양한 문자열 패턴을 간결하게 표현할 수 있게 해주며, 특히 복잡한 문자열의 검색과 매칭 작업을 빠르고 효율적으로 수행할 수 있음

## Raw string

문자열 앞에 r이 붙으면 해당 문자열이 구성된 그대로 문자열 변환

In [1]:
a = 'abcdef\n' # escape 문자열
print(a)

abcdef



이 경우 한 줄이 띄어진 채로 출력

In [2]:
b = r'abcdef\n'
print(b)

abcdef\n


이 경우 문자열 그대로 출력

## 기본 패턴

- `a`, `X`, `9` 등의 문자: 이러한 문자들은 입력된 문자 그대로와 일치한다.
    - 예를 들어, 패턴 test는 문자열 test와 정확히 일치한다.
    - 기본적으로 정규 표현식은 대소문자를 구별하지만, 대소문자를 구별하지 않도록 설정하는 옵션도 있다.

- 메타 문자: 다음과 같은 특수 문자들은 원래 그 문자가 가진 뜻이 아니라 정규 표현식 내에서 특별한 의미를 갖는다. `. ^ $ * + ? { } [ ] \ | ( )`

    - `.` (마침표): 어떤 한 개의 문자와 일치한다. 단, 기본 설정에서는 줄바꿈 문자(`\n`)는 제외한다.
    - `^`: 문자열의 시작을 나타낸다.
    - `$`: 문자열의 끝을 나타낸다.
    - `*`: 문자의 반복을 의미한다. (0부터 무한대)
    - `+`: 문자의 최소 1번 이상 반복을 의미한다.
    - `\w`: 모든 단어 문자와 일치하며, 이는 `[a-zA-Z0-9_]`와 동일하다.
    - `\s`: 모든 공백 문자와 일치하며, 스페이스, 탭, 폼 피드, 줄바꿈 등을 포함한다.
    - `\t`, `\n`, `\r`: 각각 탭, 줄바꿈, 캐리지 리턴과 일치한다.
    - `\d`: 모든 숫자와 일치하며, `[0-9]`와 동일하다.
    - `\`: 다음에 오는 메타 문자가 특별한 의미를 잃게 하고 리터럴 값으로 해석되도록 한다. 예를 들어, `\.`는 문자 `.` 자체를, `\\`는 `\` 문자를 나타낸다.
    
    
- 자세한 내용은 링크 참조 https://docs.python.org/3/library/re.html

## re 모듈

파이썬은 정규 표현식을 지원하기 위해 re(regular expression) 모듈을 제공한다. re 모듈은 파이썬을 설치할 때 자동으로 설치되는 표준 라이브러리이다.

In [3]:
import re

|Method|목적|
|---|---|
|match()|문자열의 처음부터 정규식과 매치되는지 조사한다.|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 조사한다.|
|findall()|정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다.|
|finditer()|정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.|

## search method

정규 표현식의 search 메소드는 문자열 내에서 정규 표현식과 일치하는 첫 번째 위치를 찾는 데 사용된다. 이 메소드는 대상 문자열 전체를 검사하고, 패턴과 일치하는 부분이 있는지 확인한다. 일치하는 내용이 발견되면, 해당 매치에 대한 정보를 담고 있는 Match 객체를 반환한다. 이 객체를 통해 얻을 수 있는 정보에는 일치하는 텍스트, 일치하는 텍스트의 인덱스 등이 포함된다.

- 첫번째로 패턴을 찾으면 match 객체를 반환
- 패턴을 찾지 못하면 None 반환

In [5]:
m = re.search(r'abc', 'abcdef')
print(m)
print(m.start())
print(m.end())
print(m.group())
print(m.span())

<re.Match object; span=(0, 3), match='abc'>
0
3
abc
(0, 3)


In [6]:
m = re.search(r'abc', '123abdef')
print(m)

None


In [7]:
m = re.search(r'\d\d', '112abcdef119')
print(m)

<re.Match object; span=(0, 2), match='11'>


## meta characters (메타 캐릭터)

원래 그 문자가 가진 뜻이 아니라 정규 표현식 내에서 특별한 의미를 갖는다. `. ^ $ * + ? { } [ ] \ | ( )`

### [ ] 문자 - 문자 클래스
- []문자들의 범위를 나타내기 위해 사용
- []내부의 메타 캐릭터는 캐릭터 자체를 나타낸다.
- e.g)
    - `[abck]` : a or b or c or k
    - `[abc.^]` : a or b or c or . or ^
    - `[a-d]` : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나
    - `[0-9]` : 모든 숫자
    - `[a-z]` : 모든 소문자
    - `[A-Z]` : 모든 대문자
    - `[a-zA-Z0-9]` : 모든 알파벳 문자 및 숫자
    - `[^0-9]` : ^가 맨 앞에 사용되는 경우 해당 문자 패턴이 아닌 것과 매칭

In [8]:
m = re.search(r'[cbm]at', 'cat')
print(m)
m = re.search(r'[cbm]at', 'aat')
print(m)
m = re.search(r'[^cbm]at', 'aat')
print(m)

<re.Match object; span=(0, 3), match='cat'>
None
<re.Match object; span=(0, 3), match='aat'>


In [9]:
m = re.search(r'[0-4]at', '1at')
print(m)
m = re.search(r'[0-4]at', '7at')
print(m)

<re.Match object; span=(0, 3), match='1at'>
None


### .(dot) 문자
- `\n`을 제외한 모든 문자

In [12]:
m = re.search(r'a.b', 'aab')
print(m)
m = re.search(r'a.b', 'a0b')
print(m)
m = re.search(r'a.b', 'abc')
print(m)

<re.Match object; span=(0, 3), match='aab'>
<re.Match object; span=(0, 3), match='a0b'>
None


### \


정규 표현식에서 백슬래시 \는 두 가지 주요한 용도로 사용된다:

1. 다른 문자와 함께 사용되어 특수한 의미를 지님
    - `\d` : 숫자 `[0-9]`와 동일
    - `\D` : 숫자가 아닌 문자 `[^0-9]`와 동일
    - `\s` : 공백 문자(띄어쓰기, 탭, 엔터 등 `[ \t\n\r\f\v]`)
    - `\S` : 공백이 아닌 문자
    - `\w` : 알파벳 대소문자, 숫자 `[a-zA-Z0-9_]`와 동일
    - `\W` : 알파벳 대소문자, 숫자가 아닌 문자 `[^a-zA-Z0-9_]`와 동일
2. 메타 캐릭터가 캐릭터 자체를 표현하도록 할 경우 사용
    - `\.`: 문자 `.`와 정확히 일치
    - `\\`: 백슬래시 `\` 문자 자체와 일치

In [10]:
m = re.search(r'\sand', 'apple and banana')
print(m)
m = re.search(r'\Sand', 'apple and banana')
print(m)

<re.Match object; span=(5, 9), match=' and'>
None


In [11]:
m = re.search(r'.and', 'pand')
print(m)
m = re.search(r'.and', '.and')
print(m)
m = re.search(r'\.\.\.\.and', 'ppppand')
print(m)
m = re.search(r'\.and', '.and')
print(m)

<re.Match object; span=(0, 4), match='pand'>
<re.Match object; span=(0, 4), match='.and'>
None
<re.Match object; span=(0, 4), match='.and'>


### 반복패턴

정규 표현식에서 반복 패턴은 특정 문자 또는 문자열이 몇 번 반복되는지를 지정할 때 사용된다. 이러한 반복 패턴은 주로 *, +, ? 같은 메타 문자를 통해 표현된다. 각각의 메타 문자는 다음과 같은 의미를 가진다:

- 패턴 뒤에 위치하는 *, +, ?는 해당 패턴이 반복적으로 존재하는지 검사
    - `+` -> 1번 이상의 패턴이 발생
    - `*` -> 0번 이상의 패턴이 발생
    - `?` -> 0 혹은 1번의 패턴이 발생
- 반복 패턴의 경우 greedy하게 검색함, 즉 가능한 많은 부분이 매칭되도록 함
    - e.g) a[bcd]*b 패턴을 abcdbdccb에서 검색하는경우, ab/abcb/abcbdccd 전부 가능하지만 최대한 많은 부분이 매칭된 abcbdccb가 검색된 패턴

In [13]:
re.search(r'a[bcd]*b', 'abcbdccb')

<re.Match object; span=(0, 8), match='abcbdccb'>

In [14]:
re.search(r'b\w+a', 'banana')

<re.Match object; span=(0, 6), match='banana'>

In [15]:
re.search(r'i+', 'piigiii')

<re.Match object; span=(1, 3), match='ii'>

In [16]:
m = re.search(r'pi+g', 'pg')
print(m)
m = re.search(r'pi*g', 'pg')
print(m)

None
<re.Match object; span=(0, 2), match='pg'>


In [17]:
re.search(r'https?', 'https://naver.com')

<re.Match object; span=(0, 5), match='https'>

### |

`|` 메타 문자는 or과 동일한 의미로 사용된다. `A|B`라는 정규식이 있다면 A 또는 B라는 의미가 된다.

In [20]:
m = re.search(r'apple|banana', 'I ate a banana today.')
print(m)

<re.Match object; span=(8, 14), match='banana'>


### ^*, *$

정규 표현식에서 `^`와 `$`는 각각 문자열의 시작과 끝을 나타내는 특수 문자이다.

- `^`: 문자열의 맨 앞부터 일치하는 경우 검색
- `$`: 문자열의 맨 뒤부터 일치하는 경우 검색

In [19]:
m = re.search(r'b\w+a', ' cabana')
print(m)
m = re.search(r'^b\w+a', ' cabana')
print(m)
m = re.search(r'b\w+a$', ' cabana')
print(m)
m = re.search(r'b\w+a$', ' cabanap')
print(m)

<re.Match object; span=(3, 7), match='bana'>
None
<re.Match object; span=(3, 7), match='bana'>
None


### grouping

그룹핑(grouping)은 특정 패턴을 하나의 단위로 묶기 위해 사용된다. 그룹핑은 괄호 `()`를 사용하여 수행되며, 여러 가지 용도로 활용될 수 있다. 그룹핑의 주요 사용 목적은 다음과 같다:

1. 매칭 결과 추출: 그룹핑을 사용하면 정규 표현식에 의해 매칭된 전체 문자열뿐만 아니라, 각 그룹별로 매칭된 부분을 별도로 추출할 수 있다. 이는 매칭된 전체 문자열 중에서 특정 부분만을 분리해서 사용하고자 할 때 유용하다.

2. 패턴 재사용: 그룹으로 묶인 패턴은 정규 표현식 내에서 나중에 다시 참조될 수 있다. 이를 통해 같은 패턴을 반복해서 사용할 때 코드를 간결하게 유지할 수 있다.

3. 조건부 매칭: 특정 그룹이 매칭된 후에만 다른 패턴이 매칭되도록 하는 등, 복잡한 조건을 정의하는 데에도 그룹핑이 사용될 수 있다.

- `()`을 사용하여 그루핑
- 매칭 결과를 각 그룹별로 분리 가능
- 패턴 명시 할 때, 각 그룹을 괄호() 안에 넣어 분리하여 사용

|group(인덱스)|설명|
|---|---
|group(0)|매치된 전체 문자열|
|group(1)|첫 번째 그룹에 해당되는 문자열|
|group(2)|두 번째 그룹에 해당되는 문자열|
|group(n)|n 번째 그룹에 해당되는 문자열|

In [21]:
m = re.search(r'\w+@.+', 'test@gmail.com')
print(m.group())
m = re.search(r'(\w+)@(.+)', 'test@gmail.com')
print(m.group())      # group(0)과 동일, 전체 매치
print(m.group(1))     # 1번 캡처 그룹: (\w+)
print(m.group(2))     # 2번 캡처 그룹: (.+)

test@gmail.com
test@gmail.com
test
gmail.com


그룹이 중첩된 경우는 바깥쪽부터 시작해 안쪽으로 들어갈수록 인덱스 값이 증가한다.

In [22]:
m = re.search(r'(\w+)@((\w+).+)', 'test@gmail.com')
print(m.group()) # group(0)과 동일
print(m.group(1))
print(m.group(2))
print(m.group(3))

test@gmail.com
test
gmail.com
gmail


한 번 그루핑한 문자열을 재참조(backreferences)할 수 있다

In [23]:
m = re.search(r'(\w+):\s\1@((\w+).+)', 'test: test@gmail.com')
print(m.group()) # group(0)과 동일
print(m.group(1))

test: test@gmail.com
test


`(?P<그룹명>...)`으로 그루핑한 문자열에 이름을 붙일 수 있고, `(?P=그룹이름)`으로 재참조할 수 있다.

In [24]:
m = re.search(r'(?P<id>\w+):\s(?P=id)@((\w+).+)', 'test: test@gmail.com')
print(m.group()) # group(0)과 동일
print(m.group(1))
print(m.group('id'))

test: test@gmail.com
test
test


### {}

중괄호는 정확한 반복 횟수나 반복 횟수의 범위를 지정한다. 예를 들어, a{2}는 'a'가 정확히 두 번 연속으로 나타나는 경우와 일치하고, a{2,4}는 'a'가 2번에서 4번 사이로 나타나는 경우와 일치한다.

- *, +, ?을 사용하여 반복적인 패턴을 찾는 것이 가능하나, 반복의 횟수 제한은 불가
- 패턴 뒤에 위치하는 중괄호 `{}`에 숫자를 명시하면 해당 숫자 만큼의 반복인 경우에만 매칭
- `{4}` - 4번 반복
- `{3,4}` - 3 ~ 4번 반복

In [25]:
m = re.search(r'pi+g', 'piiig')
print(m)
m = re.search(r'pi{3}g', 'piiig')
print(m)
m = re.search(r'pi{3}g', 'piiiig')
print(m)
m = re.search(r'pi{3,5}g', 'piiiig')
print(m)
m = re.search(r'pi{3,5}g', 'piiiiiig')
print(m)

<re.Match object; span=(0, 5), match='piiig'>
<re.Match object; span=(0, 5), match='piiig'>
None
<re.Match object; span=(0, 6), match='piiiig'>
None


### 미니멈 매칭(non-greedy way)

정규 표현식에서 미니멈 매칭(Non-greedy way) 또는 탐욕스럽지 않은 매칭(Lazy matching)은 가능한 가장 짧은 문자열과 일치시키려는 방식을 말한다. 기본적으로 정규 표현식은 탐욕스러운 방식(Greedy way)으로 작동하여, 가능한 한 가장 긴 문자열과 일치시키려고 한다. 하지만 때때로 더 짧은 문자열과 일치시키는 것이 필요할 때 미니멈 매칭을 사용한다.

- 기본적으로 `*`, `+`, `?`를 사용하면 greedy하게 동작함
- `*?`, `+?`을 이용하여 해당 기능을 구현
- `*?`: 0번 이상 반복되는 가장 짧은 문자열과 일치
- `+?`: 1번 이상 반복되는 가장 짧은 문자열과 일치

In [26]:
re.search(r'<.+>', '<html>haha</html>')

<re.Match object; span=(0, 17), match='<html>haha</html>'>

In [27]:
re.search(r'<.+?>', '<html>haha</html>')

<re.Match object; span=(0, 6), match='<html>'>

### {}?

- `{m,n}`의 경우 m번에서 n번 반복하나 greedy하게 동작
- `{m,n}?`로 사용하면 non-greedy하게 동작. 즉, 최소 m번만 매칭하면 만족

In [28]:
re.search(r'a{3,5}', 'aaaaa')

<re.Match object; span=(0, 5), match='aaaaa'>

In [29]:
re.search(r'a{3,5}?', 'aaaaa')

<re.Match object; span=(0, 3), match='aaa'>

## match

- search와 유사하나, 주어진 문자열의 시작부터 비교하여 패턴이 있는지 확인
- 시작부터 해당 패턴이 존재하지 않는다면 None 반환

In [30]:
re.search(r'\d\d\d', 'my number is 123')

<re.Match object; span=(13, 16), match='123'>

In [31]:
re.match(r'\d\d\d', 'my number is 123')

## findall

- search가 최초로 매칭되는 패턴만 반환한다면, findall은 매칭되는 전체의 패턴을 반환
- 매칭되는 모든 결과를 리스트 형태로 반환

In [32]:
re.findall(r'[\w-]+@[\w.]+\w+', 'test@gmail.com haha test2@gmail.com nice test')

['test@gmail.com', 'test2@gmail.com']

## finditer

finditer는 findall과 동일하지만, 그 결과로 반복 가능한 객체(iterator object)를 리턴한다. 그리고 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.

In [33]:
m = re.finditer(r'[\w-]+@[\w.]+\w+', 'test@gmail.com haha test2@gmail.com nice test')
for r in m:
    print(r)

<re.Match object; span=(0, 14), match='test@gmail.com'>
<re.Match object; span=(20, 35), match='test2@gmail.com'>


## sub

- 주어진 문자열에서 일치하는 모든 패턴을 replace
- 그 결과를 문자열로 다시 반환함
- 두번째 인자는 특정 문자열이 될 수 도 있고 함수가 될 수 도 있음
- count가 0 이니 경우는 전체를, 1이상이면 해당 숫자만큼 치환 됨

In [34]:
re.sub(r'[\w-]+@[\w.]+\w+', 'great', 'test@gmail.com haha test2@gmail.com nice test')

'great haha great nice test'

In [35]:
re.sub(r'[\w-]+@[\w.]+\w+', 'great', 'test@gmail.com haha test2@gmail.com nice test', count=1)

'great haha test2@gmail.com nice test'

## compile

- 동일한 정규표현식을 매번 다시 쓰기 번거로움을 해결
- compile로 해당 표현식을 re.RegexObject 객체로 저장하여 사용가능

In [36]:
email_reg = re.compile(r'[\w-]+@[\w.]+\w+')
email_reg.search('test@gmail.com haha test2@gmail.com nice test')

<re.Match object; span=(0, 14), match='test@gmail.com'>

### complie 옵션

정규식을 컴파일할 때 다음 옵션을 사용할 수 있다.

- DOTALL(S) - `.`(dot)이 줄바꿈 문자를 포함해 모든 문자와 매치될 수 있게 한다.
- IGNORECASE(I) - 대소문자에 관계없이 매치될 수 있게 한다.
- MULTILINE(M) - 여러 줄과 매치될 수 있게 한다. `^`, `$` 메타 문자 사용과 관계 있는 옵션이다.
- VERBOSE(X) - verbose 모드를 사용할 수 있게 한다. 정규식을 보기 편하게 만들 수 있고 주석 등을 사용할 수 있게 된다.

옵션을 사용할 때는 re.DOTALL처럼 전체 옵션 이름을 써도 되고 re.S처럼 약어를 써도 된다.

In [37]:
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [38]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [39]:
p = re.compile('[a-z]+', re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


In [40]:
p = re.compile("^python\s\w+")

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


  p = re.compile("^python\s\w+")


In [41]:
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


  p = re.compile("^python\s\w+", re.MULTILINE)


## 예제

In [45]:
# 검색할 문자열
text = "안녕하세요, 저의 이메일 주소는 seonhoyoo@korea.ac.kr입니다. 다른 이메일 주소는 senohoyoo@naver.com도 있습니다."

# 이메일 주소에 해당하는 정규 표현식 패턴
email_pattern = re.compile(r'(?P<id>\w+)@[a-zA-Z0-9_.]+')

# re.finditer을 사용하여 모든 이메일 주소 찾기
emails = email_pattern.finditer(text)

# 결과 출력
if emails:
    print("찾은 이메일 주소들:")
    for email in emails:
        print(email.group())
        print(email.group('id'))
else:
    print("이메일 주소가 없습니다.")

print(f"제 아이디는 {email.group('id')} 입니다.")

찾은 이메일 주소들:
seonhoyoo@korea.ac.kr
seonhoyoo
senohoyoo@naver.com
senohoyoo
제 아이디는 senohoyoo 입니다.


---