파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어, ^, $, *, +, ?, {}, [], \, |, () 등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

주요 기능:
- re.match(pattern, string): 문자열 내에서 시작 부분부터 정규표현식과 일치하는지 확인
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 리스트로 반환
- re.finditer(): 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.

- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.
  
re.match() 함수의 작동원리
- 입력: re.match() 함수는 두 가지 주요 인자를 받는다:
    - pattern: 검사할 정규 표현식 패턴. 이 패턴은 문자열에서 찾고자 하는 문자의 시퀀스를 정의.
    - string: 검사할 전체 문자열입니다.
- 패턴 일치 검사: 함수는 주어진 string의 시작 부분부터 pattern에 정의된 정규 표현식과 일치하는지 확인. 여기서 "시작 부분"이 중요한데, 이는 함수가 문자열의 처음부터 패턴과 일치하는 부분을 찾는다는 것을 의미.

- 결과 반환:
    - 일치하는 경우: 패턴이 문자열의 시작 부분과 일치하는 경우, 함수는 re.Match 객체를 반환. 이 객체는 일치에 대한 상세한 정보(예: 일치하는 문자열, 시작 및 끝 인덱스, 캡처된 그룹 등)를 포함.
    - 일치하지 않는 경우: 패턴이 문자열의 시작 부분과 일치하지 않으면, 함수는 None을 반환.

In [None]:
import re

match = re.match('apple', 'apple pie')
print(match.group()) # apple : 매칭 반환
print(match.group(0)) # apple : 매칭 0번째 반환
print(match.start()) # 0 인덱스 반환
print(match.end()) # 5 인덱스 5 바로 앞까지라는 의미
print(match.span()) # (0, 5) 인덱스 0~ 5바로 앞까지라는 의미

In [None]:
# 괄호는 문자열 'apple'을 '캡처 그룹'으로 지정하는 역할
import re

p = '(apple) pie'
t = 'apple pie'

match = re.match(p, t)
print(match.group())
print(match.group(1))

apple pie
apple


In [None]:
# ()가 단순한 문자열로 매치되길 원할 때는 이스케이프 처리. 이런경우 원칙적으로 백슬래시를 두번 사용해야한다
p = '\\(apple\\) pie'
t = '(apple) pie'

match = re,match(p,t)
print(match.group())

In [None]:
# 로우스트링 r'...'을 사용하면, 백슬래시를 두번 연속해서 쓰는 것을 피할 수 있어 코드가 더 깔끔해지고 오류 발생 가능성을 낮춘다

p = r'\(apple\) pie'
t = '(apple) pie'

match = re.match(p, t)
print(match.group())

In [None]:
# 그룹

p = '(apple) (pie)'
t = 'apple pie'

match = re.match(p,t)
print(match.group())
print(match.group(0))
print(match.group(1))
print(match.group(2))

apple pie
apple pie
apple
pie


In [None]:
search = re.search('apple', 'sweet apple pie')
print(search.group())
print(search.groups())
print(search.group(0))
print(search.start())
print(search.end())
print(search.span())

apple
()
apple
6
11
(6, 11)


In [3]:
import re

# 검색하기
if re.search('apple', 'apple pie'):
  print('found an apple!')

# 모든 일치 항목 찾기
print(re.findall('a.', 'ab ac ad')) # a 다음에 어떠 문자도 상관X

# 문자열 대체하기
print(re.sub('blue', 'red', 'blue sky and blue ocean'))

# 패턴 컴파일 하기
pattern = re.compile('[a-e]')
print(pattern.findall('hello world'))

found an apple!
['ab', 'ac', 'ad']
red sky and red ocean
['e', 'd']


In [None]:
import re

pattern = r'\d+'
string = '123 apple'
match = re,match(pattern, string) # match는 re.Match의 인스턴스
if match:
  print(match.group())
  print(match.start())
  print(match.end())
  print(match.span())

#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (\n 제외)
- ^: 문자열의 시작과 일치
- $: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- []: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 공백, 문자, 구두점 등 모든 문자와 일치
- \s: 스페이스(' '), 탭('\t'), 캐리지 리턴('\r'), 뉴라인('\n'), 폼 피드('\f') 등 공백 문자와 일치
- \S: 공백이 아닌 문자, 숫자, 특수 문자 등 모든 것과 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 특수 문자, 공백 문자, 구두점 등과 일치

1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb", "a*b", "a3b"
  - 불일치 예시: "ab", "a\nb"
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world"
  - 불일치 예시: "world, Hello"
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$
  - 매칭 예시: "It's the end"
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b
  - 매칭 예시: "b", "ab", "aaab"
  - 불일치 예시: "a"
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b", "a"
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab"
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3}
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a", "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc]
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d"
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c"
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c
  - 매칭 예시: "ac", "bc"

이스케이프 문자(escape character) vs 이스케이프 시퀀스(escape sequence)

이스케이프 문자
- 이스케이프 문자는 문자열 내에서 특수한 목적을 가지고 사용되는 문자. 대표적인 예로는 백슬래시(\\)가 있다.
- 이 문자는 문자열 내에서 다른 문자와 결합하여 다양한 이스케이프 시퀀스를 형성하거나 특정 문자를 리터럴 값으로 표현하는 데 사용.

이스케이프 시퀀스
- 이스케이프 시퀀스는 이스케이프 문자에 이어지는 하나 또는 그 이상의 문자로 구성된 문자열.
- 이스케이프 시퀀스는 일반적으로 출력할 수 없는 특수한 명령이나 문자를 표현하는 데 사용. 예를 들어, \n은 새 줄(new line)을, \t는 탭(tab)을 의미. 이스케이프 시퀀스는 이스케이프 문자를 통해 특별한 처리를 필요로 하는 여러 문자를 문자열 안에 포함시킬 수 있게 한다.

In [4]:
# 이스케이프 문자 사용 예
text = 'He said. \"Hello.\"'
print(text)

# 이스케이프 시퀀스 사용 예
text = "First Line\nSecond Line"
print(text)

He said. "Hello."
First Line
Second Line


Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내에서 백슬래시(\\)와 같은 이스케이프 문자를 문자 그대로 처리하여, 특수 문자열을 이스케이프하는 복잡성을 줄인다.
- 로우스트링 사용이 필수적인 경우
  - 백슬래시 다음에 특정 문자가 오는 경우: 만약 문자열 내에 백슬래시(\) 다음에 특별한 의미를 가지는 문자(n, t, b, r, u, x 등)가 오면, 이들은 각각 줄바꿈(\n), 탭(\t), 백스페이스(\b), 캐리지 리턴(\r), 유니코드 문자(\uXXXX), 16진수 문자(\xXX) 등으로 해석. 이런 경우 로우스트링을 사용하지 않으면 문자열이 의도치 않게 변경될 수 있다.

  - 정규 표현식의 메타문자를 이스케이프 해야 할 때: 정규 표현식에서 메타문자(예: *, +, [, ], (, ), {, }, ^, $, ., |, ?, \\ 등)를 리터럴 문자로 사용하고 싶다면, 이스케이프 처리(\)를 해야 합니다. 이때 로우스트링을 사용하지 않으면, \ 자체를 이스케이프해야 하므로 코드가 복잡해질 수 있다.

In [8]:
# 일반 문자열에서의 이스케이프 시퀀스 사용
#path = "C:\\Users\\Username\\Documents"
path = "C:\Ksers\Ksername\Kocuments" # \U와 \D는 모두 해당되는 코드가 있다. \U의 경우 유니코드
print(path) # 출력 : C:\Users\Username\Documents

# 로우 스트링 사용
raw_path = r"C:\Users\Username\Documents"
print(raw_path) # 출력 : C:\Users\Username\Documents

C:\Ksers\Ksername\Kocuments
C:\Users\Username\Documents


In [12]:
import re
pattern = r'(\d{4})-(\d{2})-(\d{2})'
text = "오늘의 날짜는 2023-04-30입니다."
match = re.search(pattern,text)
print(match.groups())
print(match.group())
print(match.group(0))
print(match.group(1))

('2023', '04', '30')
2023-04-30
2023-04-30
2023


In [17]:
import re

# 정규표현식 패턴 : YYYY-MM-DD 형식의 날짜
pattern = r'(\d{4})-(\d{2})-(\d{2})'

text = "오늘의 잘짜는 2023-04-30입니다."
match = re.search(pattern, text)
if match:
  print(f"{match.group(1)}년 {match.group(2)}월 {match.group(3)}일")

2023년 04월 30일


In [40]:
# Q. 문자열 "The cat in the hat."에서 "cat"과 "hat"을 찾으세요.
import re

text = "The cat in the hat."
pattern = r"[ch]+at"
pattern = r"[ch]*at"
pattern = r".*(cat).*(hat).*"

a = re.findall(pattern, text)
a = re.search(pattern, text)
print(a)
print(a.group(2)) # 이 경우 0이면 모든 문자열이 나오는데 1이면 cat이 나온다 2는 hat
print(a.groups()) # 이 경우 cat과 hat만 출력

<re.Match object; span=(0, 19), match='The cat in the hat.'>
hat
('cat', 'hat')


In [41]:
import re

text = "bat, cat, rat, fat"
pattern = f"[bcr]at"
pattern = f"[^f]at" # 가 아닌것
matches = re.findall(pattern, text)
print(matches)

['bat', 'cat', 'rat']


In [78]:
# Q. 문자열 "123 abc 456"에서 모든 숫자를 찾으세요.

text = "123 abc 456"
pattern = r"(\d)+"
pattern = r"[\d]+" # 위와 같은 결과
pattern = r"[\d]+" # 1, 2, 3, 4, 5, 6 : [ ]안에서 사용하면 하나만 찾기 때문
pattern = r"\d+" # 1, 2번과 같은 결과 : '123', '456'
match = re.findall(pattern, text) # findall은 search나 match finditer와 다르게 리스트 객체이다.
print(match) # findall 외는 모두 re의 인스턴스이다.

['123', '456']


In [71]:
# Q. 문자열 "Hello, my name is John."에서 첫단어 "Hello"를 찾으세요.

text = "Hello, my name is John."
pattern = f"^Hello"
pattern = f"^\w+"
pattern = f"^[\S]+" # 이경우 Hello, 반환
pattern = f"^[\w+]" # 이 경우 H만 반환
pattern = f"^[\w]+" # 이렇게해야 Hello 반환
pattern = f"[\w]+"

match = re.match(pattern, text)
print(match.group())

Hello


In [74]:
# Q. "The car parked in the garage #42."에서 문장의 마지막 단어 "garage"를 찾으세요
import re
print(re.search('garage', "The car parked in the garage #42.").group())

garage


In [75]:
pattern = re.compile('[a-z]+')
p1 = pattern.search('Banker')
p2 = pattern.search('banker')
print(p1.group())
print(p2.group())

anker
banker


In [81]:
import re
regex = re.compile('[a]')
text = '12345abc'
print(re.search(regex, text).group())

regex = re.compile('[A-Z]')
text = '12345Abc'
print(re.search(regex, text).group())

a
A


In [89]:
# Q. 'KOREA 대한민국'에서 '대'만 출력하세요.

regex = re.compile('[가-힣]')

text = 'KOREA 아대한민국'
pattern = r"[아]"
print(re.search(pattern, text).group()) # 아
print(re.search(regex, text).group(0)) # 아 : 서치한 맨 첫글자
print(re.findall(regex, text)) # 아, 대, 한, 민, 국

아
아
['아', '대', '한', '민', '국']


In [90]:
# search 문자열 전체를 검색하여 정규식과 매칭되는 패턴을 찾는다.
# a{2}는 a를 2회 반복하여 사용
# Q. '122333c' 를 모두 출력하세요
import re
regex = re.compile('12{2}3{3}c')
text = '122333c'
m = regex.search(text)
m.group()

'122333c'

In [99]:
# Q. 'aaaaBBBcccDDDeee'을 모두 출력하세요.

import re
regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
regex = re.compile('[a-zA-Z]+')
regex = re.compile('[\w]+')
text = 'aaaaBBBcccDDDeee'
m = regex.search(text)
m.group()

'aaaaBBBcccDDDeee'

In [100]:
# finditer는 findall과 동일하지만 그 결과로 반복가능한 객체를 돌려준다.
# 반복가능한 객체가 포함하는 각각의 요소는 match객체이다

p = re.compile('[a-z]+')
result = p.finditer('life is too short')
for r in result:print(r.group()) # findall은 리스트 finditer는 match객체 반환

life
is
too
short


In [101]:
# Q. '1234a1234'에서 '1', '2', '3', '4'를 모두 출력하세요

import re

regex = re.compile('[1234]')
text = '1234a1234'

regex.findall(text)

['1', '2', '3', '4', '1', '2', '3', '4']