파이썬에서 정규 표현식(Regular Expressions)은 문자열을 처리할 때 매우 강력하고 유연한 도구

기본 개념:
- 패턴 매칭 (Pattern Matching): 특정 패턴이 문자열에 존재하는지 확인. 예를 들어, 이메일 주소나 전화번호와 같은 특정 형식을 갖는 문자열을 찾을 때 사용

- 메타 문자 (Meta Characters): 정규 표현식의 핵심 요소로, 특별한 의미를 가진 문자들. 예를 들어, ^, $, *, +, ?, {}, [], \, |, () 등이 있습니다.

- 리터럴 (Literal): 일반 텍스트 문자. 특별한 의미 없이 문자 그대로를 의미

re 모듈 : 파이썬은 정규표현식을 지원하기 위해 기본으로 제공
- re.compile의 결과로 리턴되는 객체를 이용하여 그 이후 작업 수행

주요 기능:
- re.match(pattern, string): 문자열 내에서 **시작 부분**부터 정규표현식과 일치하는지 확인
- re.search(pattern, string): 문자열 전체를 검색하여 주어진 정규표현식과 일치하는 첫번째 위치를 확인
- re.findall(pattern, string): 문자열 내에서 주어진 패턴과 일치하는 모든 부분을 찾아 **리스트로 반환**
- re.finditer(): 정규식과 매치되는 모든 문자열을 **반복 가능한 객체로 리턴**
- re.sub(pattern, repl, string): 문자열 내에서 주어진 패턴과 일치하는 부분을 다른 문자열로 대체 repl acement
- re.compile(pattern): 주어진 패턴을 컴파일하여 재사용 가능한 정규 표현식 객체를 생성

re.match에서 반환되는 match 객체는 클래스의 인스턴스
- Python의 re 모듈에서 match 객체는 re.Match 클래스의 인스턴스로, 정규 표현식과의 일치에 대한 정보를 담고 있다.
인스턴스라서 반환하는 것이 있으면 메소드 등을 사용할수있다.
- re.Match 클래스의 인스턴스는 다음과 같은 중요한 메소드와 속성을 가지고 있다:
  - group(): 일치하는 문자열을 반환. group(0) 또는 group()은 전체 일치를 반환
  - start() 및 end(): 일치하는 부분의 시작과 끝 인덱스를 반환.
  - span(): 일치하는 부분의 시작과 끝 인덱스를 포함하는 튜플을 반환.
  
re.match() 함수의 작동원리
- 입력: re.match() 함수는 두 가지 주요 인자를 받는다:
    - pattern: 검사할 정규 표현식 패턴. 이 패턴은 문자열에서 찾고자 하는 문자의 시퀀스를 정의.
    - string: 검사할 전체 문자열입니다.
- 패턴 일치 검사: 함수는 주어진 string의 시작 부분부터 pattern에 정의된 정규 표현식과 일치하는지 확인. 여기서 "시작 부분"이 중요한데, 이는 함수가 문자열의 처음부터 패턴과 일치하는 부분을 찾는다는 것을 의미.

- 결과 반환:
    - 일치하는 경우: 패턴이 문자열의 시작 부분과 일치하는 경우, 함수는 re.Match 객체를 반환. 이 객체는 일치에 대한 상세한 정보(예: 일치하는 문자열, 시작 및 끝 인덱스, 캡처된 그룹 등)를 포함.
    - 일치하지 않는 경우: 패턴이 문자열의 시작 부분과 일치하지 않으면, 함수는 None을 반환.

In [4]:
import re

pattern = r'\d+'
string = '123 apple'

match = re.match(pattern, string)

if match:
    print(match.group())
    print(match.start())
    print(match.end())
    print(match.span())
else:
    print('No match found')

123
0
3
(0, 3)


In [1]:
def inc():
  from IPython.display import Javascript
  display(Javascript('''
  for (rule of document.styleSheets[0].cssRules){
    if (rule.selectorText=='body') {
      rule.style.fontSize = '20px'
      break
    }
  }
  '''))

In [None]:
inc()

import re
#한개만 가능, 맨앞만 조회, 맨앞에 없으면 none나오고 에러
match = re.match('apple', 'apple pie')
print(match.group())
print(match.group(0))
print(match.start())
print(match.end())
print(match.span())

<IPython.core.display.Javascript object>

apple
apple
0
5
(0, 5)


In [None]:
inc()

#괄호는 문자열 'apple'을 캡쳐 그룹으로 지정하는 역할
p = '(apple) pie'
t = 'apple pie'
match = re.match(p, t)
print(match.group())
print(match.group(1))

<IPython.core.display.Javascript object>

apple pie
apple


In [None]:
inc()

#()가 단순한 문자열로 매치되길 원할 때는 이스케이프 처리
p = '\\(apple\\) pie'
t = '(apple) pie'

match = re.match(p,t)
print(match.group())

<IPython.core.display.Javascript object>

(apple) pie


In [None]:
inc()

#로우스트링 r'....'을 사용하면, 백슬래시를 두 번 연속해서 쓰는것을 피할 수 있어 코드가 더 깔끔해지고 오류 발생 가능이 줄어든다.
p =r'\(apple\) pie'
t = '(apple) pie'
match = re.match(p, t)
print(match.group())

<IPython.core.display.Javascript object>

(apple) pie


In [None]:
inc()

#그룹
p = '(apple) (pie)'
t = 'apple pie'

match = re.match(p,t)
print(match.group())
print(match.group(0))
print(match.group(1))
print(match.group(2))

<IPython.core.display.Javascript object>

apple pie
apple pie
apple
pie


In [None]:
inc()

search = re.search('apple', 'sweet apple pie')
print(search.group())
print(search.group(0))
print(search.start())
print(search.end())
print(search.span())

<IPython.core.display.Javascript object>

apple
apple
6
11
(6, 11)


In [3]:
inc()

import re
if re.search('apple', 'apple pie'):
    print("Found an apple!")

print(re.findall('a.', 'ab ac ad'))

print(re.sub('blue', 'red', 'blue sky and blue ocean'))

pattern = re.compile('[a-e]')
print(pattern.findall('hello world'))

<IPython.core.display.Javascript object>

Found an apple!
['ab', 'ac', 'ad']
red sky and red ocean
['e', 'd']


#### 정규 표현식의 기본 구성 요소
1. 리터럴(Literals): 일반 텍스트 문자(예: a, b, 1, 2)

2. 메타 문자(Meta Characters): 특별한 의미를 지닌 문자들
- `.`: 어떤 한 문자와 일치 (\n 제외)
- ^: 문자열의 시작과 일치
- $: 문자열의 끝과 일치
- *: 0번 이상 반복되는 경우와 일치
- +: 1번 이상 반복되는 경우와 일치
- ?: 0번 또는 1번 등장하는 경우와 일치
- {m,n}: 최소 m번, 최대 n번 반복
- [ ]: 문자 집합 중 하나와 일치 (예: [abc]는 a, b, c 중 하나와 일치)
- |: OR 조건 (예: a|b는 a 또는 b)
- (...): 그룹화

3. 특수 시퀀스(Special Sequences):
- \d: 숫자와 일치
- \D: 숫자가 아닌 공백, 문자, 구두점 등 모든 문자와 일치
- \s: 스페이스(' '), 탭('\t'), 캐리지 리턴('\r'), 뉴라인('\n'), 폼 피드('\f') 등 공백 문자와 일치
- \S: 공백이 아닌 문자, 숫자, 특수 문자 등 모든 것과 일치
- \w: 단어 문자(문자, 숫자, 밑줄)와 일치
- \W: 단어 문자가 아닌 특수 문자, 공백 문자, 구두점 등과 일치

1. `.` (마침표)
- 의미: 어떤 한 문자와 일치(줄바꿈 문자 제외)
- 예시:
  - 패턴: a.b
  - 매칭 예시: "acb", "a*b", "a3b"
  - 불일치 예시: "ab", "a\nb"
2. ^ (캐럿)
- 의미: 문자열의 시작과 일치
- 예시:
  - 패턴: ^Hello
  - 매칭 예시: "Hello world"
  - 불일치 예시: "world, Hello"
3. \$ (달러 기호)
- 의미: 문자열의 끝과 일치
- 예시:
  - 패턴: end$
  - 매칭 예시: "It's the end"
  - 불일치 예시: "end of the story"
4. \* (별표)
- 의미: 앞의 문자가 0번 이상 반복
- 예시:
  - 패턴: a*b
  - 매칭 예시: "b", "ab", "aaab"
  - 불일치 예시: "a"
5. \+ (플러스)
- 의미: 앞의 문자가 1번 이상 반복
- 예시:
  - 패턴: a+b
  - 매칭 예시: "ab", "aaab"
  - 불일치 예시: "b", "a"
6. ? (물음표)
- 의미: 앞의 문자가 0번 또는 1번 등장
- 예시:
  - 패턴: a?b
  - 매칭 예시: "ab", "b"
  - 불일치 예시: "aab"
7. {m,n} (중괄호)
- 의미: 앞의 문자가 최소 m번, 최대 n번 반복
- 예시:
  - 패턴: a{2,3}
  - 매칭 예시: "aa", "aaa"
  - 불일치 예시: "a", "aaaa"
8. `[]` (대괄호)
- 의미: 대괄호 안의 문자 중 하나와 일치
- 예시:
  - 패턴: [abc]
  - 매칭 예시: "a", "b", "c"
  - 불일치 예시: "d"
9. | (파이프)
- 의미: OR 조건
- 예시:
  - 패턴: a|b
  - 매칭 예시: "a", "b"
  - 불일치 예시: "c"
10. (...) (괄호)
- 의미: 그룹화, 캡처 그룹
- 예시:
  - 패턴: (a|b)c
  - 매칭 예시: "ac", "bc"

이스케이프 문자(escape character) vs 이스케이프 시퀀스(escape sequence)

이스케이프 문자
- 이스케이프 문자는 문자열 내에서 특수한 목적을 가지고 사용되는 문자. 대표적인 예로는 백슬래시(\\)가 있다.
- 이 문자는 문자열 내에서 다른 문자와 결합하여 다양한 이스케이프 시퀀스를 형성하거나 특정 문자를 리터럴 값으로 표현하는 데 사용.

이스케이프 시퀀스
- 이스케이프 시퀀스는 이스케이프 문자에 이어지는 하나 또는 그 이상의 문자로 구성된 문자열.
- 이스케이프 시퀀스는 일반적으로 출력할 수 없는 특수한 명령이나 문자를 표현하는 데 사용. 예를 들어, \n은 새 줄(new line)을, \t는 탭(tab)을 의미. 이스케이프 시퀀스는 이스케이프 문자를 통해 특별한 처리를 필요로 하는 여러 문자를 문자열 안에 포함시킬 수 있게 한다.

In [6]:
inc()

#이스케이프 문자 사용 예
text = 'He said, \"Hello\"'
print(text)
#이스케이프 시퀀스 사용예
text = "first line\nsecond line"
print(text)

<IPython.core.display.Javascript object>

He said, "Hello"
first line
second line


Python에서 로우 스트링
- 문자열 앞에 r이나 R을 붙여 정의
- 주요 목적은 문자열 내에서 백슬래시(\\)와 같은 이스케이프 문자를 문자 그대로 처리하여, 특수 문자열을 이스케이프하는 복잡성을 줄인다.
- 로우스트링 사용이 필수적인 경우
  - 백슬래시 다음에 특정 문자가 오는 경우: 만약 문자열 내에 백슬래시(\\) 다음에 특별한 의미를 가지는 문자(n, t, b, r, u, x 등)가 오면, 이들은 각각 줄바꿈(\n), 탭(\t), 백스페이스(\b), 캐리지 리턴(\r), 유니코드 문자(\uXXXX), 16진수 문자(\xXX) 등으로 해석. 이런 경우 로우스트링을 사용하지 않으면 문자열이 의도치 않게 변경될 수 있다.

  - 정규 표현식의 메타문자를 이스케이프 해야 할 때: 정규 표현식에서 메타문자(예: *, +, [, ], (, ), {, }, ^, $, ., |, ?, \\ 등)를 리터럴 문자로 사용하고 싶다면, 이스케이프 처리(\\)를 해야 합니다. 이때 로우스트링을 사용하지 않으면, \ 자체를 이스케이프해야 하므로 코드가 복잡해질 수 있다.

In [7]:
path = "C:\\Users\\Administrator\\Documents"
print(path)

raw_path = r"C:\Users\Administrator\Documents"
print(raw_path)

C:\Users\Administrator\Documents
C:\Users\Administrator\Documents


In [12]:
inc()

pattern = r'(\d{4})-(\d{2})-(\d{2})'
text = "오늘의 날짜는 2023-04-30 오늘의 날짜는 2023-04-30"
match = re.search(pattern, text)
print("전체날짜: ", match)
print("전체날짜: ", match.groupdict())

<IPython.core.display.Javascript object>

전체날짜:  <re.Match object; span=(8, 18), match='2023-04-30'>
전체날짜:  {}


In [9]:
import re
pattern = r'(\d{4})-(\d{2})-(\d{2})'
text = "오늘의 날짜는 2023-04-30"
match = re.search(pattern, text)
if match:
    print(match.group(1))
    print(match.group(2))
    print(match.group(3))

2023
04
30


In [15]:
inc()

import re

print(re.findall("[ch]*at", "The cat in the hat"))
print(re.findall("[ch]+at", "The cat in the hat"))
print(re.findall("[ch]at", "The cat in the hat"))
print(re.findall("[ch]+at", "The chat in the hat"))

<IPython.core.display.Javascript object>

['cat', 'hat']
['cat', 'hat']
['cat', 'hat']
['chat', 'hat']


In [16]:
inc()

import re

text = "bat, cat, rat, fat"
pattern = r"[bcr]at"
matches = re.findall(pattern, text)
print(matches)  #matches는 리스트 객체 리스트 관련 메소드만 쓸수있다. findall은 리스트 반환


<IPython.core.display.Javascript object>

['bat', 'cat', 'rat']


In [17]:
inc()

import re

text = "bat, cat, rat, fat"
pattern = r"[^f]at"  #대괄호 안에서 ^은 제외
matches = re.findall(pattern, text)
print(matches)

<IPython.core.display.Javascript object>

['bat', 'cat', 'rat']


Q.문자열 "123 abc 456"에서 모든 숫자를 찾으세요

In [18]:
inc()

import re

text =  "123 abc 456"
pattern = r"(\d{3})"  #r'\d+' 가능
matches = re.findall(pattern, text)
print(matches)

<IPython.core.display.Javascript object>

['123', '456']


In [25]:
inc()

import re

text = "Hello, my name is John."
pattern = r"^Hello"
match = re.match(pattern, text)
print(match.group())

<IPython.core.display.Javascript object>

Hello


문자열 "The car parked in the garage #42."에서 문장의 마지막 단어 "garage"를 찾으세요.


In [26]:
inc()

print(re.search('garage', "The car parked in the garage #42.").group())

<IPython.core.display.Javascript object>

garage


In [29]:
inc()

pattern = re.compile('[a-z]+')
p1 = pattern.search('Banker')
p2 = pattern.search('banker')
print(p1)
print(p2)
print(p2.group())       #search re.Match의 메소드
print(p2.span())

<IPython.core.display.Javascript object>

<re.Match object; span=(1, 6), match='anker'>
<re.Match object; span=(0, 6), match='banker'>
banker
(0, 6)


In [30]:
inc()

#Q. 'abc1234Abc'에서 'A'만 출력하세요.
import re
regex = re.compile('[A-Z]')
text = 'abc1235Abc'
m = regex.search(text)
m.group()

<IPython.core.display.Javascript object>

'A'

In [31]:
inc()

#Q. "korea 아 대한민국"에서 '아'만 출력하세요
import re
regex = re.compile('[가-힣]')
text = "korea 아 대한민국"
m = regex.search(text)
m.group()

<IPython.core.display.Javascript object>

'아'

In [32]:
inc()

#a{2}는 a를 2회 반복하여 사용
import re
regex = re.compile('12{2}3{3}c')
text = '122333c'
m = regex.search(text)
m.group()

<IPython.core.display.Javascript object>

'122333c'

In [33]:
inc()

#q.'aaaaBBBcccDDDeee' 을 모두 출력하세요
import re
regex = re.compile('a{4}B{3}c{3}D{3}e{3}')
#regex = re.compile()
text = 'aaaaBBBcccDDDeee'
m = regex.search(text)
m.group()

<IPython.core.display.Javascript object>

'aaaaBBBcccDDDeee'

In [34]:
inc()

p = re.compile('[a-z]+')
result = p.findall('life is too short')
#result = p.search('life is too short')
print(result)

<IPython.core.display.Javascript object>

['life', 'is', 'too', 'short']


In [37]:
inc()

p = re.compile('[a-z]+')
#result = p.findall('life is too short')
result = p.search('life is too short')
print(result.group())

<IPython.core.display.Javascript object>

life


In [39]:
inc()

#finditer는 findall과 동일하지만 그 결과로 반복 가능한 객체로 돌려준다
#반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다. 매치관련 메소드 다 사용가능
p = re.compile('[a-z]+')
result = p.finditer('life is too short')
for r in result: print(r.group())

<IPython.core.display.Javascript object>

life
is
too
short


In [40]:
inc()

#Q.'1234a1234'에서 1,2,3,4를 모두 출력하세요
import re
regex = re.compile('[1234]')
text = '1234a1234'
regex.findall(text)

<IPython.core.display.Javascript object>

['1', '2', '3', '4', '1', '2', '3', '4']