# Python RegEx

**학습 날짜**: 2025-11-30  
**참고 자료**: [Python RegEx - W3Schools](https://www.w3schools.com/python/python_regex.asp)


## 학습 내용

### Python RegEx

- RegEx(Regular Expression)는 검색 패턴을 형성하는 문자 시퀀스
- RegEx는 문자열에 지정된 검색 패턴이 포함되어 있는지 확인하는 데 사용할 수 있음
- 텍스트 검색 및 텍스트 교체 작업에 사용

### RegEx Module

- Python에는 정규식을 작업하는 데 사용할 수 있는 `re`라는 내장 패키지가 있음
- `re` 모듈을 import하여 사용

### RegEx Functions

- `re` 모듈은 문자열에서 일치 항목을 검색할 수 있는 함수 세트를 제공
- 주요 함수: `findall()`, `search()`, `split()`, `sub()`

### Metacharacters

- 메타문자는 특별한 의미를 가진 문자
- 주요 메타문자: `[]`, `\`, `.`, `^`, `$`, `*`, `+`, `?`, `{}`, `|`, `()`

### Flags

- 정규식을 사용할 때 패턴에 플래그를 추가할 수 있음
- 주요 플래그: `re.IGNORECASE`, `re.MULTILINE`, `re.DOTALL`, `re.ASCII`, `re.VERBOSE` 등

### Special Sequences

- 특수 시퀀스는 `\` 뒤에 나오는 특수 의미를 가진 문자
- 주요 특수 시퀀스: `\A`, `\b`, `\B`, `\d`, `\D`, `\s`, `\S`, `\w`, `\W`, `\Z`

### Sets

- 세트는 대괄호 `[]` 안에 있는 특수한 의미를 가진 문자 집합
- 예: `[arn]`, `[a-n]`, `[^arn]`, `[0-9]`, `[a-zA-Z]` 등

### Match Object

- Match Object는 검색 및 결과에 대한 정보를 포함하는 객체
- 일치 항목이 없으면 `None`이 반환됨
- 주요 메서드: `.span()`, `.string`, `.group()`


## Python 코드 실습


In [None]:
# re 모듈 import
import re


In [None]:
# RegEx 기본 - 문자열 검색
import re

txt = "The rain in Spain"
x = re.search("^The.*Spain$", txt)

if x:
    print("Match found!")
else:
    print("No match")


### RegEx Functions


In [None]:
# findall() - 모든 일치 항목 반환
import re

txt = "The rain in Spain"
x = re.findall("ai", txt)
print(x)  # ['ai', 'ai']


In [None]:
# findall() - 일치 항목이 없는 경우
import re

txt = "The rain in Spain"
x = re.findall("Portugal", txt)
print(x)  # [] (빈 리스트)


In [None]:
# search() - 첫 번째 일치 항목 반환
import re

txt = "The rain in Spain"
x = re.search("\s", txt)
print("The first white-space character is located in position:", x.start())


In [None]:
# search() - 일치 항목이 없는 경우
import re

txt = "The rain in Spain"
x = re.search("Portugal", txt)
print(x)  # None


In [None]:
# split() - 패턴으로 문자열 분할
import re

txt = "The rain in Spain"
x = re.split("\s", txt)
print(x)  # ['The', 'rain', 'in', 'Spain']


In [None]:
# split() - maxsplit 매개변수로 분할 횟수 제한
import re

txt = "The rain in Spain"
x = re.split("\s", txt, 1)  # 첫 번째 공백에서만 분할
print(x)  # ['The', 'rain in Spain']


In [None]:
# sub() - 일치 항목을 텍스트로 교체
import re

txt = "The rain in Spain"
x = re.sub("\s", "9", txt)
print(x)  # The9rain9in9Spain


In [None]:
# sub() - count 매개변수로 교체 횟수 제한
import re

txt = "The rain in Spain"
x = re.sub("\s", "9", txt, 2)  # 처음 2개만 교체
print(x)  # The9rain9in Spain


### Metacharacters


In [None]:
# Metacharacters 예제
import re

txt = "The rain in Spain"

# [] - 문자 집합
print(re.findall("[a-m]", txt))  # ['h', 'e', 'a', 'i', 'i', 'i', 'a', 'i']

# . - 임의의 문자
print(re.findall("he..o", "hello world"))  # ['hello']

# ^ - 시작
print(re.findall("^The", txt))  # ['The']

# $ - 끝
print(re.findall("Spain$", txt))  # ['Spain']

# * - 0개 이상
print(re.findall("he.*o", "hello"))  # ['hello']

# + - 1개 이상
print(re.findall("he.+o", "hello"))  # ['hello']

# ? - 0개 또는 1개
print(re.findall("he.?o", "hello"))  # ['hello']

# {} - 정확한 횟수
print(re.findall("he.{2}o", "hello"))  # ['hello']

# | - 또는
print(re.findall("falls|stays", "It falls or stays"))  # ['falls', 'stays']


### Special Sequences


In [None]:
# Special Sequences 예제
import re

txt = "The rain in Spain"

# \A - 문자열 시작
print(re.findall(r"\AThe", txt))  # ['The']

# \b - 단어 경계 (시작 또는 끝)
print(re.findall(r"\bain", txt))  # ['ain'] (rain의 끝)
print(re.findall(r"ain\b", txt))  # ['ain'] (rain의 끝)

# \B - 단어 경계가 아닌 곳
print(re.findall(r"\Bain", txt))  # ['ain'] (Spain의 중간)

# \d - 숫자
print(re.findall(r"\d", "The price is 123"))  # ['1', '2', '3']

# \D - 숫자가 아닌 문자
print(re.findall(r"\D", "123abc"))  # ['a', 'b', 'c']

# \s - 공백 문자
print(re.findall(r"\s", txt))  # [' ', ' ', ' ']

# \S - 공백이 아닌 문자
print(re.findall(r"\S", txt))  # ['T', 'h', 'e', 'r', 'a', 'i', 'n', ...]

# \w - 단어 문자 (a-z, A-Z, 0-9, _)
print(re.findall(r"\w", txt))  # ['T', 'h', 'e', 'r', 'a', 'i', 'n', ...]

# \W - 단어 문자가 아닌 문자
print(re.findall(r"\W", txt))  # [' ', ' ', ' ']

# \Z - 문자열 끝
print(re.findall(r"Spain\Z", txt))  # ['Spain']


### Sets


In [None]:
# Sets 예제
import re

txt = "The rain in Spain"

# [arn] - 지정된 문자 중 하나
print(re.findall("[arn]", txt))  # ['r', 'a', 'n', 'a', 'n', 'a', 'n']

# [a-n] - a부터 n까지의 소문자
print(re.findall("[a-n]", txt))  # ['h', 'e', 'a', 'i', 'n', 'i', 'n', 'a', 'i', 'n']

# [^arn] - a, r, n을 제외한 문자
print(re.findall("[^arn]", txt))  # ['T', 'h', 'e', ' ', 'i', ' ', 'i', 'n', ' ', 'S', 'p', 'i']

# [0123] - 지정된 숫자 중 하나
print(re.findall("[0123]", "The number is 123"))  # ['1', '2', '3']

# [0-9] - 0부터 9까지의 숫자
print(re.findall("[0-9]", "The price is 456"))  # ['4', '5', '6']

# [0-5][0-9] - 00부터 59까지의 두 자리 숫자
print(re.findall("[0-5][0-9]", "The time is 12:34"))  # ['12', '34']

# [a-zA-Z] - 모든 알파벳 (대소문자)
print(re.findall("[a-zA-Z]", txt))  # ['T', 'h', 'e', 'r', 'a', 'i', 'n', ...]

# [+] - 세트 내에서는 특수 문자도 일반 문자로 취급
print(re.findall("[+]", "2+2=4"))  # ['+']


### Flags


In [None]:
# Flags 예제
import re

txt = "The rain in Spain"

# re.IGNORECASE (re.I) - 대소문자 무시
x = re.search("SPAIN", txt, re.IGNORECASE)
print(x)  # Match found

# re.MULTILINE (re.M) - 각 줄의 시작/끝 매칭
txt2 = "The\nrain\nin\nSpain"
x = re.findall("^The", txt2, re.MULTILINE)
print(x)  # ['The']

# re.DOTALL (re.S) - .이 줄바꿈 문자도 매칭
txt3 = "The\nrain"
x = re.search("The.rain", txt3, re.DOTALL)
print(x)  # Match found

# re.VERBOSE (re.X) - 패턴에 공백과 주석 허용
pattern = re.compile(r"""
    \d{3}  # 3자리 숫자
    -      # 하이픈
    \d{2}  # 2자리 숫자
    -      # 하이픈
    \d{4}  # 4자리 숫자
""", re.VERBOSE)
print(pattern.search("123-45-6789"))  # Match found


### Match Object


In [None]:
# Match Object - span() 메서드
import re

txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)  # 대문자 S로 시작하는 단어
print(x.span())  # (12, 17) - 시작 위치와 끝 위치


In [None]:
# Match Object - string 속성
import re

txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)
print(x.string)  # The rain in Spain (원본 문자열)


In [None]:
# Match Object - group() 메서드
import re

txt = "The rain in Spain"
x = re.search(r"\bS\w+", txt)
print(x.group())  # Spain (일치한 부분)


In [None]:
# Match Object - 여러 그룹
import re

txt = "The rain in Spain"
x = re.search(r"(\w+) (\w+)", txt)  # 두 개의 단어 그룹
if x:
    print(x.group())    # The rain (전체 일치)
    print(x.group(1))   # The (첫 번째 그룹)
    print(x.group(2))   # rain (두 번째 그룹)
    print(x.groups())   # ('The', 'rain') (모든 그룹)


## Java와의 비교

### 문법 차이

**Python:**
```python
# Python RegEx
import re

# 검색
txt = "The rain in Spain"
x = re.search("ai", txt)
if x:
    print("Match found")

# 모든 일치 항목 찾기
x = re.findall("ai", txt)
print(x)  # ['ai', 'ai']

# 분할
x = re.split("\s", txt)
print(x)  # ['The', 'rain', 'in', 'Spain']

# 교체
x = re.sub("\s", "9", txt)
print(x)  # The9rain9in9Spain
```

**Java:**
```java
// Java Regular Expressions
import java.util.regex.Pattern;
import java.util.regex.Matcher;

// 패턴 컴파일
Pattern pattern = Pattern.compile("w3schools", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher("Visit W3Schools!");

// 검색
boolean matchFound = matcher.find();
if (matchFound) {
    System.out.println("Match found");
}

// 모든 일치 항목 찾기
while (matcher.find()) {
    System.out.println("Match found at: " + matcher.start());
}

// 분할
String[] parts = "The rain in Spain".split("\\s");
// ['The', 'rain', 'in', 'Spain']

// 교체
String result = "The rain in Spain".replaceAll("\\s", "9");
// The9rain9in9Spain
```

### 개념적 차이

- **모듈/패키지**:
  - Python: `re` 모듈 import. 함수 기반 접근
  - Java: `java.util.regex` 패키지. `Pattern`과 `Matcher` 클래스 사용

- **패턴 컴파일**:
  - Python: 패턴을 직접 함수에 전달. 컴파일은 선택사항 (`re.compile()`)
  - Java: `Pattern.compile()`로 패턴을 먼저 컴파일해야 함

- **검색 방식**:
  - Python: `re.search()`로 직접 검색. Match 객체 반환
  - Java: `Pattern.matcher()`로 Matcher 생성 후 `find()` 메서드 호출

- **함수 vs 클래스**:
  - Python: `re.findall()`, `re.search()`, `re.split()`, `re.sub()` 등 함수 사용
  - Java: `Pattern` 클래스의 정적 메서드 또는 `Matcher` 클래스의 메서드 사용

- **플래그**:
  - Python: `re.IGNORECASE`, `re.MULTILINE` 등 플래그를 함수 매개변수로 전달
  - Java: `Pattern.CASE_INSENSITIVE`, `Pattern.MULTILINE` 등을 `compile()` 메서드에 전달

- **메타문자**:
  - Python: 대부분 동일하지만 일부 차이 있음 (예: `\b`는 raw string `r""` 사용 권장)
  - Java: 이스케이프가 다름 (예: `\\s` 대신 `\s`)

- **Match/Matcher 객체**:
  - Python: Match 객체. `.span()`, `.group()`, `.string` 속성/메서드
  - Java: Matcher 객체. `.start()`, `.end()`, `.group()` 메서드

- **문자열 메서드**:
  - Python: `re.split()`, `re.sub()` 함수 사용
  - Java: `String.split()`, `String.replaceAll()` 메서드 사용 (내부적으로 정규식 사용)


## 정리

### 핵심 내용

1. **RegEx 기본**: 정규식은 검색 패턴을 형성하는 문자 시퀀스
2. **re 모듈**: Python의 내장 `re` 패키지로 정규식 작업
3. **findall()**: 모든 일치 항목을 리스트로 반환
4. **search()**: 첫 번째 일치 항목을 Match 객체로 반환
5. **split()**: 패턴으로 문자열을 분할하여 리스트 반환
6. **sub()**: 일치 항목을 지정된 텍스트로 교체
7. **Metacharacters**: 특별한 의미를 가진 문자 (`[]`, `.`, `^`, `$`, `*`, `+`, `?`, `{}`, `|`, `()`)
8. **Special Sequences**: `\`로 시작하는 특수 시퀀스 (`\d`, `\s`, `\w`, `\b` 등)
9. **Sets**: 대괄호 `[]` 안의 문자 집합
10. **Flags**: 검색 방식 변경 (`re.IGNORECASE`, `re.MULTILINE` 등)
11. **Match Object**: 검색 결과 정보를 포함하는 객체 (`.span()`, `.group()`, `.string`)

### 느낀 점

- 정규식이 텍스트 검색과 조작에 매우 강력함.
- `re` 모듈의 함수들이 직관적이고 사용하기 쉬움.
- Metacharacters와 Special Sequences를 이해하면 복잡한 패턴도 만들 수 있음.
- Match Object가 검색 결과에 대한 상세 정보를 제공해서 유용함.
- Flags를 사용하면 검색 방식을 유연하게 제어할 수 있음.
