# Python RegEx (정규 표현식)

## RegEx란?

**RegEx (Regular Expression)**는 **검색 패턴**을 형성하는 일련의 문자 시퀀스입니다.

* RegEx는 문자열이 특정 검색 패턴을 포함하는지 **확인**하는 데 사용될 수 있습니다.

## RegEx Module (`re` 모듈)

파이썬은 정규 표현식을 다루는 **`re`**라는 내장 패키지를 가지고 있습니다. 이를 사용하려면 반드시 모듈을 `import`해야 합니다.

In [1]:
# 예제 1: re 모듈 가져오기
import re

# 예제 2: 정규 표현식 기본 검색
# 문자열이 "The"로 시작하고 ("^The") "Spain"으로 끝나는지 (".*Spain$") 검색합니다.
txt = "The rain in Spain"
# re.search()는 Match Object를 반환합니다.
x = re.search("^The.*Spain$", txt)

if x:
  print("검색 패턴과 일치합니다.")
else:
  print("검색 패턴과 일치하지 않습니다.")

검색 패턴과 일치합니다.


## RegEx Functions (주요 `re` 함수)

`re` 모듈은 문자열에서 일치하는 패턴을 검색하는 다양한 함수를 제공합니다. 
| 함수 (Function) | 설명 (Description) |
| :--- | :--- |
| **`findall`** | 일치하는 모든 항목을 포함하는 리스트를 반환합니다. |
| **`search`** | 문자열 내에서 일치하는 부분이 있으면 **Match Object**를 반환합니다. |
| **`split`** | 일치하는 항목을 기준으로 문자열을 분할한 리스트를 반환합니다. |
| **`sub`** | 일치하는 하나 이상의 항목을 문자열로 대체합니다. |

---

### 1. `findall()` 함수

**`findall()`** 함수는 일치하는 모든 항목을 **리스트**로 반환합니다. 일치하는 항목이 발견된 순서대로 리스트에 포함됩니다. 일치하는 항목이 없으면 빈 리스트(`[]`)를 반환합니다.

In [2]:
# 예제 3: findall() 사용 - 모든 "ai" 패턴 찾기
import re

txt = "The rain in Spain"
x = re.findall("ai", txt)
print(f"찾은 모든 패턴: {x}")

# 예제 4: findall() 사용 - 일치하는 항목이 없을 때
x = re.findall("Portugal", txt)
print(f"찾은 모든 패턴 (일치 없음): {x}")

찾은 모든 패턴: ['ai', 'ai']
찾은 모든 패턴 (일치 없음): []


### 2. `search()` 함수

**`search()`** 함수는 문자열에서 일치하는 패턴을 검색하고, 일치하는 항목이 있으면 **Match Object**를 반환합니다.

* 일치하는 항목이 여러 개 있더라도 **첫 번째 일치 항목**만 반환됩니다.

In [7]:
# 예제 5: search() 사용 - 첫 번째 공백 문자 찾기
import re

txt = "The rain in Spain"
# \s는 공백 문자(Special Sequence)를 나타냅니다.
x = re.search(r"\s", txt)

# Match Object의 start() 메서드를 사용하여 위치를 출력합니다.
print("첫 번째 공백 문자의 위치:", x.start())

# 예제 6: search() 사용 - 일치하는 항목이 없을 때
x = re.search("Portugal", txt)
# 일치하는 항목이 없으면 None 값이 반환됩니다.
print(f"일치하는 항목 없음: {x}")

첫 번째 공백 문자의 위치: 3
일치하는 항목 없음: None


### 3. `split()` 함수

**`split()`** 함수는 일치하는 항목을 기준으로 문자열이 분할된 **리스트**를 반환합니다.

`maxsplit` 매개변수를 지정하여 분할할 횟수를 **제어**할 수 있습니다.

In [9]:
# 예제 7: split() 사용 - 모든 공백 문자로 분할
import re

txt = "The rain in Spain"
x = re.split(r"\s", txt)
print(f"모든 공백으로 분할: {x}")

# 예제 8: split() 사용 - maxsplit 매개변수
# maxsplit=1: 첫 번째 일치 항목에서만 문자열을 분할합니다.
x = re.split(r"\s", txt, 1)
print(f"1번만 분할: {x}")

모든 공백으로 분할: ['The', 'rain', 'in', 'Spain']
1번만 분할: ['The', 'rain in Spain']


  x = re.split(r"\s", txt, 1)


### 4. `sub()` 함수

**`sub()`** 함수는 일치하는 항목을 사용자가 선택한 텍스트로 **대체**합니다.

`count` 매개변수를 지정하여 대체할 횟수를 **제어**할 수 있습니다.

In [10]:
# 예제 9: sub() 사용 - 모든 공백 문자를 '9'로 대체
import re

txt = "The rain in Spain"
x = re.sub(r"\s", "9", txt)
print(f"모든 대체 결과: {x}")

# 예제 10: sub() 사용 - count 매개변수
# count=2: 첫 2개의 일치 항목만 대체합니다.
x = re.sub(r"\s", "9", txt, 2)
print(f"2번만 대체: {x}")

모든 대체 결과: The9rain9in9Spain
2번만 대체: The9rain9in Spain


  x = re.sub(r"\s", "9", txt, 2)


## Match Object (매치 객체)

**Match Object**는 검색 및 결과에 대한 정보를 포함하는 객체입니다.

> **참고:** 일치하는 항목이 없으면 Match Object 대신 **`None`** 값이 반환됩니다.

### Match Object의 속성과 메서드

| 속성/메서드 | 설명 (Description) |
| :--- | :--- |
| **`.span()`** | 일치 항목의 **시작 및 끝 위치**를 포함하는 튜플을 반환 |
| **`.string`** | 함수에 전달된 **원본 문자열**을 반환 |
| **`.group()`** | 문자열에서 **일치하는 부분**을 반환 |

In [6]:
# 예제 11: Match Object 반환
import re

txt = "The rain in Spain"
x = re.search("ai", txt)
print(f"Match Object 출력: {x}") # 객체 자체를 출력

# 예제 12: .span() 사용
# \bS\w+는 대문자 'S'로 시작하는 단어를 찾습니다.
x = re.search(r"\bS\w+", txt)
print(f"시작 및 끝 위치 (.span()): {x.span()}")

# 예제 13: .string 사용
x = re.search(r"\bS\w+", txt)
print(f"원본 문자열 (.string): {x.string}")

# 예제 14: .group() 사용
x = re.search(r"\bS\w+", txt)
print(f"일치하는 부분 (.group()): {x.group()}")

Match Object 출력: <re.Match object; span=(5, 7), match='ai'>
시작 및 끝 위치 (.span()): (12, 17)
원본 문자열 (.string): The rain in Spain
일치하는 부분 (.group()): Spain


---
## RegEx 구성 요소 (참고 자료)

정규 표현식 패턴을 구성하는 주요 요소들입니다.

### 1. Metacharacters (메타문자)

특수한 의미를 가진 문자들입니다. 
| 문자 (Character) | 설명 (Description) | 예시 (Example) |
| :--- | :--- | :--- |
| **`[]`** | 문자 집합 (Set of characters) | `[a-m]` |
| **`\`** | 특수 시퀀스 신호 또는 특수 문자 이스케이프 | `\d` |
| **`.`** | 모든 문자 (줄바꿈 문자 제외) | `he.o` |
| **`^`** | 문자열의 시작 | `^hello` |
| **`$`** | 문자열의 끝 | `planet$` |
| **`*`** | 0회 이상 반복 | `he.*o` |
| **`+`** | 1회 이상 반복 | `he.+o` |
| **`?`** | 0회 또는 1회 반복 | `he.?o` |
| **`{}`** | 정확히 지정된 횟수만큼 반복 | `he.{2}o` |
| **`|`** | A 또는 B | `falls|stays` |
| **`()`** | 캡처 및 그룹화 | `(falls|stays)` |

### 2. Special Sequences (특수 시퀀스)

`\` 문자가 뒤따르는 문자로, 특수한 의미를 갖습니다. 
| 문자 (Character) | 설명 (Description) | 예시 (Example) |
| :--- | :--- | :--- |
| **`\A`** | 지정된 문자가 **문자열의 시작**에 일치 | `\AThe` |
| **`\b`** | 지정된 문자가 단어의 시작 또는 끝에 일치 | `r"\bain\b"` |
| **`\B`** | 지정된 문자가 단어의 시작 또는 끝이 **아닌** 곳에 일치 | `r"\Bain\B"` |
| **`\d`** | 문자열에 **숫자 (0-9)**가 포함된 곳에 일치 | `\d` |
| **`\D`** | 문자열에 **숫자가 아닌 문자**가 포함된 곳에 일치 | `\D` |
| **`\s`** | 문자열에 **공백 문자**가 포함된 곳에 일치 | `\s` |
| **`\S`** | 문자열에 **공백 문자가 아닌 문자**가 포함된 곳에 일치 | `\S` |
| **`\w`** | 문자열에 **단어 문자** (a-z, A-Z, 0-9, \_)가 포함된 곳에 일치 | `\w` |
| **`\W`** | 문자열에 **단어 문자가 아닌 문자**가 포함된 곳에 일치 | `\W` |
| **`\Z`** | 지정된 문자가 **문자열의 끝**에 일치 | `Spain\Z` |

### 3. Sets (집합)

대괄호 `[]` 안에 있는 문자 집합으로, 특수한 의미를 가집니다. 
| 집합 (Set) | 설명 (Description) |
| :--- | :--- |
| **`[arn]`** | 지정된 문자 (`a`, `r`, 또는 `n`) 중 하나가 있는 곳에 일치 |
| **`[a-n]`** | `a`와 `n` 사이의 모든 소문자 문자에 일치 |
| **`[^arn]`** | `a`, `r`, `n` **제외**한 모든 문자에 일치 |
| **`[0123]`** | 지정된 숫자 (`0`, `1`, `2`, 또는 `3`) 중 하나에 일치 |
| **`[0-9]`** | `0`에서 `9` 사이의 모든 숫자에 일치 |
| **`[0-5][0-9]`** | `00`에서 `59` 사이의 두 자리 숫자에 일치 |
| **`[a-zA-Z]`** | 알파벳 `a`에서 `z` (소문자 또는 대문자) 사이의 모든 문자에 일치 |
| **`[+]`** | 집합 내에서 `+`, `*`, `.` 등의 메타문자는 특수 의미를 잃으며, `[+]`는 문자열의 `+` 문자에 일치 |

### 4. Flags (플래그)

정규 표현식을 사용할 때 패턴에 플래그를 추가할 수 있습니다. 
| 플래그 (Flag) | 단축 표기 (Shorthand) | 설명 (Description) |
| :--- | :--- | :--- |
| **`re.ASCII`** | `re.A` | ASCII 문자만 반환 |
| **`re.DEBUG`** | | 디버그 정보 반환 |
| **`re.DOTALL`** | `re.S` | 메타문자 `.`이 줄바꿈 문자까지 모두 일치하도록 함 |
| **`re.IGNORECASE`** | `re.I` | 대소문자를 구분하지 않고 일치시킴 |
| **`re.MULTILINE`** | `re.M` | `^` 및 `$`가 각 줄의 시작/끝에서 일치하도록 함 |
| **`re.NOFLAG`** | | 패턴에 플래그가 설정되지 않음을 지정 |
| **`re.UNICODE`** | `re.U` | 유니코드 일치를 반환 (Python 3의 기본값) |
| **`re.VERBOSE`** | `re.X` | 패턴 내에 공백 및 주석을 허용하여 가독성을 높임 |