# 🟩 파이썬 정규표현식 (Regular Expressions)

## 정규표현식이란?
정규표현식은 문자열에서 특정 패턴을 검색, 추출, 치환하기 위한 도구입니다. 파이썬에서는 `re`(import re) 모듈을 사용하여 정규표현식을 처리합니다.

---

## 🟢 정규표현식 기본 사용법
1. **`import re`**: `re` 모듈을 가져옵니다.

<br>

2. **정규표현식 객체 생성**: 
   - 정규표현식 패턴을 컴파일하여 재사용 가능한 객체로 만듭니다. 동일한 패턴을 여러 번 사용할 때 성능을 개선할 수 있습니다.

      ```python
      over_one_num = re.compile(r'\d+')  # 1개 이상의 숫자에 매칭
      ```
   - 위 over_one_num 이라는 변수를 가져다가 사용할 수 있게되는 것입니다.



---

## 🟢 주요 패턴 메타문자

| 메타문자 | 의미 | 예제 | 설명 |
|----------|------|------|-------|
| `.`      | 임의의 한 문자 | `a.b` | a와 b 사이에 한 문자 |
| `^`      | 문자열의 시작 | `^a`  | 문자열이 a로 시작 |
| `$`      | 문자열의 끝 | `b$`  | 문자열이 b로 끝남 |
| `*`      | 0개 이상의 반복 | `ab*` | a 뒤에 0개 이상의 b |
| `+`      | 1개 이상의 반복 | `ab+` | a 뒤에 1개 이상의 b |
| `?`      | 0개 또는 1개 반복 | `ab?` | a 뒤에 b가 0개 또는 1개 |
| `{n}`    | 정확히 n개 반복 | `a{3}` | a가 정확히 3번 반복 |
| `{n,}`   | 최소 n개 반복 | `a{2,}` | a가 최소 2번 반복 |
| `{n,m}`  | n에서 m개 반복 | `a{2,4}` | a가 2~4번 반복 |
| `()`     | 그룹으로 묶음 | `(abc)` |  |
| `[]`     | 문자 클래스 | `[abc]` | a, b, c 중 하나 / 이어지는 패턴으로 보지 않고, 각자 하나씩으로 봄 / and조건 느낌 있음 |
| `|`      | OR 조건 | `a|b` | a 또는 b |
| `\`     | 이스케이프 | `\.` | . 문자 자체 |



---

## 🟢 문자 클래스

### 기본 클래스

문자 클래스는 특정 문자 집합을 정의하며, 대괄호(`[]`)로 묶어 표현합니다.

| 패턴          | 설명                         | 예제          | 일치 항목     |
| ------------- | ---------------------------- | ------------- | ------------- |
| `[abc]`       | a, b, c 중 하나와 매칭       | `[abc]`       | `a`, `b`, `c` |
| `[^abc]`      | a, b, c를 제외한 문자와 매칭 | `[^abc]`      | `d`, `e`, ... |
| `[a-z]`       | 소문자 a부터 z까지           | `[a-z]`       | `a`, `b`, ... |
| `[A-Z]`       | 대문자 A부터 Z까지           | `[A-Z]`       | `A`, `B`, ... |
| `[0-9]`       | 숫자 0부터 9까지             | `[0-9]`       | `0`, `1`, ... |
| `[a-zA-Z]`    | 알파벳 대소문자              | `[a-zA-Z]`    | `a`, `B`, ... |
| `[0-9a-fA-F]` | 16진수 문자                  | `[0-9a-fA-F]` | `1`, `A`, ... |

| 패턴               | 설명                       | 예시 문자         |
|--------------------|----------------------------|-------------------|
| `[가-힣]`           | 완성형 한글만               | 가, 나, 하 등      |
| `[ㄱ-ㅎ]`           | 자음만                     | ㄱ, ㄴ, ㅁ 등      |
| `[ㅏ-ㅣ]`           | 모음만                     | ㅏ, ㅗ, ㅣ 등      |
| `[가-힣ㄱ-ㅎㅏ-ㅣ]` | 완성형 + 자음 + 모음 모두   | 가, ㄱ, ㅣ 등      |


### 단축 클래스

| 표현      | 의미                     | 예시 값 |
|-----------|--------------------------|---------|
| `\d`     | `[0-9]` 숫자             | `"1", "3"` |
| `\D`     | `[^0-9]` 비숫자          | `"A", "*"` |
| `\w`     | `[a-zA-Z0-9_]` 알파벳/숫자/언더스코어 | `"a", "1"` |
| `\W`     | `[^a-zA-Z0-9_]` 특수문자 | `"@", "!"` |
| `\s`     | `[ \t\n\r\f\v]` 공백문자 | 공백, 탭 |
| `\S`     | `[^ \t\n\r\f\v]` 비공백문자 | `"a", "1"` |



---

## 🟢 주요 함수 (문자열) 종류

**패턴 매칭 함수**: 문자열에서 정규표현식을 활용.
   - `re.match()`: 문자열의 시작에서 패턴 일치 여부 확인.
   - `re.search()`: 문자열 전체에서 첫 번째 패턴 일치 검색.
   - `re.findall()`: 문자열에서 모든 패턴 일치 항목 반환.
   - `re.finditer()`: 모든 패턴 일치를 반복 가능한 객체로 반환.
   - `re.sub()`: 패턴을 치환. / 특정 패턴의 문자열을 다른 문자열로 바꿈.

## 🟢 주요 함수 (문자열) 사용 예제

### 1. `re.match(pattern, string)`
- 문자열의 **시작**에서 패턴을 찾습니다.
- 반환값: 일치하는 `Match` 객체 또는 `None`.

```python
import re
result = re.match(r"^Hello", "Hello, world!")
print(result)  # <re.Match object; span=(0, 5), match='Hello'>
```

### 2. `re.search(pattern, string)`
- 문자열 **전체**에서 첫 번째 패턴을 찾습니다.
- 반환값: 일치하는 `Match` 객체 또는 `None`.

```python
import re
result = re.search(r"world", "Hello, world!")
print(result)  # <re.Match object; span=(7, 12), match='world'>
```

### 3. `re.findall(pattern, string)`
- 문자열에서 모든 패턴을 리스트로 반환.

```python
import re
result = re.findall(r"\d+", "There are 24 apples and 42 bananas.")
print(result)  # ['24', '42']
```

### 4. `re.sub(pattern, repl, string)`
- 패턴을 `repl`로 치환한 결과 문자열 반환.

```python
import re
result = re.sub(r"apples", "oranges", "I have apples.")
print(result)  # I have oranges.
```

### 5. `re.compile(pattern)`
- 패턴을 컴파일하여 반복 사용 성능 향상.

```python
import re
pattern = re.compile(r"\d+")
result = pattern.findall("123 and 456")
print(result)  # ['123', '456']
```



---

## 🟢 유용한 정규표현식 예제

1. **이메일 검증**: `r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"`

<br>

2. **전화번호 검증**: `r"^\d{3}-\d{3,4}-\d{4}$"`

<br>

3. **URL 검증**: `r"https?://[\w.-]+"`

<br>

4. **숫자 추출**: `r"\d+"`

<br>

5. **특정 단어 찾기**: `r"\bword\b"`



---

## 🟢 플래그
정규표현식에서 플래그를 사용해 추가 옵션을 설정할 수 있습니다.

| 플래그        | 설명                              |
|---------------|-----------------------------------|
| `re.IGNORECASE` (`re.I`) | 대소문자 무시                  |
| `re.MULTILINE` (`re.M`)  | 여러 줄에서 `^`, `$` 적용      |
| `re.DOTALL` (`re.S`)     | `.`이 줄바꿈 문자와도 매칭     |
| `re.VERBOSE` (`re.X`)    | 가독성을 위한 공백, 주석 허용 |

```python
import re

text = "Hello World\nhello world"

# --------------------------------------
# IGNORECASE (대소문자 무시)
pattern = re.compile(r"hello", re.IGNORECASE)
# or pattern = re.compile(r"hello", flags=re.IGNORECASE)

matches_i = re.findall(r"hello", text, flags=re.I)
print(f"IGNORECASE: {matches_i}") # ['Hello', 'hello']

# --------------------------------------
# MULTILINE (^, $가 각 줄에 적용)
matches_m = re.findall(r"^\w+", text, flags=re.M)
print(f"MULTILINE (^): {matches_m}") # ['Hello

# --------------------------------------
result = pattern.match("Hello")
print(result)  # <re.Match object; span=(0, 5), match='Hello'>
```

---

## 🟢 Lookahead와 Lookbehind

긍정형 Lookahead: (?=...)  
부정형 Lookahead: (?!...)  
긍정형 Lookbehind: (?<=...)  
부정형 Lookbehind: (?<!...)  

```python
result = re.search(r'\d+(?=px)', '10px 20em')  # '10'
```