## **정규표현식(Regex)**
### **정규표현식이란?**
문자열에서 특정 패턴을 찾거나, 매칭하고, 치환하는 데 사용되는 도구.

파이썬에서는 `re` 모듈을 사용하여 정규표현식을 다룰 수 있다.

In [1]:
import re

### **파이썬에서의 정규표현식 사용**

#### **1) `re.match()`**

문자열의 시작 부분이 정규표현식과 매칭되는지 확인하는 함수.

In [2]:
pattern = r"hello"
text = "hello world!"
re.match(pattern, text)

<re.Match object; span=(0, 5), match='hello'>

#### **2) `re.search()`**

문자열 어디에서든 정규표현식과 일치하는 부분을 찾는 함수.

In [3]:
pattern = r"world"
text = "hello world!"
re.search(pattern, text)

<re.Match object; span=(6, 11), match='world'>

#### **3) `re.findall()`**

정규표현식과 일치하는 모든 부분을 리스트로 반환하는 함수.

In [4]:
pattern = r"abc"
text = "abcdefgabcdeabc"
re.findall(pattern, text)

['abc', 'abc', 'abc']

#### **4) `re.sub()`**

정규표현식과 일치하는 부분을 특정 문자열로 치환하는 함수.

In [5]:
pattern = r"x"
text = "hxexlxlxox xwxoxrxlxdx!"
replace = ""
re.sub(pattern, replace, text)

'hello world!'

#### **5) `re.split()`**

정규표현식을 기준으로 문자열을 나누는 함수.

In [6]:
pattern = r" "
text = "hello world!"
re.split(pattern, text)

['hello', 'world!']

### **정규표현식 주요 패턴**

#### **1. 수량한정자**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`*`|앞 문자가 0개 이상 반복|`ab*` -> `a`, `ab`, `abb`|
|`+`|앞 문자가 1개 이상 반복|`ab+` -> `ab`, `abb`, `abbb`|
|`?`|앞 문자가 0개 또는 1개|`ab?` -> `a`, `ab`|
|`{n}`|정확히 n번 반복|`a{3}` -> `aaa`|
|`{n,}`|n번 이상 반복|`a{2,}` -> `aa`, `aaa`, `aaaa`|
|`{n,m}`|n번 이상 m번 이하 반복|`a{2,4}` -> `aa`, `aaa`, `aaaa`|


#### **2. 메타 문자**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`.`|아무 문자 한 개|`a.b` -> `acb`, `a0b`|
|`^`|문자열의 시작|`^hello` -> `hello world!`|
|`$`|문자열의 끝|`world$` -> `hello world`|
|`\b`|문자와 공백 사이(시작, 끝, 개행, 탭, 콤마, 구두점, 대시 등)|`\bplay\b` -> `play game`|
|`\B`|`\b`가 아닌 것|`play\B` -> `playground`|
|`\d`|숫자(`[0-9]와 동일`)|`\d+` -> `123`|
|`\D`|숫자가 아닌 문자(`[^0-9]`)|`\D+` -> `abc`|
|`\s`|공백 문자(스페이스, 탭, 개행)|`\s+` -> `\t\n\r\f\v`|
|`\S`|공백이 아닌 문자|`\S+`|`\S+` -> `abc123`|
|`\w`|알파벳 + 숫자(`[a-zA-Z0-9_]`)|`\w+` -> `abc123`|
|`\W`|`\w`가 아닌 문자(`[^a-zA-Z0-9_]`)|`\W+` -> `!@#$`|
|`\n`|개행 문자|`\n`|
|`\`|이스케이프용 문자|`\?+` -> `???`|

In [7]:
# 전화번호 마스킹
pattern = r"\d"
text = "My phone number is 123-4567."
replace = "X"
re.sub(pattern, replace, text)

'My phone number is XXX-XXXX.'

#### **3. 선택 패턴**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`\|`|OR의 의미|`apple\|potato` -> `apple`, `potato`|
|`[...]`|대괄호 안의 문자들이 존재하는지 확인|`[aeiou]` -> `apple`(a, e 찾음)|
|`[^...]`|대괄호 안의 문자들이 존재하지 않는지 확인|`[^0-9]` -> `abc`, ❌`abc123`|
|`[.-.]`|두 문자 사이의 문자들이 존재하는지 확인|`[0-9]` -> `2002`, ❌`abcd`|

In [8]:
# 특정 문자들만 제외
pattern = r"[abcde]"
text = "I learned python."
replace = ""
re.sub(pattern, replace, text)

'I lrn python.'

In [9]:
# 특정 단어들만 제외
pattern = r"tomato|potato"
text = "I hate tomato and potato."
replace = "xxx"
re.sub(pattern, replace, text)

'I hate xxx and xxx.'

#### **4. 그룹**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`()`|그룹으로 묶어주는 역할|`(tom\|pot)ato` -> `tomato`, `potato`|

In [10]:
pattern = r"(01)+"
text = "01010101203231012301410"
replace = "xx"
re.sub(pattern, replace, text)

'xx203231xx23xx410'

#### **5. 긍정형 전후방탐색**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`?=`|그 이전 텍스트만 패턴 적용(전방 탐색)|`.+(?=:)` -> `http://www.xxx.com`에서 `http`|
|`?<=`|그 이후 텍스트만 패턴 적용(후방 탐색)|`(?<=\.).+` -> `image.png`에서 `png`|

In [11]:
pattern = r"(?<=\<title\>).*(?=\<\/title\>)"
text = "<head>\n\t<title>title name</title>\n</head>"
re.search(pattern, text).group()

'title name'

#### **6. 부정형 전후방탐색**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`?!`|해당 텍스트가 붙지 않은 해당 텍스트 이전 텍스트만 패턴 적용(전방 탐색)|`\d{4}(?!-)` -> `02-123-4567`에서 `4567`|
|`?<!`|해당 텍스트가 붙지 않은 해당 텍스트 이후 텍스트만 패턴 적용(후방 탐색)|`(?<!\$)\d+` -> `$30 for 100`에서 `100`|

In [12]:
pattern = r"\b(?<!\$)\d+\b"
text = "He owes me $20 but paid only 15."

re.search(pattern, text).group()

'15'

#### **7. 캡처 그룹(Backreference)**

| 패턴 | 설명 | 예제 |
|:---:|:---|:---|
|`()\1`|괄호 안의 그룹 값을 다시 사용|`(.)\1` -> `hello`, `11223344`, ❌`world`|

In [13]:
# 캡처 그룹을 활용한 같은 문자가 연속된 문자열 찾기
pattern = r"(.)\1"
text = "i like apple. my job is programmer."
for word in re.split("(\s|\.)", text):
	if re.search(pattern, word):
		print(word)

apple
programmer


### **자주 쓰이는 정규표현식**

#### **이메일 주소 검증**

In [14]:
# 시작(^)과 끝($) 및 선택 패턴([]), 수량 한정자(+) 사용
pattern = r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$"
email = "example_email@test.co.kr"
if re.match(pattern, email):
    print("올바른 이메일입니다.")
else:
    print("이메일 형식이 잘못되었습니다.")

올바른 이메일입니다.


#### **전화번호 추출**



In [15]:
# 메타 문자(\d)와 수량 한정자({}) 사용
pattern = r"\d{3}-\d{3,4}-\d{4}"
text = "Please call me at 010-1234-5678 or 031-123-4567."
re.findall(pattern, text)

['010-1234-5678', '031-123-4567']

#### **비밀번호 검증**



In [16]:
# 전후방탐색을 활용 및 메타 문자(.), 선택 패턴([]), 수량 한정자(*, {}) 사용
pattern = r"^(?!.*(.)\1{2,})(?=.*[A-Z])(?=.*[a-z])(?=.*[0-9])(?=.*[!@#$%^&*])[A-Za-z0-9!@#$%^&*]{10,}$"
passwords = [
    "Abcdef1@23",   # ✅ 유효한 비밀번호
    "abcdef1234",   # ❌ 대문자, 특수문자 없음
    "ABCDEF1234!",  # ❌ 소문자 없음
    "Abc123!!!",    # ❌ 10자 미만
    "AbcdEfgH12!",  # ✅ 유효한 비밀번호
    "A1!A1!A1!A1!", # ❌ 반복되는 패턴이 있음
]

for pw in passwords:
    if re.match(pattern, pw):
        print(f"✅ 유효한 비밀번호: {pw}")
    else:
        print(f"❌ 유효하지 않은 비밀번호: {pw}")

✅ 유효한 비밀번호: Abcdef1@23
❌ 유효하지 않은 비밀번호: abcdef1234
❌ 유효하지 않은 비밀번호: ABCDEF1234!
❌ 유효하지 않은 비밀번호: Abc123!!!
✅ 유효한 비밀번호: AbcdEfgH12!
❌ 유효하지 않은 비밀번호: A1!A1!A1!A1!


#### **URL 추출**

In [17]:
pattern = r"^(https?:\/\/)?([\w\-]+\.)+[\w\-]+(\/[\w\-./?%&=]*)?$"
urls = [
    "https://www.example.com",
    "http://example.net",
    "www.google.com",
    "ftp://invalid.com",
    "https://sub.domain.co.kr/path/page.html?query=123",
    "http://192.168.1.1",
    "not_a_url",
    "https://valid-url.com/path/to/page"
]

# URL 검증
for url in urls:
    if re.match(pattern, url):
        print(f"✅ Valid URL: {url}")
    else:
        print(f"❌ Invalid URL: {url}")

✅ Valid URL: https://www.example.com
✅ Valid URL: http://example.net
✅ Valid URL: www.google.com
❌ Invalid URL: ftp://invalid.com
✅ Valid URL: https://sub.domain.co.kr/path/page.html?query=123
✅ Valid URL: http://192.168.1.1
❌ Invalid URL: not_a_url
✅ Valid URL: https://valid-url.com/path/to/page
