### 【 정규식 】<hr>
- 자주 쓰는 패턴
    * \d / \D : 숫자 / 숫자 아님
    * \w / \W : 워드 문자 / 워드 문자 아님
    * \s / \S : 공백 / 공백 아님
    * . : 개행 제외 아무 문자 한 개
    * [abc] : a 또는 b 또는 c
    * [^abc] : a,b,c 제외
    * ^, $ : 문자열 시작, 끝
    * *, +, ?, {m,n} : 반복 횟수

- 자주 쓰는 함수
    * re.search(pattern, string) : 하나 찾기
    * re.findall(pattern, string) : 전부 찾기
    * re.sub(pattern, repl, string) : 치환
    * re.split(pattern, string) : 분리
    * re.fullmatch(pattern, string) : 문자열 전체가 패턴과 맞는지

[1] 모듈 로딩 <hr>

In [1]:
import re 

[2] 예시 - search() <hr>

In [None]:
## ================================================================
## search(패턴, 텍스트) :  TEXT에 해당 단어 존재 위치 찾기
## ================================================================

## 텍스트
text = "I love python programming."

## "python" 이라는 단어가 들어 있는지 찾기
m = re.search("python", text)

print(m)                    # <re.Match object ...> 또는 None
print(m.group())            # "python"
print(m.start(), m.end())   # 시작/끝 인덱스

<re.Match object; span=(7, 13), match='python'>
python
7 13


In [None]:
## ================================================================
## findall(패턴, 텍스트) :  TEXT에서 특정 패턴에 해댱하는 데이터 모두 추출
##                         숫자 집합 찾기
## -> 숫자/문자 패턴 – \d, \w, \s 등
## -> 자주 쓰는 특수 패턴들:
##      --- \d : 숫자(0–9)
##      --- \w : 워드 문자(알파벳, 숫자, _)
##      --- \s : 공백(스페이스, 탭, 줄바꿈 등)
##      --- 대문자는 반대 의미 (\D, \W, \S)
## ================================================================

## 텍스트
text = "ID: user123, Age: 45, Score: 98"

## 패턴
pattern1 = "\\d+"   # 백슬래시를 두 번 써야 함
pattern2 = r"\d+"   # raw string: 한 번만 써도 그대로 전달됨

print(pattern1, pattern2)

# 1) 숫자만 모두 찾기
numbers = re.findall(r"\d+", text)
print(numbers)   # ['123', '45', '98']

# 2) ID 형태(문자+숫자)를 찾아보기
ids = re.findall(r"user\d+", text)
print(ids)       # ['user123']

\d+ \d+


In [5]:
## ================================================================
## findall(패턴, 텍스트) : TEXT에서 특정 패턴에 해댱하는 데이터 모두 추출
##                       문자 집합 찾기
## -> [ ] 사용
## -> [abc] : a 또는 b 또는 c 중 하나
## -> [0-9] : 숫자 하나
## -> [A-Za-z] : 알파벳 하나
## ================================================================
## 텍스트
text = "cat, cot, cut, c@t, c1t"

# 1) 모음 a, o, u 인 경우만 찾기
words = re.findall(r"c[ao]t", text)
print(words)   # ['cat', 'cot']

# 2) 알파벳 소문자 하나만 허용
words2 = re.findall(r"c[a-z]t", text)
print(words2)  # ['cat', 'cot', 'cut']

['cat', 'cot']
['cat', 'cot', 'cut']


In [6]:
## ================================================================
## findall(패턴, 텍스트) : TEXT에서 특정 패턴에 해댱하는 데이터 모두 추출
##                       문자 집합 찾기
## -> 반복 개수 – *, +, ?, {m,n}
## --- * : 0회 이상 반복
## --- + : 1회 이상 반복
## --- ? : 0 또는 1회
## --- {m} : 정확히 m회
## --- {m,} : m회 이상
## --- {m,n} : m회 이상 n회 이하
## ================================================================
## 텍스트
text = "a, ab, abb, abbb, abbbb"

# 1) b가 1번 이상 나오는 패턴
print(re.findall(r"ab+", text))      # ['ab', 'abb', 'abbb', 'abbbb']

# 2) b가 0번 이상 나오는 패턴
print(re.findall(r"ab*", text))      # ['a', 'ab', 'abb', 'abbb', 'abbbb']

# 3) b가 정확히 2번
print(re.findall(r"ab{2}", text))    # ['abb']

# 4) b가 2~3번
print(re.findall(r"ab{2,3}", text))  # ['abb', 'abbb']



['ab', 'abb', 'abbb', 'abbbb']
['a', 'ab', 'abb', 'abbb', 'abbbb']
['abb', 'abb', 'abb']
['abb', 'abbb', 'abbb']


In [None]:
## ================================================================
## search(패턴, 텍스트) : TEXT에서 특정 패턴에 해댱하는 데이터 모두 추출
##                       문자 집합 찾기
## -> 문자열의 시작/끝 – ^, $
## --- ^ : 문자열 시작
## --- $ : 문자열 끝
## ================================================================
## 텍스트
lines = [
    "Error: file not found",
    "Warning: low battery",
    "Error: access denied",
    "Info: update complete"
]

# "Error"로 시작하는 줄만 찾기
for line in lines:
    if re.search(r"^Error", line):
        print("에러 라인:", line)

# "complete"로 끝나는 줄만 찾기
for line in lines:
    if re.search(r"complete$", line):
        print("완료 라인:", line)

에러 라인: Error: file not found
에러 라인: Error: access denied
완료 라인: Info: update complete


In [None]:
## ================================================================
## 괄호 ( ) 안에 있는 부분을 그룹으로 캡처
## -> group(0) : 전체 매칭 문자열
## -> group(1) : 첫번째 
## -> group(2) : 두번째 
## ================================================================
## 텍스트
text = "Name: Kim, Age: 30"

m = re.search(r"Name:\s*(\w+),\s*Age:\s*(\d+)", text)
if m:
    name = m.group(1)  # 첫 번째 괄호
    age  = m.group(2)  # 두 번째 괄호
    print("이름:", name)
    print("나이:", age)

이름: Kim
나이: 30


In [9]:
## ================================================================
## 이름있는 그룹 갭쳐 (?P<name>...)
## 가독성이 좋아지고, 그룹 순서가 바뀌어도 이름으로 접근할 수 있음
## ================================================================
## 텍스트
text = "Name: Lee, Age: 28"

m = re.search(r"Name:\s*(?P<name>\w+),\s*Age:\s*(?P<age>\d+)", text)
if m:
    print("이름:", m.group("name"))
    print("나이:", m.group("age"))

이름: Lee
나이: 28


In [13]:
## ================================================================
## re.sub(패턴, 치환문자열, 텍스트 ) : 패턴에 해당하는 부분을 문자열 치환 
## ================================================================
## 텍스트
text = "오늘 점수는 80점이고, 어제 점수는 75점이었다."

# 숫자 부분을 모두 "XX" 로 바꾸기
result = re.sub(r"\d+", "XX", text)
print(result)  # 오늘 점수는 XX점이고, 어제 점수는 XX점이었다.

오늘 점수는 XX점이고, 어제 점수는 XX점이었다.


In [12]:
## ================================================================
## re.sub(패턴, 치환문자열, 텍스트 ) : 패턴에 해당하는 부분을 문자열 치환 
## ================================================================
## 텍스트
text = "2025-11-24, 2024-01-01"

# YYYY-MM-DD → DD/MM/YYYY 형식으로 바꾸기
result = re.sub( r"(\d{4})-(\d{2})-(\d{2})", r"\3/\2/\1", text )

print(result)  # 24/11/2025, 01/01/2024

24/11/2025, 01/01/2024


In [10]:
## ================================================================
## re.split(패턴, 치환문자열, 텍스트 ) : 정규식을 이용한 분리
## ================================================================
## 텍스트
text = "apple, banana; orange | kiwi"

# 콤마, 세미콜론, | 를 기준으로 자르기
fruits = re.split(r"[,\;|]\s*", text)
print(fruits)  # ['apple', 'banana', 'orange', 'kiwi']

['apple', 'banana', 'orange ', 'kiwi']


In [14]:
## ================================================================
## re.compile(패턴 ) : 패턴을 미리 컴파일해서 재사용
##                    자주 사용하는 패턴을 재사용하면 좋음
## ================================================================
## 텍스트
text_list = [
    "user01@example.com",
    "hello@world.net",
    "not-an-email",
]

# 이메일 간단 예제 패턴
email_pattern = re.compile(r"[\w\.]+@[\w\.]+\.\w+")

for t in text_list:
    if email_pattern.fullmatch(t):   # 전체가 이메일 형식인지 검사
        print("이메일 맞음:", t)
    else:
        print("이메일 아님:", t)


이메일 맞음: user01@example.com
이메일 맞음: hello@world.net
이메일 아님: not-an-email
