In [None]:
import re
# re stands for regular expressions — a mini language for describing patterns in text. It lets you search, match, extract, and validate strings based on complex rules.

text = "연락처: 010-1234-5678, 이메일: user@example.com, 다른 번호: 02-987-6543"

# 1. re.search(): 패턴과 일치하는 첫 번째 항목 찾기
phone_pattern = r'\d{3}-\d{4}-\d{4}' # \d는 숫자, {n}은 n번 반복
phone_match = re.search(phone_pattern, text)
if phone_match:
    # group()은 매치된 문자열 자체를 반환
    print(f"찾은 전화번호: {phone_match.group()}") # 010-1234-5678

# 2. re.findall(): 패턴과 일치하는 모든 항목 찾기
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
# \b: 단어 경계, [A-Za-z0-9._%+-]+: @ 앞 부분, @, [A-Za-z0-9.-]+: @ 뒤 도메인, \.[A-Z|a-z]{2,}: .com, .org 등 TLD
all_emails = re.findall(email_pattern, text)
print(f"찾은 이메일: {all_emails}") # ['user@example.com']

# 3. re.sub(): 패턴 치환
masked_text = re.sub(phone_pattern, "XXX-XXXX-XXXX", text)
# It searches for phone numbers in a block of text and replaces them with a masked version like "XXX-XXXX-XXXX".
print(f"전화번호 마스킹: {masked_text}")

# 4. 그룹화 사용 (log 파싱 예시)
log_entry = "2024-03-15 14:30:25 [INFO] 사용자 로그인 성공"
# 패턴에서 날짜, 시간, 로그 레벨, 메시지를 그룹으로 캡처
log_pattern = r'(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) \[(\w+)\] (.+)'
log_match = re.match(log_pattern, log_entry) # 문자열 시작부터 매치 확인

# | Part    | Meaning                                                    | Example                  |
# | ------- | ---------------------------------------------------------- | ------------------------ |
# | `\[`    | literal `[` (escaped, because `[` is special in regex)     | `[`                      |
# | `(\w+)` | word characters (letters, digits, underscore), one or more | `INFO`, `ERROR`, `DEBUG` |
# | `\]`    | literal `]`                                                | `]`                      |

# 5️⃣ (.+) — Capture the message

# . → any character (except newlines)

# + → one or more of the previous element

# So (.+) means “one or more of any characters.”





if log_match:
    # groups()는 모든 캡처 그룹을 튜플로 반환
    date_part, time_part, level, message = log_match.groups()
    print("\n로그 분석:")
    print(f"  날짜: {date_part}")
    print(f"  시간: {time_part}")
    print(f"  레벨: {level}")
    print(f"  메시지: {message}")


찾은 전화번호: 010-1234-5678
찾은 이메일: ['user@example.com']
전화번호 마스킹: 연락처: XXX-XXXX-XXXX, 이메일: user@example.com, 다른 번호: 02-987-6543

로그 분석:
  날짜: 2024-03-15
  시간: 14:30:25
  레벨: INFO
  메시지: 사용자 로그인 성공
