#### 정규표현식에서 사용되는 일부 메타문자들
- . : 줄바꿈 문자(\n)를 제외한 모든 문자와 매칭됩니다.
- ^ : 문자열의 시작과 매칭됩니다.
- $ : 문자열의 끝과 매칭됩니다.
- \* : 앞의 문자가 0번 이상 반복되는 패턴과 매칭됩니다.
- \+ : 앞의 문자가 1번 이상 반복되는 패턴과 매칭됩니다.
- ? : 앞의 문자가 0번 또는 1번 나타나는 패턴과 매칭됩니다.
- [] : 대괄호 안에 나열된 문자 중 하나와 매칭됩니다.
- [a-z] : 알파벳 소문자 중 하나와 매칭됩니다.
- [A-Z] : 알파벳 대문자 중 하나와 매칭됩니다.
- [0-9] : 숫자 중 하나와 매칭됩니다.
- | : OR 연산자 역할을 하며, 왼쪽 또는 오른쪽 패턴 중 하나와 매칭됩니다.
- () : 그룹핑을 위해 사용되며, 매칭 결과에 대한 그룹을 생성합니다.
- {} : 중괄호 안에 숫자가 들어가며, 앞의 문자나 패턴이 해당 숫자만큼 나타나는 패턴과 매칭됩니다.
- () : 그룹핑을 위해 사용되며, 매칭 결과에 대한 그룹을 생성합니다.
- \ : 이스케이프 문자로 사용되며, 메타문자를 문자 그대로 매칭시키기 위해 사용됩니다.
- \d : 숫자와 매칭됩니다.
- \D : 숫자가 아닌 문자와 매칭됩니다.
- \w : 숫자와 알파벳(대소문자), 언더스코어(_)와 매칭됩니다.
- \W : 숫자와 알파벳(대소문자), 언더스코어(_)가 아닌 문자와 매칭됩니다.
- \s : 공백 문자와 매칭됩니다.
- \S : 공백 문자가 아닌 문자와 매칭됩니다.


#### 정규표현식을 활용한 실제 예제


In [None]:
# 문자열에서 메일 주소 추출
import re

# \b : 단어 경계
# [A-Za-z0-9._%+-]+ : 이메일 주소의 로컬 파트(local part)로 사용될 수 있는 문자들
# @ : 이메일 주소의 구분자
# [A-Za-z0-9.-]+ : 이메일 주소의 도메인 파트(domain part)로 사용될 수 있는 문자들
# \. : 도메인 파트와 TLD(top-level domain)를 구분하는 점(.)
# [A-Z|a-z]{2,} : TLD로 사용될 수 있는 대문자 또는 소문자 문자들, 최소 2자리 이상

def extract_email(string):
    pattern = r'\b [A-Za-z0-9._%+-] + @ [A-Za-z0-9.-] + \.[A-Z|a-z]{2,}\b'
    emails = re.findall(pattern, string)
    return emails

string = "John's email is john.doe123@example.com. Jane can be reached at jane@example.co.uk."

emails = extract_email(string)
print(emails)  # ['john.doe123@example.com', 'jane@example.co.uk']

In [None]:
# 메일 주소의 유효성 검증
import re

def is_valid_email(email):
    pattern = r'^[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
    if re.match(pattern, email):
        return True
    else:
        return False

email1 = 'example@example.com'
email2 = 'example@example.co.kr'
email3 = 'example.example.com'
email4 = 'example@example.'
email5 = 'example@example'

print(is_valid_email(email1))  # True
print(is_valid_email(email2))  # True
print(is_valid_email(email3))  # False
print(is_valid_email(email4))  # False
print(is_valid_email(email5))  # False

In [None]:
# 전화 번호의 유효성 검증
import re

def is_valid_phone_number(phone_number):
    pattern = r'^\d{2,3}-\d{3,4}-\d{4}$'
    if re.match(pattern, phone_number):
        return True
    else:
        return False

phone_number1 = '010-1234-5678'
phone_number2 = '02-123-4567'
phone_number3 = '123-4567'

print(is_valid_phone_number(phone_number1))  # True
print(is_valid_phone_number(phone_number2))  # True
print(is_valid_phone_number(phone_number3))  # False

In [None]:
# 로그 데이터에서 IP 주소를 추출
import re

log_data = [
    '192.168.0.1 - - [21/Feb/2022:10:12:01 +0900] "GET /index.html HTTP/1.1" 200 2326',
    '192.168.0.2 - - [21/Feb/2022:10:12:02 +0900] "GET /images/banner.jpg HTTP/1.1" 200 6571',
    '192.168.0.3 - - [21/Feb/2022:10:12:03 +0900] "POST /login.php HTTP/1.1" 302 -',
    '192.168.0.4 - - [21/Feb/2022:10:12:04 +0900] "GET /favicon.ico HTTP/1.1" 404 209'
]

ip_pattern = r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}'

for log in log_data:
    ip = re.findall(ip_pattern, log)
    print(ip)