파이썬에서 정규 표현식을 사용하기 위해 re 모듈을 import해야 합니다. 정규 표현식을 작성할 때는 일부 특수 문자와 메타 문자를 사용하여 패턴을 표현합니다. 다음은 파이썬에서 정규 표현식을 작성하는 데 필요한 몇 가지 기초적인 개념입니다.

Raw String
정규 표현식을 작성할 때, 문자열 앞에 r을 붙여 raw string으로 만들면 백슬래시'()'를 이스케이프 문자로 인식하지 않고 그대로 처리합니다. 정규 표현식에서 백슬래시는 많이 사용되므로 raw string으로 작성하는 것이 일반적입니다.

In [None]:
pattern = r'\d+'  # raw string으로 정규 표현식 패턴 작성

메타 문자
정규 표현식에서 특별한 의미를 가지는 문자를 메타 문자라고 합니다. 일부 일반적인 메타 문자는 다음과 같습니다:
'.' (마침표): 어떤 한 개의 문자와 일치합니다. 다만, 개행 문자'(\n)'는 제외됩니다.
'^' (시작): 주어진 패턴이 문자열의 시작과 일치하는지 확인합니다.
'$' (끝): 주어진 패턴이 문자열의 끝과 일치하는지 확인합니다.
'*' (별표): 앞의 패턴이 0번 이상 반복되는 부분과 일치합니다.
'+' (더하기): 앞의 패턴이 1번 이상 반복되는 부분과 일치합니다.
'?' (물음표): 앞의 패턴이 0번 또는 1번만 반복되는 부분과 일치합니다.
'[]' (대괄호): 대괄호 안의 어떤 한 문자와 일치합니다. 예를 들어, '[aeiou]'는 소문자 모음과 일치합니다.
'()' (괄호): 그룹을 지정하고 해당 부분과 일치하는 문자열을 추출할 수 있습니다.

반복자
패턴의 반복을 지정하는 데 사용되는 반복자는 다음과 같습니다:
'*' : 0번 이상의 반복을 의미합니다.
'+' : 1번 이상의 반복을 의미합니다.
'?' : 0번 또는 1번의 반복을 의미합니다.
'{n}' : 정확히 n번의 반복을 의미합니다.
'{n,}' : n번 이상의 반복을 의미합니다.
'{n,m}' : 최소 n번에서 최대 m번까지의 반복을 의미합니다.

특수 문자 이스케이프
정규 표현식에서 메타 문자로 사용되는 문자를 검색하기 위해 이스케이프 문자인 백슬래시'()'를 사용할 수 있습니다.

In [2]:
pattern = r'\.'  # 마침표 문자 자체를 찾기 위해 이스케이프 문자 사용

위의 내용은 정규 표현식의 기초적인 개념들을 다루고 있습니다. 정규 표현식은 이외에도 다양한 기능과 규칙을 제공하므로, 더 복잡한 패턴을 작성하고 활용하는 방법을 학습할 수 있습니다.

파이썬의 re 모듈은 정규 표현식을 작성하고 문자열에 적용하기 위한 다양한 함수를 제공합니다. 주요 함수에 대한 설명은 다음과 같습니다:

re.search(pattern, string)
문자열에서 정규 표현식 패턴에 첫 번째로 매치되는 부분을 찾습니다.
매치된 객체(Match object)를 반환하며, group() 메서드를 통해 매치된 부분 문자열을 얻을 수 있습니다.
패턴이 발견되지 않으면 None을 반환합니다.

re.match(pattern, string)
문자열의 시작에서 정규 표현식 패턴과 매치되는지 확인합니다.
search()와 달리 문자열의 시작부터 매치를 검사합니다.
매치된 객체(Match object)를 반환하며, group() 메서드를 통해 매치된 부분 문자열을 얻을 수 있습니다.
패턴이 발견되지 않으면 None을 반환합니다.

re.findall(pattern, string)
문자열에서 정규 표현식 패턴과 매치되는 모든 부분을 찾아 리스트로 반환합니다.
각 매치는 문자열의 일부가 됩니다.

re.sub(pattern, repl, string)
문자열에서 정규 표현식 패턴과 일치하는 부분을 다른 문자열로 치환합니다.
repl 인자는 치환될 문자열이 됩니다.
치환된 결과를 반환합니다.

아래는 각 함수를 사용하는 예제입니다:

In [3]:
import re

text = "Hello, World!"

In [4]:
# search()
match = re.search(r"World", text)
if match:
    print("Match found:", match.group())
else:
    print("No match")

Match found: World


In [5]:
# match()
match = re.match(r"Hello", text)
if match:
    print("Match found:", match.group())
else:
    print("No match")

Match found: Hello


In [6]:
# findall()
matches = re.findall(r"l", text)
print("Matches found:", matches)

Matches found: ['l', 'l', 'l']


In [7]:
# sub()
new_text = re.sub(r"World", "Python", text)
print("Modified text:", new_text)

Modified text: Hello, Python!


다음은 위의 함수들을 사용하는 예시들입니다.

In [8]:
import re

text = "My email is john.doe@example.com. Please contact me at that address."

email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'

matches = re.findall(email_pattern, text)
print("Email addresses:", matches)

Email addresses: ['john.doe@example.com']


위의 예시에서는 주어진 텍스트에서 이메일 주소를 찾기 위해 정규 표현식을 사용합니다. findall() 함수를 사용하여 모든 매치된 이메일 주소를 추출하여 출력합니다.

In [9]:
import re

phone_numbers = [
    "123-456-7890",
    "(123) 456-7890",
    "123 456 7890",
    "123.456.7890",
    "1234567890"
]

cleaned_numbers = []
phone_pattern = r"\d{3}[-.\s]?\d{3}[-.\s]?\d{4}"

for number in phone_numbers:
    cleaned_number = re.sub(phone_pattern, "***-***-****", number)
    cleaned_numbers.append(cleaned_number)

print("Cleaned phone numbers:", cleaned_numbers)


Cleaned phone numbers: ['***-***-****', '(123) 456-7890', '***-***-****', '***-***-****', '***-***-****']


위의 예시에서는 다양한 전화번호 형식을 하나의 통일된 형식으로 변환하기 위해 정규 표현식을 사용합니다. sub() 함수를 사용하여 매치된 전화번호 부분을' "--****" '로 치환하여 통일된 형식의 전화번호를 얻습니다.

In [11]:
import re

text = "Visit my website at https://www.example.com for more information."

url_pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'

matches = re.findall(url_pattern, text)
print("URLs:", matches)


URLs: ['https://www.example.com']


위의 예시에서는 텍스트에서 URL을 추출하기 위해 정규 표현식을 사용합니다. findall() 함수를 사용하여 모든 매치된 URL을 추출하여 출력합니다.

이외에도 정규 표현식은 데이터 유효성 검사, 텍스트 분석, 로그 분석 등 다양한 분야에서 활용될 수 있습니다. 정규 표현식은 패턴에 따라 유연하게 적용할 수 있어 많은 활용 가능성을 가지고 있습니다.