In [1]:
import re
text = "The quick brown fox jumps over the lazy dog."

search_result = re.search(r'the', text)
print(f"Search: {search_result}")
# <re.Match object; span=(31, 34), match='the'>

match_result = re.match(f'the', text)
print(f'Match: {match_result}')
# None

find_all_result = re.findall(f'the', text, re.IGNORECASE)
print(f"Fina All: {find_all_result}")
# ['The', 'the']

Search: <re.Match object; span=(31, 34), match='the'>
Match: None
Fina All: ['The', 'the']


In [3]:
import re
text = "The quick brown fox jumps over the lazy dog."

# substitue 'fox' to 'cat'
new_text = re.sub(r'fox', 'cat', text)

print('Original text:', text)
print('Modified text:', new_text)

Original text: The quick brown fox jumps over the lazy dog.
Modified text: The quick brown cat jumps over the lazy dog.


In [4]:
# 핸드폰 번호 패턴을 정의하고 이를 추출
# 한국 번호의 경우 01x-xxx(x)-xxxx 형태의 규칙을 가짐

import re

phone_number_pattern = re.compile(r'01[016789]-\d{3,4}-\d{4}')

personal_info = """
이름 : 홍길동
주소 : 서울시 강남구
전화번호 : 010-1234-5678
주민등록번호 : 930101-1234567
"""

match = phone_number_pattern.search(personal_info)
if match:
    print(f"Cell phone: {match.group()}")

Cell phone: 010-1234-5678


In [1]:
# -으로 구분된 데이터 중, 두 번째 값과 세번째 값의 순서를 바꾼다.
# 정해진 포맷대로 캡쳐하고, 캡쳐된 그룹의 순서를 바꾸어 다시 반환

import re

input_string = '서울-대구-대전-부산'
result = re.sub(r'(\w+)-(\w+)-(\w+)-(\w+)', r'\1-\3-\2-\4', input_string)

print(result)

서울-대전-대구-부산


In [2]:
# 주어진 전화번호에 가운데 번호를 *로 마스킹하여 전화번호를 보호
# 주어진 주민번호의 뒷 6자리를 *로 마스킹하여 주민번호를 보호

import re

def mask_phone_number(match):
    return f"{match.group(1)}-****-{match.group(3)}"

def mask_ssn(match):
    return f"{match.group(1)}-{match.group(2)}******"


personal_info = """
이름 : 홍길동
주소 : 서울시 강남구
전화번호 : 010-1234-5678
주민등록번호 : 930101-1234567
"""

phone_number_pattern = re.compile(r'(01[016789])-(\d{3,4})-(\d{4})')
ssn_pattern = re.compile(r'(\d{6})-(\d)\d{6}')

masked_info = phone_number_pattern.sub(mask_phone_number, personal_info)
masked_info = ssn_pattern.sub(mask_ssn, masked_info)

print(masked_info)


이름 : 홍길동
주소 : 서울시 강남구
전화번호 : 010-****-5678
주민등록번호 : 930101-1******



In [4]:
# HTML 태그는 <>로 둘러싸여있다.
# <>에 둘러싸인 값들을 빈 문자열로 대체하는 방식으로, HTML 태그를 제거할 수 있다.

import re 

def remove_html(input):
    pattern = re.compile(r'<.*?>')
    result = re.sub(pattern, '', input)
    
    return result

input = "<p>This is <b>Python</b> and <i>Regular Expression</i></p>"

result = remove_html(input)
print(result)

This is Python and Regular Expression


In [10]:
# 주민번호의 경우 앞의 6자리가 생년월일, 7번째 자리가 (1,2)이면 19xx, (3,4)이면, 20xx년생이다.
# re.sub 활용 시 변환 함수를 이용한다.

import re 

def generate_birthday(matches):
    return f"{'19' if matches[4] in ('1', '2') else '20'}{matches[1]}. {matches[2]}. {matches[3]}"

ssn = "900101-4234567"

pattern = re.compile(r'(\d{2})(\d{2})(\d{2})-(\d)\d{6}')
result = pattern.sub(generate_birthday, ssn)
print(result)

2090. 01. 01
