## re.match() 예제
<li>문자열의 사작에서 패턴과 일치하는 부분

In [14]:
import re
# 문제 1 : 올바른 한국 휴대폰 번호 형식인지 검사(010으로 시작)
phone = '010-1234-5678'
pattern = r'010-\d{3,4}-\d{4}'
result =re.match(pattern,phone)
print(bool(result))

True


In [20]:
# 문제 2: 이름이 영문 대문자로 시작하고 2-10글자인지 검사
name = "John"
pattern = r'^[A-Z][\w]{1,9}'
result = re.match(pattern,name)
print(bool(result))

True


In [24]:
# 문제 3: 올바른 주민등록번호 형식인지 검사
ssn = "901231-1234567"
pattern = r'\d{6}-[1-4]\d{6}$'
result = re.match(pattern,ssn)
print(bool(result))

True


In [26]:
# 문제 4: 올바른 우편번호 형식인지 검사 (5자리 숫자)
postal = "12345"
# ^와 $ 는 각 줄단위 (\n은 끝을 의미)
pattern = r'^\d{5}$'
result = re.match(pattern,postal)
print(bool(result))

True


In [32]:
# 문제 5: 연도가 2000-2099 사이인지 검사
year = "2024"
pattern = r'^20\d{2}$'
result = re.match(pattern,year)
print(bool(result))

True


## re.search() 예제
<li>문자열 전체에서 패턴과 일치하는 첫 번쨰 부분

In [49]:
# 문제 1: 문자열에 이메일 주소가 포함되어 있는지 검사
text = "연락처 : user@example.com 입니다"
pattern = r'[\w]+@[\w]+\.[\w]{2,3}'
result = re.search(pattern,text)
print(bool(result))

True


In [63]:
# 문제 2: URL이 포함되어 있는지 검사
text2 = "웹사이트: https://www.example.com"
result = re.search(r'https?://[\w\.-]+\.\w+',text2)
print(bool(result))
print(result.group())

True
https://www.example.com


In [73]:
# 문제 3: 신용카드 번호가 포함되어 있는지 검사
text = '카드번호는 1234-5678-9012-3456 입니다.'
# (?=조건) : 긍정 탐색
# (?!조건) : 부정 탐색
result = re.search(r'\d{4}-\d{4}-\d{4}-\d{4}(?!\d)',text)
print(bool(result))

True


In [79]:
# 문제 4 : IPv4 주소가 포함되어 있는지 검사
text = "IP 주소: 192.168.0.1 입니다."
result = re.search(r'\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{,3}(?!\d)',text)
print(bool(result))

True


In [81]:
# 문제 4 : 시간 형식(HH:MM:SS)이 포함되어 있는지 검사
text = "현재 시작은 14:30:45 니다."
result = re.search(r'([01]\d|2[0-3]):[0-5]\d:[0-5]\d',text)
print(bool(result))

True


## re.findall() 예제

In [96]:
# 문제 1 : 문자열에서 모든 이메일 주소 추출
text = "연락처: user1@example.com, user2@example.com"
emails = re.findall(r'[\w\.-]+@[\w\.-]+\.\w+',text)
#emails = re.findall(r'([\w\.-]+)@[\w\.-]+\.\w+',text) # 캡쳐그룹 : 아이디
#emails = re.findall(r'[\w\.-]+@([\w\.-]+\.\w+)',text) # 캡처그룹  : 도메인
#emails = re.findall(r'([\w\.-]+)@([\w\.-]+\.\w+)',text) # 캡쳐그룹 복수(튜플)
#emails = re.findall(r'([\w\.-]+)@(?:[\w\.-]+\.\w+)',text) # ?: --> 캡쳐그룹 제외

print(emails)

['user1@example.com', 'user2@example.com']


In [100]:
# 문제 2 : 문자열에서 모든 해시테그(#) 추출
text = "오늘 날씨 #맑음 #화창 #좋아요"
tags = re.findall(r'#(\w+)',text)
print(tags)

['맑음', '화창', '좋아요']


In [120]:
# 문제 3: 문자열에서 모든 금액(숫자 + 원) 추출
text = "상품가: 1000원, 배송비: 2500원"
prices = re.findall(r'(\d+)원',text)
print(prices)
# 숫자 문자열을 숫자값으로 변환
p2 = [int(price) for price in re.findall(r'(\d+)원',text)]
p3 = tuple(p2)
print(p2)
print(p3)

['1000', '2500']
[1000, 2500]
(1000, 2500)


In [148]:
# 문제 4: HTML 테그 내용 추출
text = '<div>첫번째</div><p>두번째</p>'
html = re.findall(r'<\w+>(.*?)</\w+>',text) # 값만 가져옴
#html = re.findall(r'<\w+>.*?</\w+>',text) # 전체내용을 다져옴
#html = re.findall(r'<(\w+)>(.*?)</\1>',text) # 같은쌍안에 있는값만 가져온다
print(html)

[('div', '첫번째'), ('p', '두번째')]


In [152]:
# 문제 5: 날짜 형식(YYYY-MM-DD) 추출
text = '시작일: 2024-01-01, 종료일: 2024-12-31'
dates = re.findall(r'\d+[4]-\d[1,2]-\d[1,2]',text)
print(dates)


['2024-01-01', '2024-12-31']


## re.finditer() 예제
- 정규식과 매치되는 모든 문자열을 반복 가능한 객체로 리턴
- group: 매치된 문자열을 전체를 리턴한다.
- group(n) : 캡춰 그룹을 serical로 호출 (serial: 1부터 시작)
- start: 매치된 문자열의 시작 위치를 리턴한다.
- end: 매치된 문자열의 끝 위치를 리턴한다.
- span: 매치된 문자열의 (시작,끝)에 해당하는 튜플을 리턴

In [179]:
# 문제 1: 모든 단어와 그 위치 찾기
text = "Python is a programming language"
for match in re.finditer(r'\w+',text):
    print(f"단어:{match.group()}, 위치: {match.span()}")
    

단어:Python, 위치: (0, 6)
단어:is, 위치: (7, 9)
단어:a, 위치: (10, 11)
단어:programming, 위치: (12, 23)
단어:language, 위치: (24, 32)


In [191]:
# 문제 2: 모든 숫자와 위치 찾기
text = '값1: 100, 값2: 200, 값3: 300'
for match in re.finditer(r'\b\d+\b',text):
    print(f"숫자:{match.group()}, 위치: {match.span()}")


숫자:100, 위치: (4, 7)
숫자:200, 위치: (13, 16)
숫자:300, 위치: (22, 25)


In [201]:
# 문제 3: 이메일 주소와 도메인 호출
text = "이메일 : user@example.com, admin@example.com"
#for match in re.finditer(r'[\w\.-]+@[\w\.\-]+\.\w+',text):
for match in re.finditer(r'([\w\.-]+)@([\w\.\-]+\.\w+)',text):
    print(f"전체:{match.group()}")
    print(f"아이디:{match.group(1)}")
    print(f"도메인:{match.group(2)}")

전체:user@example.com
아이디:user
도메인:example.com
전체:admin@example.com
아이디:admin
도메인:example.com


In [207]:
# 문제 4: HTML 테그와 내용 분석
text = '<div>내용1</div><p>내용2</p>'
for match in re.finditer(r'<(\w+)>(.*?)</\1>',text):
    print(f"전체:{match.group()}")
    print(f"테그:{match.group(1)}")
    print(f"테그 텍스트:{match.group(2)}")

전체:<div>내용1</div>
테그:div
테그 텍스트:내용1
전체:<p>내용2</p>
테그:p
테그 텍스트:내용2


In [223]:
# 문제 5: 시간 로그 분석
text = "10:00:00 로그인, 10:30:00 로그아웃"
for match in re.finditer(r'(\d{2}:\d{2}:\d{2})\s([a-zA-Z0-9가-힣]+)',text):
    #print(f"전체:{match.group()}")
    print(f"시간:{match.group(1)}")
    print(f"이벤트:{match.group(2)}")

시간:10:00:00
이벤트:로그인
시간:10:30:00
이벤트:로그아웃


## re.sub() 예제
- 문자열에서 정규식 패턴과 일치하는 부분을 다른 문자열로 대체
  

In [246]:
# 문제 1: 전화번호 마스킹(뒤 4자리를 ****로 변경)
text = "연락처 : 010-1234-5678"
pattern = r'(\d{3}-\d{3,4}-)\d{4}'
replacement = r"\1****"
#replacement = r"\g<1>****"
masked = re.sub(pattern, replacement, text)
print(masked)

연락처 : 010-1234-****


In [260]:
# 문제 2: 이메일 주소 마스킹 (사용자명 일부를 *로 변경)
text = "이메일: user1234@example.com"
masked = re.sub(r'([\w\.\-]{1})([\w\.\-]+)(@[\w\.\-]+\.\w+)',r'\1*******\3',text)
print(masked)

이메일: u*******@example.com


In [262]:
# 문제 3: HTML 테그 제거
text = "<div>내용입니다</div><p>문단입니다</p>"
cleaned = re.sub(r'<[^>]+>','',text)
print(cleaned)

내용입니다문단입니다


In [266]:
# 문제 4: URL을 클릭 가능한 링크로 변경
text = "사이트: https://example.com 입니다"
linked = re.sub(r'(https?://[\w]+.\w+)',r'<a href="\1">',text)
print(linked)

사이트: <a href="https://example.com"> 입니다


In [272]:
# 문제 5: 날짜 형식 변경 (YYYY-MM-DD -> MM/DD/YYYY)
text = '날짜: 2024-01-03'
linked = re.sub(r'(\d{4})-(\d{2})-(\d{2})',r'\2/\3/\1',text)
print(linked)

날짜: 01/03/2024


In [282]:
# 문제 6: 주민등록번호 마스킹 (뒷자리 전체를 *로 변경)
text = '971007-1656756'
linked = re.sub(r'(\d{6})-([1-4])\d{6}',r'\1-1*******',text)
print(linked)

971007-1*******
