# 🟩 정규표현식 - 패턴 매칭 함수


---
## 🟢 단순히 split와 join을 통해서만 데이터를 가공해보겠습니다.


In [1]:
data = """
    park 800905-1049118  park@hanmail.com
    kim  700905-1059119  kim@naver.com
    Life is egg 
    kim  700906-1059118  kim9999@naver.com
    park 800905-1049118
    kim  700905-1059119
"""

# <단순 확인>
# for line in data.split("\n"):
#     print(line)

result = []

for line in data.split("\n"):  # 1. 우선 라인단위로 나눈다
    word_result = []
    for word in line.split(" "): # 2. 띄어쓰기로 다시 나눠서 리스트를 만듭니다.
        print( word ) # 확인
        # len(word) -문자열의 길이가 14자 
        #- 앞의 6자리가 숫자여야 한다. word[:6] 0~5번방까지 전체 숫자로만 구성되어 있느냐 
        #- 뒤의 7자리가 숫자여야 한다. word[7:] 7번부터 마자막까지 전체 숫자로만 구성되어 있느냐 
        #. word[6]=='-'  조건을 추가할 수 도 있다
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit(): # 3. 주민번호 패턴이 맞다고 한다면 
            word = word[:6] + "-" + "*******" 
            #앞자리 6자리  + - + *******
        word_result.append(word) #같은 라인에 여러개의 주민 번호가 있을 수 있음

    result.append(" ".join(word_result)) #같은 라인 주민번호를  공백으로 연결시켜 리스트에 더함 


park 800905-1049118  park@hanmail.com
kim  700905-1059119  kim@naver.com
Life is egg 
kim  700906-1059118  kim9999@naver.com
park 800905-1049118
kim  700905-1059119


park
800905-1049118

park@hanmail.com
kim

700905-1059119

kim@naver.com
Life
is
egg

kim

700906-1059118

kim9999@naver.com
park
800905-1049118
kim

700905-1059119



In [2]:
data = """
park 800905-1049118
kim  700905-1059119
"""

result = []
for line in data.split("\n"):  #우선 라인단위로 나눈다
    word_result = []
    for word in line.split(" "):#공백으로 나눈다 
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))


import re 

data = """
park 800905-1049118
kim  700905-1059119
"""
#서식이 맞는 것만 찾는다
pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data)) #그룹1의 내용을 바꾼다 


park 800905-*******
kim  700905-*******


park 800905-*******
kim  700905-*******




---
## 🟢 [Function] 맛보기



In [1]:
import re

pattern = r"비"  #패턴은 문자역 \  -  이건 기본적으로 escape로 사용을 한다. 패턴에서는 문자열로 써야한다.
                  # \ 의 escape기능을 무력화 해야한다.
                  # 패턴문자열 앞에 r을 붙여야한다.abs

text = """
  하늘에 비가 오고 있습니다. 어제도 비가 왔고 오늘도 비가 오고 있습니다.
"""

regex = re.compile(pattern)
result = regex.findall(text)
print(result)

['비', '비', '비']



---
## 🟢 [Function] 주요 함수 (문자열) 사용

### 🟡 re.compoile(pattern) 예제


In [3]:
import re

zipcode = input('우편번호를 입력하세요. : ')
pattern = r'\d{5}$' # 숫자가 5자리가 아니라면   /  $는 문자열이 앞에 것들로 끝나는 것에 대해서
regex2 = re.compile(pattern)
result = regex2.match(zipcode)  # 일치 안하면 None 반환 일치하면 match객체 반환
if result != None:
  print("형식이 일치합니다.")
else:
  print("잘 못된 형식입니다.")

형식이 일치합니다.


### 🟡 match 예제
문자열의 **시작**에서 패턴을 찾습니다.

In [6]:
import re

text1 = "I like star"
text2 = "starship is beautiful"

pattern = "star"

# text1에서는 문자열 시작에 "star"가 없으므로 None이 반환됨
print(re.match(pattern, text1))
# 출력: None

# text2에서는 문자열 시작에 "star"가 있으므로 Match 객체가 반환됨
print(re.match(pattern, text2))
# 출력 예시: <re.Match object; span=(0, 4), match='star'>
print()

# ================================================================

# matchObj 변수에 re.match 결과를 저장
matchObj = re.match(pattern, text2)

# matchObj가 None이 아닌 경우에만 메소드 호출 (안정성 추가)
if matchObj:
    # 변수 이름 오타 수정: machObj -> matchObj
    print(matchObj.group())  # 일치하는 부분 문자열 ("star")
    print(matchObj.start())  # 일치하는 부분의 시작 인덱스 (0)
    print(matchObj.end())    # 일치하는 부분의 끝 인덱스 + 1 (4)
    print(matchObj.span())   # 일치하는 부분의 (시작, 끝+1) 튜플 ((0, 4))

# 정의되지 않은 변수 'text' 대신 'text2' 사용 (예시)
# 이 부분은 예시로 text2의 처음 2글자를 출력하는 것으로 수정
print(text2[:2])
# 출력: st

None
<re.Match object; span=(0, 4), match='star'>

star
0
4
(0, 4)
st


### 🟡 search 예제
문자열 **전체**에서 첫 번째 패턴을 찾습니다.

In [3]:
import re

text1 = "I like stars, red star, yellow star"
text2 = "star is beautiful"

print()
pattern = "star"
print (re.search( pattern, text1))
print (re.search( pattern, text2))

matchObj = re.search( pattern, text1)
print(matchObj.group() )
print(matchObj.start() )
print(matchObj.end() )
print(matchObj.span() )

matchObj = re.search( pattern, text2)
print(matchObj.group() )
print(matchObj.start() )
print(matchObj.end() )
print(matchObj.span() )
print()



<re.Match object; span=(7, 11), match='star'>
<re.Match object; span=(0, 4), match='star'>
star
7
11
(7, 11)
star
0
4
(0, 4)



### 🟡 findall 예제
- re.findall(pattern, string)
- 문자열에서 모든 패턴을 리스트로 반환.

In [18]:
# 데이터 내 전화번호만 추출하기

import re


text77 = """
  phone: 010-1234-5678, email: user1@example.com
  phone: 010-9876-5432, email: user2@example.com
  phone: 010-5555-1212, email: user3@example.com
  phone: 010-2424-7878, email: user4@example.com
"""

print()
print("--- 전화번호 추출하기 ---")
phone_pattern = r"\d{3}-\d{3,4}-\d{4}"   # 이 정규식은 쉽다. 

matchObj = re.findall(phone_pattern, text77)
print(f"(확인용) = {type(matchObj)}")

for item in matchObj:
  print(item)




--- 전화번호 추출하기 ---
(확인용) = <class 'list'>
010-1234-5678
010-9876-5432
010-5555-1212
010-2424-7878


In [15]:
# 데이터 내 이메일만 추출하기

import re

text78 = """
  phone: 010-1234-5678, email: user1@example.com
  phone: 010-9876-5432, email: user2@example.com
  phone: 010-5555-1212, email: user3@example.com
  phone: 010-2424-7878, email: user4@example.com
"""

print()
print("--- 이메일 추출하기 ---")

email_pattern = r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b"
# r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}"
# r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}$"
# r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b"
# '\b' 는 특정 위치가 단어의 시작 또는 끝임을 의미하며, 다음과 같은 경우에 일치

matchObj = re.findall(email_pattern, text78)
print(f"(확인용) = {type(matchObj)}")

for item in matchObj:
  print(item)



--- 이메일 추출하기 ---
(확인용) = <class 'list'>
user1@example.com
user2@example.com
user3@example.com
user4@example.com


### 🟡 finiter 예제
- re.finditer
- 

In [22]:
# 데이터 내 이메일만 추출하기 finiter

import re

text78 = """
  phone: 010-1234-5678, email: user1@example.com
  phone: 010-9876-5432, email: user2@example.com
  phone: 010-5555-1212, email: user3@example.com
  phone: 010-2424-7878, email: user4@example.com
"""

print()
print("--- 이메일 추출하기 ---")

email_pattern = r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b"
# r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}"
# r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}$"
# r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b"
# '\b' 는 특정 위치가 단어의 시작 또는 끝임을 의미하며, 다음과 같은 경우에 일치

matchObj = re.finditer(email_pattern, text78)   # 위 예제에서 여기만 바꿨습니다.
print(f"(확인용) = {type(matchObj)}")

for item in matchObj:
  print()
  print(item)
  print(item.group)
  print(item.span)



--- 이메일 추출하기 ---
(확인용) = <class 'callable_iterator'>

<re.Match object; span=(32, 49), match='user1@example.com'>
<built-in method group of re.Match object at 0x7a24dec095c0>
<built-in method span of re.Match object at 0x7a24dec095c0>

<re.Match object; span=(81, 98), match='user2@example.com'>
<built-in method group of re.Match object at 0x7a24dec09540>
<built-in method span of re.Match object at 0x7a24dec09540>

<re.Match object; span=(130, 147), match='user3@example.com'>
<built-in method group of re.Match object at 0x7a24dec089c0>
<built-in method span of re.Match object at 0x7a24dec089c0>

<re.Match object; span=(179, 196), match='user4@example.com'>
<built-in method group of re.Match object at 0x7a24dec09540>
<built-in method span of re.Match object at 0x7a24dec09540>


### 🟡 sub 예제
- re.sub(pattern, repl(변경대상), target_string, count=2)
- 패턴을 `repl`로 치환(변경)한 결과 문자열 반환.
- 마지막 count 매개변수가 있습니다.

In [23]:
import re
result = re.sub(r"apples", "oranges", "I have apples.")
print(result)  # I have oranges.


I have oranges.


In [24]:
import re

text1 = "I like stars, red star, yellow star"

print()
pattern = "star"
result = re.sub( pattern, "moon", text1)
print(result)

result2 = re.sub( pattern, "moon", text1, count=2)  # 마지막 카운트 매개변수는 
print(result2)
print()


I like moons, red moon, yellow moon
I like moons, red moon, yellow star

