In [None]:
# 정규 표현식을 사용하는 경우우
# 1. 주민등록번호 패턴
# 2. 비밀번호 패턴 (12자리 이상, 영문 대소문자 혼용, 특수문자는 !@#^&*만 가능 등)
# 3. 검색 (정규 표현식보다는 DB에 의존하게 됨)

In [2]:
# 정규 표현식을 사용하지 않을 경우의 구현
# 주민등록번호를 마스킹하는 예시

data = """
park 800905-1049118
kim 700905-1059119
"""

result = []
for line in data.splitlines():
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))


park 800905-*******
kim 700905-*******


In [12]:
# 정규 표현식을 사용한 구현

import re

data = """
park 800905-1049118
kim 700905-1059119
"""

pat = re.compile(r"(\d{6})[-]\d{7}")
print(pat.sub(r"\g<1>-*******", data))


park 800905-*******
kim 700905-*******



In [15]:
p = re.compile("[a-z]+")  # 소문자 알파벳으로 이루어진 단어를 찾는 정규 표현식
m = p.match("python")  # 문자열의 처음부터 정규 표현식과 매치되는지 확인

print(m)

n = p.match("3 python")

print(n)

o = p.match("python3")

print(o)

<re.Match object; span=(0, 6), match='python'>
None
<re.Match object; span=(0, 6), match='python'>


In [17]:
p = re.compile("[a-z]+")  # 소문자 알파벳으로 이루어진 단어를 찾는 정규 표현식
m1 = p.match("string goes here")

if m1:
    print("Match found:", m1.group())
else:
    print("No match found")

Match found: string


In [18]:
m2 = p.match("python")
print(m2.group())  # match 객체에서 매치된 문자열을 가져옴
print(m2.start())  # 매치된 문자열의 시작 인덱스
print(m2.end())  # 매치된 문자열의 끝 인덱스
print(m2.span())  # 매치된 문자열의 시작과 끝 인덱스를 튜플로 반환

python
0
6
(0, 6)


In [22]:
m3 = p.search("python")
print(m3)

m4 = p.search("3 python")
print(m4)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>


In [23]:
result = p.findall("life is too short")
print(result)  # 리스트로 반환

['life', 'is', 'too', 'short']


In [28]:
result2 = p.finditer("life is too short")
print(result2)
for r in result2:
    print(r.group())  # 매치된 문자열을 가져옴
    print(r.span())  # 매치된 문자열의 시작과 끝 인덱스를 튜플로 반환


<callable_iterator object at 0x00000280D28BFEB0>
life
(0, 4)
is
(5, 7)
too
(8, 11)
short
(12, 17)


In [None]:
#  DOTALL(S):       .이 줄바꿈 문자를 포함한 모든 문자와 매치되도록 설정
#  IGNORECASE(I):   대소문자를 구분하지 않도록 설정
#  MULTILINE(M):    ^, $가 각 줄의 시작과 끝을 의미하도록 설정
#  VERBOSE(X):      주석을 사용할 수 있도록 설정

In [32]:
import re

p = re.compile("a.b")  # a와 b 사이에 어떤 문자(하나)가 오든 매치
m = p.match("a\nb")  # 줄바꿈 문자가 포함된 문자열
print(m)  # 줄바꿈 문자는 매치되지 않음

p = re.compile("a.b", re.DOTALL)  # a와 b 사이에 줄바꿈 문자를 포함한 모든 문자와 매치
m = p.match("a\nb")
print(m)  # 줄바꿈 문자가 포함된 문자열도 매치됨

None
<re.Match object; span=(0, 3), match='a\nb'>


In [34]:
p = re.compile("a.b", re.IGNORECASE)  # 대소문자를 구분하지 않음
m = p.match("axB")  # 대문자가 포함된 문자열
print(m)  # 대문자 B를 포함하여 매치됨

<re.Match object; span=(0, 3), match='axB'>


In [38]:
p = re.compile(
    r"^python\s\w+", re.MULTILINE
)  # ^는 각 줄의 시작을 의미하고, \s는 공백, \w는 단어, \w+는 단어가 1개 이상 있는 것을 의미
data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))  # 각 줄의 시작에서 python과 단어가 매치됨

['python one', 'python two', 'python three']


In [47]:
data2 = r"section\section2\section3"

p = re.compile(r"\\section")
m = p.findall(data2)
print(m)

['\\section', '\\section']


In [53]:
import re

text = """이름 : 김철수
전화번호 : 010 - 1234 - 5678
나이 : 30
성별 : 남"""

print(re.findall(r"\d+", text))  # 숫자만 추출
print(re.findall(r"\D+", text))  # 숫자가 아닌 문자만 추출
print("")
print(re.findall(r"\w+", text))  # 단어만 추출
print(re.findall(r"\W+", text))  # 단어가 아닌 문자만 추출
print("")
print(re.findall(r"\s+", text))  # 공백 문자만 추출
print(re.findall(r"\S+", text))  # 공백이 아닌 문자만 추출

['010', '1234', '5678', '30']
['이름 : 김철수\n전화번호 : ', ' - ', ' - ', '\n나이 : ', '\n성별 : 남']

['이름', '김철수', '전화번호', '010', '1234', '5678', '나이', '30', '성별', '남']
[' : ', '\n', ' : ', ' - ', ' - ', '\n', ' : ', '\n', ' : ']

[' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', '\n', ' ', ' ']
['이름', ':', '김철수', '전화번호', ':', '010', '-', '1234', '-', '5678', '나이', ':', '30', '성별', ':', '남']


In [64]:
import re

with open("doremi_song.txt", "r") as doremi:
    mytext = doremi.read()
    exp1 = r"\s...\s"  # 공백으로 시작하고 3글자 단어가 오고 다시 공백으로 끝나는 정규 표현식
    print(f"exp1: {re.findall(exp1, mytext)}")

    exp2 = r"([a-zA-Z]+),"  # 알파벳으로 시작하고 ,로 끝나는 단어를 찾는 정규 표현식
    print(f"exp2: {re.findall(exp2, mytext)}")

exp1: ['\nRE, ', ' sun\n', '\nFA, ', ' way ', ' run\n', '\nLA, ', '\nTI, ', ' jam ', ' sun\n', ' way ', ' run\n', '\nLa! ', '\nTea ', ' jam ', ' do!\n', '\nRE, ', ' sun\n', '\nFA, ', ' way ', ' run\n', '\nLA, ', '\nTI, ', ' jam ']
exp2: ['DO', 'deer', 'RE', 'MI', 'name', 'FA', 'SO', 'LA', 'TI', 'deer', 'Do', 'deer', 'RE', 'MI', 'name', 'FA', 'SO', 'LA', 'TI']


In [66]:
with open("훈민정음서문.txt", "r") as hunmin:
    hantext = hunmin.read()
    exp1 = r"[가-힣]{5}"
    print(
        f"exp1: {re.findall(exp1, hantext)}"
    )  # 한글로 이루어진 5글자 단어를 찾는 정규 표현식

    exp2 = r"\s사[가-힣]*\s"  # 공백으로 시작하고 '사'로 시작하는 한글 단어를 찾는 정규 표현식
    print(f"exp2: {re.findall(exp2, hantext)}")

exp1: ['나랏말싸미', '홀베이셔도', '노미하니라', '어엿비너겨', '할따라미니']
exp2: [' 사맛디 ', '\n사람마다 ']


In [None]:
# 전화번호
# 0[1-8][0-9]?-[0-9]{3,4}-[0-9]{4}
#
# 이메일 주소
# [a-zA-Z0-9._]+@([a-zA-Z0-9_-]+.){1,3}[a-zA-Z0-9_]{2,}

In [7]:
import re

telnum = True
tel_exp = "0[1-8][0-9]?-[0-9]{3,4}-[0-9]{4}"

while telnum:  # 전화번호가 입력될 때까지 반복
    try:
        telnum = input("전화번호를 입력하세요: ")
        if not telnum:
            raise ValueError("*입력 오류* 전화번호가 입력되지 않았습니다.")
        result = re.match(tel_exp, telnum)
    except Exception:  #  입력 값이 없거나 잘못된 경우
        print("*입력 오류* 전화번호가 제대로 입력되지 않았습니다.")
    else:
        if result:
            print("**성공** 전화번호가 제대로 입력되었습니다!")
            break
        else:
            print("*번호 오류* 전화번호가 형식에 맞지 않습니다.")

*번호 오류* 전화번호가 형식에 맞지 않습니다.
**성공** 전화번호가 제대로 입력되었습니다!


In [None]:
text = "사과 딸기 수박 멜론 바나나"
re.split(" ", text)  # 공백을 기준으로 문자열을 나누기

['사과', '딸기', '수박', '멜론', '바나나']

In [8]:
text = """사과
딸기
수박
멜론
바나나"""
re.split("\n", text)  # 줄바꿈 문자로 분리

['사과', '딸기', '수박', '멜론', '바나나']