# 📌 1. 정규표현식 (Regular Expression)

## ✅ 개념
- 정규표현식(Regex)은 **문자열에서 특정한 규칙(패턴)을 검색, 추출, 대체**할 때 사용하는 문법
- Python에서는 `re` 모듈을 사용

## ✅ 주요 패턴 기호

| 패턴 | 의미 |
|------|------|
| `.` | 줄바꿈 제외 임의의 한 문자 (`\n` 제외) |
| `^` | 문자열 시작 |
| `$` | 문자열 끝 |
| `*` | 0회 이상 반복 |
| `+` | 1회 이상 반복 |
| `?` | 0회 또는 1회 반복 |
| `{n}` | n회 반복 |
| `{n,m}` | n~m회 반복 |
| `[]` | 문자 집합 |
| `\d` | 숫자 (`[0-9]`) |
| `\w` | 단어 문자 (`[a-zA-Z0-9_]`) |
| `\s` | 공백 문자 |
| `|` | OR 연산자 (ex: `a|b`) |
| `()` | 그룹 |

---

## ✅ 기본 사용법
```python
import re

pattern = r"\d{3}-\d{4}-\d{4}"  # 전화번호 패턴
text = "문의는 010-1234-5678 로 주세요."

match = re.search(pattern, text)
if match:
    print(match.group())  # 출력: 010-1234-5678
```

---

## ✅ 주요 함수

| 함수 | 설명 |
|------|------|
| `re.search()` | 문자열 전체에서 첫 매칭 찾기 |
| `re.match()` | 문자열의 **시작 위치**에서만 매칭 찾기 |
| `re.fullmatch()` | 문자열 전체가 정규식과 일치할 때만 매칭 |
| `re.findall()` | 모든 매칭 결과 리스트 반환 |
| `re.sub()` | 문자열 치환 |
| `re.compile()` | 정규표현식 객체 생성 |

## ✅ 예제: 이메일 검증
```python
email = "user@example.com"
if re.fullmatch(r"[\w\.-]+@[\w\.-]+\.\w+", email):
    print("✅ 유효한 이메일")
else:
    print("❌ 잘못된 이메일")
```


In [1]:
# 주민등록번호 뒷자리를 마스킹하는 코드 (리팩토링 및 주석 추가)

data = """
park 800905-1049118
kim  700905-1059119
"""

# 방법 1: split과 조건문을 이용한 마스킹
result = []
for line in data.split("\n"):  # 줄 단위로 분리
    word_result = []
    for word in line.split():  # 공백 기준 분리 (불필요한 공백 제거)
        # 주민등록번호 형식(6자리-7자리)인지 확인
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit() and word[6] == "-":
            word = word[:6] + "-" + "*******"  # 뒷자리 마스킹
        word_result.append(word)
    if word_result:
        result.append(" ".join(word_result))
print("\n".join(result))

import re

# 방법 2: 정규표현식을 이용한 마스킹
pat = re.compile(r"(\d{6})-(\d{7})")  # 주민등록번호 패턴
# 뒷자리를 *로 대체
masked_data = pat.sub(r"\1-*******", data)
print(masked_data)


park 800905-*******
kim 700905-*******

park 800905-*******
kim  700905-*******



In [2]:
import re

def regex_examples():
    # 문자 클래스 [] 예제
    print(re.search(r"[a]", "a"))      # a 포함 → match
    print(re.search(r"[a]", "ba"))     # a 포함 → match
    print(re.search(r"[a]", "abb"))    # a 포함 → match
    print(re.search(r"[a]", "cb"))     # a 없음 → no match

    print("-----------------------------------")
    print(re.search(r"[abc]", "apple"))     # a → match
    print(re.search(r"[abc]", "dog"))       # a,b,c 없음 → no match
    print(re.search(r"[0-9]", "2024year"))  # 2 → match
    print(re.search(r"[0-9]", "year"))      # 숫자 없음 → no match
    print(re.search(r"[A-Z]", "Hello"))     # H → match
    print(re.search(r"[A-Z]", "hello"))     # 대문자 없음 → no match
    print(re.search(r"[a-z]", "Hello"))     # e → match
    print(re.search(r"[A-Za-z]", "123Abc")) # A → match

    print("-----------------------------------")
    print(re.search(r"[^a]", "aaa"))    # 모두 a → no match
    print(re.search(r"[^a]", "aab"))    # b → match
    print(re.search(r"[^0-9]", "1234a"))# a → match

    print(re.search(r"[a-z]{3}", "abc"))    # abc → match
    print(re.search(r"[a-z]{3}", "a1c"))    # 1 때문에 실패
    print(re.search(r"[A-Za-z]{2,5}", "Hi"))# Hi → match

    print(re.search(r"[0-9][a-z]", "3b"))     # 3b → match
    print(re.search(r"[0-9][a-z]", "a3b"))    # 3b에서 매치됨
    print(re.search(r"[0-9][a-z]", "ab"))     # 숫자가 포함되어야 → no match

    print("===========================")
    print(re.search(r"^abc", "abcde"))   # abc로 시작 → match
    print(re.search(r"^abc", "abc")) 
    print(re.search(r"^abc", "abc12"))
    print(re.search(r"^abc",  "aabc12")) # aabc로 시작 → no match

    print(re.search(r"abc$",  "abc"))    # abc로 끝 → match
    print(re.search(r"abc$",  "12abc"))  # abc로 끝 → match
    print(re.search(r"abc$",  "ea abc")) # abc로 끝 → match

    print("===========================")
    print(re.search(r"[p|P]ython",  "python"))  # p → match
    print(re.search(r"[p|P]ython",  "Python"))  # P → match
    print(re.search(r"[p|P]ython",  "PYTHON"))  # 대소문자 모두 대문자 → no match

    print("@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@")
    print(re.search(r"[^abc]",  "a"))      # abc 제외한 문자가 없으므로 no match
    print(re.search(r"[^abc]",  "b"))
    print(re.search(r"[^abc]",  "c"))
    print(re.search(r"[^abc]",  "aajdb"))  # j → match
    print(re.search(r"[^abc]",  "dfc"))    # d → match

    # 숫자 0개 또는 1개
    print(re.fullmatch(r"\d?", ""))     # '' (숫자 없음) → match
    print(re.fullmatch(r"\d?", "5"))    # '5' (숫자 1개) → match
    print(re.fullmatch(r"\d?", "57"))   # '57' (2개) → no match

    # 숫자 한개 이상
    print(re.fullmatch(r"\d+", "5"))     # '5' → match
    print(re.fullmatch(r"\d+", "123"))   # '123' → match
    print(re.fullmatch(r"\d+", ""))      # 없음 → no match

    # 숫자 0개 이상
    print(re.fullmatch(r"\d*", ""))       # '' (0개 허용) → match
    print(re.fullmatch(r"\d*", "12345"))  # '12345' → match
    print(re.fullmatch(r"\d*", "a"))      # 'a'는 숫자가 아님 → no match

    # 정확히 3자리 숫자
    pattern = r"\d{3}"
    print(re.fullmatch(pattern, "123"))    # 3자리 → match
    print(re.fullmatch(pattern, "45"))     # 2자리 → no match
    print(re.fullmatch(pattern, "7890"))   # 4자리 → no match
    print(re.fullmatch(pattern, "abc"))    # 숫자 아님 → no match

    # 3~4자리 숫자
    pattern = r"\d{3,4}"
    print(re.fullmatch(pattern, "123"))     # 3자리 → match
    print(re.fullmatch(pattern, "1234"))    # 4자리 → match
    print(re.fullmatch(pattern, "12"))      # 2자리 → no match
    print(re.fullmatch(pattern, "12345"))   # 5자리 → no match

    # \b 단어 경계 예제
    text = "I like apple and pineapple."
    match = re.search(r"\bapple\b", text)  # 'apple'만 찾기
    print(match.group())  # apple

regex_examples()


<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(0, 1), match='a'>
None
-----------------------------------
<re.Match object; span=(0, 1), match='a'>
None
<re.Match object; span=(0, 1), match='2'>
None
<re.Match object; span=(0, 1), match='H'>
None
<re.Match object; span=(1, 2), match='e'>
<re.Match object; span=(3, 4), match='A'>
-----------------------------------
None
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(4, 5), match='a'>
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 2), match='Hi'>
<re.Match object; span=(0, 2), match='3b'>
<re.Match object; span=(1, 3), match='3b'>
None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 3), match='abc'>
None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(2, 5), match='abc'>
<re.Match object; span=(3, 6), match='abc'>
<re.Match object; span=(0, 6), 

In [3]:
import re
 
contents = """
    우리커피숍 100-90-12345
    영풍문고 101-91-12121
    영미청과 102-92-23451
    황금코인 103-89-13579
    우리문구 104-91-24689
    옆집회사 105-82-12345
"""

pattern = r'\b(\d{3})-(\d{2})-(\d{5})\b'
regex = re.compile(pattern)
result = regex.finditer(contents)
print()
for item in result:
    if int(item.group(2))>=90 and int(item.group(2))<=99:
        print( item.group() )
 
 
print()


100-90-12345
101-91-12121
102-92-23451
104-91-24689



In [4]:
import re
 
pattern = r'비'
text = "하늘에 비가 오고 있습니다.  어제도 비가 왔고 오늘도 비가 오고 있습니다"
regex = re.compile(pattern)
result = regex.findall(text)
print( result )

['비', '비', '비']


In [6]:
import re
 
zipcode = input("우편번호를 입력하세요")
pattern = r'\d{5}$' # $가 끝나는 정수 다섯자리로 끝나는
regex = re.compile(pattern)   # match 시작단어에 매칭하는 값이 있어야 한다 
result = regex.match(zipcode) # 일치안하면 None반환 일치하면 match객체 반환
if result != None:
    print("형식이 일치합니다.")
else:
    print("잘못된 형식입니다.")

형식이 일치합니다.


In [None]:
import re

text1 = "I like star"
text2 = "starship is beautiful"

pattern = "star"  # match함수는 첫번째 단어만 가능 
print (re.match( pattern, text1)) # None, 뒤에 있어서 안된다.
print (re.match( pattern, text2)) # match는 문자열의 시작에서부터 찾기 때문에 text1에서는 None을 반환하고, 
                                  #text2에서는 'star'를 찾음

matchObj = re.match( pattern, text2)
print(matchObj.group() )
print(matchObj.start() )
print(matchObj.end() )
print(matchObj.span() )
print( text2[:4])

None
<re.Match object; span=(0, 4), match='star'>
star
0
4
(0, 4)
star


In [9]:
import re

text1 = "I like stars, red star, yellow star"
text2 = "star is beautiful"

print()
pattern = "star"
print (re.search( pattern, text1))
print (re.search( pattern, text2))

matchObj = re.search( pattern, text1)
print(matchObj.group() )
print(matchObj.start() )
print(matchObj.end() )
print(matchObj.span() )

matchObj = re.search( pattern, text2)
print(matchObj.group() )
print(matchObj.start() )
print(matchObj.end() )
print(matchObj.span())


<re.Match object; span=(7, 11), match='star'>
<re.Match object; span=(0, 4), match='star'>
star
7
11
(7, 11)
star
0
4
(0, 4)


In [10]:
import re
# 전화번호만 추출하기
text = """
    phone : 010-0000-0000 email:test1@nate.com
    phone : 010-1111-1111 email:test2@naver.com
    phone : 010-2222-2222 email:test3@gmail.com
    phtone: 02-345-9090  email:eedseisk@dse.netwdsweds
    """
print()
print("--- 전화번호 추출하기 ---")
phonepattern = r"\d{2,3}-\d{3,4}-\d{4}"

matchObj = re.findall( phonepattern, text) # string 으로 보낸다. 

for item in matchObj:
    print( item)

# \b - boundry 경계 - 단어이어야 한다. 경계 탭,공백,줄바꿈 기호등으로 
# 경계가 구분되어야 matching여부를 판단한다 

print("--- 이메일 추출하기 ---") 
emailpattern = r"\b[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,4}\b"

matchObj = re.findall( emailpattern, text)
for item in matchObj:
    print( item)
print()



--- 전화번호 추출하기 ---
010-0000-0000
010-1111-1111
010-2222-2222
02-345-9090
--- 이메일 추출하기 ---
test1@nate.com
test2@naver.com
test3@gmail.com



In [11]:
import re
# 전화번호만 추출하기
text = """
    phone : 010-0000-0000 email:test1@nate.com
    phone : 010-1111-1111 email:test2@naver.com
    phone : 010-2222-2222 email:test3@gmail.com
    phone : 02-333-2222 email:test+4@hanmail.net
    """
print()
print("--- 전화번호 추출하기 ---")
phonepattern = r"\d{2,3}-\d{3,4}-\d{4}"

matchObj = re.finditer( phonepattern, text) # 반복자 반환

for item in matchObj:
    print( item.group() )
    print( item.span() )

print()



--- 전화번호 추출하기 ---
010-0000-0000
(13, 26)
010-1111-1111
(60, 73)
010-2222-2222
(108, 121)
02-333-2222
(156, 167)



In [12]:
import re

text1 = "I like stars, red star, yellow star"

print()
pattern = "star"
result = re.sub( pattern, "moon", text1)
print(result)

result2 = re.sub( pattern, "moon", text1, count=2)
print(result2)
print()


I like moons, red moon, yellow moon
I like moons, red moon, yellow star



In [13]:
import re

pattern = r"^abc"
pattern = r"abc"
pattern = r"abc$"

text = ["abc", "abcd", "abc15", "dabc", "", "s", "I love kabcde"]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item)
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )

abc - O
abcd - X
abc15 - X
dabc - O
 - X
s - X
I love kabcde - X


In [14]:
import re

pattern = r"abc$"
text = ["abc", "dabcd", "asdabc", "d12abc", "", "s"]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item) 
    #match함수는 첫 시작만을 보기때문에 적용안됨
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )

abc - O
dabcd - X
asdabc - O
d12abc - O
 - X
s - X


In [15]:
import re

pattern = r"[p|P]ython" # 문장중에 python또는 Python 
text = ["python", "Python", "PYTHON", "12python", "python3"]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item) 
    # match함수는 첫 시작만을 보기때문에 적용안됨
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )

pattern = r"[A-Z]" # 대문자가 하나라도 포함되면 
text = ["python", "Python", "PYTHON", "korea", "KOREA", "Korea"]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item) 
    # match함수는 첫 시작만을 보기때문에 적용안됨
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )

python - O
Python - O
PYTHON - X
12python - O
python3 - O
python - X
Python - O
PYTHON - O
korea - X
KOREA - O
Korea - O


In [17]:
import re
# ? - 없거나 하나만 있거나 
# + - 패턴이 하나이상 반복
# * - 없거나 하나이상 반복 

patterns=[r"\d?", r"\d+", r"\d*"]
text = ["abc", "1abc", "12abc", "123", "aa12ab"]

for pattern in patterns:
    resultList=[]
    for item in text:
        result = re.search(pattern, item)
        if result == None:
            resultList.append(item+"-X")
        else:
            resultList.append(item+"-O")
print(resultList)

['abc-O', '1abc-O', '12abc-O', '123-O', 'aa12ab-O']


In [18]:
import re
  
contents = """
문의사항이 있으면 010-1234-6789 으로 연락주시기 바랍니다.
담당자 02-333-4444
국장 02-333-4445
"""
pattern = r'\b(\d{2,3})-(\d{3,4})-(\d{4})\b'
regex = re.compile(pattern)
result = regex.search(contents)
print()
if result != None:
    phone1 = result.group(1) # 010
    phone2 = result.group(2) # 1234
    phone3 = result.group(3) # 6789
    print(phone1)
    print(phone2)
    print(phone3) 
else:
    print("전화번호가 없습니다.")

result = re.finditer(pattern, contents) 
for item in result:
    print(item.group(0), item.group(1),item.group(2),item.group(3) )


010
1234
6789
010-1234-6789 010 1234 6789
02-333-4444 02 333 4444
02-333-4445 02 333 4445


In [19]:
import re

pattern = r"\b\d{3}-\d{4}\b" #하이픈 앞에 숫자 3개 이상, 하이픈 뒤에 숫자 4개 이상 
text = ["678-0909", "1234-5678", "0123456789-9999", "111-00000", "", "s", "phone number is 123-3333, email  "]
repattern = re.compile(pattern)

for item in text:
    result = repattern.search(item)
    if result:
        print(item, "- O" )
    else:
        print(item, "- X" )

678-0909 - O
1234-5678 - X
0123456789-9999 - X
111-00000 - X
 - X
s - X
phone number is 123-3333, email   - O
