### 정규표현식(Regular Expression)
- 정규표현식은 문자열 패턴을 정의하는 강력한 도구입니다.
- 주요 용도: 문자열 검색, 매칭, 파싱, 치환 등
- 활용 예: 이메일 주소, 전화번호, 주민등록번호 등의 패턴 검증

### 1.기본 표현식
+ . : 임의의 한 문자와 매칭
+ ^ : 문자열의 시작
+ $ : 문자열의 끝
+ ? : 앞 문자가 없거나 한 번 나타남 ex) appl?e == apple, appe
+ (?!) : 대소문자 구분안함 (파이썬 특화)
+ | : OR 조건 (다중 선택) ex) (a|b)pple == apple, bpple
                            

### 2.반복기호
+ '+' : 1번 이상. ex) a+pple == apple, aaaaapple =! pple
+ '*' : 0번 이상. ex) a+pple == apple, aaaaapple, pple
+ {m,n} : m번 이상 n번 이하 반복. ex) ca{2,5}t == caat, caaat, caaaat, caaaaat
  - `{0,}`: `*`와 동일
  - `{1,}`: `+`와 동일
  - `{0,1}`: `?`와 동일
+ Greedy vs Non-Greedy 매칭
  + 기본 Greedy 매칭 (최대로 매칭함)
  + 반복기호 뒤에 ? 붙이면 Non-Greedy 매칭

### 3.문자 클래스
+ [] : 대괄호 안의 문자 중 하나와 매칭 ex) [abc]pple==apple,bpple,cpple != dpple
+ 특수 용도
    + [0-9] : [0123456789] 숫자와 매칭
    + [a-z] : 알파벳 소문자와 매칭
    + [a-zA-Z] : 모든 알파벳과 매칭
    + [ㄱ-ㅎ|ㅏ-ㅣ|가-힣] : 모든 한글과 매칭
    + [가-힣] : 한글 글자 하나와 매칭
+ [^] : 대괄호 안의 문자를 제외한 문자와 매칭
    + ex) [^abc]pple ==> dpple(O), fpple(O), apple(x)
+ \d : 숫자와 매칭 (`[0-9]`와 동일)
+ \D : 숫자가 아닌 문자와 매칭 [^0-9]와 같음
+ \w : 문자+숫자+'_'와 매칭
+ \W : 문자+숫자+'_'가 아닌 것과 매칭
+ \s : 화이트스페이스 문자와 매칭 [ \t\b\r\f\v]
+ \S : 화이트스페이스가 아닌 문자와 매칭

+ 정규표현식 앞에 r"" 사용 (파이썬 특화)
    + \b : 단어의 경계, 공백, 탭, 컴마, 대시등과 매칭 
    + \B : 단여의 경계가 아닌 것과 매칭 

### 그룹 ()
+ () : 괄호안에 있는 모든 문자와 매칭 또는 그룹 기능이 있음

### 고급기능
- (긍정/부정) 룩어헤드와 룩비하인드 : 특정 패턴 앞 또는 뒤를 보고 일치하는 패턴 찾기 

### 파이썬 re 모듈내의 주요 함수
+ match() : 문자열의 처음부터 끝까지 정규식과 매칭되는지 검사
    + ex) 주민번호, 전화번호 등 정상적으로 입력되었는지 확인
+ search() : 문자열의 전체를 검색하여 정규식과 매칭되는 문자열이 있는지 검사
+ findall() : 패턴과 일치하는 모든 결과를 리스트로 반환
+ split() : 패턴을 기준으로 문자열 분할
+ sub() : 패턴과 일치하는 부분을 다른 문자열로 치환

In [7]:
import re

#(1) match
text = 'python'
pattern = re.compile("^..thon$") #정규 표현식
m = pattern.match(text)
if m:
    print(m.group())
else:
    print('매칭x')


text = "791009-1234567"
m = re.match('^\d{6}-\d{7}$', text)
if m:
    print(m.group())  
else:
    print('매칭x') 


python
791009-1234567


In [10]:
#(2) search()
text = 'program : python'
pattern = re.compile("..thon") #정규 표현식

m = pattern.search(text)
if m:
    print(m.group())
    print(m)
else:
    print('매칭x')

python
<re.Match object; span=(10, 16), match='python'>


In [12]:
#(2) search()
text = 'program : python'
pattern = re.compile("..thon") #정규 표현식

m = pattern.search(text)
if m:
    print(m.group())
    print(m)
else:
    print('매칭x')

m = re.search('ca.e','Good care caee')
print('일치하는 문자열:', m.group())
print('일치하는 문자열의 사작 및 끝 인덱스:', m.span())
print('일치하는 문자열의 사작 인덱스:', m.start())
print('일치하는 문자열의 끝 인덱스:', m.end())

python
<re.Match object; span=(10, 16), match='python'>
일치하는 문자열: care
일치하는 문자열의 사작 및 끝 인덱스: (5, 9)
일치하는 문자열의 사작 인덱스: 5
일치하는 문자열의 끝 인덱스: 9


In [18]:
# (3) findall() 
text = "berry 1berry 10berry apple strawberry"
m_list = re.findall('\w*berry', text)#0번 이상 앞에 다른 문자 와도 ㄱㅊ
print(m_list)

text = "oneself is the one thing"
m_list = re.findall('(one|self|the)', text)
print(m_list)


#'line'과 일치하지만 line을 포함한 글자들은 매칭되지 않도록 검색
#outline(x), linear(x), line(o)
m = re.search(r"\bline\b", "outline linear line")
print(m.group())
print(m.span())

['berry', '1berry', '10berry', 'strawberry']
['one', 'self', 'the', 'one']
line
(15, 19)


In [37]:
# 그룹캡처 : 패턴 내에서 특정 부분을 그룹으로 묶어, 부분 문자열을 추출하거나 다른 처리 수행
#날짜에서 년,월,일 각각 가져오기
date = '2024-02-06'
m = re.search(r"(\d{4})-(\d{2})-(\d{2})", date)
print(m.group())  #매칭되는 전체 문자열
print(m.group(0))
print(m.group(1))   #년
print(m.group(2))   #월
print(m.group(3))   #일
#인덱스 벗어나면 오류남


#html에서 a태그의 원하는 정보 가져오기
a_tag ='<a href="www.naver.com" id="naver" class="home">Hello</a>'
#href 속성값과 a태그의 텍스트 값 얻기
m = re.search(r'<a.*href="(.*?)".*>(.*)</a>', a_tag)
print(m.group(0))
print(m.group(1)) 
print(m.group(2))


#Greedy 탐색 - 최대 매칭
text = "01034345678"
m = re.search(r"\d{1,3}", text)
print(m.group())


#Non-Greedy 탐색 - 최소 매칭
#반복자(+,*,{}) 뒤에 ?을 붙인다.
m = re.search(r"\d{1,3}?", text)
print(m.group())


lis = "<li>나이키</li><li>아디다스</li><li>퓨마</li>"
m = re.findall(r"<li>(.*?)</li>", lis)
print(m)


#그룹 캡처를 변수처럼 활용
#3글자 회문 찾기
text = "abb 토마토 마토토 기러기 ABC XYX 가나다나가"
m = re.findall(r"((\w)(\w)(\2))", text)
k = re.findall(r"((\w)(\w)(\w)(\3)(\2))", text)
print(m)
print(k)


#그룹 캡처를 안쓰고 싶은 경우 (?:)
m = re.findall(r'((abc)+)', 'abc abcabc acbacbabc abbb')
print(m)
m = re.findall(r'((?:abc)+)', 'abc abcabc acbacbabc abbb')
print(m)

2024-02-06
2024-02-06
2024
02
06
<a href="www.naver.com" id="naver" class="home">Hello</a>
www.naver.com
Hello
010
0
['나이키', '아디다스', '퓨마']
[('토마토', '토', '마', '토'), ('기러기', '기', '러', '기'), ('XYX', 'X', 'Y', 'X'), ('나다나', '나', '다', '나')]
[('가나다나가', '가', '나', '다', '나', '가')]
[('abc', 'abc'), ('abcabc', 'abc'), ('abc', 'abc')]
['abc', 'abcabc', 'abc']


In [38]:
#(4) split()
text = "14.3, 1.2, 3.0, 9.8"
slist = re.split(r',', text)
print(slist)

slist = re.split(r'\s*,\s*', text)
print(slist)

['14.3', ' 1.2', ' 3.0', ' 9.8']
['14.3', '1.2', '3.0', '9.8']


In [45]:
#(5) sub()
#주민번호 뒷자리를 *로 치환
text = '990403-1235688'
sub_r = re.sub(r"\d{7}$", "*"*7, text)
print(sub_r)

#'이름:홍길동, 전화번호:010-1234-7777'로 치환
name = '010-1234-7777, 홍길동'
sub_r = re.sub(r'(\d{3}-\d{3,4}-\d{4}), \s*(\w+)', r'이름:\2, 전화번호:\1', name)
print(sub_r)

#람다식 활용 문자열 치환
names = '홍길동 임꺽정 김현수'
sub_r = re.sub(r'\w+', lambda m:m.group()+"님", names)
print(sub_r)

#숫자를 찾아서 10씩 곱하기
text = "100 22 apple 3"
sub_r = re.sub(r"\d+", lambda m:str(int(m.group())*10), text)
print(sub_r)

990403-*******
이름:홍길동, 전화번호:010-1234-7777
홍길동님 임꺽정님 김현수님
1000 220 apple 30


In [67]:
"""
룩어헤드와 룩비하인드 (긍정/부정)

긍정 룩어헤드 (?=...): 뒤에 특정 패턴이 있는지 확인하지만, 그 패턴은 결과에 포함되지 않음.
부정 룩어헤드 (?!...): 뒤에 특정 패턴이 없는지 확인, 그 패턴이 결과에 포함될 수 있음
긍정 룩비하인드 (?<=...): 앞에 특정 패턴이 있는지 확인하지만, 그 패턴은 결과에 포함되지 않음.
부정 룩비하인드 (?<!...): 앞에 특정 패턴이 없는지 확인, 그 패턴이 결과에 포함될 수 있음
"""
import re

# 예시 1: 긍정 룩어헤드 (?=...)
# 'python'이 뒤에 오는 단어 찾기
text = "I love python programming. Super Python is great!"
m_list = re.findall(r'\w+(?=\s+python)', text)
d_list = re.findall(r'\w+(?=\s+python)', text, re.IGNORECASE)
print(m_list)
print(d_list)

# 예시 2: 부정 룩어헤드 (?!...)
# 'python'이 뒤에 오지 않는 단어 찾기
text = "I love python programming. Super Python is great!"
m_list = re.findall(r'\w+\b(?!\s+python)', text, re.IGNORECASE)
d_list = re.findall(r'\b(?!python\b)\b\w+\b(?!\s+python)', text, re.IGNORECASE)
print(m_list)
print(d_list)

# 예시 2-1
# 'py'로 시작하고 'n'으로 끝나지만 'python'이 아닌 단어 찾기
words = "python pyplot pygmalion pyridine pylon pythondddn"
m_list = re.findall(r"\bpy(?!thon\b)\w*n\b", words)
print(m_list)

# 예시 3: 긍정 룩비하인드 (?<=...)
# '$' 기호 뒤에 오는 숫자 찾기
prices = "Item 1: $10, Item 2: $20, Item 3: $30"
m_list = re.findall(r'(?<=\$)\d+', prices)
print(m_list)

# 예시 4: 부정 룩비하인드 (?<!...)
# '$' 기호가 앞에 오지 않는 숫자 찾기
prices = "Item 1: $10, Item 2: $20, Item 3: $30"
m_list = re.findall(r"(?<!\$)\d+", prices)
print(m_list)
m_list = re.findall(r"(?<!\$)\b\d+\b", prices)
print(m_list)

# 실사용 예시
# 예시 6: 이메일 주소에서 ID만 추출
emails = "user1@example.com, user2@gmail.com, user3@company.co.kr"
m_list = re.findall(r'\b[\w.-]+(?=@)', emails)
print(m_list)

# 예시 7: 특정 도메인을 가진 이메일 주소 찾기
emails = "user1@example.com, user2@gmail.com, user3@company.co.kr"
m_list = re.findall(r'\b[\w.-]+@(?!gmail\.com\b)\b[\w.-]+\b', emails)
print(m_list)

['love']
['love', 'Super']
['I', 'python', 'programming', 'Python', 'is', 'great']
['I', 'programming', 'is', 'great']
['pygmalion', 'pylon', 'pythondddn']
['10', '20', '30']
['1', '0', '2', '0', '3', '0']
['1', '2', '3']
['user1', 'user2', 'user3']
['user1@example.com', 'user3@company.co.kr']


In [136]:

#실습 문제
#-------------------------------------------------------------------------------------
#(1) cat을 포함하는 글자는 가져오지만, cat 혹은 cat 앞뒤에 문자가 있는 경우는 가져오지 마시오.
#ex) scatter(O), scat(x), cat(x), copycat(x)
#*이면 다 포함이라 cat도 나옴 +써야함
text = 'cat catch copycat scatter powercatter'
m = re.findall("\w+cat\w+", text)
print(m)

#(2) 김씨성을 가진 이름 검색
#ex) 김현수(O), 배철수(X)
text = "김현수, 배철수, 홍길동, 김구, 김바른"
m = re.findall("김\w*", text)
m = re.findall(r"\b김[가-힣]+\b", text)
print(m)

#(3) 휴대전화 끝자리 4자리 번호 ****로 바꾸기
text = "010-3711-2222, 010-2334-5555"
m = re.sub(r"(\d{3}-\d{4}-)\d{4}", r"\1****", text)
print(m)

#(4) 괄호가 없는 사칙연산 수식이 있을 때
#숫자만 리스트로, 사칙연산기호만 리스트로 각각 가져오시오
#ex) 12*4+5-200/3+50 => 값:[12,4,5,200,3,50], 기호:[*,+,-,/,+]
text = "12.5*4+5-200/3+50" 
m = re.findall(r'[\.\d]+' , text)
d = re.findall(r'[\D]+(?<!\.)' , text)
print(f'값:{m}, 기호:{d}')


#(5) 날짜 패턴 매칭 검사 : 날짜가 yyyy-mm-dd로 패턴에 맞는지 검사하시오.
#ex) 2021-08-19 (O), 2021-3-3 (X), 2021-13-18 (X), 2021-04-32(X)
date = '2024-22-16'
m = re.match(r"(\d{4})-(?:0[0-9]|1[0-2])-(?:0[1-9]|[12]\d|3[01])", date)
print(m) #None


#(6) 대소문자 구분없이 txt, pdf, hwp, xls 파일의 확장자만 검색할 수 있도록 정규표현식을 완성하시오 
#abc.txt (o), python.ppt(x), java.xls (o), .hwp (x)  
#대소문자 구분없이하려면 (?i 문자) 활용
m = re.findall(r'\w+\.(?!:txt|pdf|hw|xls)' , text, re.IGNORECASE)

#(7) ID 유효성 검사 (숫자로 시작하지 않는 8자 이상의 문자열)
ids = ["koko", "keke1123", "securePass", "123456", "1validPass9", "1433242short"]
m_list = [id for id in ids if len(id) >= 8 and not id[0].isdigit()]
m_list = [id for id in ids if re.match(r'^(?!\d)\w{8,}$', id)]
print(m_list)

['scatter', 'powercatter']
['김현수', '김구', '김바른']
010-3711-****, 010-2334-****
값:['12.5', '4', '5', '200', '3', '50'], 기호:['*', '+', '-', '/', '+']
None
['keke1123', 'securePass']
