## 정규표현식(Regular Expression)
+ 문자열 패턴 매칭, 문자열 검색, 파싱, 문자열 바꿈 등을 위한 패턴 문법
+ ex) 이메일 패턴 매칭, 전화번호, 주민번호 패턴 매칭
### 기본 표현식
+ . : 글자 하나를 의미
+ ^ : 문자열의 시작
+ $ : 문자열의 끝
+ ? : 앞문자가 있어도 되고 없어도 됨. ex) appl?e == apple, appe
+ (?!) : 대소문자 구분안함
+ | : 다자 택일 (OR조건). ex) a|bpple = apple, bpple
### 반복기호
+ '+' : 1번 이상. ex) a+pple == apple, aaaaapple =! pple
+ '*' : 0번 이상. ex) a+pple == apple, aaaaapple, pple
+ {m,n} : m번 이상 n번 이하 반복. ex) ca{2,5}t == caat, caaat, caaaat, caaaaat
    + {0,} == '*'과 같음 (0번 이상)
    + {1,} == '+'과 같음 (1번 이상)
    + {0,1} == '?'과 같음 (0번이상 1번이하)
## 문자 클래스
+ [] : [] 사이의 문자들과 매칭. ex) [abc]pple == aaple,bpple,cpple != dpple
+ 문자 클래스의 특수 용도
    + [0-9] : [0123456789] 숫자와 매칭
    + [a-z] : 알파벳 소문자와 매칭
    + [a-zA-z] : 대소문자 안가리고 모든 알파벳과 매칭
    + [ㄱ-ㅎ|ㅏ-ㅣ|가-힣] : 모든 한글과 매칭
    + [가-힣] : 한글 글자 하나와 매칭

+ [^] : 문자 클래스 안의 꺽쇠 표시는 해당 문자들과 이닌 것 과 매칭
    + ex) [^abc]pple == dpple, fpple != apple
+ \d : 모든 숫자와 매칭 [0-9]와 같음
+ \D : 숫자가 아닌 것과 매칭 [^0-9]와 같음
+ \w : 문자 + 숫자 + '_'와 매칭
+ \W : 문자 + 숫자 + '_'가 아닌 것과 매칭
+ \s : 화이트 스페이스 문자와 매칭 [\t \b \r \f \v]
+ \S : 화이트 스페이스가 아닌 문자와 매칭

+ 정규표현식 앞에  r"" 사용
    + \b : 단어의 경계, 공백, 탭, 컴마, 대시등과 매칭 (파이썬에서 활용됨)
    + \B : 단어의 경계가 아닌 것과 매칭 (파이썬에서 활용됨)

### 그룹 ()
+ () : ()안에 있는 모든 문자와 매칭 또는 글룹 기능이 있음

---

### 파이썬 re 모듈내의 주요 함수
+ match() : 문자열의 처음부터 끝까지 정규식과 매칭되는지 검사
    + ex) 주민번호, 전화번호 등 정상적으로 입력되었는지 확인
+ search() : 문자열의 전체를 검색하여 정규식과 매칭되는 문자열이 있는지 검사
+ findall() : 정규식과 매칭되는 모든 문자열을 리스트로 변환
+ split() : 정규식과 매칭되는 문자열을 기준으로 파싱하여 리스트로 반환
+ sub() : 정규식과 매칭되는 문자열을 다른 문자열로 바꿔줌

In [2]:
import re

#(1) match
text = 'python'
pattern = re.compile("..thon")  # 정규표현식 생성
m = pattern.match(text)  # 매칭되는 결과가 없으면 None 리턴

if m :
    print(m.group())
else:
    print('매칭되지 않습니다.')
    
text = "791009-1234567"
m = re.match("^\d{6}-\d{7}$", text)

if m :
    print(m.group())
else:
    print('매칭되지 않습니다.')

python
791009-1234567


In [3]:
# (2) search()
text = 'program : python'
pattern = re.compile("..thon")  # 정규표현식 생성
m = pattern.search(text)  # 매칭되는 결과가 없으면 None 리턴

if m :
    print(m.group())
else:
    print('매칭되지 않습니다.')
    
m = re.search("ca.e", "Good care caee")
print("일치하는 문자열 :", m.group())
print("입력받은 문자열 :", m.string)
print("일치하는 문자열의 시작 인덱스 :", m.start())
print("일치하는 문자열의 마지막 인덱스 :", m.end())
print("일치하는 문자열의 시작 및 마지막 인덱스 :", m.span())



python
일치하는 문자열 : care
입력받은 문자열 : Good care caee
일치하는 문자열의 시작 인덱스 : 5
일치하는 문자열의 마지막 인덱스 : 9
일치하는 문자열의 시작 및 마지막 인덱스 : (5, 9)


In [4]:
# (3) findall()
mlist = re.findall("\w*berry", "berry 1berry 10berry apple strawberry")
print(mlist)

mlist = re.findall("one|self|the", "oneself is the one thing")
print(mlist)

# 'line'과 일치하지만 line을 포함한 글자들은 매칭되지 않도록 검색
# outline(x), linear(x), line(o)
m = re.search(r"\bline\b", "outline linear line")
print(m.group())
print(m.span())

# 그룹 캡처 : 패턴 내에서 특정 부분을 그룹으로 묶어, 부분 문자열을 추출하거나 다른 처리 수행
# 날짜에서 년, 월, 일 각각 가져오기
import re

date = '2024-02-06'
m = re.search(r'(\d{4})-(\d{2})-(\d{2})', date)

print(m.group())   # 매칭된 전체 문자열
print(m.group(0))  # 매칭된 전체 문자열
print(m.group(1))  # 첫번째 그룹 (년)
print(m.group(2))  # 두번째 그룹 (월)
print(m.group(3))  # 세번째 그룹 (일)
# print(m.group(4))  # 오류 (그룹이 없음)

# html에서 a 태그의 원하는 정보 가져오기
a_tag = '<a href="www.naver.com" id="naver" class="home">Hello</a>'
m = re.search(r'<a.*href="(.*?)".*>(.*)</a>', a_tag)
print(m.group())
print(m.group(0))
print(m.group(1))
print(m.group(2))

# Greedy 탐색 - 최대 매칭
m = re.search(r'\d{1,3}', "01034345678")
print(m.group())  # 010

# Non - Greedy 탐색 - 최소 매칭
# 반복자(+, *, {}) 뒤에 ?을 붙인다.
m = re.search(r'\d{1,3}?', "01034345678")
print(m.group()) # 0

lis = "<li>나이키</li><li>아디다스</li><li>퓨마</li>"
mlist = re.findall(r'<li>.*</li>', lis)
print(mlist)
mlist = re.findall(r'<li>.*?</li>', lis)
print(mlist)

# 그룹 캡쳐를 변수처럼 활용
# 3글자 회문 찾기
mlist = re.findall(r'((\w)(\w)\2)', "abb 토마토 마토토 기러기 abc xyx")
mlist = re.findall(r'((\w)(\w)(\w)\3\2)', "abcba 기러기러기 토마토")
# \2는 두번째 그룹의 값을 의미
print(mlist)  # [('토마토', '토', '마'), ('기러기', '기', '러'), ('xyx', 'x', 'y')]

# 그룹 캡쳐를 안쓰고 싶은 경우
mlist = re.findall(r'(abc)+', "abc abcabc abcabcabc abbb")
print(mlist)
mlist = re.findall(r'(?:abc)+', "abc abcabc abcabcabc abbb")
print(mlist)

['berry', '1berry', '10berry', 'strawberry']
['one', 'self', 'the', 'one']
line
(15, 19)
2024-02-06
2024-02-06
2024
02
06
<a href="www.naver.com" id="naver" class="home">Hello</a>
<a href="www.naver.com" id="naver" class="home">Hello</a>
www.naver.com
Hello
010
0
['<li>나이키</li><li>아디다스</li><li>퓨마</li>']
['<li>나이키</li>', '<li>아디다스</li>', '<li>퓨마</li>']
[('abcba', 'a', 'b', 'c'), ('기러기러기', '기', '러', '기')]
['abc', 'abc', 'abc']
['abc', 'abcabc', 'abcabcabc']


In [5]:
# (4) split()
slist = re.split(r',', '14.3, 1.2, 3.0, 9.8')
print(slist)

slist = re.split(r',\s*', '14.3, 1.2, 3.0, 9.8')
print(slist)

['14.3', ' 1.2', ' 3.0', ' 9.8']
['14.3', '1.2', '3.0', '9.8']


In [11]:
# (5) sub()
# 주민번호 뒷자리를 *로 치환
subStr = re.sub(r"\d{7}$", "*"*7, "810321-1234567")
#                 찾을 패턴, 바뀔 문자열, 바뀔 문자열
print(subStr)

subStr = re.sub(r"(\d{6})-\d{7}", "\g<1>---*******", "810321-1234567")
#                                   첫 번째 그룹 값
print(subStr)

phoneName = '010-1234-7777, 홍길동'
# '이름 : 홍길동, 전화번호 : 010-1234-7777'로 치환
subStr = re.sub(r'(\d{3}-\d{3,4}-\d{4}),\s*(\w+)', '이름:\g<2>, 전화번호:\g<1>', phoneName)

print(subStr)

# 람다식 활용 문자열 치환
names = '홍길동 임꺽정 김현수'
#이름 '님' 붙이기
subStr = re.sub(r'\w+', lambda e:e.group()+'님', names)
#
print(subStr)

# 숫잘ㄹ를 찾아서 10씩 곱하기
subStr = re.sub(r'\d+', lambda num:str(int(num.group())*10), "100 22 apple 3")
print(subStr)

810321-*******
810321---*******
이름:홍길동, 전화번호:010-1234-7777
홍길동님 임꺽정님 김현수님
1000 220 apple 30
