## 정규표현식(Regular Expression)
+ 문자열 패턴 매칭, 문자열 검색, 파싱, 문자열 바꿈 등을 위한 패턴 문법
+ ex) 이메일 패턴 매칭, 전화번호, 주민번호 패턴 매칭
### 기본 표현식
+ . : 글자 하나를 의미
+ ^ : 문자열의 시작
+ $ : 문자열의 끝
+ ? : 앞문자가 있어도 되고 없어도 됨. ex) appl?e == apple, appe
+ (?!) : 대소문자 구분안함
+ | : 다자 택일 (OR조건). ex) a|bpple = apple, bpple
### 반복기호
+ '+' : 1번 이상. ex) a+pple == apple, aaaaapple =! pple
+ '*' : 0번 이상. ex) a+pple == apple, aaaaapple, pple
+ {m,n} : m번 이상 n번 이하 반복. ex) ca{2,5}t == caat, caaat, caaaat, caaaaat
    + {0,} == '*'과 같음 (0번 이상)
    + {1,} == '+'과 같음 (1번 이상)
    + {0,1} == '?'과 같음 (0번이상 1번이하)
## 문자 클래스
+ [] : [] 사이의 문자들과 매칭. ex) [abc]pple == aaple,bpple,cpple != dpple
+ 문자 클래스의 특수 용도
    + [0-9] : [0123456789] 숫자와 매칭
    + [a-z] : 알파벳 소문자와 매칭
    + [a-zA-z] : 대소문자 안가리고 모든 알파벳과 매칭
    + [ㄱ-ㅎ|ㅏ-ㅣ|가-힣] : 모든 한글과 매칭
    + [가-힣] : 한글 글자 하나와 매칭

+ [^] : 문자 클래스 안의 꺽쇠 표시는 해당 문자들과 이닌 것 과 매칭
    + ex) [^abc]pple == dpple, fpple != apple
+ \d : 모든 숫자와 매칭 [0-9]와 같음
+ \D : 숫자가 아닌 것과 매칭 [^0-9]와 같음
+ \w : 문자 + 숫자 + '_'와 매칭
+ \W : 문자 + 숫자 + '_'가 아닌 것과 매칭
+ \s : 화이트 스페이스 문자와 매칭 [\t \b \r \f \v]
+ \S : 화이트 스페이스가 아닌 문자와 매칭

+ 정규표현식 앞에  r"" 사용
    + \b : 단어의 경계, 공백, 탭, 컴마, 대시등과 매칭 (파이썬에서 활용됨)
    + \B : 단어의 경계가 아닌 것과 매칭 (파이썬에서 활용됨)

### 그룹 ()
+ () : ()안에 있는 모든 문자와 매칭 또는 글룹 기능이 있음

---

### 파이썬 re 모듈내의 주요 함수
+ match() : 문자열의 처음부터 끝까지 정규식과 매칭되는지 검사
    + ex) 주민번호, 전화번호 등 정상적으로 입력되었는지 확인
+ search() : 문자열의 전체를 검색하여 정규식과 매칭되는 문자열이 있는지 검사
+ findall() : 정규식과 매칭되는 모든 문자열을 리스트로 변환
+ split() : 정규식과 매칭되는 문자열을 기준으로 파싱하여 리스트로 반환
+ sub() : 정규식과 매칭되는 문자열을 다른 문자열로 바꿔줌

In [3]:
import re

#(1) match
text = 'python'
pattern = re.compile("..thon")  # 정규표현식 생성
m = pattern.match(text)  # 매칭되는 결과가 없으면 None 리턴

if m :
    print(m.group())
else:
    print('매칭되지 않습니다.')
    
text = "791009-1234567"
m = re.match("^\d{6}-\d{7}$", text)

if m :
    print(m.group())
else:
    print('매칭되지 않습니다.')

python
791009-1234567


In [5]:
# (2) search()
text = 'program : python'
pattern = re.compile("..thon")  # 정규표현식 생성
m = pattern.search(text)  # 매칭되는 결과가 없으면 None 리턴

if m :
    print(m.group())
else:
    print('매칭되지 않습니다.')
    
m = re.search("ca.e", "Good care caee")
print("일치하는 문자열 :", m.group())
print("입력받은 문자열 :", m.string)
print("일치하는 문자열의 시작 인덱스 :", m.start())
print("일치하는 문자열의 마지막 인덱스 :", m.end())
print("일치하는 문자열의 시작 및 마지막 인덱스 :", m.span())



python
일치하는 문자열 : care
입력받은 문자열 : Good care caee
일치하는 문자열의 시작 인덱스 : 5
일치하는 문자열의 마지막 인덱스 : 9
일치하는 문자열의 시작 및 마지막 인덱스 : (5, 9)


In [8]:
# (3) findall()
mlist = re.findall("\w*berry", "berry 1berry 10berry apple strawberry")
print(mlist)

mlist = re.findall("one|self|the", "oneself is the one thing")
print(mlist)

# 'line'과 일치하지만 line을 포함한 글자들은 매칭되지 않도록 검색
# outline(x), linear(x), line(o)
m = re.search(r"\bline\b", "outline linear line")
print(m.group())
print(m.span())

['berry', '1berry', '10berry', 'strawberry']
['one', 'self', 'the', 'one']
line
(15, 19)
