### 정규표현식(Regular Expressions)

- 정규식
- 복잡한 문자열을 처리할 때 사용하는 프로그래밍 기법


### 정규표현식의 메타 문자

- 문자클래스 [] : [와 ] 사이의 문자들과 매치 
- Dot(.) : 모든 문자
- 반복(+) 정규식 
- 반복(*) 정규식
- ? 정규식
- 반복({m,n}) 정규식

In [1]:
# 정규표현식 라이브러리 가져오기
import re

In [None]:
# 문자클래스 [] : [와 ] 사이에 있는 문자들로 패턴을 정함
# 예제1.
# [abc] : 문자 a,b,c 중 하나 매칭
# 'a' => 매치 => a
# 'before' => 매치 => b
# 'love' => X

In [None]:
# 예제2.
# [a-z] : from - to => a부터 z까지 (소문자 알파벳)
# [a-zA-Z] : 모든 영어(대소문자 포함)
# [0-9] : 모든 숫자

In [None]:
# Dot(.) 정규식 : 모든 문자
# a.b vs [a.b] vs a[.]b
# a.b : a와 b 사이에 모든 문자가 올 수 있다.
# [a.b] : a 또는 . 또는 b 중 하나와 매치
# a[.]b : a와 b 사이에 . 문자열 하나와 매치
# "aab" : a.b 매치, [a.b] 매치, a[.]b X
# "a0b" : O, O, X
# "abc" : X, O, X

In [None]:
# 반복(*) 정규식 : * 바로 앞에 있는 문자가 0~무한개(2억) 반복가능
# pattern : ca*t => a가 없어도 되고 무한히 반복해도 된다.
# 'ct' : O
# 'cat' : O
# 'caat' : O

In [None]:
# 반복(+) 정규식 : + 바로 앞에 있는 문자가 최소 1번 이상 있어야한다.
# 예제
# pattern : ca+t
# 'ct' : X
# 'cat' : O
# 'caat' : O

In [None]:
# 반복({m,n}) 정규식 : 바로 앞 문자의 반복횟수 지정
# m 이상 n 이하
# 예제
# pattern : ca{2}t => a가 2번 이상 반복해야함
# 'ct' : X
# 'cat' : X
# 'caat' : O

In [None]:
# ? 정규식 : {0,1} => 0번 이상 1번 이하
# 예제
# pattern : ab?c = ab{0,1}c
# 'abc' : O
# 'ac' : O
# 'abbc' : X

###  정규식을 이용한 문자열 검색
- pattern = re.compile('정규식')
- pattern.match() : 문자열의 처음부터 정규식과 매치되는지 조사한다.
    - 매치된 문자열 확인 : obj.group()
- pattern.search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
    - 매치된 문자열 확인 : obj.group()
- pattern.findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다
    - 매치된 문자열 확인 : obj가 리스트로 반환

In [4]:
# 정규식 필터링을 위한 컴파일 객체 생성
# re.complie('정규식')
# 패턴 : 소문자 알파벳 a부터 g까지의 문자열 중 하나와 매치 확인
# [a-g]
p = re.compile('[a-g]')

#### match()

In [None]:
# 'axy'
# 패턴객체(p).match(대상문자열)
# 소문자 알파벳 a부터 g까지의 문자열 중 하나와 매치여부를 확인하는 패턴
# 매치된 결과
result1 = p.match('axy')

In [None]:
# 적용한 문자열에서 패턴과 매치된 결과를 반환
result1.group()

In [None]:
# 'xay'
result2 = p.match('xay')

In [None]:
# 매치되지 않은 결과
result2

In [None]:
# 매치된 결과가 없음
result2.group()

In [2]:
# 정규식 반환 결과의 사용예
# 패턴 생성, 문자열 검색 작업 완료
# 패턴 생성
def match_check(x):
    result = p.match(x)
    if result:
        msg = 'Match Found : {}'.format(result.group())
    else:
        msg = 'No Match Found '
    
    return msg

In [5]:
match_check('ax')

'Match Found : a'

#### search()

In [6]:
# 예제1
# axy(a), xay(None)
p.search('axy')

<re.Match object; span=(0, 1), match='a'>

In [7]:
p.search('xay')

<re.Match object; span=(1, 2), match='a'>

In [10]:
# 예제2
result = p.search('xyayb')

In [11]:
result.group()

'a'

#### findall()

In [12]:
# 예제
# 결과를 리스트로 반환
p.findall('xyayb')

['a', 'b']

##### 정규식 예제 코드 작성

In [13]:
# [abc] : abc 중 하나와 매치
p1 = re.compile('[abc]')

In [15]:
# a
p1.match('a')

<re.Match object; span=(0, 1), match='a'>

In [17]:
# "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
p1.match('before')
p1.search('before')

<re.Match object; span=(0, 1), match='b'>

In [19]:
# love : X
print(p1.search('love'))

None


In [25]:
p1.findall('ococ')

['c', 'c']

In [None]:
# ca*t : a가 없어도 되고 여러번 반복 가능
# ct, cat, caat

In [27]:
p2 = re.compile('ca*t')

In [28]:
p2.match('ct')

<re.Match object; span=(0, 2), match='ct'>

In [29]:
p2.search('ct')

<re.Match object; span=(0, 2), match='ct'>

In [30]:
p2.findall('ct')

['ct']

In [31]:
p2.match('cat')

<re.Match object; span=(0, 3), match='cat'>

In [32]:
p2.search('cat')

<re.Match object; span=(0, 3), match='cat'>

In [33]:
p2.findall('cat')

['cat']

In [34]:
p2.match('caaaaat')

<re.Match object; span=(0, 7), match='caaaaat'>

In [35]:
# 문자 c,a,*,t 중에 하나와 매치
p3 = re.compile('[ca*t]')

In [38]:
# 결과 없음
p2.match('tc')

In [37]:
p3.match('tc')

<re.Match object; span=(0, 1), match='t'>

In [40]:
p3.findall('caaa*t')

['c', 'a', 'a', 'a', '*', 't']

In [41]:
p2.findall('caaa*t')

[]

In [42]:
# ca+t : a가 한 번 이상 반복
p4 = re.compile('ca+t')

In [43]:
p4.match('ct')

In [44]:
p4.match('cat')

<re.Match object; span=(0, 3), match='cat'>

In [45]:
p4.match('caaaaat')

<re.Match object; span=(0, 7), match='caaaaat'>

In [46]:
# ca{2}t : a가 최소 두 번이상 반복 가능
p5 = re.compile('ca{2}t')

In [47]:
p5.match('cat')

In [48]:
p5.match('caat')

<re.Match object; span=(0, 4), match='caat'>

In [49]:
# 반복{m,n}
p6 = re.compile('ca{2,4}t')
p6.match('cat')

In [50]:
p6.match('caaaaaat')

In [51]:
p6.match('caaat')

<re.Match object; span=(0, 5), match='caaat'>

In [52]:
# ab?c : {0,1}
p7 = re.compile('ab?c')

In [53]:
p7.match('ac')

<re.Match object; span=(0, 2), match='ac'>

In [54]:
p7.match('abc')

<re.Match object; span=(0, 3), match='abc'>

In [55]:
p7.match('abbc')

### compile 옵션

- re.DOTALL, re.S <br>
    메타 문자는 줄바꿈 문자(\n)를 제외한 모든 문자와 매치되는 규칙이 있다. <br>만약 \n 문자도 포함하여 매치하고 싶다면 re.DOTALL 또는 re.S 옵션을 사용해 정규식을 컴파일
    
- re.IGNORECASE, re.I <br>
    소문자 구분없이 매치를 수행하고자 할 경우에 사용하는 옵션
    
- re.MUTILINE, re.M <br>
    메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우


In [56]:
# 일반적인 compile
# 패턴 : a.b => a와 b 사이에 모든 문자가 올 수 있다.
# 기본값 : 줄바꿈 문자를 제외한 모든문자
p = re.compile('a.b')
p.match('a\nb')

In [57]:
# DOTALL, S
p = re.compile('a.b', re.S)  # re.DOTALL
p.match('a\nb')

<re.Match object; span=(0, 3), match='a\nb'>

In [58]:
# IGNORECASE, I
# 패턴 : [a-z] => 소문자 a부터 z까지 중에 하나 매치
p = re.compile('[a-z]')
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [59]:
p.match('Python')

In [60]:
# re.IGNORECASE
p = re.compile('[a-z]', re.I)
p.match('Python')

<re.Match object; span=(0, 1), match='P'>

In [61]:
# 사용할 패턴에서 문장의 처음이라는 조건이 있고
# 적용하는 문자열이 multi-line 일 때
# 패턴 : ^python으로 시작하는 조건
p = re.compile('^python')

In [62]:
text = '''python is easy
hello world
python world
you need python
'''

In [63]:
p.findall(text)

['python']

In [64]:
p = re.compile('^python', re.M)
p.findall(text)

['python', 'python']

In [65]:
# python 이라는 단어와 매치
# 전체 매치를 반환 : 문장 중간 또는 마지막도 해당
p = re.compile('python', re.M)
p.findall(text)

['python', 'python', 'python']

### ※ 기타 문자 클래스 및 메타문자
- | : 또는
- ^ : 문자열의 처음
- $ : 문자열의 마지막
- \d : 숫자와 매치, [0-9]와 동일
- \D : 숫자가 아닌 것과 매치, [^0-9]와 동일
- \s : 공백문자(공백, 탭, 개행문자)와 매치, [ \t\n\r\f\v] 과 동일
- \S : whitespace가 아닌 것 매치, [^ \t\n\r\v\f] 과 동일
- \w : 모든 문자+숫자+밑줄과 매치, [a-zA-Z0-9_] 과 동일
- \W : 문자와 숫자, 밑줄이 아닌 것 매치,	[^a-zA-Z0-9_] 과 동일

In [76]:
# hello|python 
p = re.compile('hello|python')

In [77]:
text = 'hello!!java!python'

In [78]:
p.match(text)

<re.Match object; span=(0, 5), match='hello'>

In [79]:
p.search(text)

<re.Match object; span=(0, 5), match='hello'>

In [72]:
p.findall(text)

['hello', 'python', 'python']

In [80]:
# ^hello : 문자열의 처음이 hello로 시작하는 조건
p = re.compile('^hello')
p.search('ptyhonhello')

In [81]:
p.match('ptyhonhello')

In [84]:
p.search('hellooworldpython')

<re.Match object; span=(0, 5), match='hello'>

In [85]:
# hello$ : hello가 문자열의 마지막인 조건
p = re.compile('hello$')

In [86]:
p.search('hihello')

<re.Match object; span=(2, 7), match='hello'>

In [87]:
p.search('hellohi')

In [88]:
# python으로 문장이 시작하고 
# 이후 공백 + 여러개(1 이상) 단어(\w)가 와야하는 정규식 패턴
# 적용할 문자열은 여러 줄
p = re.compile('^python\s\w+', re.M)

In [89]:
txt = '''python 
life is too short
python two
you need python
python _
'''

In [90]:
# findall() 결과확인
p.findall(txt)

['python two', 'python _']

In [None]:
# 정규표현식 예제
# 휴대폰 번호 : 010-000-0000 / 010-1111-1111
# ^\d{3}\-\d{3,4}\-\d{4}$

In [None]:
# 주민등록번호 : 000000 - 0000000
# ^\d{6}\-\d{7}$

In [None]:
# 이메일주소 : 아이디
# 모든문자+숫자+_+-
# ^[0-9a-zA-Z_\-]+

In [None]:
# 이메일주소 : 도메인주소
# 모든문자+숫자+.+-+_
# @[0-9a-zA-Z_\-.]+$

In [None]:
# ^[0-9a-zA-Z_\-]+@[0-9a-zA-Z_\-.]+$

### 그룹핑
- 반복되는 패턴 적용 및 반환
- 그룹으로 적용하려는 패턴을 소괄호()로 묶어서 표현
- re_obj.group(n) : 추출하고 싶은 n번째 그룹 값을 지정하여 반환

In [91]:
# test 라는 문자열의 반복을 확인하는 정규식 작성
p = re.compile('(test)+')

In [100]:
p2 = re.compile('test')
p2.findall('banana testtest wow test')

['test', 'test', 'test']

In [92]:
# 문자열 전체를 검색하여 정규식과 매치되는것 확인
result = p.search('banana testtest wow test')

In [97]:
result

<re.Match object; span=(7, 15), match='testtest'>

In [93]:
# 첫번째 그룹 문자열 반환(기본값)
result.group()

'testtest'

In [94]:
# 첫번째 그룹에 해당되는 문자열
result.group(0)

'testtest'

In [95]:
# 두번째 그룹에 해당되는 문자열
result.group(1)

'test'

In [96]:
result.group(2)

IndexError: no such group

In [1]:
import re

In [None]:
# re 라이브러리의 compile 모듈로 정규식 패턴 객체 생성
# 패턴 객체를 통해 문자열을 검색
# match, search, findall
# 검색 결과 객체의 group() 메서드로 매치 결과를 반환

In [2]:
# 특정 양식 기반의 반복 패턴(여러 개의 그룹)
# 회원명(여러문자) 회원번호(00-000)
p = re.compile(r'(\w+)\s+(\d{2}[-]\d{3})')

In [3]:
# 김철수 01-123
result = p.search('김철수 01-123')

In [4]:
# 전체 그룹
result.group()

'김철수 01-123'

In [5]:
# 첫번째 그룹
result.group(1)

'김철수'

In [6]:
# 두번째 그룹
result.group(2)

'01-123'

### 그룹핑 참조
- pattern.sub('참조할 그룹핑 정규식 & 바꿀 표현', 원본데이터)

In [7]:
# 이름을 ***로 바꿔서 표현
# ()-()
p.sub('*** \g<2>', '김철수 01-123')

'*** 01-123'

### 모듈단위 실행

In [8]:
# 패턴 객체를 여러 번 반복해서 사용할 경우에는 
# 컴파일 객체가 더 유용
p = re.compile('ab+')
p.search('abc')

<re.Match object; span=(0, 2), match='ab'>

In [9]:
# 패턴 객체를 반복해서 쓰지 않을 경우
# compile 객체로 정규식을 독립적인 객체로 만드는 단계를 생략 가능
re.search('ab+', 'abc')

<re.Match object; span=(0, 2), match='ab'>

### < 연습문제 >

휴대폰 번호를 포함하고 있는 아래와 같은 텍스트에 대해 포함된 모든 휴대폰 번호 가운데4자리를 * 문자로 변경하세요.

"""lee 010-1234-5678
song 010-1357-2468
"""

1) 정규식을 쓰지 않는 방법
- for 반복문 : 데이터 처리 프로세스
- object.isdigit() : 대상 객체가 숫자인지에 대해 bool type 반환
- str 메서드 : 데이터 처리 방법

2) 정규식 쓰는 방법

2. 정규식을 사용한 방법

    - 성씨 데이터 + 핸드폰번호 패턴 => 그룹핑
    - p.sub('g', 'text) => 그룹핑 참조

In [11]:
# 모든 휴대폰 번호 가운데4자리를 * 문자로 변경하세요.
text = """lee 010-1234-5678
song 010-1357-2468
"""

In [14]:
# 성씨 데이터 + 휴대폰 번호 데이터
# 모든문자/하나이상 + 숫자세자리 - 숫자네자리 - 숫자네자리
# 첫번째 방법
# 문자열의 시작값, 종료값을 지정
# compile 옵션도 지정
p1 = re.compile(r'^(\w+)\s+(\d{3})[-](\d{4})[-](\d{4})$', re.M)

In [15]:
p1.findall(text)

[('lee', '010', '1234', '5678'), ('song', '010', '1357', '2468')]

In [17]:
# lee 010-****-1234
print(p1.sub('\g<1> \g<2>-****-\g<4>', text))

lee 010-****-5678
song 010-****-2468



In [18]:
# 두번째 방법
# 문자열의 시작값, 종료값을 지정하지 않음
p2 = re.compile(r'(\w+)\s+(\d{3})[-](\d{4})[-](\d{4})')

In [19]:
p2.findall(text)

[('lee', '010', '1234', '5678'), ('song', '010', '1357', '2468')]

In [20]:
print(p2.sub('\g<1> \g<2>-****-\g<4>', text))

lee 010-****-5678
song 010-****-2468

