### 정규표현식은 문자표현공식, 문자 탐색공식이라고 부르는 연산식과 같은 분류언어
* 전문가가 사용한 정규표현식은 초보자에게 외계언어와 같은 느낌의 어려운식들이지만 문자 탐색과 스캔에 있어 강력한 기능을 갖고 있어, 여러분야에 많이 사용되고 있습니다
* 파이썬에서도 re라는 모듈로 정규표현식의 적용을 지원하고 있습니다

In [1]:
# 간단한 사용 예
# a로 시작하면서 a만 있거나 a뒤에 b가 하나이상 반복되는 구문검색
# 정규표현식을 사용하기위한 모듈 임포트
import re

In [2]:
# 정규표현식 : 'ab*' => 'ab'로 시작하는 모든 단어
# 위 정규표현식을 파이썬 모듈의 명령 또는 함수로 처리
p = re.compile('ab*')
m1 = p.search("gpyabthon")
print(m1)

<re.Match object; span=(3, 5), match='ab'>


In [3]:
# 완성된 정규표현식의 공식을 저장 : 모듈 re에 있는 compile 함수를 이용하여 변수 p에 저장
p = re.compile('ab*')
# '(문자)' : 문자의 반복검색(0번 이상 반복을 검색)
# 'ab*' : a로 시작하면서, 뒤에 b가 연속해서 반복되는 구문 검색
    # (b는 0번 반복도 검색 대상)
# 검색 대상의 예 : 'a' 'ab' 'abb' 'abbbb' 등

# p변수에 있는 공식을 gpyabthon이라는 문자열에 적용하여, 매칭 또는 탐색되는지 아닌지 판단
# - 검색 결과 매칭 결과가 있는지에 대한 결과를 얻음
m1 = p.search("gpyabthon")
# 매칭결과 없으면 None
print(m1)

<re.Match object; span=(3, 5), match='ab'>


In [4]:
# 매칭된 모든 구문 패턴을 리스트로 반환
m2 = p.findall("apyabthonabbb")
print(m2)

['a', 'ab', 'abbb']


문자 탐색
* [  ] : 리스트 때 썼던 대괄호로 표현
* [  ] : 괄호 안에 검색하고자 하는 글자들을 넣고, 그 포함 유무를 판단
* [a,b,c] : a와 b와 c가 대상 문자열 안에 하나라도 포함되었는지 판단
    * a : Yes
    * before : Yes
    * dude : No
* abc처럼 [ ]가 없는 경우 'abc'단어를 의미하지만
* [abc]는 a또는 b또는 c를 의미합니다

In [8]:
p = re.compile('[abc]')
print(p.search('a'))
print(p.findall('a'))
print(p.search('before'))
print(p.findall('before'))
print(p.search('dude'))
print(p.findall('dude'))

<re.Match object; span=(0, 1), match='a'>
['a']
<re.Match object; span=(0, 1), match='b'>
['b']
None
[]


In [10]:
p = re.compile('z[abc]') # z가 반드시 있어야 하며, 그 뒤로 abc 중 하나만 포함된 것 찾기
print( p.search('qweqzcrew'))
print( p.findall('qweqzcrew'))
# [abcdefghijklmnopqrstuvwxyz] : 아무글자나 매칭 , 단 소문자만

<re.Match object; span=(4, 6), match='zc'>
['zc']


### 자주 사용하는 문자클래스
* [0-9] : 숫자와 매치, 0부터 9까지의 아라비아 기호 매칭
* [a-z] : 문자 소문자와 매치, 소문자 a부터 z까지의 글자 매칭
* [A-Z] : 문자 대문자와 매치, 대문자 A부터 Z까지의 글자 매칭
* [a-zA-Z] : 아라비아기호를 제외한 대소문자
* \d : 숫자와 매치[0-9]와 동일한 표현
* \D : 숫자가 아닌것과 매치[^0-9]와 동일 - ^: 다음 내용을 제외한 글자
* \s : whitespace와 매치(공백) [\t\n\r\f\v]와 같은표현
* \S : whitespace이 아닌것과 매치 [^\t\n\r\f\v]와 같은표현
* \w : 문자와 숫자들과 매치 [0-9a-zA-Z]와 같은 표현
* \W : 문자와 숫자가 아닌것과 매치 [^0-9a-zA-Z]와 같은 표현

In [11]:
p=re.compile('[a-z]') # 소문자 검색
print(p.search('ABCDEFG'))
print(p.search('ABCDEfG'))

None
<re.Match object; span=(5, 6), match='f'>


In [12]:
p=re.compile('\d')  # 숫자 검색
print(p.search('ABCDEFG'))
print(p.search('ABCDEFG0'))
p=re.compile('\s')  # 공백 검색
print(p.search('ABCDEFG'))
print(p.search('ABCD EFG'))
p=re.compile('\w')  # 글자(문자와 숫자) 검색
print(p.search('@#$%^&*'))
print(p.search('@#$%^&K*'))

None
<re.Match object; span=(7, 8), match='0'>
None
<re.Match object; span=(4, 5), match=' '>
None
<re.Match object; span=(6, 7), match='K'>


In [14]:
p=re.compile('\D')
value=input("정수를 반드시 입력하세요")
m = p.search(value)
# search의 결과를 bool로 변환
# 매칭결과가 있으면 True, None이면 False로 하여 while문에 활용합니다
while bool(m):
    print("정수가 아닌 값을 잘못 입력하셨습니다")
    value = input("정수를 반드시 입력하세요")
    m = p.search(value)
    if not bool(m):
        break
print("정수로 변환된 값 : ", int(value))

정수를 반드시 입력하세요0.5
정수가 아닌 값을 잘못 입력하셨습니다
정수를 반드시 입력하세요!8
정수가 아닌 값을 잘못 입력하셨습니다
정수를 반드시 입력하세요123
정수로 변환된 값 :  123


### Dot(.) - 줄바꿈 글자인 '\n'을 제외한 모든 글자와 매칭
* a.b : a와 b사이에 어떤 글자가 들어와도 매칭
    * a + "모든문자" +  b
    * aab : yes
    * a0b : yes
    * abb : no

In [16]:
p = re.compile('a.b')
print( p.search('aab'))
print( p.search('a0b'))
print( p.search('abc'))
# 세 번째 문자열은 a 뒤로 b가 나오기 전엔 아무글자도 없기 때문에 None

<re.Match object; span=(0, 3), match='aab'>
<re.Match object; span=(0, 3), match='a0b'>
None


* a.b와 a[.]b의 차이점
* [.]는 괄호안에 '\n'을 제외한 모든 문자를 표시하는게 아니라 괄호안의 '.'을 나타냄
* 'a.b'는 매칭되지만 'a0b'는 매칭되지 않음

In [19]:
p = re.compile('a[.]b')
print( p.search('a.b'))  # a와 b사이의 .을 찾음
print( p.search('a0b'))

<re.Match object; span=(0, 3), match='a.b'>
None


### 반복 * 와 +
* '*' 는 앞에있는 글자의 반복횟수를 0회차부터 카운트하여 반복된 문자열 탐색
* 정규표현식이 'ca*t'일 경우

    * ct : yes
    * cat : yes
    * caaaat : yes
* '+'는 앞에 있는 글자의 반복횟수를 1회차부터 카운트하여 반복된 문자열 탐색
* 정규표현식이 'ca+t'일 경우
* 앞 글자 중 모두 한 번은 무조건 나와야 함
    * ct : no
    * cat : yes
    * caaaat : yes

In [20]:
p = re.compile('ca*t')
print( p.search('ct'))
print( p.search('cat'))
print( p.search('caaaat'))

p = re.compile('ca+t')
print( p.search('ct'))
print( p.search('cat'))
print( p.search('caaaat'))

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 6), match='caaaat'>
None
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 6), match='caaaat'>


In [21]:
# ababababab : (ab)+  (ab)* 여러글자가 반복 시 ()를 사용하면 됨

### 반복 {m,n}

1. {m} : 앞에 위치한 글자의 m회 반복 매칭
    * a{3} : a의 3회 반복
    * 정규표현식 : 'ca{2}t'
        * cat : no
        * caat : yes
2. {m,n} : 앞에 위치한 글자의 m회부터 n회 반복매칭
    * a{2,5} : a의 2~5회 반복
    * 정규표현식 : 'ca{2,4}t'
        * cat : no
        * caat : yes
        * caaat : yes
        * caaaaaat : no
3. ? : 앞에 위치한 글자의 0회 또는 1회 반복 매칭
    * a? : a의 0~1회 반복
    * 정규표현식 : 'ca?t'
        * ct : yes
        * cat : yes
        * caaaaaat : no

In [24]:
p = re.compile('ca{2}t')
print( p.search('cat'))
print( p.search('caat'))
p = re.compile('ca{2,4}t')
print( p.search('cat'))
print( p.search('caat'))
print( p.search('caat'))
print( p.search('caaaaaat'))
p = re.compile('ca?t')
print( p.search('ct'))
print( p.search('cat'))
print( p.search('caaaat'))

None
<re.Match object; span=(0, 4), match='caat'>
None
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 4), match='caat'>
None
<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
None


### 연습문제
* 아래 문자열 중 이름을 제외한 전화번호만 findall을 이용하여 추출하세요

In [32]:
a = "park chan ho 010-1234-5678 kim min 010-8888-9999 lee 011-123-2222"
p = re.compile('\d{3}[-]\d{3,4}[-]\d{4}')
print(p.findall(a))
# 전화번호 형식에 맞춰 자료형을 입력해서 찾으면 됨

['010-1234-5678', '010-8888-9999', '011-123-2222']


In [48]:
a = 'park chan ho park@naver.com Kim min kim@daum.net Lee lee@myhome.com'
p = re.compile('\w*[@]\w*[.]\w*')
print(p.findall(a))

['park@naver.com', 'kim@daum.net', 'lee@myhome.com']
