# 파이썬에서 정규식을 적용하는 방식

In [2]:
import re

* 정규식 정의
  * re.compile(정규식)

In [3]:
pattern = re.compile('abc')

* 정규식 매칭
  * match(원본문자열)
  * 일치 여부를 Match 오브젝트로 반환
    * match: 일치된 값
    * span: 일치된 값의 인덱스

In [4]:
pattern.match('abc')

<re.Match object; span=(0, 3), match='abc'>

In [5]:
result = pattern.match('abc')
type(result)

re.Match

* 일치가 되지 않는 경우
  * 주피터 노트북인 경우에는 아무것도 출력되지 않는다.
  * pring 할 경우 None이 출력된다.

In [6]:
pattern.match('ab')

In [7]:
print(pattern.match('ab'))

None


# 문자클래스

* 문자 클래스로 만들어진 정규식은 "[ ] 사이의 문자중에 한 개 매치"라는 의미
* 정규 표현식이 [abc]라면 이 표현식의 의미는 "a, b, c 중 한 개의 문자와 매치"
* [] 문자 클래스는 하나의 문자와 매치가 된다.

In [8]:
p = re.compile('[abc]')
p.match('a')

<re.Match object; span=(0, 1), match='a'>

In [9]:
p.match('da')

In [10]:
p = re.compile('d[abc]')
p.match('da')

<re.Match object; span=(0, 2), match='da'>

In [11]:
p = re.compile('d[abc]')
p.match('dc')

<re.Match object; span=(0, 2), match='dc'>

In [12]:
p = re.compile('d[abc]')
p.match('dd')

* 매치 여부는 정규식이 원문에 적용되었는지만 판단한다.

In [13]:
p = re.compile('d[abc]')
p.match('db!')

<re.Match object; span=(0, 2), match='db'>

* 두개의 문자열 클래스 조합

In [14]:
p = re.compile('[abc][abc]')
p.match('da!!')

In [15]:
p = re.compile('[abc][abc]')
p.match('car')

<re.Match object; span=(0, 2), match='ca'>

# 문자클래스와 일반 문자 조합

In [16]:
p = re.compile('p') # 첫 그라가 p인가?
p.match('apple')

In [17]:
p = re.compile('[abc]p') # 첫 그라가 p인가?
p.match('apple')

<re.Match object; span=(0, 2), match='ap'>

# 하이픈

In [18]:
p = re.compile('[a-c]')
p.match('apple')

<re.Match object; span=(0, 1), match='a'>

In [19]:
p = re.compile('[a-c]')
p.match('demon')

In [20]:
p = re.compile('[a-z]')
p.match('demon')

<re.Match object; span=(0, 1), match='d'>

* 영어 소문자

In [21]:
p = re.compile('[a-z]')
p.match('Korea')

* 영어 대문자

In [22]:
p = re.compile('[A-Z]')
p.match('Korea')

<re.Match object; span=(0, 1), match='K'>

* 한글

In [38]:
p = re.compile('[가-힣]') 
p.match('홍')

<re.Match object; span=(0, 1), match='홍'>

In [39]:
p.match('길')

<re.Match object; span=(0, 1), match='길'>

In [40]:
p.match('동')

<re.Match object; span=(0, 1), match='동'>

* 첫 글자가 모든 알파벳과 매치

In [24]:
p = re.compile('[a-zA-Z]')
p.match('Korea'), p.match('Korea')

(<re.Match object; span=(0, 1), match='K'>,
 <re.Match object; span=(0, 1), match='K'>)

* 모든 숫자와 매치

In [25]:
p = re.compile('[0-9]')
p.match('1st'), p.match('2st'), p.match('3st')

(<re.Match object; span=(0, 1), match='1'>,
 <re.Match object; span=(0, 1), match='2'>,
 <re.Match object; span=(0, 1), match='3'>)

* 음수와 매치

In [26]:
p = re.compile('-[0-9]')
p.match('-27')

<re.Match object; span=(0, 2), match='-2'>

# ^ 연산

* 문자 클래스 안에 ^ 메타 문자를 사용할 경우에는 반대(not)라는 의미

In [27]:
p = re.compile('[^a]') # 첫 글자가 a가 아닌 문자
p.match('Korea')

<re.Match object; span=(0, 1), match='K'>

In [28]:
p = re.compile('[^a]') # 첫 글자가 a가 아닌 문자
p.match('apple')

### ^ 연산 응용

* 숫자가 아닌 문자

In [29]:
p = re.compile('[^0-9]') 
p.match('apple'), p.match('777')

(<re.Match object; span=(0, 1), match='a'>, None)

# 자주 사용하는 문자 클래스 표현식

* \d - 숫자와 매치, [0-9]와 동일한 표현식이다.
* \D - 숫자가 아닌 것과 매치, [^0-9]와 동일한 표현식이다.
* \s - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식이다. 맨 앞의 빈 칸은 공백문자(space)를 의미한다.
* \S - whitespace 문자가 아닌 것과 매치, [^ \t\n\r\f\v]와 동일한 표현식이다.
* \w - 문자+숫자(alphanumeric)와 매치, [a-zA-Z0-9_]와 동일한 표현식이다.
* \W - 문자+숫자(alphanumeric)가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식이다.

* \d

In [30]:
p = re.compile('[\d]') 
p.match('1234'), p.match('apple')

(<re.Match object; span=(0, 1), match='1'>, None)

* \D

In [31]:
p = re.compile('[\D]')
p.match('apple'), p.match('1234')

(<re.Match object; span=(0, 1), match='a'>, None)

* \s

In [32]:
p = re.compile('[\s]')
p.match(' apple')

<re.Match object; span=(0, 1), match=' '>

* \S

In [33]:
p = re.compile('[\S]')
p.match('1234')

<re.Match object; span=(0, 1), match='1'>

* \w

In [34]:
p = re.compile('[\w]')
p.match('apple'), p.match('1234'), p.match(' apple')

(<re.Match object; span=(0, 1), match='a'>,
 <re.Match object; span=(0, 1), match='1'>,
 None)

* \W

In [35]:
p = re.compile('[\W]')
p.match('apple'), p.match('1234')

(None, None)