# Dot .

* 정규 표현식의 Dot(.) 메타 문자는 줄바꿈 문자 '\n'을 제외한 모든 문자와 매치
* 이 문법은 문자열 클래스에 적용되지않는다.

In [2]:
import re

In [4]:
# 첫번째 글자가 a 두번째 글자가 아무문자(\n 제외) 세번째 글자가 b인 표현식
p = re.compile('a.b')
m = p.match('aab')
print(m)
m = p.match('a0b')
print(m)
m = p.match('abc') # ab 사이에 문자가 있어야하는데 없으므로 매치되지않음
print(m)

<re.Match object; span=(0, 3), match='aab'>
<re.Match object; span=(0, 3), match='a0b'>
None


In [6]:
# dot은 문자열클래스에 적용하지않는다
# 문자클래스에서 . (dot) 은 문자 '.' 이다.
p = re.compile('a[.]b')
m = p.match('aab')
print(m)
m = p.match('a0b')
print(m)
m = p.match('abc')
print(m)

None
None
None


In [8]:
# 첫번째 글자가 a, 두번째 세번째 글자가 아무글자 네번째글자가 .
# 나머지 글자가 txt
p = re.compile('a..[.]txt')
m = p.match('aab.txt')
print(m)
m = p.match('a1.txt')
print(m)

<re.Match object; span=(0, 7), match='aab.txt'>
None


In [9]:
p = re.compile('....')
m = p.match('pen.')
print(m)
m = p.match('pen!')
print(m)

<re.Match object; span=(0, 4), match='pen.'>
<re.Match object; span=(0, 4), match='pen!'>


In [10]:
p = re.compile('pen[.]')
m = p.match('pen.')
print(m)
m = p.match('pen!')
print(m)

<re.Match object; span=(0, 4), match='pen.'>
None


---

# 반복 (*)

* '*'은 바로 앞에 있는 문자가 0(없거나)부터 무한대로 반복되는 패턴  
    (하지만 알려진 바로는 반복횟수는 메모리 제약사항으로 약 2억개 정도만 가능)

In [17]:
p = re.compile('ca*t') # a가 없어도된다라는 조건
m = p.match('ct')
print(m)
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaaaaaaaaaaaaaaaat')
print(m)
m = p.match('caaaaaaaaaaaaaaaaaaaaa')
print(m)

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 20), match='caaaaaaaaaaaaaaaaaat'>
None


# 반복 (+)

* '+'은 바로 앞에 있는 문자가 1개 부터 무한대로 반복되는 패턴  

In [19]:
p = re.compile('ca+t') # a가 1개 이상 ...
m = p.match('ct')
print(m)
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaaaaaaaaaaaaaaaat')
print(m)
m = p.match('caaaaaaaaaaaaaaaaaaaaa')
print(m)

None
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 20), match='caaaaaaaaaaaaaaaaaat'>
None


In [21]:
p = re.compile('goo+gle')
m = p.match('gogle')
print(m)
m = p.match('google')
print(m)
m = p.match('goooooooooooooooooooooogle')
print(m)

None
<re.Match object; span=(0, 6), match='google'>
<re.Match object; span=(0, 26), match='goooooooooooooooooooooogle'>


# 반복 {m,n}

* {m, n} 정규식을 사용하면 반복 횟수가 m부터 n까지 매치
* m 또는 n을 생략할 수도 있다.
* {3,}처럼 사용하면 반복 횟수가 3 이상인 경우이고 {,3}처럼 사용하면 반복 횟수가 3 이하를 의미
* {1,}은 +와 동일하고, {0,}은 *와 동일
* 숫자가 하나만 올 경우 반복 횟수를 의미한다.

In [23]:
p = re.compile('ca{2}t') # a가 2번 반복인 경우에 매치
m = p.match('ct')
print(m)
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaat')
print(m)

None
None
<re.Match object; span=(0, 4), match='caat'>
None


In [27]:
p = re.compile('ca{2,5}t') # a가 2-5 사이의 반복인 경우에 매치
m = p.match('ct')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaat')
print(m)
m = p.match('caaaat')
print(m)
m = p.match('caaaaat')
print(m)

None
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 5), match='caaat'>
<re.Match object; span=(0, 6), match='caaaat'>
<re.Match object; span=(0, 7), match='caaaaat'>


In [28]:
p = re.compile('ca{2,}t') # a가 2이상 반복인 경우에 매칭이 된다.
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaat')
print(m)
m = p.match('caaaat')
print(m)
m = p.match('caaaaaaat')
print(m)

None
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 5), match='caaat'>
<re.Match object; span=(0, 6), match='caaaat'>
<re.Match object; span=(0, 9), match='caaaaaaat'>


In [29]:
p = re.compile('ca{5,}t') # a가 5개이하 반복인 경우에 매칭이 된다.
m = p.match('ct') # 이하의 조건이므로 a가 없는경우도 만족
print(m)
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaat')
print(m)
m = p.match('caaaaat')
print(m)
m = p.match('caaaaaaaaaaaat')
print(m)

None
None
None
None
<re.Match object; span=(0, 7), match='caaaaat'>
<re.Match object; span=(0, 14), match='caaaaaaaaaaaat'>


# 선택사항 ?

* ? 메타문자가 의미하는 것은 {0,1}

In [30]:
# 첫번째 글자가 a 두번째 글자가 b일수도 있거나 아닌경우 그 다음 글자가 c ( c가 반드시 3번째는 아님)
p = re.compile('ab?c')
m = p.match('ac')
print(m)
m = p.match('abc')
print(m)
m = p.match('abbc') # b가 매치가 되었다면 다음 순서는 c가 와야하므로 매치 안된다.
print(m)
m = p.match('abbbc') # b가 매치가 되었다면 다음 순서는 c가 와야하므로 매치 안된다.
print(m)
m = p.match('abcd') # 문자열 중 정규식에 일치하는 abc만 매치
print(m)

<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 3), match='abc'>
None
None
<re.Match object; span=(0, 3), match='abc'>
