# Dot .

* 정규 표현식의 Dot(.) 메타 문자는 줄바꿈문자 '\n'을 제외한 모든 문자와 매치된다
* 이 문법은 문자열 클래스에 적용되지는 않는다.

In [23]:
import re

In [6]:
p = re.compile('a.b') 
# 첫번째 글자가 a 두번째글자가 아무문자(\n 제외) 세번째글자가 b인 표현식
m = p.match('aab')
print(m)
m = p.match('a0b')
print(m)
m = p.match('abc') # ab 사이에 문자가 있어야 하는데 없으므로 매치되지 않음
print(m)

<re.Match object; span=(0, 3), match='aab'>
<re.Match object; span=(0, 3), match='a0b'>
None


In [7]:
p = re.compile('a[.]b') # 문자 클래스에서 '.'은 하나의 문자 '.'이다.
m = p.match('aab')
print(m)
m = p.match('a0b')
print(m)
m = p.match('abc') 
print(m)
m = p.match('a.bc')
print(m)

None
None
None
<re.Match object; span=(0, 3), match='a.b'>


In [8]:
p = re.compile('a..[.]txt')
# 첫번째 글자가 a, 두번째와 세번째 글자는 아무글자, 네번째글자가 . 나머지글자가 txt
m = p.match('aab.txt') 
print(m)
m = p.match('a1.txt')
print(m)

<re.Match object; span=(0, 7), match='aab.txt'>
None


In [9]:
p = re.compile('....')
m = p.match('pen.') 
print(m)
m = p.match('pen!')
print(m)

<re.Match object; span=(0, 4), match='pen.'>
<re.Match object; span=(0, 4), match='pen!'>


In [10]:
p = re.compile('...[.]')
m = p.match('pen.') 
print(m)
m = p.match('pen!')
print(m)

<re.Match object; span=(0, 4), match='pen.'>
None


---

# 반복 (*)

* '*'은 바로 앞에 있는 문자가 0(없거나)부터 무한대로 반복되는 패턴  
  (하지만 알려진 바로는 반복회수는 메모르 제약사항으로 약 2억개 정도만 가능)

In [13]:
p = re.compile('ca*t')

In [15]:
p.match('ct') # 반복이 없는 조건

<re.Match object; span=(0, 2), match='ct'>

In [16]:
p.match('cat') # 1번 반복되는 조건

<re.Match object; span=(0, 3), match='cat'>

In [17]:
p.match('caaaaaaaat') # 반복이 많은 조건

<re.Match object; span=(0, 10), match='caaaaaaaat'>

In [19]:
p.match('caaaaaaaa') # 문자열 마지막에 t가 없으므로 매치되지 않음

# 반복(+)

* '*'은 바로 앞에 있는 문자가 1부터 무한대로 반복되는 패턴  
  (하지만 알려진 바로는 반복회수는 메모르 제약사항으로 약 2억개 정도만 가능)

In [20]:
p = re.compile('ca+t')
m = p.match('ct')
print(m)
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaaaaaaaat')
print(m)
m = p.match('caaaaaaaaaaa')
print(m)

None
<re.Match object; span=(0, 3), match='cat'>
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 12), match='caaaaaaaaaat'>
None


In [21]:
p = re.compile('goo+gle')
m = p.match('gogle')
print(m)
m = p.match('google')
print(m)
m = p.match('gooooooooooooogle')
print(m)

None
<re.Match object; span=(0, 6), match='google'>
<re.Match object; span=(0, 17), match='gooooooooooooogle'>


# 반복 {m,n}

* {m, n} 정규식을 사용하면 반복 횟수가 m부터 n까지 매치
* m 또는 n을 생략할 수도 있다.
* 숫자가 하나만 올 경우 반복 횟수를 의미한다.
* {3,}처럼 사용하면 반복 횟수가 3 이상인 경우이고 {,3}처럼 사용하면 반복 횟수가 3 이하를 의미
* {1,}은 +와 동일하고, {0,}은 *와 동일

In [25]:
p = re.compile('ca{2}t') # a가 2번 반복되는 경우에 매치
m = p.match('ct')
print(m)
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaat')
print(m)

None
None
<re.Match object; span=(0, 4), match='caat'>
None


In [26]:
p = re.compile('ca{2,5}t') # a가 2~5 사이의 반복되는 경우에 매치
m = p.match('ct')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaat')
print(m)
m = p.match('caaaaat')
print(m)

None
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 6), match='caaaat'>
<re.Match object; span=(0, 7), match='caaaaat'>


In [27]:
p = re.compile('ca{2,}t') # a가 2이상 반복되는 경우에 매치
m = p.match('cat')
print(m)
m = p.match('caat')
print(m)
m = p.match('caaaat')
print(m)
m = p.match('caaaaaat')
print(m)
m = p.match('caaaaaaaaaaaaaaat')
print(m)

None
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 6), match='caaaat'>
<re.Match object; span=(0, 8), match='caaaaaat'>
<re.Match object; span=(0, 17), match='caaaaaaaaaaaaaaat'>


In [30]:
p = re.compile('ca{,5}t') # a가 5 이하로 반복되는 경우에 매치
m = p.match('ct') # 이하의 조건이므로 a가 0번 반복되는 경우도 만족
print(m)
m = p.match('caat')
print(m)
m = p.match('caaat')
print(m)
m = p.match('caaaaat')
print(m)
m = p.match('caaaaaaaaaaaaat')
print(m)

<re.Match object; span=(0, 2), match='ct'>
<re.Match object; span=(0, 4), match='caat'>
<re.Match object; span=(0, 5), match='caaat'>
<re.Match object; span=(0, 7), match='caaaaat'>
None


# 선택사항?

* ?메타문자가 의미하는 것은 {0,1}

In [33]:
p = re.compile('ab?c')
# 첫번째 글자가 a 두번째글자는 b이거나 아닌 경우 그 다음 글자가 c (반드시 3번째는 아님)
m = p.match('ac') # 문자열중 정규식에 일치하는 ac만 매치
print(m)
m = p.match('abc') 
print(m)
m = p.match('abbc') # b가 매치 되었다면 다음 글자는 c가 와야하므로 매치 안됨
print(m)
m = p.match('abbbbc') # b가 매치 되었다면 다음 글자는 c가 와야하므로 매치 안됨
print(m)
m = p.match('abcd') # 문자열중 정규식에 일치하는 abc만 매치
print(m)

<re.Match object; span=(0, 2), match='ac'>
<re.Match object; span=(0, 3), match='abc'>
None
None
<re.Match object; span=(0, 3), match='abc'>
