# ch14. 정규 표현식

> <font size=4>**메타문자**

|메타문자| |사용예|설명|
|------|---|---|---|
|[ ]|문자 클래스|[abc]|a, b, c 중 한 개의 문자와 매치                              &nbsp;|
|[s-e]| |[0-2]<br>[a-c]<br>[a-zA-Z]<br>[0-9]|0,1,2<br>a,b,c<br>알파벳모두<br>숫자|
|^|반대|[^0-9]|숫자가 아닌 문자와 매치|
|<font color=red size=4><b>?|0또는1글자<br>(있어도 되고 없어도 되고)|ab?c|?앞에 문자 b를 0 또는 1번 반복<br>O abc<br>O ac<br>X abbc|
|<font color=red size=4><b>.|1글자|a.b<br>a[.]b|a + 모든문자 + b<br>a + Dot(.)문자 + b|
|<font color=red size=4><b>*|반복 0~|ca*t| *앞에 문자 a를 0~ 반복<br>O ct<br>O cat<br>O caaat|
|<font color=red size=4><b>+|반복 1~|ca+t| +앞에 문자 a를 1~ 반복<br>X ct<br>O cat<br>O caaat|  
|{s,e}|반복 s~e|{3,5}<br>{3, }<br>{ ,5}<br>{1, }<br>{0, }<br>ca{2}t<br> <br> <br>ca{2,4}t<br> <br> <br> <br>|3이상 ~ 5이하 반복<br>3~ 이상 반복<br>~5 이하 반복<br>+<br>*<br>{2}앞에 문자a를 2번반복<br>X cat<br>O caat<br>{2}앞에 문자a를 2 ~ 4번반복<br>X cat<br>O caat<br>O caaaat|

<pre> 
^…$	Starts and ends
(…)	Capture Group
(a(bc))	Capture Sub-group
(.*)	Capture all
(abc|def)	Matches abc or def

> <font size=4> **자주 사용하는 문자 클래스**

|종류|문자클래스|설명|유사표현|
|------|---|---|---|
|숫자|<font color=red size=3><b>\d|숫자와 매치|[0-9]|
||<font color=red size=3><b>\D|숫자가 아닌 것과 매치|[^0-9]|
|숫자+문자|<font color=red size=3><b>\w|문자+숫자(alphanumeric)와 매치|[a-zA-Z0-9]|
||<font color=red size=3><b>\W|문자+숫자(alphanumeric)가 아닌 문자와 매치|[^a-zA-Z0-9]|
|특수문자|<font color=red size=3><b>\s|whitespace 문자와 매치|[ \t\n\r\f\v]|
||<font color=red size=3><b>\S|whitespace 문자가 아닌 것과 매치|[^ \t\n\r\f\v]|

> <font size=4> **import re 정규식을 이용한 문자열 검색**

|종류|설명|
|------|---|
|<font color=red size=3><b>match()|문자열의 처음부터 정규식과 매치되는지 검사|
|<font color=red size=3><b>search()|문자열 전체에서 정규식과 매치되는지 검사|
|<font color=red size=3><b>findall()|정규식과 매치되는 모든 문자열(substring)을 리스트로 반환|
|<font color=red size=3><b>finditer()|정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 반환|

--- 

In [1]:
import re

* <b>re.함수('패턴', '검색대상문자열')

In [20]:
m = re.match('[a-z]+', "python")
m

<re.Match object; span=(0, 6), match='python'>

In [18]:
m = re.search('[a-z]+', "10python")
m

<re.Match object; span=(2, 8), match='python'>

--- 

* <b>패턴 '[a-z]+'를 매번 쓰기 귀찮다

In [3]:
p = re.compile('[a-z]+')
m = p.search("python")
print(m)

m = p.search("3 python")
print(m)

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 8), match='python'>


---

* <b>match()
  - 컴파일된 패턴 '[a-z]+'를 가지고 match() 메서드 수행

In [21]:
m = re.match('ab*', "python")
print(m)

m = re.match('[a-z]+', "python")
print(m, m.group())

m = re.match('[a-z]+', "3 python")
print(m)

None
<re.Match object; span=(0, 6), match='python'> python
None


* <b>search()
  - 컴파일된 패턴 객체 '[a-z]+'를 가지고 search() 메서드 수행

In [22]:
p = re.compile('[a-z]+')
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


* <b>findall()
  - 컴파일된 패턴 객체 '[a-z]+'를 가지고 findall() 메서드 수행 - <font color=red>정규식과 매치되는 리스트 반환

In [24]:
p = re.compile('[a-z]+')
m = p.findall("3 life is 100 too short 100")
print(m)

['life', 'is', 'too', 'short']


* <b>finditer()
  - 컴파일된 패턴 객체 '[a-z]+'를 가지고 finditer() 메서드 수행 - <font color=red>정규식과 매치되는 iterator 객체 반환

In [26]:
p = re.compile('[a-z]+')
m = p.finditer("a b cde 100")
print(m)
for match_obj in m: 
    print(match_obj, '\t', match_obj.group())

<callable_iterator object at 0x000001EDEAD09130>
<re.Match object; span=(0, 1), match='a'> 	 a
<re.Match object; span=(2, 3), match='b'> 	 b
<re.Match object; span=(4, 7), match='cde'> 	 cde


In [34]:
p = re.compile('.*')
m =p.match('123456789')
m

<re.Match object; span=(0, 9), match='123456789'>

> <font size=4> **re.compile( ___ , 옵션)**

## Quiz
* ref : https://regexone.com/

<pre>
정규식 a[.]{3,}b과 매치되는 문자열?

acccb
a....b
aaab
a.cccb

In [27]:
# 2번

<pre>
다음은 무엇을 표현하기 위한 정규식인가?
".*[@].*[.].*$"

r"(\w+)\s+\d+[-]\d+[-]\d+"

In [28]:
".*[@].*[.].*$"
# asdfad@adfafaf.com $--> 끝내라 표시

'.*[@].*[.].*$'

In [30]:
p = re.compile('.*[@].*[.com]')
m = p.search("kim1214@naver.com")
m

<re.Match object; span=(0, 17), match='kim1214@naver.com'>

In [40]:
p = re.compile('.+[@][a-z]+[.]\w*')
m = p.search("kim1214@naver.com")
m

<re.Match object; span=(0, 17), match='kim1214@naver.com'>

In [42]:
re.search(f".+[@][a-zA-Z0-9]+[.]\w*","kim1214@naver.com")

<re.Match object; span=(0, 17), match='kim1214@naver.com'>

In [None]:
r"(\w+)\s+\d+[-]\d+[-]\d+"

In [None]:
abc.txt aa.jpg a100.txt

In [110]:
re.findall(f"\w+[.][t][x][t]",'abc.txt   aa.jpg   a100.txt')

['abc.txt', 'a100.txt']

In [130]:
re.findall(f'\W+\S+','James 홍길동 아무개')

[' 홍길동', ' 아무개']

In [122]:
re.findall('[가-힣]+','James 홍길동 아무개')

['홍길동', '아무개']

In [147]:
re.findall('[a-zA-Z]+[.]','Braund, Mr. Owen Harris')

['Mr.']

In [156]:
re.findall('[a-zA-Z]+','Braund, Mr. Owen Harris')

['Braund', 'Mr', 'Owen', 'Harris']