# 정규 표현식
- 문자열 검색, 치환 등의 동작에 있어서 단순한 문자열 비교를 하는 것이 아니라 특정 패턴과 비교하고자 할 때 정규 표현식을 사용한다.
- 주어진 문자열에서 패턴을 찾아내는 것을 패턴 매칭이라고 한다.
- 사용자가 입력한 문자열 패턴 유효성 체크 등에 많이 사용된다.


## 장단점
- 장점 : 코드량 감소, 가의 대부분의 언어에서 공용으로 사용하여 다른 언어에서도 동일하게 사용가능
- 단점 : 처음에는 배우기 어렵고, 코드 가독성이 떨어진다.

## 정규 표현식 연습 사이트 추천
- regexr.com : <https://regexr.com/>   
- regexone.com : <https://regexone.com/>   
- regexper.com : <https://regexper.com>



# 파이썬의 정규표현식 모듈 - re
- 정규표현식 패턴 문자열을 re.compile로 만든 후 Pattern 객체를 생성한다.
- Pattern 객체의 메소드를 사용하여 패턴 매칭(검색, 치환)등을 실행하여 Match 객채의 결과값을 얻는다.

##  정규표현식 설명
|기호|설명|
|:---:|---|
|^|문자열 시작|
|$|문자열 종료}
|.|임의의 문자 [단 ‘'는 넣을 수 없습니다.]|
|*|앞 문자가 0개 이상의 개수가 존재할 수 있습니다.|
|+|앞 문자가 1개 이상의 개수가 존재할 수 있습니다.|
|?|앞 문자가 없거나 하나 있을 수 있습니다.|
|[]|문자의 집합이나 범위를 표현합니다. -기호를 통해 범위를 나타낼 수 있습니다. ^가 존재하면 not을 나타냅니다.|
|{}|횟수 또는 범위를 나타냅니다.|
|()|괄호안의 문자를 하나의 문자로 인식합니다. 그룹)
|\||패턴을 OR 연산을 수행할 때 사용합니다.|
|\s|공백 문자|
|\S|공백 문자가 아닌 나머지 문자|
|\w|알파벳이나 숫자|
|\W|알파벳이나 숫자를 제외한 문자|
|\d|[0-9] 숫자|
|\D|숫자를 제외한 모든 문자|

In [17]:
import re
regex = 'My....'
pattern = re.compile(regex)
print(pattern, type(pattern))

re.compile('My....') <class 're.Pattern'>


In [18]:
strInput = "-My1234="
pattern.search(strInput)

<re.Match object; span=(1, 7), match='My1234'>

In [19]:
pattern.findall('Myalbum MyGoods My Birthday')

['Myalbu', 'MyGood', 'My Bir']

In [20]:
pattern.finditer('Myalbum MyGoods My Birthday')

<callable_iterator at 0x2a86baac7f0>

## Pattern 객체의 메서드
|메서드명|설명|
|:---:|---|
|match()|문자열의 처음부터 정규식과 매치되는지 확인|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 확인|
|findall()|정규식과 매치되는 모든 문자열을 list를 반환|
|finditer()|정규식과 매치되는 모든 Match 결과들을 iterator로 반환|
|sub()|정규식과 매칭되는 문자열을 치환|

- match()

In [21]:
p = re.compile('python')
mat = p.match('python')
print(mat)

<re.Match object; span=(0, 6), match='python'>


In [22]:
mat = p.match('python3')
print(mat)

<re.Match object; span=(0, 6), match='python'>


In [23]:
mat = p.match('3python')
print(mat)

None


- search()

In [24]:
s = p.search('3python python python')
print(s)

<re.Match object; span=(1, 7), match='python'>


- findall()

In [25]:
p = re.compile('[a-z]+');

In [26]:
p.search('life is too short')

<re.Match object; span=(0, 4), match='life'>

In [27]:
p.findall('life is too short')

['life', 'is', 'too', 'short']

- finditer()

In [28]:
result = p.finditer('life is too short')

In [29]:
for match in result:
    print(match)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## Match 객체 메서드

|메서드|설명|
|:---:|---|
|group()|매치된 문자열을 반환한다.|
|start()|매치된 문자열의 시작 위치를 반환한다.|
|end()|매치된 문자열의 끝 위치를 반환한다.|
|span()|매치된 문자열의 (시작, 끝)에 해당하는 튜플을 반환한다.|

In [30]:
m = p.match('python')
m

<re.Match object; span=(0, 6), match='python'>

In [31]:
print("매치된 문자열 : ", m.group())
print("문자열 시작 위치 : ", m.start())
print("문자열 끝 위치 : ", m.end())
print("문자열의 시작과 끝 위치 : ", m.span())


매치된 문자열 :  python
문자열 시작 위치 :  0
문자열 끝 위치 :  6
문자열의 시작과 끝 위치 :  (0, 6)


In [32]:
m = p.search('3 python')
print("매치된 문자열 : ", m.group())
print("문자열 시작 위치 : ", m.start())
print("문자열 끝 위치 : ", m.end())
print("문자열의 시작과 끝 위치 : ", m.span())

매치된 문자열 :  python
문자열 시작 위치 :  2
문자열 끝 위치 :  8
문자열의 시작과 끝 위치 :  (2, 8)


In [33]:
m = p.finditer('life is too short')
for match in m:
    print(match.group())
    print("문자열 시작 위치 : ", match.start())
    print("문자열 끝 위치 : ", match.end())
    print("문자열의 시작과 끝 위치 : ", match.span())

life
문자열 시작 위치 :  0
문자열 끝 위치 :  4
문자열의 시작과 끝 위치 :  (0, 4)
is
문자열 시작 위치 :  5
문자열 끝 위치 :  7
문자열의 시작과 끝 위치 :  (5, 7)
too
문자열 시작 위치 :  8
문자열 끝 위치 :  11
문자열의 시작과 끝 위치 :  (8, 11)
short
문자열 시작 위치 :  12
문자열 끝 위치 :  17
문자열의 시작과 끝 위치 :  (12, 17)


## 패턴 안의 그룹

In [34]:
p = re.compile(r'^([\d]{1,2}):([\d]{1,2}):([\d]{1,2})$')

In [37]:
m = p.match('11:32:22')
m

<re.Match object; span=(0, 8), match='11:32:22'>

In [40]:
print("매치된 문자열 : ", m.group(0))
print("문자열 시작 위치 : ", m.start(0))
print("문자열 끝 위치 : ", m.end(0))
print("문자열의 시작과 끝 위치 : ", m.span(0))

매치된 문자열 :  11:32:22
문자열 시작 위치 :  0
문자열 끝 위치 :  8
문자열의 시작과 끝 위치 :  (0, 8)


In [42]:
print("매치된 문자열 : ", m.group(1))
print("문자열 시작 위치 : ", m.start(1))
print("문자열 끝 위치 : ", m.end(1))
print("문자열의 시작과 끝 위치 : ", m.span(1))

매치된 문자열 :  11
문자열 시작 위치 :  0
문자열 끝 위치 :  2
문자열의 시작과 끝 위치 :  (0, 2)


In [43]:
print("매치된 문자열 : ", m.group(2))
print("문자열 시작 위치 : ", m.start(2))
print("문자열 끝 위치 : ", m.end(2))
print("문자열의 시작과 끝 위치 : ", m.span(2))

매치된 문자열 :  32
문자열 시작 위치 :  3
문자열 끝 위치 :  5
문자열의 시작과 끝 위치 :  (3, 5)


In [44]:
print("매치된 문자열 : ", m.group(3))
print("문자열 시작 위치 : ", m.start(3))
print("문자열 끝 위치 : ", m.end(3))
print("문자열의 시작과 끝 위치 : ", m.span(3))

매치된 문자열 :  22
문자열 시작 위치 :  6
문자열 끝 위치 :  8
문자열의 시작과 끝 위치 :  (6, 8)


## re 메서드

In [45]:
p = re.compile('[a-z]+')
m = p.match('python')
m

<re.Match object; span=(0, 6), match='python'>

In [46]:
# re.match('정규표현식', '문자열')
m = re.match('[a-z]+', 'python')
m

<re.Match object; span=(0, 6), match='python'>

In [48]:
m = re.match('[a-z]+', 'ABC')
m

In [49]:
m = re.search('[a-z]+', 'python')
m

<re.Match object; span=(0, 6), match='python'>

In [50]:
m = re.findall('[a-z]+', 'life is too short')
m

['life', 'is', 'too', 'short']

In [51]:
m = re.finditer('[a-z]+', 'life is too short')
for match in m:
    print(match)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


In [None]:
# 일반적인 방법 : compile > match함수 > 결과
# re 사용 방법 : compile, match함수 > 결과

## raw string
- 정규표현식 구분에서 \ 로 시작하는 구문들이 많다. 가급적 raw-string 을 사용하면 이스케이프 처리 안하는 문자열로 변환된다.

In [52]:
print('\n')





In [53]:
print('\\n')

\n


In [54]:
print("C:\windows\system32")

C:\windows\system32


  print("C:\windows\system32")


In [56]:
print("C:\\windows\\system32")

C:\windows\system32


In [55]:
print(r"C:\windows\system32")

C:\windows\system32


In [57]:
p = re.compile('(\d+)/(\d+)/(\d+)')

  p = re.compile('(\d+)/(\d+)/(\d+)')


In [58]:
p = re.compile(r'(\d+)/(\d+)/(\d+)') 

## re.sub()
- 정규표현식을 사용하여 치환하는 메서드
```
구문
re.sub(패턴, 치환문자, 문자열)
````

In [59]:
a = '123456-1234567'
re.sub("-", "", a)

'1234561234567'

In [60]:
a

'123456-1234567'

In [61]:
re.sub(r"\d", "*", a)

'******-*******'

In [62]:
re.sub(r"\D", r"%%%", a)

'123456%%%1234567'

## re.split()
- 정규표현식을 사용하여 문자열을 분리하는 메서드
```
구문
re.split(패턴, 문자열)
```

In [68]:
data = """
동해물과 백두산이
마르고 닳도록
하느님이 보우하사   
우리나라 만세
"""

In [69]:
data

'\n동해물과 백두산이\n마르고 닳도록\n하느님이 보우하사   \n우리나라 만세\n'

In [71]:
re.split(r'\s+', data.strip()) # " ", \t, \n, \r, etc

['동해물과', '백두산이', '마르고', '닳도록', '하느님이', '보우하사', '우리나라', '만세']

# 정규표현식 활용

In [86]:
def regExpTest(regex, input):
    for s in input:
        print('[정규 표현식 매칭 테스트]-------------')
        print('정규 표현식 : ', regex)
        print('입력 문자열 : ', s)

        match_count = 0
        for m in re.finditer(regex, s):
            match_count += 1
            print(f'\t매치 {match_count} : {m.group()} {m.span()}')
            # 그룹이 있다면 그룹별 출력
            group_size = len(m.groups())
            for i in range(1, group_size+1):
                print(f'\t\t그룹 {i} : {m.group(i)} {m.span(i)}')

        match_count == 0 and print('\t매치되는 문자열이 없습니다.')
        print()
    

In [87]:
title = '^ : 문자열의 시작'
regex = r'^The'
input_list = ['The Things', 'On The Things', ' The The The', 'The The The']
print(title)
regExpTest(regex, input_list)

^ : 문자열의 시작
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^The
입력 문자열 :  The Things
	매치 1 : The (0, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^The
입력 문자열 :  On The Things
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^The
입력 문자열 :   The The The
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^The
입력 문자열 :  The The The
	매치 1 : The (0, 3)



In [88]:
title = '$ : 문자열의 끝'
regex = r'Man$'
input_list = ['SuperMan', 'AcquaMan', 'WonderWoman', 'WonderWoMan', 'PostMan ']
print(title)
regExpTest(regex, input_list)

$ : 문자열의 끝
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  Man$
입력 문자열 :  SuperMan
	매치 1 : Man (5, 8)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  Man$
입력 문자열 :  AcquaMan
	매치 1 : Man (5, 8)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  Man$
입력 문자열 :  WonderWoman
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  Man$
입력 문자열 :  WonderWoMan
	매치 1 : Man (8, 11)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  Man$
입력 문자열 :  PostMan 
	매치되는 문자열이 없습니다.



In [89]:
title = '^표현식$ : 정확히 일치하는 문자열'
regex = r'^SuperMan$'
input_list = ['SuperMan', 'Super Man', ' SuperMan', 'SuperMan ']
print(title)
regExpTest(regex, input_list)

^표현식$ : 정확히 일치하는 문자열
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^SuperMan$
입력 문자열 :  SuperMan
	매치 1 : SuperMan (0, 8)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^SuperMan$
입력 문자열 :  Super Man
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^SuperMan$
입력 문자열 :   SuperMan
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ^SuperMan$
입력 문자열 :  SuperMan 
	매치되는 문자열이 없습니다.



In [90]:
title = '. : 임의의 한 문자'
regex = r'x.z'
input_list = ['xaz', 'xz', 'x z', '90x zxx_zdf']
print(title)
regExpTest(regex, input_list)

. : 임의의 한 문자
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  x.z
입력 문자열 :  xaz
	매치 1 : xaz (0, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  x.z
입력 문자열 :  xz
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  x.z
입력 문자열 :  x z
	매치 1 : x z (0, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  x.z
입력 문자열 :  90x zxx_zdf
	매치 1 : x z (2, 5)
	매치 2 : x_z (6, 9)



In [93]:
title = '* : 0회 이상 반복'
regex = r'ab*'
input_list = ['a', 'abc', 'ab', 'abbbaaabababbab', 'bbba', 'cdef']
print(title)
regExpTest(regex, input_list)

* : 0회 이상 반복
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab*
입력 문자열 :  a
	매치 1 : a (0, 1)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab*
입력 문자열 :  abc
	매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab*
입력 문자열 :  ab
	매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab*
입력 문자열 :  abbbaaabababbab
	매치 1 : abbb (0, 4)
	매치 2 : a (4, 5)
	매치 3 : a (5, 6)
	매치 4 : ab (6, 8)
	매치 5 : ab (8, 10)
	매치 6 : abb (10, 13)
	매치 7 : ab (13, 15)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab*
입력 문자열 :  bbba
	매치 1 : a (3, 4)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab*
입력 문자열 :  cdef
	매치되는 문자열이 없습니다.



In [95]:
title = '+ : 1회 이상 반복'
regex = r'ab+'
input_list = ['a', 'abc', 'ab', 'abbbaaabababbab', 'bbba', 'cdef']
print(title)
regExpTest(regex, input_list)

+ : 1회 이상 반복
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab+
입력 문자열 :  a
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab+
입력 문자열 :  abc
	매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab+
입력 문자열 :  ab
	매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab+
입력 문자열 :  abbbaaabababbab
	매치 1 : abbb (0, 4)
	매치 2 : ab (6, 8)
	매치 3 : ab (8, 10)
	매치 4 : abb (10, 13)
	매치 5 : ab (13, 15)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab+
입력 문자열 :  bbba
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab+
입력 문자열 :  cdef
	매치되는 문자열이 없습니다.



In [97]:
title = '? : 0회 또는 1회 반복'
regex = r'ab?'
input_list = ['a', 'abc', 'ab', 'abbbaaabababbab', 'bbba', 'cdef']
print(title)
regExpTest(regex, input_list)

? : 0회 또는 1회 반복
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab?
입력 문자열 :  a
	매치 1 : a (0, 1)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab?
입력 문자열 :  abc
	매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab?
입력 문자열 :  ab
	매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab?
입력 문자열 :  abbbaaabababbab
	매치 1 : ab (0, 2)
	매치 2 : a (4, 5)
	매치 3 : a (5, 6)
	매치 4 : ab (6, 8)
	매치 5 : ab (8, 10)
	매치 6 : ab (10, 12)
	매치 7 : ab (13, 15)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab?
입력 문자열 :  bbba
	매치 1 : a (3, 4)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab?
입력 문자열 :  cdef
	매치되는 문자열이 없습니다.



In [99]:
title = '[문자들] : 문자들 중 한 문자와 일치'
regex = r'[abc]'
input_list = ['able', 'bible', 'cable', 'xenosys']
print(title)
regExpTest(regex, input_list)

[문자들] : 문자들 중 한 문자와 일치
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [abc]
입력 문자열 :  able
	매치 1 : a (0, 1)
	매치 2 : b (1, 2)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [abc]
입력 문자열 :  bible
	매치 1 : b (0, 1)
	매치 2 : b (2, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [abc]
입력 문자열 :  cable
	매치 1 : c (0, 1)
	매치 2 : a (1, 2)
	매치 3 : b (2, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [abc]
입력 문자열 :  xenosys
	매치되는 문자열이 없습니다.



In [102]:
# regex = r'[abc]+'
regex = r'[a-z]+'
input_list = ['abc100', 'abcDefGhIJ-KLM123opQrstruz']
regExpTest(regex, input_list)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [a-z]+
입력 문자열 :  abc100
	매치 1 : abc (0, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [a-z]+
입력 문자열 :  abcDefGhIJ-KLM123opQrstruz
	매치 1 : abc (0, 3)
	매치 2 : ef (4, 6)
	매치 3 : h (7, 8)
	매치 4 : op (17, 19)
	매치 5 : rstruz (20, 26)



In [107]:
# regex = r'[a-zA-Z]+'
regex = r'[a-zA-Z0-9-]+'
input_list = ['abb', 'abbb', 'abbabbaba', 'abcDefGhIJ-KLM123opQrstruz']
regExpTest(regex, input_list)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [a-zA-Z0-9-]+
입력 문자열 :  abb
	매치 1 : abb (0, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [a-zA-Z0-9-]+
입력 문자열 :  abbb
	매치 1 : abbb (0, 4)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [a-zA-Z0-9-]+
입력 문자열 :  abbabbaba
	매치 1 : abbabbaba (0, 9)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  [a-zA-Z0-9-]+
입력 문자열 :  abcDefGhIJ-KLM123opQrstruz
	매치 1 : abcDefGhIJ-KLM123opQrstruz (0, 26)



In [109]:
title = "{n}: n회 반복"
regex = r'ab{2}'
input_list = ['a', 'abc', 'abb', 'abbbaaabababbab', 'bbba', 'cdef']
print(title)
regExpTest(regex, input_list)

{n}: n회 반복
[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab{2}
입력 문자열 :  a
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab{2}
입력 문자열 :  abc
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab{2}
입력 문자열 :  abb
	매치 1 : abb (0, 3)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab{2}
입력 문자열 :  abbbaaabababbab
	매치 1 : abb (0, 3)
	매치 2 : abb (10, 13)

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab{2}
입력 문자열 :  bbba
	매치되는 문자열이 없습니다.

[정규 표현식 매칭 테스트]-------------
정규 표현식 :  ab{2}
입력 문자열 :  cdef
	매치되는 문자열이 없습니다.



## 문제
```
string = '정가 14,500원'
```
- 정규 표현식을 사용하여 int 값 14500을 추출하기