# 정규 표현식
- 문자열 검색, 치환 등의 동작에 있어서 단순한 문자열 비교를 하는 것이 아니라 특정 패턴과 비교하고자 할 때 정규 표현식을 사용한다.
- 주어진 문자열에서 패턴을 찾아내는 것을 패턴 매칭이라고 한다.
- 사용자가 입력한 문자열 패턴 유효성 체크 등에 많이 사용된다.


## 장단점
- 장점 : 코드량 감소, 가의 대부분의 언어에서 공용으로 사용하여 다른 언어에서도 동일하게 사용가능
- 단점 : 처음에는 배우기 어렵고, 코드 가독성이 떨어진다.

## 정규 표현식 연습 사이트 추천
- regexr.com : <https://regexr.com/>   
- regexone.com : <https://regexone.com/>   
- regexper.com : <https://regexper.com>



# 파이썬의 정규표현식 모듈 - re
- 정규표현식 패턴 문자열을 re.complie로 만든 후 Pattern 객체를 생성한다.
- Pattern 객체의 메소드를 사용하여 패턴 매칭(검색, 치환)등을 실행하여 Match 객채의 결과값을 얻는다.

##  정규표현식 설명
|기호|설명|
|:---:|---|
|^|문자열 시작|
|$|문자열 종료}
|.|임의의 문자 [단 ‘'는 넣을 수 없습니다.]|
|*|앞 문자가 0개 이상의 개수가 존재할 수 있습니다.|
|+|앞 문자가 1개 이상의 개수가 존재할 수 있습니다.|
|?|앞 문자가 없거나 하나 있을 수 있습니다.|
|[]|문자의 집합이나 범위를 표현합니다. -기호를 통해 범위를 나타낼 수 있습니다. ^가 존재하면 not을 나타냅니다.|
|{}|횟수 또는 범위를 나타냅니다.|
|()|괄호안의 문자를 하나의 문자로 인식합니다. 그룹)
|\||패턴을 OR 연산을 수행할 때 사용합니다.|
|\s|공백 문자|
|\S|공백 문자가 아닌 나머지 문자|
|\w|알파벳이나 숫자|
|\W|알파벳이나 숫자를 제외한 문자|
|\d|[0-9] 숫자|
|\D|숫자를 제외한 모든 문자|

In [None]:
import re

regex = "My...."
pat = re.compile(regex)
print(pat, type(pat))

re.compile('My....') <class 're.Pattern'>


In [2]:
strInput = '-My1234='
pat.search(strInput)

<re.Match object; span=(1, 7), match='My1234'>

In [3]:
pat.findall('MyAlbum MyGoods My Birthday')

['MyAlbu', 'MyGood', 'My Bir']

In [4]:
pat.finditer('MyAlbum MyGoods My Birthday')

<callable_iterator at 0x1999f2f2800>

In [5]:
for match in pat.finditer('MyAlbum MyGoods My Birthday'):
    print(match)

<re.Match object; span=(0, 6), match='MyAlbu'>
<re.Match object; span=(8, 14), match='MyGood'>
<re.Match object; span=(16, 22), match='My Bir'>


## Pattern 객체의 메서드
|메서드명|설명|
|:---:|---|
|match()|문자열의 처음부터 정규식과 매치되는지 확인|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 확인|
|findall()|정규식과 매치되는 모든 문자열을 list를 반환|
|finditer()|정규식과 매치되는 모든 Match 결과들을 iterator로 반환|
|sub()|정규식과 매칭되는 문자열을 치환|

- match()

In [6]:
pat = re.compile("python")
match = pat.match("python")
print(match)

<re.Match object; span=(0, 6), match='python'>


In [7]:
match = pat.match("333 python")
print(match)

None


In [8]:
match = pat.match("python 333")
print(match)

<re.Match object; span=(0, 6), match='python'>


- search()

In [10]:
match = pat.search("python")
print(match)

<re.Match object; span=(0, 6), match='python'>


In [11]:
match = pat.search("333 python")
print(match)

<re.Match object; span=(4, 10), match='python'>


In [12]:
match = pat.search("111 python 222 python")
print(match)

<re.Match object; span=(4, 10), match='python'>


- findall()

In [13]:
match = pat.findall("111 python 222 python")
print(match)

['python', 'python']


In [14]:
pat = re.compile('[a-z]+')
pat.search("life is too short")

<re.Match object; span=(0, 4), match='life'>

In [15]:
pat.findall("life is too short")

['life', 'is', 'too', 'short']

- finditer()

In [16]:
result = pat.finditer("life is too short")

In [17]:
for m in result:
    print(m)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## Match 객체 메서드

|메서드|설명|
|:---:|---|
|group()|매치된 문자열을 반환한다.|
|start()|매치된 문자열의 시작 위치를 반환한다.|
|end()|매치된 문자열의 끝 위치를 반환한다.|
|span()|매치된 문자열의 (시작, 끝)에 해당하는 튜플을 반환한다.|

In [18]:
match = pat.match("python")
match

<re.Match object; span=(0, 6), match='python'>

In [19]:
print(match.group())
print(match.start())
print(match.end())
print(match.span())

python
0
6
(0, 6)


In [20]:
mat = pat.search("33 python")
print(mat.group())
print(mat.start())
print(mat.end())
print(mat.span())

python
3
9
(3, 9)


## 패턴 안의 그룹

In [21]:
pat = re.compile(r'^([\d]{1,2}):([\d]{1,2}):([\d]{1,2})$')

In [22]:
mat = pat.match("14:05:23")
mat

<re.Match object; span=(0, 8), match='14:05:23'>

In [23]:
print(mat.group())
print(mat.start())
print(mat.end())
print(mat.span())

14:05:23
0
8
(0, 8)


In [24]:
print(mat.group(0))
print(mat.start(0))
print(mat.end(0))
print(mat.span(0))

14:05:23
0
8
(0, 8)


In [25]:
print(mat.group(1))
print(mat.start(1))
print(mat.end(1))
print(mat.span(1))

14
0
2
(0, 2)


In [26]:
print(mat.group(2))
print(mat.start(2))
print(mat.end(2))
print(mat.span(2))

05
3
5
(3, 5)


In [27]:
print(mat.group(3))
print(mat.start(3))
print(mat.end(3))
print(mat.span(3))

23
6
8
(6, 8)


## re 메서드

In [28]:
pat = re.compile("[a-z]+")
mat = pat.match('python')
mat

<re.Match object; span=(0, 6), match='python'>

In [29]:
mat = re.match('[a-z]+', 'python')
mat

<re.Match object; span=(0, 6), match='python'>

In [30]:
mat = re.match('[a-z]+', 'AAA')
mat

In [31]:
mat = re.search('[a-z]+', '3 python')
mat

<re.Match object; span=(2, 8), match='python'>

In [32]:
mat = re.findall('[a-z]+', 'life is to short')
mat

['life', 'is', 'to', 'short']

In [34]:
mat = re.finditer('[a-z]+', 'life is to short')

for i in mat:
    print(i)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 10), match='to'>
<re.Match object; span=(11, 16), match='short'>


## raw string
- 정규표현식 구분에서 \ 로 시작하는 구문들이 많다. 가급적 raw-string 을 사용하면 이스케이프 처리 안하는 문자열로 변환된다.

In [35]:
print("\n")





In [36]:
print("\\n")

\n


In [37]:
print(r"\n")

\n


In [38]:
print("c:\windows\user\user01")

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 10-11: truncated \uXXXX escape (3272061681.py, line 1)

In [39]:
print("c:\\windows\\user\\user01")

c:\windows\user\user01


In [40]:
print(r"c:\windows\user\user01")

c:\windows\user\user01


In [41]:
pat = re.compile('(\d+)/(\d+)/(\d+)')

  pat = re.compile('(\d+)/(\d+)/(\d+)')


In [42]:
pat = re.compile('(\\d+)/(\\d+)/(\\d+)')

In [43]:
pat = re.compile(r'(\d+)/(\d+)/(\d+)')

## re.sub()
- 정규표현식을 사용하여 치환하는 메서드
```
구문
re.sub(패턴, 치환문자, 문자열)
````

In [44]:
a = '1234-123456'
re.sub("-", "*", a)

'1234*123456'

In [45]:
re.sub(r"\d", "*", a)

'****-******'

In [46]:
re.sub(r"\D", "****", a)

'1234****123456'

## re.split()
- 정규표현식을 사용하여 문자열을 분리하는 메서드
```
구문
re.split(패턴, 문자열)
```

In [47]:
data = '동해물과 백두산이' \
'마르고 닳도록' \
'하느님이 보우하사' \
'우리나라 만세'
print(data)

동해물과 백두산이마르고 닳도록하느님이 보우하사우리나라 만세


In [48]:
data = '''동해물과 백두산이
마르고 닳도록
하느님이 보우하사
우리나라 만세'''
print(data)

동해물과 백두산이
마르고 닳도록
하느님이 보우하사
우리나라 만세


In [50]:
re.split(r"\s+", data.strip())

['동해물과', '백두산이', '마르고', '닳도록', '하느님이', '보우하사', '우리나라', '만세']

# 정규표현식 활용

In [51]:
def regExpTest(regex, input_list):
    for s in input_list:
        print("[정규표현식 매칭 테스트] ======")
        print(f"정규표현식 : {regex}")
        print(f"입력문자열 : {s}")

        match_count = 0

        for match in re.finditer(regex,s):
            match_count += 1
            print(f"    매치 {match_count}:{match.group()} {match.span()}")

            group_size = len(match.groups())
            for i in range(1, group_size+1):
                print(f"    group{i}:{match.group(i)}{match.span(i)}")
            
        match_count == 0 and print("    X 매치 없음 X")
        print()

In [53]:
title = "^ : 바로 문자뒤의 문자열로 시작됨"
regex = r"^The"
input_list = [
    "The Things",
    "On The Things",
    " The The The",
    "The The The"
]
print(title)
regExpTest(regex, input_list)

^ : 바로 문자뒤의 문자열로 시작됨
정규표현식 : ^The
입력문자열 : The Things
    매치 1:The (0, 3)

정규표현식 : ^The
입력문자열 : On The Things
    X 매치 없음 X

정규표현식 : ^The
입력문자열 :  The The The
    X 매치 없음 X

정규표현식 : ^The
입력문자열 : The The The
    매치 1:The (0, 3)



In [55]:
title = "$ : 문자열의 마지막이 이 문자열로 마무리 됨"
regex = r"Man$"
input_list = [
    'SuperMan',
    'AquaMan',
    'WonderWoman',
    'WonderWoMan',
    'ManOfMan'
]
print(title)
regExpTest(regex, input_list)

$ : 문자열의 마지막이 이 문자열로 마무리 됨
정규표현식 : Man$
입력문자열 : SuperMan
    매치 1:Man (5, 8)

정규표현식 : Man$
입력문자열 : AquaMan
    매치 1:Man (4, 7)

정규표현식 : Man$
입력문자열 : WonderWoman
    X 매치 없음 X

정규표현식 : Man$
입력문자열 : WonderWoMan
    매치 1:Man (8, 11)

정규표현식 : Man$
입력문자열 : ManOfMan
    매치 1:Man (5, 8)



In [56]:
title = "정확하게 일치"
regex = r'^SuperMan$'

input_list = [
    'SuperMan',
    ' SuperMan',
    'Super Man'
]

print(title)
regExpTest(regex, input_list)

정확하게 일치
정규표현식 : ^SuperMan$
입력문자열 : SuperMan
    매치 1:SuperMan (0, 8)

정규표현식 : ^SuperMan$
입력문자열 :  SuperMan
    X 매치 없음 X

정규표현식 : ^SuperMan$
입력문자열 : Super Man
    X 매치 없음 X



## 문제
```
string = '정가 14,500원'
```
- 정규 표현식을 사용하여 int 값 14500을 추출하기

In [1]:
import re

string = '정가 14,500원'
int(re.sub(r'\D', '', string))

14500

In [2]:
re.sub(r'[0-9]', '', string)

'정가 ,원'

In [5]:
int(re.sub(r'[^0-9]', '', string))

14500

In [7]:
''.join(re.findall(r'\d', string))

'14500'