# 정규 표현식
- 문자열 검색, 치환 등의 동작에 있어서 단순한 문자열 비교를 하는 것이 아니라 특정 패턴과 비교하고자 할 때 정규 표현식을 사용한다.
- 주어진 문자열에서 패턴을 찾아내는 것을 패턴 매칭이라고 한다.
- 사용자가 입력한 문자열 패턴 유효성 체크 등에 많이 사용된다.


## 장단점
- 장점 : 코드량 감소, 가의 대부분의 언어에서 공용으로 사용하여 다른 언어에서도 동일하게 사용가능
- 단점 : 처음에는 배우기 어렵고, 코드 가독성이 떨어진다.

## 정규 표현식 연습 사이트 추천
- regexr.com : <https://regexr.com/>   
- regexone.com : <https://regexone.com/>   
- regexper.com : <https://regexper.com>



# 파이썬의 정규표현식 모듈 - re
- 정규표현식 패턴 문자열을 re.compile로 만든 후 Pattern 객체를 생성한다.
- Pattern 객체의 메소드를 사용하여 패턴 매칭(검색, 치환)등을 실행하여 Match 객채의 결과값을 얻는다.

##  정규표현식 설명
|기호|설명|
|:---:|---|
|^|문자열 시작|
|$|문자열 종료|
|.|임의의 문자 [단 ‘'는 넣을 수 없습니다.]|
|*|앞 문자가 0개 이상의 개수가 존재할 수 있습니다.|
|+|앞 문자가 1개 이상의 개수가 존재할 수 있습니다.|
|?|앞 문자가 없거나 하나 있을 수 있습니다.|
|[]|문자의 집합이나 범위를 표현합니다. -기호를 통해 범위를 나타낼 수 있습니다. ^가 존재하면 not을 나타냅니다.|
|{}|횟수 또는 범위를 나타냅니다.|
|()|괄호안의 문자를 하나의 문자로 인식합니다. 그룹|
|\||패턴을 OR 연산을 수행할 때 사용합니다.|
|\s|공백 문자|
|\S|공백 문자가 아닌 나머지 문자|
|\w|알파벳이나 숫자|
|\W|알파벳이나 숫자를 제외한 문자|
|\d|[0-9] 숫자|
|\D|숫자를 제외한 모든 문자|

In [1]:
import re

regex = 'My....' # My로 시작하고 문자 4개가 있어야 하는 조건
pattern = re.compile(regex)
print(pattern, type(pattern))

re.compile('My....') <class 're.Pattern'>


In [2]:
strInput = "-My1234="
pattern.search(strInput) # search의 결과값

<re.Match object; span=(1, 7), match='My1234'>

In [4]:
# match 된 문자열을 list 로 리턴
pattern.findall('Myalbum MyGoods My Birthday') 

['Myalbu', 'MyGood', 'My Bir']

In [5]:
# search 함수를 쓸 경우 제일 처음 매칭된 값만 출력
pattern.search('Myalbum MyGoods My Birthday') 

<re.Match object; span=(0, 6), match='Myalbu'>

In [6]:
# 매칭된 결과를 iterable 한 객체로 리턴
pattern.finditer('Myalbum MyGoods My Birthday')

<callable_iterator at 0x28b05bff010>

In [7]:
for match in pattern.finditer('Myalbum MyGoods My Birthday'):
    print(match)

<re.Match object; span=(0, 6), match='Myalbu'>
<re.Match object; span=(8, 14), match='MyGood'>
<re.Match object; span=(16, 22), match='My Bir'>


## Pattern 객체의 메서드
|메서드명|설명|
|:---:|---|
|match()|문자열의 처음부터 정규식과 매치되는지 확인|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 확인|
|findall()|정규식과 매치되는 모든 문자열을 list를 반환|
|finditer()|정규식과 매치되는 모든 Match 결과들을 iterator로 반환|
|sub()|정규식과 매칭되는 문자열을 치환|

- match()

In [8]:
p = re.compile('python')
mat = p.match('python')
print(mat)

<re.Match object; span=(0, 6), match='python'>


In [9]:
mat = p.match('python3')
print(mat)

<re.Match object; span=(0, 6), match='python'>


In [10]:
# match 함수는 시작부터 맞아야 된다. 그렇지 않으면 None이 된다.
mat = p.match('3python')
print(mat)

None


- search()

In [11]:
mat = p.search('python')
print(mat)

<re.Match object; span=(0, 6), match='python'>


In [12]:
mat = p.search('3python')
print(mat)

<re.Match object; span=(1, 7), match='python'>


In [13]:
# search 함수는 문자열에 포함되어 있으면 되지만 하나만 찾아준다.
mat = p.search('3python python python')
print(mat)

<re.Match object; span=(1, 7), match='python'>


- findall()

In [14]:
# a ~ z 하나 이상의 문자
p = re.compile('[a-z]+')

In [15]:
p.search("life is to short")

<re.Match object; span=(0, 4), match='life'>

In [16]:
p.findall("life is too short")

['life', 'is', 'too', 'short']

- finditer()

In [21]:
result = p.finditer("life is too short")

In [22]:
for match in result:
    print(match)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## Match 객체 메서드

|메서드|설명|
|:---:|---|
|group()|매치된 문자열을 반환한다.|
|start()|매치된 문자열의 시작 위치를 반환한다.|
|end()|매치된 문자열의 끝 위치를 반환한다.|
|span()|매치된 문자열의 (시작, 끝)에 해당하는 튜플을 반환한다.|

In [23]:
m = p.match('python')
m

<re.Match object; span=(0, 6), match='python'>

In [24]:
print("매치된 문자열 :", m.group())
print("문자열 시작위치 : ", m.start())
print("문자열 끝위치 : ", m.end())
print("문자열의 시작과 끝 위치 : ", m.span())

매치된 문자열 : python
문자열 시작위치 :  0
문자열 끝위치 :  6
문자열의 시작과 끝 위치 :  (0, 6)


In [25]:
m = p.search("3 python")
print("매치된 문자열 :", m.group())
print("문자열 시작위치 : ", m.start())
print("문자열 끝위치 : ", m.end())
print("문자열의 시작과 끝 위치 : ", m.span())

매치된 문자열 : python
문자열 시작위치 :  2
문자열 끝위치 :  8
문자열의 시작과 끝 위치 :  (2, 8)


In [26]:
# 리턴을 문자열 list 로 반환 - 그래서 match 함수를 사용할 수 없다.
m = p.findall("3 python")
print("매치된 문자열 :", m.group())
print("문자열 시작위치 : ", m.start())
print("문자열 끝위치 : ", m.end())
print("문자열의 시작과 끝 위치 : ", m.span())

AttributeError: 'list' object has no attribute 'group'

In [27]:
m = p.finditer('life is too short')

for match in m:
    print("매치된 문자열 :", match.group())
    print("문자열 시작위치 : ", match.start())
    print("문자열 끝위치 : ", match.end())
    print("문자열의 시작과 끝 위치 : ", match.span())

매치된 문자열 : life
문자열 시작위치 :  0
문자열 끝위치 :  4
문자열의 시작과 끝 위치 :  (0, 4)
매치된 문자열 : is
문자열 시작위치 :  5
문자열 끝위치 :  7
문자열의 시작과 끝 위치 :  (5, 7)
매치된 문자열 : too
문자열 시작위치 :  8
문자열 끝위치 :  11
문자열의 시작과 끝 위치 :  (8, 11)
매치된 문자열 : short
문자열 시작위치 :  12
문자열 끝위치 :  17
문자열의 시작과 끝 위치 :  (12, 17)


## 패턴 안의 그룹

In [28]:
print("\' \'")

' '


In [29]:
print(r"\' \'")

\' \'


In [30]:
p = re.compile(r'^([\d]{1,2}):([\d]{1,2}):([\d]{1,2})$')

In [31]:
m = p.match("11:32:22")
m

<re.Match object; span=(0, 8), match='11:32:22'>

In [32]:
print("매치된 문자열 :", m.group())
print("문자열 시작위치 : ", m.start())
print("문자열 끝위치 : ", m.end())
print("문자열의 시작과 끝 위치 : ", m.span())

매치된 문자열 : 11:32:22
문자열 시작위치 :  0
문자열 끝위치 :  8
문자열의 시작과 끝 위치 :  (0, 8)


In [33]:
# 그룹 순서인 0은 생략해도 된다.
print("매치된 문자열 :", m.group(0))
print("문자열 시작위치 : ", m.start(0))
print("문자열 끝위치 : ", m.end(0))
print("문자열의 시작과 끝 위치 : ", m.span(0))

매치된 문자열 : 11:32:22
문자열 시작위치 :  0
문자열 끝위치 :  8
문자열의 시작과 끝 위치 :  (0, 8)


In [34]:
print("매치된 문자열 :", m.group(1))
print("문자열 시작위치 : ", m.start(1))
print("문자열 끝위치 : ", m.end(1))
print("문자열의 시작과 끝 위치 : ", m.span(1))

매치된 문자열 : 11
문자열 시작위치 :  0
문자열 끝위치 :  2
문자열의 시작과 끝 위치 :  (0, 2)


In [35]:
print("매치된 문자열 :", m.group(2))
print("문자열 시작위치 : ", m.start(2))
print("문자열 끝위치 : ", m.end(2))
print("문자열의 시작과 끝 위치 : ", m.span(2))

매치된 문자열 : 32
문자열 시작위치 :  3
문자열 끝위치 :  5
문자열의 시작과 끝 위치 :  (3, 5)


In [36]:
print("매치된 문자열 :", m.group(3))
print("문자열 시작위치 : ", m.start(3))
print("문자열 끝위치 : ", m.end(3))
print("문자열의 시작과 끝 위치 : ", m.span(3))

매치된 문자열 : 22
문자열 시작위치 :  6
문자열 끝위치 :  8
문자열의 시작과 끝 위치 :  (6, 8)


In [37]:
# 그룹의 수가 3이기 때문에 4가 존재하지 않아서 에러 발생
print("매치된 문자열 :", m.group(4))
print("문자열 시작위치 : ", m.start(4))
print("문자열 끝위치 : ", m.end(4))
print("문자열의 시작과 끝 위치 : ", m.span(4))

IndexError: no such group

## re 메서드

In [38]:
p = re.compile('[a-z]+')
m = p.match('python')
m

<re.Match object; span=(0, 6), match='python'>

In [39]:
# re.match('정규표현식', 문자열)
m = re.match('[a-z]+', 'python')
m

<re.Match object; span=(0, 6), match='python'>

In [40]:
# 일치하는 값이 없으면 None 반환
m = re.match('[a-z]+', 'ABC')
m

In [41]:
m = re.search('[a-z]+', 'python')
m

<re.Match object; span=(0, 6), match='python'>

In [42]:
m = re.findall('[a-z]+', 'life is too short')
m

['life', 'is', 'too', 'short']

In [43]:
m = re.finditer('[a-z]+', 'life is too short')

for i in m:
    print(i)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


In [None]:
# 일반적인 방법 : compile > match 함수 > 결과
# re 사용 방법 : compile, match 함수 > 결과

## raw string
- 정규표현식 구분에서 \ 로 시작하는 구문들이 많다. 가급적 raw-string 을 사용하면 이스케이프 처리 안하는 문자열로 변환된다.

In [44]:
print("\n")





In [45]:
print("\\n")

\n


In [46]:
print("c:\windows\system32")

c:\window\system32


  print("c:\window\system32")


In [47]:
print("c:\\windows\\system32")

c:\windows\system32


In [48]:
print(r'c:\windows\system32')

c:\windows\system32


In [49]:
p = re.compile('(\d+)/(\d+)/(\d+)')

  p = re.compile('(\d+)/(\d+)/(\d+)')


In [50]:
p = re.compile('(\\d+)/(\\d+)/(\\d+)')

In [51]:
p = re.compile(r'(\d+)/(\d+)/(\d+)')

## re.sub()
- 정규표현식을 사용하여 치환하는 메서드
```
구문
re.sub(패턴, 치환문자, 문자열)
````

In [52]:
# 반환값이 있어서 원본이 변경 되지 않기 때문에 반드시 변수에 저장 해서 사용한다.
a = '123456-1234567'
re.sub("-", "", a)

'1234561234567'

In [53]:
a

'123456-1234567'

In [54]:
re.sub(r"\d", "*", a)

'******-*******'

In [55]:
re.sub(r"\D", r"%%%", a)

'123456%%%1234567'

## re.split()
- 정규표현식을 사용하여 문자열을 분리하는 메서드
```
구문
re.split(패턴, 문자열)
```

In [70]:
data = '''
동해물과 백두산이
마르고 닳도록

하느님이 보우하사         
우리나라 만 세~
'''

In [71]:
data

'\n동해물과 백두산이\n마르고 닳도록\n\n하느님이 보우하사         \n우리나라 만 세~\n'

In [72]:
spl = data.split("\n")
print(spl)

['', '동해물과 백두산이', '마르고 닳도록', '', '하느님이 보우하사         ', '우리나라 만 세~', '']


In [75]:
# \s : \n, \t, \r, 공백 등
re.split(r'\s+', data.strip())

['동해물과', '백두산이', '마르고', '닳도록', '하느님이', '보우하사', '우리나라', '만', '세~']

# 정규표현식 활용

In [76]:
# 정규표현식 테스트 함수
def regExpTest(regex, input_list):
    for s in input_list:
        print('[정규 표현식 매칭 테스트]------------')
        print(f'정규표현식 : {regex}')
        print(f'입력문자열 : {s}')

        match_count = 0

        for match in re.finditer(regex, s):
            match_count += 1
            print(f'\t매치 {match_count} : {match.group()} {match.span()}')
            
            # 그룹이 있다면 그룹별 출력
            group_size = len(match.groups())
            for i in  range(1, group_size + 1):
                print(f'\t\tgroup{i} : {match.group(i)} {match.span(i)}')

        match_count == 0 and print("\tX 매치 없음 X")
        print()

In [77]:
title = '^ : 문자뒤의 문자열로 시작되는 문자열'
regex = r'^The' # The 로 시작하는 문자열 패턴
input_list = [
    'The Things', # 매치 O
    'On The Things', # 매치 X
    ' The The The', # 매치 X
    'The The The', # 매치 O
]
print(title)
regExpTest(regex, input_list)

^ : 문자뒤의 문자열로 시작되는 문자열
[정규 표현식 매칭 테스트]------------
정규표현식 : ^The
입력문자열 : The Things
    매치 1 : The (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : ^The
입력문자열 : On The Things
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ^The
입력문자열 :  The The The
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ^The
입력문자열 : The The The
    매치 1 : The (0, 3)



In [79]:
title = '$ : 문자열의 마지막이 이 문자열로 끝나야 함'
regex = r'Man$' # Man 으로 끝나는 문자열
input_list = [
    'SuperMan', # 매치 O
    'AquaMan', # 매치 O
    'WonderWoman', # 매치 X
    'WonderWoMan', # 매치 O
    'PostMan ' # 매치 X
]

print(title)
regExpTest(regex, input_list)

$ : 문자열의 마지막이 이 문자열로 끝나야 함
[정규 표현식 매칭 테스트]------------
정규표현식 : Man$
입력문자열 : SuperMan
    매치 1 : Man (5, 8)

[정규 표현식 매칭 테스트]------------
정규표현식 : Man$
입력문자열 : AquaMan
    매치 1 : Man (4, 7)

[정규 표현식 매칭 테스트]------------
정규표현식 : Man$
입력문자열 : WonderWoman
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : Man$
입력문자열 : WonderWoMan
    매치 1 : Man (8, 11)

[정규 표현식 매칭 테스트]------------
정규표현식 : Man$
입력문자열 : PostMan 
	X 매치 없음 X



In [80]:
title = "^표현식$ : 정확하게 전체 패턴이 일치하는 문자열"
regex = r'^SuperMan$'
input_list = [
    'SuperMan', # 매치 O
    'Super Man', # 매치 X
    ' SuperMan', # 매치 X
    'SuperMan ' # 매치 X
]

print(title)
regExpTest(regex, input_list)

^표현식$ : 정확하게 전체 패턴이 일치하는 문자열
[정규 표현식 매칭 테스트]------------
정규표현식 : ^SuperMan$
입력문자열 : SuperMan
    매치 1 : SuperMan (0, 8)

[정규 표현식 매칭 테스트]------------
정규표현식 : ^SuperMan$
입력문자열 : Super Man
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ^SuperMan$
입력문자열 :  SuperMan
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ^SuperMan$
입력문자열 : SuperMan 
	X 매치 없음 X



In [81]:
title = '. : 어떤 문자라도 한문자가 있어야 한다.'
regex = r'x.z'
input_list = [
    'xyz', # 매치 O 
    'xxzdfdk', # 매치 O
    'aa10x9zbxbz', # 매치 O : 2개
    'xz', # 매치 X
    '90x zxx_zdf', # 매치 O : 2개
    'xbz', # 매치 O
    'xyyz' # 매치 X
]
print(title)
regExpTest(regex, input_list)

. : 어떤 문자라도 한문자가 있어야 한다.
[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : xyz
    매치 1 : xyz (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : xxzdfdk
    매치 1 : xxz (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : aa10x9zbxbz
    매치 1 : x9z (4, 7)
    매치 2 : xbz (8, 11)

[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : xz
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : 90x zxx_zdf
    매치 1 : x z (2, 5)
    매치 2 : x_z (6, 9)

[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : xbz
    매치 1 : xbz (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : x.z
입력문자열 : xyyz
	X 매치 없음 X



In [83]:
title = "* : 바로 앞의 문자가 한개 이상인 경우와 뒤에문자는 0개 이상 매칭 "
regex = r'ab*'
input_list = [
    "a", # 매치 O
    "abc", # 매치 O 
    "ab", # 매치 O
    "abbbaaaabababbab", # abbb, a, a, a, ab, ab, abb, ab
    "bbba", # 매치 O a
    "cdef", # 매치 X
    "b", # 매치 X
]
print(title)
regExpTest(regex, input_list)

* : 바로 앞의 문자가 한개 이상인 경우 매칭
[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : a
    매치 1 : a (0, 1)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : abc
    매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : ab
    매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : abbbaaaabababbab
    매치 1 : abbb (0, 4)
    매치 2 : a (4, 5)
    매치 3 : a (5, 6)
    매치 4 : a (6, 7)
    매치 5 : ab (7, 9)
    매치 6 : ab (9, 11)
    매치 7 : abb (11, 14)
    매치 8 : ab (14, 16)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : bbba
    매치 1 : a (3, 4)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : cdef
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ab*
입력문자열 : b
	X 매치 없음 X



In [84]:
title = "+ : 바로 앞의 문자가 모두 있고 뒤의 문자는 1개 이상 매칭"
regex = r'ab+'
input_list = [
    "a", # 매치 X
    "abc", # 매치 O 
    "ab", # 매치 O
    "abbbaaaabababbab", # abbb, ab, ab, abb, ab
    "bbba", # 매치 X
    "cdef", # 매치 X
]
print(title)
regExpTest(regex, input_list)

+ : 바로 앞의 문자가 한개 혹은 그 이상 매칭
[정규 표현식 매칭 테스트]------------
정규표현식 : ab+
입력문자열 : a
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ab+
입력문자열 : abc
    매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab+
입력문자열 : ab
    매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab+
입력문자열 : abbbaaaabababbab
    매치 1 : abbb (0, 4)
    매치 2 : ab (7, 9)
    매치 3 : ab (9, 11)
    매치 4 : abb (11, 14)
    매치 5 : ab (14, 16)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab+
입력문자열 : bbba
	X 매치 없음 X

[정규 표현식 매칭 테스트]------------
정규표현식 : ab+
입력문자열 : cdef
	X 매치 없음 X



In [85]:
title = "? : 바로 앞의 문자가 한개 있거나 없을 것을 매칭"
regex = r'ab?'
input_list = [
    "a", # 매치 O
    "abc", # 매치 O 
    "ab", # 매치 O
    "abbbaaaabababbab", # ab, a, a, a, ab, ab, ab, ab
    "bbba", # 매치 O
    "cdef", # 매치 X
]
print(title)
regExpTest(regex, input_list)

? : 바로 앞의 문자가 한개 있거나 없을 것을 매칭
[정규 표현식 매칭 테스트]------------
정규표현식 : ab?
입력문자열 : a
    매치 1 : a (0, 1)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab?
입력문자열 : abc
    매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab?
입력문자열 : ab
    매치 1 : ab (0, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab?
입력문자열 : abbbaaaabababbab
    매치 1 : ab (0, 2)
    매치 2 : a (4, 5)
    매치 3 : a (5, 6)
    매치 4 : a (6, 7)
    매치 5 : ab (7, 9)
    매치 6 : ab (9, 11)
    매치 7 : ab (11, 13)
    매치 8 : ab (14, 16)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab?
입력문자열 : bbba
    매치 1 : a (3, 4)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab?
입력문자열 : cdef
	X 매치 없음 X



In [86]:
title = "[] : 안에 존재하는 문자들 중 한 문자만을 매칭"
regex = r'[abc]'
input_list = [
    'able', # 매치 O  a, b
    'bible', # 매치 O b, b
    'cable', # 매치 O c, a, b
    'xenosys' # 매치 X
]
print(title)
regExpTest(regex, input_list)

[] : 안에 존재하는 문자들 중 한 문자만을 매칭
[정규 표현식 매칭 테스트]------------
정규표현식 : [abc]
입력문자열 : able
    매치 1 : a (0, 1)
    매치 2 : b (1, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : [abc]
입력문자열 : bible
    매치 1 : b (0, 1)
    매치 2 : b (2, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : [abc]
입력문자열 : cable
    매치 1 : c (0, 1)
    매치 2 : a (1, 2)
    매치 3 : b (2, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : [abc]
입력문자열 : xenosys
	X 매치 없음 X



In [90]:
# regex = r'[abc]+'
regex = r'[a-z]+'

input_list = [
    'abc100',
    'abcDefGHIJ-KLM123opQrstruz'
]
regExpTest(regex, input_list)

[정규 표현식 매칭 테스트]------------
정규표현식 : [a-z]+
입력문자열 : abc100
    매치 1 : abc (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : [a-z]+
입력문자열 : abcDefGHIJ-KLM123opQrstruz
    매치 1 : abc (0, 3)
    매치 2 : ef (4, 6)
    매치 3 : op (17, 19)
    매치 4 : rstruz (20, 26)



In [94]:
regex = r'[a-zA-Z]+' # a ~ z , A ~ Z
regex = r'[a-zA-Z0-9]+' # a ~ z, A ~ Z, 0 ~ 9
regex = r'[a-zA-Z0-9-]+' # a ~ z, A ~ Z, 0 ~ 9, -
regex = r'[ㄱ-힣]+' # 한글 매칭

title = "{} : 앞에 있는 문자나 문자열의 수를 정함"
regex = r'ab{2}' # a 로 시작하고 b가 2번 나와야 하는 패턴
input_list = [
    'abb', # 매치 O 
    'abbb', # 매치 O 
    'abbbabbbbbbbbbbbabaabab' # abb, abb
]

print(title)
regExpTest(regex, input_list)

{} : 앞에 있는 문자나 문자열의 수를 정함
[정규 표현식 매칭 테스트]------------
정규표현식 : ab{2}
입력문자열 : abb
    매치 1 : abb (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab{2}
입력문자열 : abbb
    매치 1 : abb (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : ab{2}
입력문자열 : abbbabbbbbbbbbbbabaabab
    매치 1 : abb (0, 3)
    매치 2 : abb (4, 7)



In [95]:
regex = r'ab{2,}' # a로 시작하고 b가 두번 이상
regex = r'ab{2, 5}' # a 로 시작하고 b가 2 ~ 5 번 이상

In [96]:
title = "() : () 안에 있는 문자나 문자열을 그룹화"
regex = r'a(bc)*'

input_list = [
    'abc', # 매치 O
    'abcbabbac', # 매치 O
    'abcabcabc' # 매치 O
]

print(title)
regExpTest(regex, input_list)

() : () 안에 있는 문자나 문자열을 그룹화
[정규 표현식 매칭 테스트]------------
정규표현식 : a(bc)*
입력문자열 : abc
    매치 1 : abc (0, 3)
		group1 : bc (1, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : a(bc)*
입력문자열 : abcbabbac
    매치 1 : abc (0, 3)
		group1 : bc (1, 3)
    매치 2 : a (4, 5)
		group1 : None (-1, -1)
    매치 3 : a (7, 8)
		group1 : None (-1, -1)

[정규 표현식 매칭 테스트]------------
정규표현식 : a(bc)*
입력문자열 : abcabcabc
    매치 1 : abc (0, 3)
		group1 : bc (1, 3)
    매치 2 : abc (3, 6)
		group1 : bc (4, 6)
    매치 3 : abc (6, 9)
		group1 : bc (7, 9)



In [97]:
title = "| : or 연산자로 둘 중 하나 매칭"
regex = r'a|b'
input_list = [
    'a', # 매치 O
    'b', # 매치 O
    'ab', # 매치 O 2개 
    'xyz' # 매치 X
]
print(title)
regExpTest(regex, input_list)

| : or 연산자로 둘 중 하나 매칭
[정규 표현식 매칭 테스트]------------
정규표현식 : a|b
입력문자열 : a
    매치 1 : a (0, 1)

[정규 표현식 매칭 테스트]------------
정규표현식 : a|b
입력문자열 : b
    매치 1 : b (0, 1)

[정규 표현식 매칭 테스트]------------
정규표현식 : a|b
입력문자열 : ab
    매치 1 : a (0, 1)
    매치 2 : b (1, 2)

[정규 표현식 매칭 테스트]------------
정규표현식 : a|b
입력문자열 : xyz
	X 매치 없음 X



In [98]:
title = "(?i) : 대소문자 구분하지않고 매칭"
regex = r'(?i)abc'

input_list = [
    'abc',
    'ABC',
    'AbC'
]

print(title)
regExpTest(regex, input_list)

(?i) : 대소문자 구분하지않고 매칭
[정규 표현식 매칭 테스트]------------
정규표현식 : (?i)abc
입력문자열 : abc
    매치 1 : abc (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : (?i)abc
입력문자열 : ABC
    매치 1 : ABC (0, 3)

[정규 표현식 매칭 테스트]------------
정규표현식 : (?i)abc
입력문자열 : AbC
    매치 1 : AbC (0, 3)



In [100]:
title = r'\s 공백 문자' # 공백, \t, \n, \r
regex = r'\s+'

input_list = [
    'hello my world',
    'he \tllo my world',
    '\n\t hello my world \n\n'
]

print(title)
regExpTest(regex , input_list)

\s 공백 문자
[정규 표현식 매칭 테스트]------------
정규표현식 : \s+
입력문자열 : hello my world
    매치 1 :   (5, 6)
    매치 2 :   (8, 9)

[정규 표현식 매칭 테스트]------------
정규표현식 : \s+
입력문자열 : he 	llo my world
    매치 1 :  	 (2, 4)
    매치 2 :   (7, 8)
    매치 3 :   (10, 11)

[정규 표현식 매칭 테스트]------------
정규표현식 : \s+
입력문자열 : 
	 hello my world 


    매치 1 : 
	  (0, 3)
    매치 2 :   (8, 9)
    매치 3 :   (11, 12)
    매치 4 :  

 (17, 20)



In [101]:
title = r"\w : 알파벳 또는 숫자"
regex = r'\w+'

input_list = [
    'This is 2024-06-12 ~~!!'
]

print(title)
regExpTest(regex, input_list)

\w : 알파벳 또는 숫자
[정규 표현식 매칭 테스트]------------
정규표현식 : \w+
입력문자열 : This is 2024-06-12 ~~!!
    매치 1 : This (0, 4)
    매치 2 : is (5, 7)
    매치 3 : 2024 (8, 12)
    매치 4 : 06 (13, 15)
    매치 5 : 12 (16, 18)



## 문제
```
string = '정가 14,500원'
```
- 정규 표현식을 사용하여 int 값 14500을 추출하기

In [105]:
string = '정가 14,500원'



<re.Match object; span=(3, 5), match='14'>


In [107]:
m = re.match(r"\d+", string)
print(m)

None


In [106]:
m = re.search(r"\d+", string)
print(m)

<re.Match object; span=(3, 5), match='14'>


In [109]:
m = re.findall(r"\d+", string)
print(m[0] + m[1])

14500


In [111]:
'abc'.join('def')

'dabceabcf'

In [112]:
''.join(re.findall(r'\d+', string))

'14500'

In [113]:
int(''.join(re.findall(r'\d+', string)))

14500

In [116]:
m = re.finditer(r'\d+', string)

result = '';
for n in m:
    result += n.group()
int(result)

14500

In [117]:
int(re.sub(r'\D', '', string))

14500

In [118]:
int(re.sub(r'[^0-9]', '', string))

14500