# 정규표현식

https://github.com/weniv/pyalgo_solution/blob/main/%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D.ipynb

https://regexr.com/5nvc2

https://evan-moon.github.io/2020/08/15/regex-example/

**정규표현식 함수** </br>

========================================================================</br>
findall : 일치하는 문자열을 리스트로 반환</br>
split : 일치하는 문자열로 원재 문자열을 분할한 리스트로 반환</br>
sub : 일치하는 문자열을 치환한 문자열을 반환</br>
search : 일치하는 문자열이 있으면 **Match 객체**를 반환</br>
compile: </br>
========================================================================

함수를 적용할 대상 문자열을 입력할 떄는, raw문자열로 지정하는 것이 좋다(메타 문자 무시)
```python
re.함수(r'정규표현식', 문자열)
```

**정규표현식 표현** </br>

========================================================================</br>
. 줄바꿈 이외의 임의의 문자</br>
... 줄바꿈 이외의 임의의 3문자</br>
^ 문자열의 시작 (^... 문자열 시작에서 3문자)</br>
\\$ 문자열의 끝 (...\\$ 문자열 끝에서 3문자)</br>
\* 직전 정규표현식을 0회이상 반복 (ab*c abc또는 ac에 일치)</br>
\+ 직전 정규표현식을 1회이상 반복 (ab+c abc에 일치)</br>
? 직전 정규표현식이 0~1회 존재 (abcd? abc또는 abcd에 일치)</br>
| 둘중 하나 (ab|cd ab또는 cd에 일치)

ex. x(ab|cd): x로 시작해 ab또는 cd에 일치 (ab|cd 그룹)

(...) 소괄호 안을 그루핑</br></br>
[...] 대괄호 안의 문자 중 하나</br>
[^...] 대괄호 안의 문자 중 하나도 없음

대괄호는 **문자클래스**라고 불리는데 문자 클래스 안에 있는것은 고유문자로 인식이 되고 기능적으로 사용되지 않는다

\ 직후 정규표션식 기호 무시</br>
\ 에 일치

{n} 직전 정규표현식의 반복 횟수</br>
{n,} 직전 정규표현식의 최소 반복 횟수</br>
{n,m} 직전 정규표현식의 반복 횟수 범위

A{3} A가 3회 반복되면 일치</br>
A{3, }A가 3회 이상 반복되면 일치</br>
A{3, 6}A가 3~6회 이상 반복되면 일치</br>
========================================================================

**자주 사용하는 문자 클래스**</br>

========================================================================</br>
\d: 숫자와 매치 [0-9]와 같다</br>
\D: 숫자가 아닌것과 매치 [^0-9]와 같다

\s: whitespace문자와 매치 [ \t\n\r\f\v]와 같다 (맨앞의 빈칸은 공백을 의미)</br>
\S: whitespace문자가 아닌것과 매치 [^ \t\n\r\f\v]와 같다

\w: 문자+숫자와 매치 [a-zA-Z0-9]와 같다</br>
\W: 문자+숫자가 아닌 문자와 매치 [^a-zA-Z0-9]와 같다</br>
\\: 메타 문자가 아닌 일반 문자 역슬래시와 매치. 매타 문자 앞에 W를 붙이면 일반문자를 위미</br>
========================================================================

In [9]:
import os

wd = os.getcwd()[:-12]
data_path = os.path.join(wd, 'source/sample_data')

**os 모듈의 listdir 함수**

지정된 경로(default: working directory)의 파일들은 리스트 형태로 반환한다

In [6]:
os.listdir(data_path)

## 정규표현식 함수

### findall

지정한 조건에 일치하는 문자열을 리스트로 반환한다

```python
re.findall(r'정규표현식', 문자열)
```

In [11]:
# join 예제 1
text_list = ['Hello', 'World', 'Python']
test1 = ' '.join(text_list)
print(test1)

Hello World Python


In [19]:
import re

text1 = "In the face of ambiguity, refuse the temptation to guess"
re.findall(r"t.", text1)

['th', 'ty', 'th', 'te', 'ta', 'ti', 'to']

In [20]:
text2 = "tx ti tp te t1 t2 t# t- t~"
re.findall(r"t.", text2)

['tx', 'ti', 'tp', 'te', 't1', 't2', 't#', 't-', 't~']

### Greedy, Lazy

https://www.pythontutorial.net/python-regex/python-regex-greedy/

**파이썬은 기본적으로 greedy**하지만 **?를 붙이는 순간 Lazy**해진다

Greedy: 정규표현식이 패턴에 일치하는 문자열을 추출할때 일치하는 최대한의 범위를 추출하는 상태</br>
- \+ or \* 패턴은 가능한 가장 긴 문자열을 매칭하려고 노력한다

```python
예시 문자열 example이 아래와 같을 때,
example = '저희 첫째아들은 2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년에 가질 예정이에요'

re.findall(r'\d.+년', example) # ['2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년']
위 정규식은 숫자(\d) 한 개 다음 공백 외 문자(.)가 1개 이상이고, '년'으로 끝나는 문자열을 찾는다
따라서, \d에 '2'가 매치되고 .에 '020'이 매치된 후 '년'을 만나고, 뒤에서 매치될 문자열을 찾다가 '26년' 이후에 매치되는 문자가 없을때 멈춘다

re.findall(r'\d+.년', example) # ['2020년', '23년', '26년']
하지만, 위 정규식은 숫자(\d) 1개 이상이고 공백 외 문자(.) 1개가 있으며 '년'으로 끝나는 문자열을 찾는다
따라서 \d+.에 '2020'이 매치되고 년을 만나는 순간 매칭이 끝난다
```

Lazy: 일치하는 최소한의 범위를 추출하는 상태

In [116]:
example = '저희 첫째아들은 2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년에 가질 예정이에요'

In [117]:
re.findall(r'\d.+년', example)

['2020년에 태어났구요. 저희 둘째 아들은 23년에 태어났는데 셋째는 26년']

In [118]:
re.findall(r'\d.+?년', example)

['2020년', '23년', '26년']

In [119]:
re.findall(r'\d+.년', example)

['2020년', '23년', '26년']

In [135]:
text = 'In the face of ambiguity, refuse the temptation to guess'

print(re.findall(r"t.*\s", text)) # t에서 어떤 문자가 0번 이상 반복되어 공백까지

# ?가 없을 때, 어떤 이유에서 문자열 전체에서 정규표현식과 일치하는 문자를 찾는다
# ?를 붙이면 t에서 가장 가까운 공백까지만 일치하는 것을 찾는다
print(re.findall(r"t.*?\s", text))

['the face of ambiguity, refuse the temptation to ']
['the ', 'ty, ', 'the ', 'temptation ', 'to ']


### search

**findall vs search**

findall: 문자열에서 정규표현식과 일치하는 모든 부분 문자열을 찾아 리스트로 반환 (반환되는 리스트의 요소는 일치하는 문자열들)

search: 문자열에서 정규표현식과 일치하는 첫 번째 부분 문자열을 찾아 매칭 객체를 반환
- 매칭 객체는 group() 메소드를 사용하여 일치하는 문자열을 가져올 수 있다
- 매치된 문자열의 원본 문자열 내 위치를 반환할 수 있다

즉, findall은 모든 일치하는 문자열을 찾고 리스트로 반환하고, search는 첫 번째 일치하는 문자열을 찾고 매칭 객체를 반환한다

In [45]:
text = 'Error should never pass silently'
m_obj = re.search(r"p...", text)

print(m_obj)
print(m_obj.group()) # 일치 문자열 ()로 묶인 것인 없음
print(m_obj.group(0))
print(m_obj.start()) # 문자열 text에서 일치 문자열 'pass'의 시작 인덱스
print(m_obj.end())   # 끝 인덱스

<re.Match object; span=(19, 23), match='pass'>
pass
pass
19
23


In [46]:
text = 'Errors should never pass silently'
m_obj = re.search(r"(n....) (p...)", text)

print(m_obj.group())     # 전체 매치된 문자열을 반환
print(m_obj.groups())    # 매치된 문자열 중 그룹으로 묶인 문자열을 모두 반환

never pass
('never', 'pass')


In [50]:
m_obj.group(2)

'pass'

### sub

replace 함수처럼 문자열에서 대상 문자들을 지정한 문자로 치환한다

```python
re.sub(r'정규표현식(대체 대상 문자)', 대체 할 문자, 문자열)
```

In [11]:
text = "Beautiful is better than ugly"

re.sub(r"\s", "_", text) #공백문자는 \s로도 쓰인다 (공백을 입력해도 동작)

'Beautiful_is_better_than_ugly'

In [16]:
re.sub(r" *[a-zA-Z]*", "_", text)

'______'

### split

정규 표현식에 일치한 위치에서 문자열을 분리하고 리스트로 반환한다

```python
re.split(r'정규표현식', 문자열)
```

[^a-zA-Z0-9]+ 정규표현식은 알파벳 혹은 숫자가 1개 이상일때 일치되므로,</br>
Simple 뒤 공백을 만났을 때 패턴이 종료된다. 따라서, 이와 같이 Simple, is, Best에서 분할한다

In [31]:
text = 'Simple is Best'
re.split((r"[^a-zA-Z0-9]+"), text) # [^a-zA-Z0-9]+: 알파벳 대소문자와 숫자가 아닌 문자들이 하나 이상 연속해서 나타나는 경우

['Simple', 'is', 'Best']

In [None]:
# 이런 파일이 있을수 있어요
data = 'a:3;b:4;c:5'
for i in re.split(r';', data):
    print(re.split(r':', i))

['a', '3']
['b', '4']
['c', '5']


### compile

함수에 직접 문자열을 전달해도 raw string으로 처리된다</br>
따라서 compile을 사용하지 않고도 문자열을 바로 전달할 수 있다

하지만, 정규표현식을 여러 번 사용해야 하는 경우에는 compile을 사용하여 컴파일한 패턴 객체를 재사용하는 것이 속도와 효율면에서 유리하다

In [62]:
# 여러가지 중에 택 1해서 찾기
regex = re.compile(r'h[aeyo]l..')

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
re.findall(regex, search_target)

['hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hallo',
 'hollo',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello']

In [63]:
regex = re.compile(r'h[aeyo]l..', re.I) # re.I 는 대소문자를 구분하지 않도록 설정
                 # r'h[a-f]l..' 와 같음
re.findall(regex, search_target)

['hello',
 'hello',
 'hello',
 'Hello',
 'hello',
 'hello',
 'hello',
 'hallo',
 'hollo',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello',
 'hello']

In [None]:
regex = re.compile(r'[a-zA-Z0-9가-힣]')

re.findall(regex, search_target)

## 정규표현식 표현

In [74]:
search_target = '''
hello world
hello  world
hello, world
Hello World

hello world hello

hello
hallo
hollo
heallo
yellow

Monday Tuesday Wednesday Thursday Friday Saturday Sunday

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567891011121314151617181920
aaabbcaaabbcabcabc
aaa bb c aaa bb c a b c a b c
aaa1bb2c3aaa4bb5c6

[123456]
123[456]789
abc[def]ghij

010-9091-5491
010-5043-2901
010-5050-40409
010-49492-3131
010 2913 3132
01019133829
064-721-3213
010.1913.3829
010*5043*2901


paul-korea@naver.com
paul@naver.com
leehojun@gmail.com
hojun.lee@gmail.com
test.test@go.go.go


https://github.com/LiveCoronaDetector/livecod
github.com/LiveCoronaDetector/livecod
https://github.com/LiveCoronaDetector

I never dreamed about success, I worked for it.
Do not be afraid to give up the good to go for the great.

hello (hello world) hello
hello \\hello world// hello
^^
:)

[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]
{name : leehojun, age : 10, height : 180, email : paul-lab@naver.com}

가나다라마바사아자차카타파하
ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎ
안녕_하세요
안녕-하세요
수사
수박
수상
동해 물과 백두산이 마르고 닳도록 하느님이 보호하사 우리나라 만세
'''

### (   )

소괄호를 사용하면 정규식 일부 패턴을 그룹화 할 수 있다</br>
**그룹 캡처기능**이라고 불리는데,</br>
정규식 그룹은 번호가 매겨진 캡처그룹을 생성하고, 괄호안에 정규식 부분과 일치하는 문자열을 저장합니다.</br>
그 캡처 번호를 사용하여 문자열 부분을 불러와 사용할 수 있다

**주의할점**은 캡처에 정규식 패턴이 저장된다고 착각할 수 잇지만 캡처는 패턴으로 찾은 문자열을 저장한다

In [34]:
# 제품 카탈로그 코드 제품명
text = """
101 CF001 커피
102 CF002 커피(대용량)
201 TE01 홍차
202 TE02 홍차(대용량)
"""

# 위 문자열을 모두 출력하는 정규표현식을 작성하려면, 제품, 카탈로그 코드, 제품명을 각 그루핑해야 한다
# 제품 -> [0-9]+
# 카탈로그 코드 [0-9A-Z]+
# 제품명 .*
# 구분 문자 공백

re.findall(r'([0-9]+) +([ 0-9 A-Z]+) +(.+)', text)

[('101', 'CF001', '커피'),
 ('102', 'CF002', '커피(대용량)'),
 ('201', 'TE01', '홍차'),
 ('202', 'TE02', '홍차(대용량)')]

In [39]:
re.findall(r'([0-9]+) ([A-Z 0-9]+) ([가-힣\(\)]*)', text)

[('101', 'CF001', '커피'),
 ('102', 'CF002', '커피(대용량)'),
 ('201', 'TE01', '홍차'),
 ('202', 'TE02', '홍차(대용량)')]

In [65]:
regex = re.compile('(Mon|Tues|Fri)day') #그룹 1로 3개 중 매칭되는 패턴

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
result = re.findall(regex, search_target)
print("\n".join(result))

Mon
Tues
Fri


In [66]:
# ?:는 그룹핑해서 검색한 뒤, 그룹을 해제하고 캡처가 아닌 일치하는 문자열 전체를 저장한다

regex = re.compile('(?:Mon|Tues|Fri)day')

result = re.findall(regex, search_target)
print("\n".join(result))

Monday
Tuesday
Friday


In [69]:
text = "tomato potato"

p1 = "(tom|pot)ato"    # 그룹으로 묶인건 그 단어 (tom|pot)을 출력
p2 = "(?:tom|pot)ato"  # 그룹으로 묶이지 않은것은 캡처하지 않겠다고 매칭 tomato와 potato가 출력

m1 = re.findall(p1, text)
m2 = re.findall(p2, text)

print("m1 결과 : ", m1)
print("m2 결과 : ", m2)

m1 결과 :  ['tom', 'pot']
m2 결과 :  ['tomato', 'potato']


### \\w, \\d

\\w: 문자 + 숫자

\\d: 숫자

In [56]:
regex = r'\d'
regex = r'\w'

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
result = re.findall(regex, search_target)
print("\n".join(result))

h
e
l
l
o
w
o
r
l
d
h
e
l
l
o
w
o
r
l
d
h
e
l
l
o
w
o
r
l
d
H
e
l
l
o
W
o
r
l
d
h
e
l
l
o
w
o
r
l
d
h
e
l
l
o
h
e
l
l
o
h
a
l
l
o
h
o
l
l
o
h
e
a
l
l
o
y
e
l
l
o
w
M
o
n
d
a
y
T
u
e
s
d
a
y
W
e
d
n
e
s
d
a
y
T
h
u
r
s
d
a
y
F
r
i
d
a
y
S
a
t
u
r
d
a
y
S
u
n
d
a
y
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
0
1
2
3
4
5
6
7
8
9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
a
a
a
b
b
c
a
a
a
b
b
c
a
b
c
a
b
c
a
a
a
b
b
c
a
a
a
b
b
c
a
b
c
a
b
c
a
a
a
1
b
b
2
c
3
a
a
a
4
b
b
5
c
6
1
2
3
4
5
6
1
2
3
4
5
6
7
8
9
a
b
c
d
e
f
g
h
i
j
0
1
0
9
0
9
1
5
4
9
1
0
1
0
5
0
4
3
2
9
0
1
0
1
0
5
0
5
0
4
0
4
0
9
0
1
0
4
9
4
9
2
3
1
3
1
0
1
0
2
9
1
3
3
1
3
2
0
1
0
1
9
1
3
3
8
2
9
0
6
4
7
2
1
3
2
1
3
0
1
0
1
9
1
3
3
8
2
9
p
a
u
l
k
o
r
e
a
n
a
v
e
r
c
o
m
p
a
u
l
n
a
v
e
r
c
o
m
l
e
e
h
o
j
u
n
g
m
a
i
l
c
o
m
h
o
j
u
n
l
e
e
g
m
a
i
l
c
o
m
t
e
s
t
t
e
s
t
g
o
g
o
g
o
h
t
t
p
s
g
i
t
h
u
b
c
o
m
L
i
v
e
C
o
r
o
n
a
D
e
t
e
c
t
o
r
l
i
v
e
c
o
d
g
i


### ^

문자열의 시작 지정

In [57]:
m1 = re.findall("^Life", "Life is too short")
print("m1 결과 : ", m1)

m2 = re.findall("^is", "Life is too short")
print("m2 결과 : ", m2)

m1 결과 :  ['Life']
m2 결과 :  []


### $

문자열의 끝 지정

In [60]:
m1 = re.findall("short$", "Life is too short")
m2 = re.findall("short$", "Life is too short. So what?")
 
print("m1 결과 : ", m1)
print("m2 결과 : ", m2)

m1 결과 :  ['short']
m2 결과 :  []


### |

In [68]:
# 빈칸에 정규표현식을 적습니다.
regex = re.compile('(on|ues|rida)') #그룹 1로 3개 중 매칭되는 패턴

# 그룹 안에 매칭이 된 것만 출력이 되는 형태

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드입니다.
result = re.findall(regex, search_target)
print("\n".join(result))

on
ues
rida
on
on
on


### 수량자: { }

수량자 앞의 패턴에 대해 수량자에서 지정한만큼 일치하는지 판단

In [77]:
regex = re.compile('[0-9]{3}[-.* ][0-9]{4}[-.* ][0-9]{4}') 

# 1. [0에서 9까지]{3개}[- 나 . 앞에 있는 문자 0~N개]
# 2. [0에서 9까지]{4개}[- 나 . 앞에 있는 문자 0~N개]
# 3. [0에서 9까지]{4개}[- 나 .]

# 정규표현식과 일치하는 부분을 모두 찾아주는 파이썬 코드
result = re.findall(regex, search_target)
print("\n".join(result))

010-9091-5491
010-5043-2901
010-5050-4040
010 2913 3132
010.1913.3829
010*5043*2901


In [120]:
regex = re.compile('[0-9]{2,3}[-. *][0-9]{3,5}[-. *][0-9]{4}')

# 1. [0에서 9까지]{2~3개}[- 나 . 앞에 있는 문자 0~N개]
# 2. [0에서 9까지]{3~4개}[- 나 . 앞에 있는 문자 0~N개]
# 3. [0에서 9까지]{4개}

result = re.findall(regex, search_target)
print("\n".join(result))

010-9091-5491
010-5043-2901
010-5050-4040
010-49492-3131
010 2913 3132
064-721-3213
010.1913.3829
010*5043*2901


In [81]:
regex = re.compile('[0-9a-zA-Z]+@[0-9a-zA-Z]+.[a-zA-Z]+') 

# 1. [0에서 9까지 + 영문자]{+@}
# 2. [0에서 9까지 + 영문자].
# 3. [영문자_ 1개 이상]

result = re.findall(regex, search_target)
print("\n".join(result))

korea@naver.com
paul@naver.com
leehojun@gmail.com
lee@gmail.com
test@go.go
lab@naver.com
lab@naver.com


## 이스케이프 문자

문자가 가진 기능(+, * 등)이 아닌, 문자 그대로 사용하기 위해 사용한다

기능이 아닌 문자 그대로 사용하고자 할 때, 해당 문자 앞에 \\를 입력한다

In [99]:
regex = re.compile('\[.*]') # 대괄호가 기능이 아닌 문자 대괄호가 되도록 한다
                            # 문자 대괄호 안에 공백이 아닌 문자(.)가 0번 이상(*)인 문자 추출

result = re.findall(regex, search_target)
print("\n".join(result))

[123456]
[456]
[def]
[(name, leehojun), (age, 10), (height, 180), (email, paul-lab@naver.com)]


In [100]:
regex = re.compile('-.*-') # -(dash)이후에 공백이 아닌 문자(.)가 0회 이상(*)있고 그 뒤에 -(dash)가 있는 문자 추출

result = re.findall(regex, search_target)
print("\n".join(result))

-9091-
-5043-
-5050-
-49492-
-721-


In [106]:
regex = re.compile('\^\^') #이스케이프 문자가 필요한 경우

result = re.findall(regex, search_target)
print("\n".join(result))

^^


In [105]:
regex = re.compile(':\)') #이스케이프 문자가 필요한 경우

result = re.findall(regex, search_target)
print("\n".join(result))

:)


# 정규표현식 연습문제

In [107]:
example = '앞서 논문은 이러한 연구를 진행하였습니다(홍길동, 2019). 하지만 그런 것들을 개량하여 다음 논문이 나오게 되었고(임꺽정, 2020), 마지막으로 두가지를 모두 결합한 새로운 연구가 개발되었습니다.(심청이, 2021)'

In [111]:
# 인용구만 출력

result = re.sub(r'\([^)]*\)', '', example)
result

'앞서 논문은 이러한 연구를 진행하였습니다. 하지만 그런 것들을 개량하여 다음 논문이 나오게 되었고, 마지막으로 두가지를 모두 결합한 새로운 연구가 개발되었습니다.'

In [108]:
# 인용구 제외 출력

result = re.findall(r'\([A-Za-z가-힣]+, \d+\)',example)
result

['(홍길동, 2019)', '(임꺽정, 2020)', '(심청이, 2021)']

[다트게임]

1. 다트 게임은 총 3번의 기회로 구성된다.
2. 각 기회마다 얻을 수 있는 점수는 0점에서 10점까지이다.
3. 점수와 함께 Single(S), Double(D), Triple(T) 영역이 존재하고 각 영역 당첨 시 점수에서 1제곱, 2제곱, 3제곱 (점수1 , 점수2 , 점수3 )으로 계산된다.
4. 옵션으로 스타상(\*) , 아차상(\#)이 존재하며 스타상(\*) 당첨 시 해당 점수와 바로 전에 얻은 점수를 각 2배로 만든다. 아차상(\#) 당첨 시 해당 점수는 마이너스된다.
5. 스타상(\*)은 첫 번째 기회에서도 나올 수 있다. 이 경우 첫 번째 스타상(*)의 점수만 2배가 된다. (예제 4번 참고)
6. 스타상(\*)의 효과는 다른 스타상(\*)의 효과와 중첩될 수 있다. 이 경우 중첩된 스타상(\*) 점수는 4배가 된다. (예제 4번 참고)
7. 스타상(\*)의 효과는 아차상(\#)의 효과와 중첩될 수 있다. 이 경우 중첩된 아차상(\#)의 점수는 -2배가 된다. (예제 5번 참고)
Si ngle(S), Double(D), Triple(T)은 점수마다 하나씩 존재한다.
8. 스타상(\*), 아차상(\#)은 점수마다 둘 중 하나만 존재할 수 있으며, 존재하지 않을 수도 있다.

https://school.programmers.co.kr/learn/courses/30/lessons/17682

In [70]:
sample_text = '1D2S3T*'

def solution(dartResult):
    sample = [(int(t[0]), 1 if t[1] == "S" else 2 if t[1] == "D" else 3, t[2]) for t in re.findall(r"(10|[0-9])([SDT])([*#]?)", dartResult)]
    score = []
    
    for idx, (i, j, k) in enumerate(sample):
        if k == '*':
            score.append(i ** j)
            score[idx-1:] = list(map(lambda x: x * 2, score[idx-1:]))
        elif k == '#':
            score.append((i ** j) * (-1))
        else:
            score.append(i ** j)
            
    return sum(score)

In [71]:
solution(sample_text)

59

In [15]:
re.findall(r'(10|[0-9])', r'10S2D*3T')
re.findall(r'\d+', r'110S2D*3T') # 숫자가 1개 이상 => 11 이상의 값도 매치됨
re.findall(r'(10|[0-9])([SDT])', r'10S2D*3T')
for i, j, k in re.findall(r'(10|[0-9])([SDT])([*#]?)', r'10S2D*3T'):
    print(i, j, k)

10 S 
2 D *
3 T 


+) 추가 설명

() 소괄호는 문자열 내에서 탐색할 정규표현식의 그룹을 구분한다

정규표현식 그룹에 대한 반복여부는 소괄호의 밖에 지정한다

In [8]:
re.findall(r'(10|[1-9])([A-Z])([1-3])([\*\#]?)(True|False)?', '10A3#')

[('10', 'A', '3', '#', '')]

In [9]:
re.findall(r'(10|[1-9])([A-Z])([1-3])([\*\#]?)(True|False)?', '10A3#True')

[('10', 'A', '3', '#', 'True')]

In [10]:
re.findall(r'(10|[1-9])([A-Z])([1-3])([\*\#]?)(True|False?)', '10A3#True')

[('10', 'A', '3', '#', 'True')]

In [12]:
re.findall(r'(10|[1-9])([A-Z])([1-3])([\*\#]?)(True|False?)', '10A3#')

[]

[암호문 해독]

revolution 날짜 암호문은 월과 일로 해독할 수 있습니다.
1. 편지 안에 내용은 문자열로 주어집니다.
2. 문자열 중에 r, e, v 뒤에 나오는 값을 더하여 나온 최종 숫자에서 앞자리를 월로 뒷자리를 일로 판단합니다.
3. r, e, v 뒤에 나오는 숫자는 1부터 10까지입니다. 이를 넘어가는 숫자가 나올 경우 앞 숫자만 뽑아냅니다.

https://pyalgo.co.kr/?page=2#

In [90]:
def solution(data):
    decryption = re.findall(r'[rev](10|[0-9])', data)
    result = sum(list(map(int, decryption)))
    return f'{result//10}월 {result%10}일'

In [91]:
solution('a10b9r1ce33uab8wc918v2cv11v9')

'1월 6일'

In [16]:
re.findall('([rev])(10|[0-9])', 'a10b9r1ce33uab8wc918v2cv11v9')

[('r', '1'), ('e', '3'), ('v', '2'), ('v', '1'), ('v', '9')]

[숨어있는 숫자의 덧셈]

my_string안의 모든 자연수들의 합을 return하도록 solution 함수를 완성해주세요.

연속된 숫자도 각각 한 자리 숫자로 취급합니다.

https://school.programmers.co.kr/learn/courses/30/lessons/120851

In [94]:
sample_text = "aAb1B2cC34oOp"

In [95]:
def solution(my_string):
    return sum(list(map(int, re.findall(r'[0-9]', my_string))))

In [96]:
solution(sample_text)

10

In [103]:
def solution(my_string):
    answer = 0
    for s in my_string:
        if s.isdigit():
            answer += int(s)

    return answer

In [104]:
solution(sample_text)

10