# Regular Expressions

In [None]:
import re

data = '''
    홍길동 991010-1234566
    아무개 911010-2566531
'''
# 문자열 객체를 가지고 있는 함수 중 split/splitline 을 이용하기
data.splitlines()

['', '    홍길동 991010-1234566', '    아무개 911010-2566531']

In [None]:
result = []

for line in data.splitlines():
  if len(line) > 13:
    print(line.split(' '))
    break

['', '', '', '', '홍길동', '991010-1234566']


In [None]:
','.join(['1', '2', '3', '4'])

'1,2,3,4'

In [None]:
# 문자열 인덱싱을 이용하면 이렇게 귀찮아짐
for line in data.splitlines():
  if len(line) > 13:
    s = ' '
    s += ' '.join(line.split(' ')[:-1])
    jumin = line.split(' ')[-1]
    count = len(jumin.split('-')[-1])
    s += ' '+jumin.split('-')[0]+'-'
    s += '*'*count
    result.append(s)
  else:
    result.append(line)

print('\n'.join(result))





     홍길동 991010-*******
     아무개 911010-*******


In [None]:
# 정규식을 쓰면 깔끔해진다.
print(re.sub('\-[0-9]{7}', '-*******', data))


    홍길동 991010-*******
    아무개 911010-*******



### 1. `'\'`을 처리하는 방법

In [None]:
print('1. \n') # 개행
print('2. \\n') # \n
print(r'3. \n') # \ => \\, (2) \n => \\n
print(re.escape('4. \n')) # => \\.\\\n
re.escape('4. \n') # 해석될 여지가 있는 모든 문자들에서 escape
re.escape(r'\n')

'\n', r'\n', re.escape('\n'), re.escape(r'\n')
# 모르겠으면 일단 붙여주는 게 더 낫다.

1. 

2. \n
3. \n
4\.\ \



('\n', '\\n', '\\\n', '\\\\n')

### 2. match와 search의 차이

In [None]:
print(re.match('Crow|Servo', 'CrowHello')), 'CrowHello'[0:4]

<re.Match object; span=(0, 4), match='Crow'>


(None, 'Crow')

In [None]:
mobj = re.match('Crow|Servo', 'CrowHello')

mobj.span(), mobj.start(), mobj.end(), mobj.groups(), mobj.group()

((0, 4), 0, 4, (), 'Crow')

In [None]:
print(re.search('^Life', 'Life is too short'))
print(re.search('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


In [None]:
print(re.search('short$', 'Life is too short'))
print(re.search('short$', 'Life is too short, you need python'))

<re.Match object; span=(12, 17), match='short'>
None


In [None]:
print(re.match('^Life', 'Life is too short'))
print(re.match('^Life', 'My Life'))

<re.Match object; span=(0, 4), match='Life'>
None


In [None]:
print(re.match('short$', 'Life is too short')) # 'short' 자체만 찾는 것
print(re.match('short$', 'Life is too short, you need python'))

None
None


### 3. `()+`

In [None]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m.group())

ABCABCABC


In [None]:
re.search('(ABC)+', 'ABCABCABC OK?').groups()

('ABC',)

In [None]:
re.search('((ABC)+)', 'ABCABCABC OK?').groups()

('ABCABCABC', 'ABC')

In [None]:
re.search('((?:ABC)+)', 'ABCABCABC OK?').groups()

('ABCABCABC',)

In [None]:
re.search('(?:(ABC)+)', 'ABCABCABC OK?').groups()

('ABC',)

### 4. `\b`와 `\B`

In [None]:
p = re.compile(r'\bclass\b')
print(p.search('no class at all'))
print(p.search('one subclass is'))
print(p.search('the declassified algorithm'))

<re.Match object; span=(3, 8), match='class'>
None
None


In [None]:
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('one subclass is'))
print(p.search('the declassified algorithm'))

None
None
<re.Match object; span=(6, 11), match='class'>


In [None]:
p = re.compile(r'\Bclass\b')
print(p.search('no class at all'))
print(p.search('one subclass is'))
print(p.search('the declassified algorithm'))

None
<re.Match object; span=(7, 12), match='class'>
None


In [None]:
p = re.compile(r'\bclass\B')
print(p.search('no class at all'))
print(p.search('one subclass is'))
print(p.search('the declassified algorithm'))

None
None
None


### 5. `()`과 `[]`을 활용한 정규식

In [None]:
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group())

p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))

park 010-1234-1234
park


### 6. group()

In [None]:
m = re.match(r"(\w+) (\w+)", "Issac Newton, physicist")
#                                         ^ 문자 X
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(1, 2))

Issac Newton
Issac
Newton
('Issac', 'Newton')


In [None]:
p = re.compile(r"(\w+) (\w+)")
m = p.search("Issac Newton, physicist")
print(m.group(1))
print(m.group(2))

Issac
Newton


In [None]:
re.sub('(\w+) (\w+)\W (\w+)', '\g<3>, \g<2>, \g<1>', 'Issac Newton, physicist')
# 성 이름 => 이름 성

'physicist, Newton, Issac'

## 전화번호 검증하기

전화번호를 검증한다는 것은, 전화번호를 수집할 수 있다는 것이다.

한동안 이메일 수집기가 문제가 됐었음. 수많은 봇들이 이메일을 가져가서 스팸을 날리는 거였음.

**내가 익히 알고 있는 패턴을 정규식으로 변환해서 사용할 수 있을까?**를 중심으로 확인할 것




In [None]:
data = '''
010-1234-1234
000-0000-0000
02-1234-1234
010 1234 1234
010.1234.1234
01012341234
+82 010 1234 1234
82 010 1234 1234
+82 10 1234 1234
02 123 1234
+82 31 123 1234
공1공 일2삼4 1234
'''

re.findall(r'\d{3}[\-]\d{4}[\-]\d{4}', data)
re.findall(r'0[1-9][0-9]-[0-9]{4}-[0-9]{4}', data)
re.findall(r'0[1-9][0-9]?-[0-9]{4}-[0-9]{4}', data)
re.findall(r'0[1-9][0-9]?.[0-9]{4}.[0-9]{4}', data)
re.findall(r'0[1-9][0-9]?.?[0-9]{4}.?[0-9]{4}', data)
re.findall(r'(?:\+\d{1,2}.?)?0[1-9][0-9]?.?[0-9]{4}.?[0-9]{4}', data)
re.findall(r'(?:\+?\d{1,2}.?)?0[1-9][0-9]?.?[0-9]{4}.?[0-9]{4}', data)
re.findall(r'(?:\+?\d{1,2}.?)?0?[1-9][0-9]?.?[0-9]{4}.?[0-9]{4}', data)
re.findall(r'(?:\+?\d{1,2}.?)?0?[1-9][0-9]?.?[0-9]{3,4}.?[0-9]{4}', data)
# re.sub(r'[공영Oo]', '0', data.splitlines()[-1])
re.findall(r'(?:\+?\d{1,2}.?)?[0|공|영|O]?[1-9공영일이삼사오육칠팔구][0-9공영일이삼사오육칠팔구]?.?[0-9공영일이삼사오육칠팔구]{3,4}.?[0-9]{4}', data)

['010-1234-1234',
 '02-1234-1234',
 '010 1234 1234',
 '010.1234.1234',
 '01012341234',
 '+82 010 1234 1234',
 '82 010 1234 1234',
 '+82 10 1234 1234',
 '02 123 1234',
 '+82 31 123 1234',
 '공1공 일2삼4 1234']

## 이메일 수집하기

In [None]:
data = '''
email@domain.com
e___mail@domain.com
e22Mail@domain.com
e2525ma---il@domain.com
e.m.a.i.l@domain.com
email@domain.co.kr
email@email.domain.co.kr
email@domain.com
'''

# email@email.domain.co.kr
#             ------ (2,3 이상의 영문자+숫자+'-') (com, net org, gov, edu, ac.kr, ...)
#       service(www) => Web x
# id: 소문자 시작 + 영문자 + 숫자 + '_' . 예시) asd_______f
#                   아이디           @        도메인
re.findall(r'([a-z][a-zA-Z0-9\.\-\_]{3,})@', data)
re.findall(r'([a-z][a-z0-9\.\-\_]{3,})@', data, re.IGNORECASE)
re.findall(r'([a-z][a-z0-9\.\-\_]{3,})@([a-z]\w{2,})', data, re.IGNORECASE)
re.findall(r'([a-z][a-z0-9\.\-\_]{3,})@([a-z]\w{2,}[.][a-z]{2,})', data, re.IGNORECASE)
re.findall(r'([a-z][a-z0-9\.\-\_]{3,})@([a-z]\w{2,}(?:[.][a-z]{2,})+)', data, re.IGNORECASE)

[('email', 'domain.com'),
 ('e___mail', 'domain.com'),
 ('e22Mail', 'domain.com'),
 ('e2525ma---il', 'domain.com'),
 ('e.m.a.i.l', 'domain.com'),
 ('email', 'domain.co.kr'),
 ('email', 'email.domain.co.kr'),
 ('email', 'domain.com')]

## Crawler

Crawler란 URL을 따라 움직이는 녀석임. URL 파싱으로 이를 검출할 수 있으며, 이를 통해 새로운 데이터를 찾아볼 수 있음.

URL => `<netloc>://domain/path?key=value#link`

In [None]:
# https   comic.naver.com   /webtoon/detail     titleID=숫자,no=숫자    #내부링크
#                            => 경로              => 회차
# http(80), https(443), telnet, ftp, sftp, ssh,...
# ftp.kakao.com

In [None]:
data = '''
www.naver.com
comic.naver.com
http://www.naver.com
https://comic.naver.com
https://comic.naver.com/
https://comic.naver.com/webtoon/detail
https://comic.naver.com/webtoon/detail?titleId=1&no=1
https://lms.sunde41.net/course/8/
'''

re.findall(r'(https?)://', data)
re.findall(r'(?:(https?)://)?', data)
re.findall(r'^(?:(https?)://)?((?:[.]\w{3,}){2,})', data, re.MULTILINE)
re.findall(r'^(?:(https?)://)?((?:[.]?\w{3,}){2,})', data, re.MULTILINE)
re.findall(r'^(?:(https?)://)?((?:[.]?\w{3,}){2,})((?:[/]\w{3,})*)', data, re.MULTILINE)
re.findall(r'^(?:(https?)://)?((?:[.]?\w{3,}){2,})((?:[/]\w{3,})*)([?](?:[&]?\w+[=]\w+)+)?', data, re.MULTILINE)
re.findall(r'^(?:(https?)://)?((?:[.]?\w{3,}){2,})((?:[/]\w+)*)([?](?:[&]?\w+[=]\w+)+)?', data, re.MULTILINE)

[('', 'www.naver.com', '', ''),
 ('', 'comic.naver.com', '', ''),
 ('http', 'www.naver.com', '', ''),
 ('https', 'comic.naver.com', '', ''),
 ('https', 'comic.naver.com', '', ''),
 ('https', 'comic.naver.com', '/webtoon/detail', ''),
 ('https', 'comic.naver.com', '/webtoon/detail', '?titleId=1&no=1'),
 ('https', 'lms.sunde41.net', '/course/8', '')]

# Test: 카카오 입사 문제
## 2018 KAKAO BLIND RECRUITMENT: [1차] 다트 게임
### 문제 내용
카카오톡 게임별의 하반기 신규 서비스로 다트 게임을 출시하기로 했다. 다트 게임은 다트판에 다트를 세 차례 던져 그 점수의 합계로 실력을 겨루는 게임으로, 모두가 간단히 즐길 수 있다.
갓 입사한 무지는 코딩 실력을 인정받아 게임의 핵심 부분인 점수 계산 로직을 맡게 되었다. 다트 게임의 점수 계산 로직은 아래와 같다.

1. 다트 게임은 총 3번의 기회로 구성된다.
2. 각 기회마다 얻을 수 있는 점수는 0점에서 10점까지이다.
3. 점수와 함께 Single`S`, Double`D`, Triple`T` 영역이 존재하고 각 영역 당첨 시 점수에서 1제곱, 2제곱, 3제곱 (점수^1, 점수^2, 점수^3 )으로 계산된다.
4. 옵션으로 스타상`*`, 아차상`#`이 존재하며 스타상`*` 당첨 시 해당 점수와 바로 전에 얻은 점수를 각 2배로 만든다. 아차상`#` 당첨 시 해당 점수는 마이너스된다.
5. 스타상`*`은 첫 번째 기회에서도 나올 수 있다. 이 경우 첫 번째 스타상`*`의 점수만 2배가 된다. (예제 4번 참고)
6. 스타상`*`의 효과는 다른 스타상`*`의 효과와 중첩될 수 있다. 이 경우 중첩된 스타상`*` 점수는 4배가 된다. (예제 4번 참고)
7. 스타상`*`의 효과는 아차상`#`의 효과와 중첩될 수 있다. 이 경우 중첩된 아차상`#`의 점수는 -2배가 된다. (예제 5번 참고)
8. Single`S`, Double`D`, Triple`T`은 점수마다 하나씩 존재한다.
9. 스타상`*`, 아차상`#`은 점수마다 둘 중 하나만 존재할 수 있으며, 존재하지 않을 수도 있다.

0~ 10의 정수와 문자 `S`, `D`, `T`, `*`, `#`로 구성된 문자열이 입력될 시 총점수를 반환하는 함수를 작성하라.

### 입력 형식
"점수 | 보너스 | [옵션]"으로 이루어진 문자열 3세트.
예) `1S2D*3T`
- 점수는 0에서 10 사이의 정수이다.
- 보너스는 `S`, `D`, `T` 중 하나이다.
- 옵션은 `*` 이나 `#` 중 하나이며, 없을 수도 있다.

### 출력 형식
3번의 기회에서 얻은 점수 합계에 해당하는 정수값을 출력한다.

예) 37

| 예제 | dartResult | answer | 설명 |
| --- | --- | --- | --- |
| 1 | `1S2D*3T` | 37 | `1^1*2 + 2^2*2 + 3^3` |
| 2 | `1D2S#10S` | 9 | `1^2 + 2^1*(-1) + 10^1` |
| 3 | `1D2S0T` | 3 | `1^2 + 2^1 + 0^3` |
| 4 | `1S*2T*35` | 23 | `1^1*2*2 + 2^3*2 + 3^1` |
| 5 | `1D#2S*3S` | 5 | `1^2*(-1)*2 + 2^1*2 + 3^1` |
| 6 | `1T2D3D#` | -4 | `1^3 + 2^2 + 3^2*(-1)` |
| 7 | `1D2S3T*` | 59 | `1^2 + 2^1*2 + 3^3*2` |

In [None]:
import re

def solution(d):
    bonus = {'S' : 1, 'D': 2, 'T': 3}
    option = {'': 1, '*': 2, '#': -1}
    answer = []

    p = re.compile('(\d+)([SDT])([*#]?)')
    dart = p.findall(d) # d = '1S2D*10T'
    # print(dart)       # [('1', 'S', ''), ('2', 'D', '*'), ('10', 'T', '')]

    for i in dart:
        if i[2] == '*' and len(answer) > 0:
            answer[-1] *= 2
        answer.append(int(i[0]) ** bonus[i[1]] * option[i[2]])
    return sum(answer)

# 예시 테스트
print(solution("1S2D*3T"))  # 37
print(solution("1D2S#10S")) # 9
print(solution("1D2S0T"))   # 3
print(solution("1S*2T*3S")) # 23
print(solution("1D#2S*3S")) # 5
print(solution("1T2D3D#"))  # -4
print(solution("1D2S3T*"))  # 59

37
9
3
23
5
-4
59
