# 정규식 (RegEx, Regular Expression)
- 문자열을 다루는 강력한 도구
- 패턴으로 문자열을 찾거나 변경한다.

In [1]:
import re

re
- compile
- match
- search
- findall
- finditer
  - span()
  - group()
- sub

## 시작과 끝
- ^: 시작
- $: 끝

In [2]:
re.search("^a", "abc")

<re.Match object; span=(0, 1), match='a'>

In [3]:
re.search("^a", "bcd")

In [6]:
"abc".startswith("a")

True

In [4]:
re.search("z$", "xyz")

<re.Match object; span=(2, 3), match='z'>

In [5]:
re.search("z$", "lmn")

In [7]:
"xyz".endswith("z")

True

In [8]:
re.search("abc", "mmabcmm")

<re.Match object; span=(2, 5), match='abc'>

In [15]:
re.search("abc", "abcmm").span()

(0, 3)

In [16]:
re.search("abc", "abcmm").group()

'abc'

In [10]:
re.match("abc", "mmabcmm")

In [11]:
re.match("abc", "abcmm")

<re.Match object; span=(0, 3), match='abc'>

In [12]:
re.findall("abc", "abcmmabc")

['abc', 'abc']

In [14]:
for matched in re.finditer("abc", "abcmmabc"):
  print(matched)
  print(matched.span())
  print(matched.group())

<re.Match object; span=(0, 3), match='abc'>
(0, 3)
abc
<re.Match object; span=(5, 8), match='abc'>
(5, 8)
abc


## 정규식문자
## 반복
## 그룹

In [17]:
pat = re.compile("abc")
pat

re.compile(r'abc', re.UNICODE)

In [18]:
pat.search("mmabcmm")

<re.Match object; span=(2, 5), match='abc'>

In [19]:
pat.search("MM")

In [20]:
pat.search("abcbabc")

<re.Match object; span=(0, 3), match='abc'>

In [21]:
pat.findall("abcabcabc")

['abc', 'abc', 'abc']

# 정규식 문자
- .: 모든 한 문자
- [a-z]: 영문 소문자
  - [abc]
- [01]: 0 or 1
- [A-Z]: 영문 대문자
- [a-zA-Z]: 영문 대소문자
- [0-9]: 숫자
  - [0123456789]
  - [0|1|2|3|4|5|6|7|8|9]
- \d: 숫자, [0-9] 와 동일
- \w: 영문 대소문자 + 숫자 [a-zA-Z0-9]
- [가-힣]: 한글
- a|b: a 또는 b

In [22]:
re.search("....", "abc")

In [23]:
re.search("....", "abcd")

<re.Match object; span=(0, 4), match='abcd'>

In [24]:
re.search("....", "a1b2")

<re.Match object; span=(0, 4), match='a1b2'>

In [25]:
re.search("[01]", "0")

<re.Match object; span=(0, 1), match='0'>

In [26]:
re.search("[01]", "3")

In [28]:
re.search("^a", "abc")


<re.Match object; span=(0, 1), match='a'>

In [29]:
re.search("[a][a-z]", "ab")

<re.Match object; span=(0, 2), match='ab'>

In [30]:
re.search("[a][a-z]", "bc")

In [32]:
re.search("abc|bcd", "abcfg")

<re.Match object; span=(0, 3), match='abc'>

In [33]:
re.search("abc|bcd", "fbcd")

<re.Match object; span=(1, 4), match='bcd'>

In [34]:
re.search("[f|g|z]", "a")

In [35]:
re.search("[f|g|z]", "z")

<re.Match object; span=(0, 1), match='z'>

In [36]:
re.search("[fgz]", "z")

<re.Match object; span=(0, 1), match='z'>

## 반복
- *: 0개 이상
- +: 1개 이상
- {m,n}: m개 이상, n개 이하의 갯수
  - [a]{2,3}: aa, aaa
  - {n}: n개
  - {0,}: 0개 이상
    - a{0,}: "", "a", "aa", "aaa", ...
    - a*: "", "a", "aa", "aaa", ...
  - {1,}: 1개 이상
    - a{1,}: "a", "aa", "aaa", ...
    - a+: "a", "aa", "aaa", ...
  - {0,1}: 0개 또는 1개
    - a{0,1}: "", "a"
- ?: 있거나 없거나
  - a?: "", "a"

In [37]:
re.search(".*", "a")

<re.Match object; span=(0, 1), match='a'>

In [39]:
re.search(".*", "1234dfsdf")

<re.Match object; span=(0, 9), match='1234dfsdf'>

In [42]:
re.search(".{4}", "124")

In [43]:
re.search(".{4}", "1234")

<re.Match object; span=(0, 4), match='1234'>

In [46]:
re.search("[0-9]{4,5}", "12345")

<re.Match object; span=(0, 5), match='12345'>

In [56]:
# abcabcabc
re.findall("abc+", "abcabccabccc") # abc, abcc, abccc...


['abc', 'abcc', 'abccc']

In [60]:
re.findall("(abc)+", "abcaabcabcaabcabcabc") # abc, abcabc, abcabcabc

['abc', 'abc', 'abc']

In [59]:
re.findall("((abc)+)", "abcaabcabcaabcabcabc") # abc, abcabc, abcabcabc
# 8192389-2332333 -> 8192389-2******

[('abc', 'abc'), ('abcabc', 'abc'), ('abcabcabc', 'abc')]

In [66]:
# abcabcabcabcabc
for matched in re.finditer("(abc)+", "abcaabcabcbabcabcbbabcabcabcabcabcabc"):
  print(matched.group())

abc
abcabc
abcabc
abcabcabcabcabcabc


- findall:
  - 그룹이 없으면, 일치하는 모든 문자열 
  - 그룹이 있으면:
    - 1개 그룹에 해당하는 문자열
    - 2개 그룹별 모든 문자열을 튜플로

## 전화번호 찾기


In [61]:
my_contacts = """
기획재정담당관실	최종훈	044-200-6543	기획 및 국회 업무 총괄
기획재정담당관실	나정주	044-200-6545	기획, 국회업무
기획재정담당관실	이지영	044-200-6544	결산, 평가
기획재정담당관실	강륜형	044-200-6546	결산, 평가, 국예산서무
기획재정담당관실	이선미	044-200-6547	예산 총괄
기획재정담당관실	전준수	044-200-6548	예산업무, 정책연구
기획재정담당관실	박지혜	044-200-6541	기획조정관실 비서
혁신행정감사담당관실	김혜정	044-200-6551	혁신행정감사담당관
혁신행정감사담당관실	장일수	044-200-6554	조직 등
혁신행정감사담당관실	한국녀	044-200-6553	감사, 재산신고, 부패방지
"""

In [62]:
my_contacts1 = """
- 인사교류정보(부처간, 중앙-지방간)- 공직채용정보(공고문에 안내된 각 기관으로 확인)
인사혁신처 개방교류과
044)201-8355
인사교류정보(지방간)	
행정안전부 자치행정과
044)205-3136
인사교류정보(교육청간)	
교육부 학교정책과
044)203-6453
중앙선발시험위원회	
인사혁신처 개방교류과
044)201-8358
044)201-8360
대체인력뱅크	
인사혁신처 균형인사과
044)201-8505
"""

In [67]:
my_pat = re.compile("\d{3}-\d{3}-\d{4}") # re.compile("[0-9]{3}-[0-9]{3}-[0-9]{4}")

In [68]:
my_pat.findall(my_contacts)

['044-200-6543',
 '044-200-6545',
 '044-200-6544',
 '044-200-6546',
 '044-200-6547',
 '044-200-6548',
 '044-200-6541',
 '044-200-6551',
 '044-200-6554',
 '044-200-6553']

In [69]:
my_pat = re.compile("((\d{3}-){2}\d{4})")

In [70]:
my_pat.findall(my_contacts)

[('044-200-6543', '200-'),
 ('044-200-6545', '200-'),
 ('044-200-6544', '200-'),
 ('044-200-6546', '200-'),
 ('044-200-6547', '200-'),
 ('044-200-6548', '200-'),
 ('044-200-6541', '200-'),
 ('044-200-6551', '200-'),
 ('044-200-6554', '200-'),
 ('044-200-6553', '200-')]

In [72]:
my_pat = re.compile("044-200-65\d{2}")

In [73]:
my_pat.findall(my_contacts)

['044-200-6543',
 '044-200-6545',
 '044-200-6544',
 '044-200-6546',
 '044-200-6547',
 '044-200-6548',
 '044-200-6541',
 '044-200-6551',
 '044-200-6554',
 '044-200-6553']

In [74]:
my_pat = re.compile("044[-|\)]\d{3}-\d{4}")

In [75]:
my_pat.findall(my_contacts+my_contacts1)

['044-200-6543',
 '044-200-6545',
 '044-200-6544',
 '044-200-6546',
 '044-200-6547',
 '044-200-6548',
 '044-200-6541',
 '044-200-6551',
 '044-200-6554',
 '044-200-6553',
 '044)201-8355',
 '044)205-3136',
 '044)203-6453',
 '044)201-8358',
 '044)201-8360',
 '044)201-8505']

In [86]:
my_dates = """
  A요일 1-01-01
  A요일 2020-01-01
  B요일 2020-01-02
  C요일 2020-01-03
  D요일 2020-01-11
  E요일 2020-11-11
  F요일 2021-11-11
  G요일 2021-12-11
  H요일 2021-01-11
  I요일 2021-05-11
"""

# Break: PM 4:50

In [82]:
for matched in re.finditer("(\d{4}(-\d{2}){2})", my_dates):
  print(matched.group())

2020-01-01
2020-01-02
2020-01-03
2020-01-11
2020-11-11
2021-11-11
2021-12-11
2021-01-11
2021-05-11


In [106]:
my_pat = re.compile("(\d{4}(-\d{2}){2})")
my_pat

re.compile(r'(\d{4}(-\d{2}){2})', re.UNICODE)

In [107]:
my_pat.findall(my_dates)

[('2020-01-01', '-01'),
 ('2020-01-02', '-02'),
 ('2020-01-03', '-03'),
 ('2020-01-11', '-11'),
 ('2020-11-11', '-11'),
 ('2021-11-11', '-11'),
 ('2021-12-11', '-11'),
 ('2021-01-11', '-11'),
 ('2021-05-11', '-11')]

In [108]:
for matched in my_pat.finditer(my_dates):
  print(matched.span())
  print(matched.group(0))
  print(matched.group(1))
  print(matched.group(2))

(21, 31)
2020-01-01
2020-01-01
-01
(38, 48)
2020-01-02
2020-01-02
-02
(55, 65)
2020-01-03
2020-01-03
-03
(72, 82)
2020-01-11
2020-01-11
-11
(89, 99)
2020-11-11
2020-11-11
-11
(106, 116)
2021-11-11
2021-11-11
-11
(123, 133)
2021-12-11
2021-12-11
-11
(140, 150)
2021-01-11
2021-01-11
-11
(157, 167)
2021-05-11
2021-05-11
-11


## Number Range
|Range         |Label        |Regex                                      |
|--------------|-------------|-------------------------------------------| 
|1 to 12	     |hour / month |1[0-2]\|[1-9]                              |
|1 to 24	     |hour	       |2[0-4]\|1[0-9]\|[1-9]                      |
|1 to 31	     |day of month |3[01]\|[12][0-9]\|[1-9]                    |
|1 to 53	     |week of year |5[0-3]\|[1-4][0-9]\|[1-9]                  |
|0 to 59	     |min / sec    |[1-5]?[0-9]                                |
|0 to 100	     |percentage   |100\|[1-9]?[0-9]                           |
|0 to 127	     |signed byte  |12[0-7]\|1[01][0-9]\|[1-9]?[0-9]           |
|32 to 126     |ASCII codes	 |12[0-6]\|1[01][0-9]\|[4-9][0-9]\|3[2-9]    |

In [93]:
my_pat = re.compile("(\d{1,4}-\d{2}-([3][01]|[012][0-9]))") # 00-29
my_pat.findall(my_dates)

[('1-01-01', '01'),
 ('2020-01-01', '01'),
 ('2020-01-02', '02'),
 ('2020-01-03', '03'),
 ('2020-01-11', '11'),
 ('2020-11-11', '11'),
 ('2021-11-11', '11'),
 ('2021-12-11', '11'),
 ('2021-01-11', '11'),
 ('2021-05-11', '11')]

In [None]:
3[0-1]|[1-2][0-9]

## sub

In [104]:
my_privates = """
  홍길동 900101-1011111
  고길동 801231-2022222
  이둘리 990326-1234567
  김둘리 011211-3234567
  박군인 800905-1049118
  김선생 070417-4059119
  김구라 070417-5059119
  박구라 070417-6059119
"""

In [131]:
my_pat = re.compile("((\d{6}-[1|2|3|4])\d{6})")

In [137]:
for matched in my_pat.finditer(my_privates):
  print(matched.group(2))

900101-1
801231-2
990326-1
011211-3
800905-1
070417-4


In [139]:
print(my_pat.sub("PRIVATE", my_privates))


  홍길동 PRIVATE
  고길동 PRIVATE
  이둘리 PRIVATE
  김둘리 PRIVATE
  박군인 PRIVATE
  김선생 PRIVATE
  김구라 070417-5059119
  박구라 070417-6059119



In [140]:
print(my_pat.sub("\g<2>" + "*" * 6, my_privates))


  홍길동 900101-1******
  고길동 801231-2******
  이둘리 990326-1******
  김둘리 011211-3******
  박군인 800905-1******
  김선생 070417-4******
  김구라 070417-5059119
  박구라 070417-6059119

