# 정규식 (Regular Expression)
- 문자열을 다루는 강력한 도구
- 규칙과 패턴으로 문자열을 다룬다.
- 연습:
  - https://regex101.com/
  - https://regexr.com/


In [1]:
my_str = "Python"

In [2]:
"th" in my_str

True

In [3]:
my_str.startswith("P")

True

In [4]:
my_str.endswith("on")

True

In [5]:
import re

# re 패키지(regular expression 패키지)
- compile: pattern(pat) 객체 생성
- match: 시작 패턴 찾기
- search: 문자열 전체에서 패턴 찾기
- findall: 
  - 패턴이 일치하는 모든 문자열 리스트를 반환
  - 그룹이 없으면: 일치하는 모든 문자열
  - 그룹이 있으면:
    - 하나: 문자열
    - 여러개: 문자열 튜플
- finiter:
  - 일치하는 모든 문자열을 이터레이터(iterator)로 반환
- sub: 특정 문자열을 바꾼다.

# 시작과 끝
- 문자열의 시작: ^
- 문자열의 끝: $
- 문자열의 시작: /A
- 문자열의 끝: /Z

In [6]:
re.search("^a", "abc")

<re.Match object; span=(0, 1), match='a'>

In [7]:
re.search("^a", "cbd")

In [8]:
re.search("z$", "xyz")

<re.Match object; span=(2, 3), match='z'>

In [15]:
re.search("z$", "abc")

In [10]:
re.search("^a.z$", "acz")

<re.Match object; span=(0, 3), match='acz'>

In [11]:
re.search("^a.z$", "abz")

<re.Match object; span=(0, 3), match='abz'>

In [12]:
re.search("^a.z$", "afz")

<re.Match object; span=(0, 3), match='afz'>

In [13]:
re.search("^a.z$", "bcz")

In [16]:
my_pat = re.compile("^a.z$")
my_pat

re.compile(r'^a.z$', re.UNICODE)

In [17]:
my_pat.search("acz")

<re.Match object; span=(0, 3), match='acz'>

In [29]:
my_str = "acz"
res = my_pat.search(my_str)
res

<re.Match object; span=(0, 3), match='acz'>

In [28]:
if res:
  print(res.start())
  print(res.end())
  print(res.span())
  print(my_str[res.start():res.end()])
  print(my_str[res.span()[0]:res.span()[1]])
  print(res.group())

0
3
(0, 3)
acz
acz
acz


In [30]:
pat = re.compile("^Hello")
my_str = "Hello, world"
res = pat.search(my_str)
res.group()

'Hello'

In [32]:
my_str[res.start(): res.end()]

'Hello'

In [33]:
my_str[res.span()[0]:res.span()[1]]

'Hello'

In [34]:
my_str.startswith("Hello")

True

In [36]:
pat = re.compile("world$")
res = pat.search(my_str)
res.group()

'world'

In [38]:
my_str[res.start():res.end()]

'world'

# 정규식 문자(1글자)
- [a-zA-Z]: 영어 알파뱃
  - [a-z]: 영어 소문자 알파뱃
  - [A-Z]: 영어 소문자 알파뱃
- [가-힣]: 한글 한글자
- [0-9]: 숫자
- 응용: 이진수 숫자([01], [0-1]), 8진수 숫자([0-7]), 16진수([0-9a-fA-F])
- \d: 숫자
- \D: 숫자로 시작 "^[0-9]"
- \s: 공백 (\t, \n, \b, ...)
  - [ ]: 스페이스바 하나
- \w: [0-9a-zA-Z]
- .: 모든 문자
- a|b: a또는 b

In [39]:
re.search("[a-zA-Z]", "a")

<re.Match object; span=(0, 1), match='a'>

In [42]:
re.search("[a-zA-Z][a-zA-Z]", "a")

In [43]:
re.search("[a-z][A-Z]", "aB")

<re.Match object; span=(0, 2), match='aB'>

In [44]:
re.search("[a-z][A-Z]", "Ab")

In [45]:
re.search("..", "a")

In [46]:
re.search("..", "aB")

<re.Match object; span=(0, 2), match='aB'>

In [47]:
re.search("[ab]", "a")

<re.Match object; span=(0, 1), match='a'>

In [48]:
re.search("[a|b]", "b")

<re.Match object; span=(0, 1), match='b'>

In [51]:
re.search("^0x[0-9a-fA-F][0-9a-fA-F][0-9a-fA-F]", "0x0f1")

<re.Match object; span=(0, 5), match='0x0f1'>

In [52]:
re.search("[가-힣][가-힣][가-힣]", "이순신")

<re.Match object; span=(0, 3), match='이순신'>

In [53]:
re.search("[가-힣][가-힣][가-힣]", "Joy")

# 반복
- *: 0개 이상 - 무한개
- +: 1개 이상 - 무한개
- {m, n}: m이상 n개 이하
  - {0,}: *
  - {1,}: +
  - {n}: n번 반복
- ?: {0, 1}

In [57]:
re.search("^a.*z$", "atoz")

<re.Match object; span=(0, 4), match='atoz'>

In [58]:
re.search("^a.*z$", "az")

<re.Match object; span=(0, 2), match='az'>

In [59]:
re.search("^a.+z$", "atoz")

<re.Match object; span=(0, 4), match='atoz'>

In [60]:
re.search("^a.+z$", "az")

In [61]:
re.search("^a....z$", "abbbbz")

<re.Match object; span=(0, 6), match='abbbbz'>

In [62]:
re.search("^a.{4}z$", "abbbbz")

<re.Match object; span=(0, 6), match='abbbbz'>

In [63]:
re.search("^a.{4}z$", "abcdz")

In [67]:
re.search("^a.{4}z$", "adfkjzkz")

In [68]:
re.search("^a.{1, 4}z$", "az")

In [69]:
re.search("^a.{1,4}z$", "abz")

<re.Match object; span=(0, 3), match='abz'>

In [70]:
re.search("^a.{1,4}z$", "abbz")

<re.Match object; span=(0, 4), match='abbz'>

In [71]:
re.search("^a.{0,}z$", "az")

<re.Match object; span=(0, 2), match='az'>

In [76]:
re.search("^a[0-9]{0,}z$", "abbbz")

In [77]:
re.search("^a[0-9]{0,}z$", "a181z")

<re.Match object; span=(0, 5), match='a181z'>

In [78]:
re.search("^a[0-9]*z$", "a181z")

<re.Match object; span=(0, 5), match='a181z'>

In [79]:
re.search("^a[가-힣]{1,}z$", "a랄z")

<re.Match object; span=(0, 3), match='a랄z'>

In [82]:
re.search("^a[가-힣]+z$", "a구쭈z")

<re.Match object; span=(0, 4), match='a구쭈z'>

In [80]:
re.search("^a[가-힣]{1,}z$", "az")

# 그룹과 캡쳐(`()`)
- 문자의 그룹 -> 단어
- 1부터 센다.
  - \1 -> 1번 그룹
  - \2 -> 2번 그룹
  - \0 -> 전체 그룹
- 캡처: 찾은 문자열에서 원하는 부분을 저장

In [83]:
re.search("a+b+", "aaabbb")

<re.Match object; span=(0, 6), match='aaabbb'>

In [84]:
re.search("a+b+", "ababab")

<re.Match object; span=(0, 2), match='ab'>

In [85]:
re.search("ab+", "ababab")

<re.Match object; span=(0, 2), match='ab'>

In [86]:
re.search("ab+", "abbbbb")

<re.Match object; span=(0, 6), match='abbbbb'>

In [89]:
# ab
# abab
# ababab
# abababab...
re.search("(ab)+", "ababab")

<re.Match object; span=(0, 6), match='ababab'>

In [90]:
re.search("(abc)*", "")

<re.Match object; span=(0, 0), match=''>

In [91]:
re.search("(abc)*", "abc")

<re.Match object; span=(0, 3), match='abc'>

In [93]:
res = re.search("(abc)*", "abcabc")
res

<re.Match object; span=(0, 6), match='abcabc'>

In [94]:
res.group()

'abcabc'

In [96]:
res.span()

(0, 6)

In [97]:
my_contacts = """
기획재정담당관실	최종훈	044-200-6543	기획 및 국회 업무 총괄
기획재정담당관실	나정주	044-200-6545	기획, 국회업무
기획재정담당관실	이지영	044-200-6544	결산, 평가
기획재정담당관실	강륜형	044-200-6546	결산, 평가, 국예산서무
기획재정담당관실	이선미	044-200-6547	예산 총괄
기획재정담당관실	전준수	044-200-6548	예산업무, 정책연구
기획재정담당관실	박지혜	044-200-6541	기획조정관실 비서
혁신행정감사담당관실	김혜정	044-200-6551	혁신행정감사담당관
혁신행정감사담당관실	장일수	044-200-6554	조직 등
혁신행정감사담당관실	한국녀	044-200-6553	감사, 재산신고, 부패방지
"""

In [98]:
my_pat = re.compile("\d\d\d-\d\d\d-\d\d\d\d")
my_pat

re.compile(r'\d\d\d-\d\d\d-\d\d\d\d', re.UNICODE)

In [99]:
my_pat.search(my_contacts)

<re.Match object; span=(14, 26), match='044-200-6543'>

In [102]:
my_pat.findall(my_contacts)

['044-200-6543',
 '044-200-6545',
 '044-200-6544',
 '044-200-6546',
 '044-200-6547',
 '044-200-6548',
 '044-200-6541',
 '044-200-6551',
 '044-200-6554',
 '044-200-6553']

In [105]:
my_pat1 = re.compile("(\d{3}-){2}\d{4}")
res = my_pat1.search(my_contacts)
res

<re.Match object; span=(14, 26), match='044-200-6543'>

In [106]:
res.group()

'044-200-6543'

In [108]:
for match in my_pat1.finditer(my_contacts):
  print(match)

<re.Match object; span=(14, 26), match='044-200-6543'>
<re.Match object; span=(54, 66), match='044-200-6545'>
<re.Match object; span=(89, 101), match='044-200-6544'>
<re.Match object; span=(122, 134), match='044-200-6546'>
<re.Match object; span=(162, 174), match='044-200-6547'>
<re.Match object; span=(194, 206), match='044-200-6548'>
<re.Match object; span=(231, 243), match='044-200-6541'>
<re.Match object; span=(269, 281), match='044-200-6551'>
<re.Match object; span=(307, 319), match='044-200-6554'>
<re.Match object; span=(340, 352), match='044-200-6553'>


In [109]:
my_contacts1 = """
- 인사교류정보(부처간, 중앙-지방간)- 공직채용정보(공고문에 안내된 각 기관으로 확인)
인사혁신처 개방교류과
044)201-8355
인사교류정보(지방간) 
행정안전부 자치행정과
044)205-3136
인사교류정보(교육청간)  
교육부 학교정책과
044)203-6453
중앙선발시험위원회 
인사혁신처 개방교류과
044)201-8358
044)201-8360
대체인력뱅크  
인사혁신처 균형인사과
044)201-8505
"""

In [112]:
[mat.group() for mat in my_pat1.finditer(my_contacts1)]

[]

### 휴대폰의 전화번호 찾는 정규식
- 맨 앞자리는 010이다.

### 아이피: 
### 날짜/시간: ISO형식의 날짜 (YYYY-MM-DD)

In [119]:
my_pat2 = re.compile("(기획|혁신)[가-힣]{1,10}실")
[mat.group() for mat in my_pat2.finditer(my_contacts)]

['기획재정담당관실',
 '기획재정담당관실',
 '기획재정담당관실',
 '기획재정담당관실',
 '기획재정담당관실',
 '기획재정담당관실',
 '기획재정담당관실',
 '기획조정관실',
 '혁신행정감사담당관실',
 '혁신행정감사담당관실',
 '혁신행정감사담당관실']

In [120]:
my_ip_list = [
  "103.21.244.0",
  "103.22.200.0",
  "103.31.4.0",
  "104.16.0.0",
  "104.24.0.0",
  "108.162.192.0",
  "131.0.72.0",
  "141.101.64.0",
  "162.158.0.0",
  "172.64.0.0",
  "173.245.48.0",
  "188.114.96.0",
  "190.93.240.0",
  "197.234.240.0",
  "172.64.0.0",
  "173.245.48.0",
  "188.114.96.0",
  "190.93.240.0",
  "197.234.240.0",
  "1.234.240.0",
  "17.234.240.0",
  "57.234.240.0",
  "11.234.240.0",
  "198.41.128.0"
]


'103.21.244.0         103.22.200.0         103.31.4.0         104.16.0.0         104.24.0.0         108.162.192.0         131.0.72.0         141.101.64.0         162.158.0.0         172.64.0.0         173.245.48.0         188.114.96.0         190.93.240.0         197.234.240.0         172.64.0.0         173.245.48.0         188.114.96.0         190.93.240.0         197.234.240.0         1.234.240.0         17.234.240.0         57.234.240.0         11.234.240.0         198.41.128.0'

In [121]:
my_ip_text = '         '.join(my_ip_list)
my_ip_text

'103.21.244.0         103.22.200.0         103.31.4.0         104.16.0.0         104.24.0.0         108.162.192.0         131.0.72.0         141.101.64.0         162.158.0.0         172.64.0.0         173.245.48.0         188.114.96.0         190.93.240.0         197.234.240.0         172.64.0.0         173.245.48.0         188.114.96.0         190.93.240.0         197.234.240.0         1.234.240.0         17.234.240.0         57.234.240.0         11.234.240.0         198.41.128.0'