# <font size=50>정규 표현식 (Regular Expression)</font>

# 1. 정규 표현식(Regular Expression) 개요

## 1.1. 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.
- **정규식, Regexp**이라고도 한다.

## 1.2. 기본개념
- **패턴(pattern)** 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
- **메타문자(metacharacter)**
    - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa  /  `\d`:  숫자를 찾겠다.
- **리터럴(literal)**
    - 표현식이 값 자체를 의미하는 것
    - 예) `a`는 `a` 자체를 의미한다.    

# 2. 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 2.1 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치 (or 개념)
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치 (~ 개념)
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 2.2 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z가-힣0-9_]`와 동일
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 보통 단어 경계로 빈문자열
    - 단어경계: 단어(글자- `\w`)와 단어가 아닌 문자사이를 가리킨다.
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 2.3. 글자수와 관련된 메타문자
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)  == (`aaab`) 
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 를 리터럴로 표현할 경우 `\`를 붙인다.

## 2.4. 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 2.5. 기타
- `|` : 둘중 하나 (OR) (010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 3. re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 3.1 코딩패턴
- 모듈 import
    - import re
1. 객체지향형
    - 패턴 객체를 생성후 메소드를 호출해 원하는 처리를 한다.
     ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. 함수형
    - `re` 모듈의 원하는 작업을 하는 함수를 호출한다. Argument로 패턴과 처리할 값을 전달한다.
    ```python
        re.search(r'\d+', 'abc123def')
    ```
    
> ### raw string
> - 패턴문자중 `\`로 시작하는 것들을 사용할 경우 `escape` 문자와의 구분을 위해 `\\` 두개씩 작성해야한다.  그래서 패턴을 지정할 때는 raw string을 사용하는 것이 편리하다.
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


## 3.2. 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall() : 패턴과 일치하는 문장을 **찾을 때** 사용

### 3.2.1. Match 객체
- **검색 결과를** 담아 반환되는 객체
    - match(), search() 의 반환타입
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### 3.2.2 match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

In [5]:
import re

txt = "안녕하세요. 제 나이는 20세 입니다."
pattern = r"안녕" # literal로만 만든 패턴, 패턴 문자는 raw string으로 만드는 습관을 가지자
# 함수
m = re.match(pattern, txt)  # 패턴, 찾을 대상   / match: 문장의 시작이 pattern과 일치하는지.
print(m)
if m:
    print("찾은 문자열:", m.group())
    print("찾은 문자열의 시작/끝 위치, 전체위치:", m.start(), m.end(), m.span())
else: # m == None
    print("없음")

<re.Match object; span=(0, 2), match='안녕'>
찾은 문자열: 안녕
찾은 문자열의 시작/끝 위치, 전체위치: 0 2 (0, 2)


In [6]:
txt = "반갑습니다. 안녕하세요. 제 나이는 20세 입니다"
pattern = r"안녕"
m = re.match(pattern, txt)  # match: 문장의 시작이 pattern과 일치하는지.
print(m)
if m:
    print("찾은 문자열:", m.group())
    print("찾은 문자열의 시작/끝 위치, 전체위치:", m.start(), m.end(), m.span())
else: # m == None
    print("없음")

None
없음


In [9]:
txt = "반갑습니다. 안녕하세요. 제 나이는 20세 입니다"
pattern = r"[가-힣]"
p = re.compile(pattern)
print(type(p))
m = p.match(txt, pos=7) # 시작을 index5 부터 찾기 시작
if m:
    print(m.group(), m.span())
else:
    print("없음")

<class 're.Pattern'>
안 (7, 8)


In [14]:
txt = "반갑습니다. 안녕하세요. 제 나이는 20세 입니다"
# pattern = r"[가-힣]+" # +: 앞의 글자가 1개 이상
pattern = r"[가-힣]{7}" # {7}: 앞의 글자가 7글자
p = re.compile(pattern)
print(type(p))
m = p.match(txt, pos=7) # 시작을 index5 부터 찾기 시작
if m:
    print(m.group(), m.span())
else:
    print("없음")

<class 're.Pattern'>
없음


### 3.2.3 search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [17]:
txt = "반갑습니다. 안녕하세요. 제 나이는 20세 입니다. 안녕하세요"
pattern = r'안녕하세'
p = re.compile(pattern)
m = p.search(txt, pos=9) #pos를 지정하면 그 index에서부터 찾는다.
if m:
    print(m.group(), m.span())
else:
    print("없음")

안녕하세 (29, 33)


In [23]:
txt = "가격은 각각 4000, 5000, 15000, 25000입니다." # 관련 문자가 아닌 '가격은 각각 '을 소비하고(버리고) '4000'을 찾음
m = re.search(r"\d+", txt) # 숫자 1개 이상이 연결
print(m)
m2 = re.search(r"\d{5}", txt) # 숫자 5개 -> 만단위 숫자
#m2 = re.search(r"\d{5,}", txt) # 숫자 5개 이상 -> 만단위 숫자 이상
print(m2)
m3 = re.search(r"\d{4,7}", txt) # 숫자가 4 ~ 7개 -> 천단위 ~ 백만 단위 숫자
print(m3)

<re.Match object; span=(7, 11), match='4000'>
<re.Match object; span=(19, 24), match='15000'>
<re.Match object; span=(7, 11), match='4000'>


### 3.2.4. findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [24]:
txt = "가격은 각각 4000, 5000, 15000, 25000, 10, 9, 236입니다."
pattern = r"\d"  # 숫자 1개
p = re.compile(pattern)
m = p.findall(txt)
print(m)

['4', '0', '0', '0', '5', '0', '0', '0', '1', '5', '0', '0', '0', '2', '5', '0', '0', '0', '1', '0', '9', '2', '3', '6']


In [25]:
txt = "가격은 각각 4000, 5000, 15000, 25000, 10, 9, 236입니다."
pattern = r"\d+"  # 숫자 1개이상의 숫자들
p = re.compile(pattern)
m = p.findall(txt)
print(m)

['4000', '5000', '15000', '25000', '10', '9', '236']


In [26]:
txt = "가격은 각각 4000, 5000, 15000, 25000, 10, 9, 236입니다."
pattern = r"[가-힣]+"  # 1글자 이상의 한글들
p = re.compile(pattern)
m = p.findall(txt)
print(m)

['가격은', '각각', '입니다']


# TODO
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [2]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [37]:
# Email 주소만 추출 해서 출력
import re

pattern = r"[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?"
p = re.compile(pattern)
m = p.findall(info)
print(m)

['kjs@gmail.com', 'pys.abc@gmail.com', 'lmy-abc@naver.com', 'ksh@daum.net', 'ojy@daum.net']


In [54]:
pattern = r'[a-zA-z]+\w+@\w+.com|[a-zA-z]+.?\w+@\w+.com|[a-zA-z]+\w+@\w+.net'
p = re.compile(pattern)
m = p.findall(info)
print(m)

['kjs@gmail.com', 'pys.abc@gmail.com', 'lmy-abc@naver.com', 'ksh@daum.net', 'ojy@daum.net']


In [49]:
# 주민번호들만 조회해서 출력
import re

pattern = r"\d{6}-[1-4]\d{6}"
p = re.compile(pattern)
m = p.findall(info)
print(m)

['801023-1010221', '700121-1120212', '820301-2020122', '781223-2012212', '900522-1023218']


-----------------------------

In [69]:
# 정답 예시
# Email 주소만 추출해서 출력
# [\w\-\.]+ : \w(일반문자, 숫자, _) 또는 - 또는 . 이 1글자 이상
pattern = r'[\w\-\.]+@[\w\-\.]+[\w-]{2,4}'
p = re.compile(pattern)
m = p.findall(info)
print(m)

['kjs@gmail.com', 'pys.abc@gmail.com', 'lmy-abc@naver.com', 'ksh@daum.net', 'ojy@daum.net']


In [70]:
# 주민번호들만 조회해서 출력
pattern = r'\d{6}-[012349]\d{6}'
p = re.compile(pattern)
m = p.findall(info)
print(m)

['801023-1010221', '700121-1120212', '820301-2020122', '781223-2012212', '900522-1023218']


### finditer(대상문자열)
- 패턴에 일치하는 모든 문자열을 찾아주는 Iterator => for문, list()
- 찾은 문자열을 Match 객체로 반환.

In [73]:

pattern = r'\d{6}-[012349]\d{6}'
p = re.compile(pattern)
result = p.finditer(info)
print(type(result))
print(result)
for m in result:
    print(m)  # match로 반환하기 때문에 문자뿐만아니라 문자의 위치까지 확인 가능

<class 'callable_iterator'>
<callable_iterator object at 0x0000022001208280>
<re.Match object; span=(18, 32), match='801023-1010221'>
<re.Match object; span=(55, 69), match='700121-1120212'>
<re.Match object; span=(92, 106), match='820301-2020122'>
<re.Match object; span=(124, 138), match='781223-2012212'>
<re.Match object; span=(156, 170), match='900522-1023218'>


## 3.3. 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### 3.3.1 sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### 3.3.2 subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

In [79]:
txt = "오늘은           수요일            입니다."

# txt.strip() # 양쪽 공백만 없어짐
# 공백들을 공백한개로 변경.
pattern = r' +'  #공백들
p = re.compile(pattern)
result = p.sub(' ', txt)
print(result)

오늘은 수요일 입니다.


In [78]:
txt = '''오늘은           수요일       입니다.
내일은          목요일         입니다.
모레는         금\t요일           입니다.'''

# 공백들을 공백한개로 변경.
pattern = r'\s+' # \s : 공백, tab, 엔터
p = re.compile(pattern)
result = p.sub(' ', txt)
print(result)

오늘은 수요일 입니다. 내일은 목요일 입니다. 모레는 금 요일 입니다.


In [80]:
txt = '''오늘은           수요일       입니다.
내일은          목요일         입니다.
모레는         금\t요일           입니다.'''
# txt.strip() # 양쪽 공백만 없어짐
# 공백들을 공백한개로 변경.
pattern = r'\s+' # \s : 공백, tab, 엔터
p = re.compile(pattern)
result = p.sub(' ', txt)
result, cnt = p.subn(" ", txt)
print("변경개수:", cnt)
print(result)

변경개수: 9
오늘은 수요일 입니다. 내일은 목요일 입니다. 모레는 금 요일 입니다.


In [82]:
txt = 'test1, test2, test3, test4, test50'
# 숫자이외에는 다 제거
pattern = r'\D'  # [^0-9]
p = re.compile(pattern)
result = p.sub('', txt)  # 지우기: '': 빈문자열(0글자)로 변경
print(result)

123450


## 3.4 나누기(토큰화)
### 3.4.1 split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환: 나눈 문자열을 원소로 하는 리스트

In [84]:
"사과,복숭아,배,수박".split(',')

['사과', '복숭아', '배', '수박']

In [86]:
txt = "사과,복숭아,배|수박"
p = re.compile(r'[,|]')  # 구분자 패턴
p.split(txt)

['사과', '복숭아', '배', '수박']

# 4. 그룹핑(Grouping)
- 패턴 내에서 하위패턴을 만드는 것.
    - 전체 패턴에서 일부 패턴을 묶어준다.
- 구문: (패턴)

## 4.1. 그룹핑 예

### 4.1.1 전체 패턴 내에서 일부 패턴을 조회

In [90]:
tel = "TEL:010-1111-2222"
pattern = r'(\d{2,3})-(\d{3,4})-(\d{4})'
p = re.compile(pattern)
m = p.search(tel)
print(m)
if m:
    print(m.group()) # 패턴과 일치하는 전체 문장을 반환
    print(m.group(1)) # 첫번째 ()로 묶인 하위그룹 패턴을 반환
    print(m.group(2))
    print(m.group(3)) 

<re.Match object; span=(4, 17), match='010-1111-2222'>
010-1111-2222
010
1111
2222


In [89]:
m.group().split('-')[2]

'2222'

In [99]:
txt = "abc@naver.com, test@daum.net, my_mail@gmail.com"
# email 주소: 계정@도메인
pattern = r"(\w+)@(\w+.\w+)"
p = re.compile(pattern)
for id, email in p.findall(txt):  # 찾은 문자열들을 리스트로 반환
    print(f"ID:{id}, 도메인:{email}")

ID:abc, 도메인:naver.com
ID:test, 도메인:daum.net
ID:my_mail, 도메인:gmail.com


In [104]:
for m in p.finditer(txt):
    print(m.group())
    print("계정ID:", m.group(1))
    print("도메인:", m.group(2))
    print("="*30)

abc@naver.com
계정ID: abc
도메인: naver.com
test@daum.net
계정ID: test
도메인: daum.net
my_mail@gmail.com
계정ID: my_mail
도메인: gmail.com


### 4.1.2 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

In [108]:
txt = """010-1111-2222
010-2222-2222
010-3333-4444
010-5555-5555
"""

# 패턴: 국번과 번호가 같은 전화번호
pattern = r'\d{2,3}-(\d{3,4})-(\1)'  # \1 : 1번 하위그룹으로 찾은 값과 같은 값을 가진 것  (패턴뿐 아니라 값도 같아야 한다.)
p = re.compile(pattern)
for m in p.finditer(txt):
    print(m.group(), m.group(1), m.group(2))

010-2222-2222 2222 2222
010-5555-5555 5555 5555


### 4.1.3 패턴내의 특정 부분만 변경

In [6]:
import re

print(info)
# 주민번호중에 마지막 6개 숫자를 #으로 변경
pattern = r"(\d{6}-[012349])\d{6}"  # 찾은 것 중 남길것(변경안할 것)을 그룹으로 묶는다.
p = re.compile(pattern)
for m in p.finditer(info):
    print(m.group(), m.group(1), sep=' -> ')

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218

801023-1010221 -> 801023-1
700121-1120212 -> 700121-1
820301-2020122 -> 820301-2
781223-2012212 -> 781223-2
900522-1023218 -> 900522-1


In [10]:
result = p.sub("\g<1>******", info)   #\g<1>: 1번 그룹의 값으로 변경
print(result)

김정수 kjs@gmail.com 801023-1******
박영수 pys.abc@gmail.com 700121-1******
이민영 lmy-abc@naver.com 820301-2******
김순희 ksh@daum.net 781223-2******
오주연 ojy@daum.net 900522-1******



### group으로 묶인 것 참조(조회)
- 패턴 안에서 참조 
    - `\번호` , `r'(\d{3}) \1'` => 중복되는 것을 패턴으로 표현할 때.
- match 조회
    - match객체.group(번호)
- sub() 함수에서 대체 문자로 참조
    - `\g<번호>`

In [11]:
txt = """010-1111-2222
010-2222-2222
010-3333-4444
010-5555-5555
"""
# 하위그룹 내에 하위그룹이 있을 경우
pattern = r"((\d{2,3})-(\d{3,4}))-(\d{4})"
# (1 (2 ) - (3 ) ) - (4 ) -> 앞에서부터 번호 매김
p = re.compile(pattern)
m = p.search(txt)
print(m)
print(m.group())
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(0, 13), match='010-1111-2222'>
010-1111-2222
010-1111
010
1111
2222


# 5. Greedy 와 Non-Greedy
- Greedy(탐욕스러운-최대일치) 의 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- Non-Greedy(최소일치)
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자(수량자)에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

In [15]:
txt = "<div>파이썬 <b>정규표현식</b> </div>"
# <div><b></b></div> 태그만 조회
pattern = r"<.+>"
p = re.compile(pattern)
p.findall(txt)

['<div>파이썬 <b>정규표현식</b> </div>']

In [16]:
txt = "<div>파이썬 <b>정규표현식</b> </div>"
# <div><b></b></div> 태그만 조회
pattern = r"<.+?>"
p = re.compile(pattern)
p.findall(txt)

['<div>', '<b>', '</b>', '</div>']

# 6. 전방/후방 탐색
- 패턴과 일치하는 문자열을 찾을 때는 사용하되 반환(소비) 되지 않도록 하는 패턴이 있을 때 사용. 
- **전방탐색**
    - 반환(소비)될 문자열들이 앞에 있는 경우.  ex) (원)을 찾아 숫자만 가지고 오고 싶을 때
    - 긍정 전방탐색
        - %%%(?=패턴) : %%%-반환될 패턴
    - 부정 전방탐색
        - %%%(?!패턴)  : 부정은 =를 !로 바꾼다.
- **후방탐색**
    - 반환(소비)될 문자열이 뒤에 있는 경우.    ex) (\$)를 찾아 숫자만 가지고 오고 싶을 때
    - 긍정 후방탐색
        - (?<=패턴)%%%
    - 부정 후방탐색
        - (?<!패턴)%%%

In [18]:
info = """TV 300001원 30개
컴퓨터 2300001원 50개
모니터 42000001원 70개
"""
# 가격만 조회
# pattern = r'\d+원'
# 가격만 조회 -> 조회 결과에서 '원'은 뺀다.
pattern = r'\d+(?=원)'
p = re.compile(pattern)
print(p.findall(info))

['300001', '2300001', '42000001']


In [23]:
info = """TV $300001 30개
컴퓨터 $2300001 50개
모니터 $42000001 70개
"""
# 가격만 조회
# pattern = r'\$\d+'
# 가격만 조회 -> 조회 결과에서 '$'은 뺀다.
pattern = r'(?<=\$)\d+'
p = re.compile(pattern)
print(p.findall(info))

['300001', '2300001', '42000001']
