# <font size=50>정규 표현식 (Regular Expression)</font>

# 1. 정규 표현식(Regular Expression) 개요

## 1.1. 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.
- **정규식, Regexp**이라고도 한다.

## 1.2. 기본개념
- **패턴** 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
- **메타문자**
    - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- **리터럴**
    - 표현식이 값 자체를 의미하는 것
    - 예) `a`는 `a` 자체를 의미한다.    

# 2. 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 2.1 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 2.2 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z0-9_]`와 동일
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 보통 단어 경계로 빈문자열
    - 단어경계: 단어(글자- `\w`)와 단어가 아닌 문자사이를 가리킨다.
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 2.3. 글자수와 관련된 메타문자
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 를 리터럴로 표현할 경우 `\`를 붙인다.

## 2.4. 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 2.5. 기타
- `|` : 둘중 하나 (OR) (010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 3. re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 3.1 코딩패턴
- 모듈 import
    - import re
1. 객체지향형
    - 패턴 객체를 생성후 메소드를 호출해 원하는 처리를 한다.
     ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. 함수형
    - `re` 모듈의 원하는 작업을 하는 함수를 호출한다. Argument로 패턴과 처리할 값을 전달한다.
    ```python
        re.search(r'\d+', 'abc123def')
    ```
    
> ### raw string
> - 패턴문자중 `\`로 시작하는 것들을 사용할 경우 `escape` 문자와의 구분을 위해 `\\` 두개씩 작성해야한다.  그래서 패턴을 지정할 때는 raw string을 사용하는 것이 편리하다.
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


## 3.2. 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall() : 패턴과 일치하는 문장을 **찾을 때** 사용

### 3.2.1. Match 객체
- **검색 결과를** 담아 반환되는 객체
    - match(), search() 의 반환타입
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### 3.2.2 match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

In [1]:
# 예시를 살펴보자

In [2]:
import re

In [3]:
txt = "안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

In [5]:
pattern = r"안녕"    # literal로만 만든 패턴. 패턴 문자는 r - string으로 만든는 습관을 들이자.
# 함수형
m = re.match(pattern, txt)     # 패턴과 찾을 대상을 argument로 입력한다.
print(m)

<re.Match object; span=(0, 2), match='안녕'>


In [8]:
if m:
    print("찾은 문자열:", m.group())
    print("찾은 문자열의 시작/끝 위치와 전체 위치:", m.start(), m.end(), m.span())
else:    # m === None
    print("없음")

찾은 문자열: 안녕
찾은 문자열의 시작/끝 위치와 전체 위치: 0 2 (0, 2)


In [11]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

In [12]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

pattern = r"안녕"
m = re.match(pattern, txt)
print(m)
if m:
    print("찾은 문자열:", m.group())
    print("찾은 문자열의 시작/끝 위치와 전체 위치:", m.start(), m.end(), m.span())
else:    # m === None
    print("없음")

None
없음


In [13]:
# txt를 수정했더니 결과가 출력되지 않는다.
# mathch는 문장의 시작이 pattern과 일치할 때 실행된다.
# 함수형은 index를 지정하지 못한다. pos 값을 argument로 대입하지 못하는 것이다.
# 이는 객체지향형으로 해결할 수 있다.

In [None]:
# 객체지향형으로 만들어 보자.

In [None]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

In [15]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."
pattern = r"[가-핳]"
p = re.compile(pattern)
print(type(p))

<class 're.Pattern'>


In [None]:
# 패턴 instance가 만들어진 것을 알 수 있다. 이 패턴 instance는 내가 입력한 pattern을 가지고 있는 패턴 instance이다.

In [16]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."
pattern = r"[가-핳]"
p = re.compile(pattern)
print(type(p))
m = p.match(txt)
if m:
    print(m.group(), m.span())
else:
    print("없음")

<class 're.Pattern'>
반 (0, 1)


In [None]:
# match method에 찾기 시작하는 index를 부여하자. 아래와 같이 작성하면 index = 5에서부터 찾는다.

In [17]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

pattern = r"[가-핳]"
p = re.compile(pattern)
print(type(p))
m = p.match(txt, pos = 7)
if m:
    print(m.group(), m.span())
else:
    print("없음")

<class 're.Pattern'>
안 (7, 8)


In [None]:
# 한 개 이상의 글자를 찾기 위해 pattern을 수정한다.
# 아래와 같이 수정하면 [가-핳]의 조건을 가진 글자를 index = 7부터 찾기 시작한다.
# 이때 .은 제외되어 있다는 것을 알 수 있다.
# 이러한 과정을 "소비한다."라고 표현한다.

In [18]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

pattern = r"[가-핳]+"
p = re.compile(pattern)
print(type(p))
m = p.match(txt, pos = 7)
if m:
    print(m.group(), m.span())
else:
    print("없음")

<class 're.Pattern'>
안녕하세요 (7, 12)


In [19]:
# pattern을 아래와 같이 수정했다. [가-핳]의 조건을 가진 글자를 index = 7부터 7 글자 찾는다.

In [20]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

pattern = r"[가-핳]{7}"
p = re.compile(pattern)
print(type(p))
m = p.match(txt, pos = 7)
if m:
    print(m.group(), m.span())
else:
    print("없음")

<class 're.Pattern'>
없음


In [None]:
# 실행 결과 "없음"이 출력된다. txt의 "안"부터 찾기 시작하는데 "안녕하세요"는 다섯 글자이고
# 그 뒤에 .이 있다.
# match method는 이런 경우 더 이상 찾지 않고 pattern에 맞는 문자가 없다고 판단해 아무것도 반환하지 않는다.
# 이런 경우 search method를 사용하면 해결할 수 있다. search method에 대해 알아보자.

### 3.2.3 search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [21]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다."

pattern = r"안녕"
p = re.compile(pattern)
m = p.search(txt)
if m:
    print(m.group(), m.span())
else:
    print("없음")

안녕 (7, 9)


In [None]:
# match method는 위와 같은 경우에서 pattern을 찾지 못하고 "없음"을 출력했다.
# 하지만 search method는 전체 문장에서 찾는다.

In [23]:
txt = "반갑습니다. 안녕하세요. 저는 홍길동입니다. 제 나이는 20세 입니다. 안녕하세요."

pattern = r"안녕"
p = re.compile(pattern)
m = p.search(txt)
if m:
    print(m.group(), m.span())
else:
    print("없음")

안녕 (7, 9)


In [24]:
# 다른 예시를 살펴보자.

In [26]:
txt = "가격은 각각 4000, 5000, 15000, 25000입니다."

m = re.search(r"\d+", txt)
print(m)

<re.Match object; span=(7, 11), match='4000'>


In [None]:
# 숫자가 한 개 이상 연결된 문자열을 찾는다.

In [27]:
txt = "가격은 각각 4000, 5000, 15000, 25000입니다."

m = re.search(r"\d{5}", txt)
print(m)

<re.Match object; span=(19, 24), match='15000'>


In [None]:
# 숫자 5개로 이루어진 문자열을 찾는다. 즉, 만 단위의 숫자를 출력한다.

In [33]:
txt = "가격은 각각 4000, 5000, 15000, 25000입니다."

m = re.search(r"\d{5,}", txt)
print(m)

<re.Match object; span=(19, 24), match='15000'>


In [None]:
# {\5,}는 5개 이상을 뜻한다.

In [32]:
txt = "가격은 각각 4000, 5000, 15000, 25000입니다."

m = re.search(r"\d{4,7}", txt)
print(m)

<re.Match object; span=(7, 11), match='4000'>


In [None]:
# 위 코드는 숫자가 4개에서부터 7개로 이루어진 문자열을 찾는다.
# 이때 {} 안에 공백이 들어가지 않도록 주의한다.

In [None]:
# search method는 위의 예시들과 같이 첫 번째로 찾은 pattern만 반환한다.
# 이때 우리는 findall로 해결할 수 있다.

### 3.2.4. findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [35]:
txt = "숫자는 7, 29, 158, 2459, 5410, 15200, 36000입니다."

pattern = r"\d"
p = re.compile(pattern)
m = p.findall(txt)
print(m)

['7', '2', '9', '1', '5', '8', '2', '4', '5', '9', '5', '4', '1', '0', '1', '5', '2', '0', '0', '3', '6', '0', '0', '0']


In [None]:
# 숫자 한 개를 가지고 있는 문자열을 찾는다.

In [36]:
txt = "숫자는 7, 29, 158, 2459, 5410, 15200, 36000입니다."

pattern = r"\d+"
p = re.compile(pattern)
m = p.findall(txt)
print(m)

['7', '29', '158', '2459', '5410', '15200', '36000']


In [None]:
# 한 개 이상의 숫자로 이루어진 문자열을 찾는다.

In [38]:
txt = "숫자는 7, 29, 158, 2459, 5410, 15200, 36000입니다."

pattern = r"[가-핳]+"
p = re.compile(pattern)
m = p.findall(txt)
print(m)

['숫자는', '입니다']


In [None]:
# 한 개 이상의 한글로 이루어진 문자열을 찾는다.

# TODO
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

- 원하는 data를 찾을 때는 찾고자 하는 data의 형태를 알고 있어야 한다. 어떻게 구성되어 있는지를 잘 알고 있어야 한다.
    - 이럴 때는 정규 표현식을 구글링하는 것이 좋다.

In [40]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [41]:
# Email 주소만 추출 해서 출력

In [98]:
import re

pattern = r"[\w.-]{1,}@[a-zA-Z]{1,}.[a-zA-Z]{1,}"
p = re.compile(pattern)
m = p.findall(info)
print(m)

['kjs@gmail.com', 'pys.abc@gmail.com', 'lmy-abc@naver.com', 'ksh@daum.net', 'ojy@daum.net']


In [106]:
import re

pattern = r"[\w\-\.]+@[\w\-\.]+[\w\-]{2,4}"
p = re.compile(pattern)
m = p.findall(info)
print(m)

['kjs@gmail.com', 'pys.abc@gmail.com', 'lmy-abc@naver.com', 'ksh@daum.net', 'ojy@daum.net']


In [107]:
# 뒤에 +를 붙여 여러번 반복되더라도 뽑아낼 수 있도록 한다.

In [None]:
# 주민번호들만 조회해서 출력

In [109]:
import re

pattern = r"[\d]{6}-[\d]{7}"
p = re.compile(pattern)
result = p.findall(info)
print(result)

['801023-1010221', '700121-1120212', '820301-2020122', '781223-2012212', '900522-1023218']


In [110]:
import re

pattern = r"\d{6}-[012349]\d{6}"
p = re.compile(pattern)
result = p.findall(info)
print(result)

['801023-1010221', '700121-1120212', '820301-2020122', '781223-2012212', '900522-1023218']


In [None]:
# 주민등록번호 뒷자리가 시작하는 숫자를 지정한다.

### finditer(대상문자열)
- 패턴에 일치하는 모든 문자열을 찾아주는 Iterator => for문, list()
- 찾은 문자열을 Match 객체로 반환.

In [112]:
result = p.finditer(info)
print(type(result))
result

<class 'callable_iterator'>


<callable_iterator at 0x211a3c58eb0>

In [114]:
result = p.finditer(info)
for m in result:
    print(m)

<re.Match object; span=(18, 32), match='801023-1010221'>
<re.Match object; span=(55, 69), match='700121-1120212'>
<re.Match object; span=(92, 106), match='820301-2020122'>
<re.Match object; span=(124, 138), match='781223-2012212'>
<re.Match object; span=(156, 170), match='900522-1023218'>


In [None]:
# 위치까지도 찾아준다.

## 3.3. 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### 3.3.1 sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### 3.3.2 subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

In [None]:
# 문자열을 변경하는 방법을 알아보자. 아래 문자열을 만들고 함수를 사용해보자.

In [116]:
txt = "오늘은       수요일          입니다."

In [117]:
# 위 txt의 공백들을 공백 한 개로 바꾸자.

In [118]:
pattern = r" +"    # 공백들을 의미한다.
p = re.compile(pattern)
result = p.sub(" ", txt)
print(result)

오늘은 수요일 입니다.


In [119]:
txt = """오늘은    수요일    입니다.
내일은    목요일     입니다.
모레는      금요일     입니다.
"""

In [122]:
pattern = r"\s+"    # \s: 공백, 엔터, tab 의미
p = re.compile(pattern)
result, cnt = p.subn(" ", txt)
print("변경된 문자열의 갯수:", cnt)
print(result)

변경된 문자열의 갯수: 9
오늘은 수요일 입니다. 내일은 목요일 입니다. 모레는 금요일 입니다. 


In [126]:
txt = "test1, test2, test3, test4, test5"

In [127]:
# 위 txt에서 숫자를 제외한 나머지 문자들을 제거해보자.

In [134]:
pattern = r"[^0-9]"
p = re.compile(pattern)
result = p.sub("", txt)
print(result)

12345


## 3.4 나누기(토큰화)
### 3.4.1 split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환: 나눈 문자열을 원소로 하는 리스트

In [135]:
txt = "사과,복숭아,배|수박"

p = re.compile(r"[,|]")     # 구분자 패턴
p.split(txt)

['사과', '복숭아', '배', '수박']

# 4. 그룹핑(Grouping)
- 패턴 내에서 하위패턴을 만드는 것.
    - 전체 패턴에서 일부 패턴을 묶어준다.
- 구문: (패턴)

## 4.1. 그룹핑 예

### 4.1.1 전체 패턴 내에서 일부 패턴을 조회

In [None]:
# grouping을 사용하지 않은 예

In [140]:
tel = "TEL: 010-1234-5678"

pattern = r"\d{2,3}-\d{3,4}-\d{4}"
p = re.compile(pattern)
m = p.search(tel)
print(m)
if m:
    print(m.group())

<re.Match object; span=(5, 18), match='010-1234-5678'>
010-1234-5678


In [None]:
# pattern과 일치하는 전체 문장을 반환한다.

In [None]:
# grouping을 사용한 예

In [143]:
tel = "TEL: 010-1234-5678"

pattern = r"(\d{2,3})-(\d{3,4})-\d{4}"
p = re.compile(pattern)
m = p.search(tel)
print(m)
if m:
    print(m.group())
    print(m.group(1))
    print(m.group(2))

<re.Match object; span=(5, 18), match='010-1234-5678'>
010-1234-5678
010
1234


In [None]:
# pattern에서 괄호를 이용해 하위 그룹을 설정했다.
# m.group(): 전체 pattern과 일치하는 문자열을 반환한다.
# m.group(1): 첫 번째 하위 그룹 pattern과 일치하는 문자열을 반환한다. 1번 sub group 의미.
# m.group(2): 두 번째 하위 그룹 pattern과 일치하는 문자열을 반환한다. 2번 sub group 의미.

In [None]:
# e-mail 주소를 grouping을 이용해 다양하게 추출해보자.
# e-mail 주소: 계정_ID@도메인

In [148]:
txt = "abc@naver.com, test@daum.net, my_mail@gmail.com"

pattern = r"\w+@\w+\.\w+"
p = re.compile(pattern)
for email in p.findall(txt):
    print(email)

abc@naver.com
test@daum.net
my_mail@gmail.com


In [147]:
txt = "abc@naver.com, test@daum.net, my_mail@gmail.com"

pattern = r"(\w+)@(\w+\.\w+)"
p = re.compile(pattern)
for email in p.findall(txt):
    print(email)

('abc', 'naver.com')
('test', 'daum.net')
('my_mail', 'gmail.com')


In [149]:
txt = "abc@naver.com, test@daum.net, my_mail@gmail.com"

pattern = r"(\w+)(@)(\w+\.\w+)"
p = re.compile(pattern)
for email in p.findall(txt):
    print(email)

('abc', '@', 'naver.com')
('test', '@', 'daum.net')
('my_mail', '@', 'gmail.com')


In [152]:
txt = "abc@naver.com, test@daum.net, my_mail@gmail.com"

pattern = r"(\w+)@(\w+\.\w+)"
p = re.compile(pattern)
for ID, domail in p.findall(txt):
    print(f"ID: {ID} \tDomail: {domail}")

ID: abc 	Domail: naver.com
ID: test 	Domail: daum.net
ID: my_mail 	Domail: gmail.com


In [154]:
for m in p.finditer(txt):
    print(m.group())
    print("계정 ID:", m.group(1))
    print("도메인:", m.group(2))
    print("="*30)

abc@naver.com
계정 ID: abc
도메인: naver.com
test@daum.net
계정 ID: test
도메인: daum.net
my_mail@gmail.com
계정 ID: my_mail
도메인: gmail.com


In [None]:
# 전체 e-mail 주소를 출력하고 계정 ID 그리고 도메인을 따로 출력했다.

### 4.1.2 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

In [155]:
# 어떤 그룹을 사용할 건지 patternt 내에서 지정할 수 있다. 그 방법을 배워보자.

In [None]:
# 아래 txt에는 국번과 번호가 같은 전화번호도 있고 다른 전화번호도 있다.
# 여기서 국번과 번호가 같은 전화번호를 추출하는 pattern을 만들어보자.

In [159]:
txt = """010-1111-2222
010-2222-2222
010-3333-4444
010-5555-5555
"""

In [160]:
pattern = r"\d{2,3}-\d{3,4}-\d{4}"

In [161]:
# 전화번호를 추출할 때는 위와 같은 pattern을 작성할 수 있다.
# 국번과 번호가 같은 전화번호를 추출할 때는 아래와 같은 과정을 거쳐 pattern을 만든다.

In [162]:
# 기준이 되는 group을 먼저 괄호로 묶는다. 여기서는 국번을 찾는 부분이다. 그리고 같아야 하는 곳에 \번호를 입력한다.
# 여기서 번호는 같아야 하는 sub group의 번호이다. 이에 따라 이 예시에서는 아래와 같이 pattern을 작성할 수 있다.

In [163]:
pattern = r"\d{2,3}-(\d{3,4})-\1"
p = re.compile(pattern)
for m in p.finditer(txt):
    print(m.group())

010-2222-2222
010-5555-5555


In [None]:
# \1: 1번 sub group으로 찾은 값과 같은 값을 가진 것을 의미한다. pattern 뿐만 아니라 값도 같은 것을 의미한다.

### 4.1.3 패턴내의 특정 부분만 변경

In [None]:
# 아래의 info에서 주민등록번호의 마지막 6개 숫자를 #으로 바꾸는 코드를 작성해보자.

In [165]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [168]:
pattern = r"\d{6}-[012349]\d{6}"

In [169]:
# 위 pattern은 주민등록번호를 찾을 때 사용한 pattern이다.
# 주민등록번호 마지막 6개 숫자를 #으로 바꾸기 위해 남길 것(변경하지 않을 것)을 group으로 묶자.

In [171]:
print(info)

pattern = r"(\d{6}-[012349])\d{6}"
p = re.compile(pattern)
for m in p.finditer(info):
    print(m.group(), m.group(1), sep = " - ")

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218

801023-1010221 - 801023-1
700121-1120212 - 700121-1
820301-2020122 - 820301-2
781223-2012212 - 781223-2
900522-1023218 - 900522-1


In [None]:
# 주민등록번호가 출력되고 - 뒤에 생년월일과 뒷자리 첫 번째 숫자까지 출력되었다. 이렇게 출력된 것은 그대로 출력되길 바란다.
# 이를 위해 다음과 같은 코드를 작성할 수 있다.

In [None]:
print(info)

pattern = r"(\d{6}-[012349])\d{6}"
p = re.compile(pattern)
result = p.sub("\g<1>", info)
for m in p.finditer(info):
    print(m.group(), m.group(1), sep = " -> ")

In [None]:
# 여기서 \g<1>은 1번 group의 값으로 변경하라는 뜻이다.

In [172]:
print(info)

pattern = r"(\d{6}-[012349])\d{6}"
p = re.compile(pattern)
result = p.sub("\g<1>", info)
for m in p.finditer(info):
    print(m.group(), m.group(1), sep = " -> ")

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218

801023-1010221 -> 801023-1
700121-1120212 -> 700121-1
820301-2020122 -> 820301-2
781223-2012212 -> 781223-2
900522-1023218 -> 900522-1


In [None]:
# 출력문처럼 바귀기를 바라는 것이다.

In [175]:
pattern = r"(\d{6}-[012349])\d{6}"
p = re.compile(pattern)
result = p.sub("\g<1>", info)
print(result)

김정수 kjs@gmail.com 801023-1
박영수 pys.abc@gmail.com 700121-1
이민영 lmy-abc@naver.com 820301-2
김순희 ksh@daum.net 781223-2
오주연 ojy@daum.net 900522-1



In [176]:
print(info)

pattern = r"(\d{6}-[012349])\d{6}"
p = re.compile(pattern)
result = p.sub("\g<1>######", info)
print(result)

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218

김정수 kjs@gmail.com 801023-1######
박영수 pys.abc@gmail.com 700121-1######
이민영 lmy-abc@naver.com 820301-2######
김순희 ksh@daum.net 781223-2######
오주연 ojy@daum.net 900522-1######



In [None]:
# sub() 함수를 이용해 기존 info를 바꿀 수 있다.

In [None]:
# 내용은 아래에 있다.

### 4.1.4. group으로 묶인 것 참조(조회)
- 패턴 안에서 참조 
    - `\번호` , `r'(\d{3}) \1'` => 중복되는 것을 패턴으로 표현할 때.
- match 조회
    - match객체.group(번호)
- sub() 함수에서 대체 문자로 참조
    - `\g<번호>`

In [None]:
txt = """010-1111-2222
010-2222-2222
010-3333-4444
010-5555-5555
"""

In [None]:
# sub group 내에 sub group이 있을 경우

In [177]:
pattern = r"\d{2,3}-\d{3,4}-\d{4}"

In [None]:
# 위 pattern은 전화번호를 조회할 때 사용한 pattern이다.
# 지역 번호와 국번을 묶을 수 있고 그 안에 지역 번호와 국번을 따로 묶을 수 있다.
# 그리고 마지막 번호도 gruop로 묶자.

In [None]:
pattern = r"((\d{2,3})-(\d{3,4}))-(\d{4})"

In [None]:
# (( )-( ))-( )
# 와 같이 묶인 것이다.
# group 번호는 왼쪽부터 오른쪽으로 1, 2, 3, 4이다.
# 즉 ( 1 ( 2 )-( 3 ))-( 4 ) 인 것이다. 아래 실행 결과를 통해 확인해보자.

In [178]:
pattern = r"((\d{2,3})-(\d{3,4}))-(\d{4})"
p = re.compile(pattern)
m = p.search(txt)
print(m)
print(m.group())
print(m.group(1))
print(m.group(2))
print(m.group(3))
print(m.group(4))

<re.Match object; span=(0, 13), match='010-1111-2222'>
010-1111-2222
010-1111
010
1111
2222


# 5. Greedy 와 Non-Greedy
- Greedy(탐욕스러운-최대일치) 의 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- Non-Greedy(최소일치)
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자(수량자)에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

In [180]:
txt = "<div>파이썬 <b>정규표현식</b> </div>"

In [179]:
# 위와 같은 문자열을 마크업 언어라고 한다. 마크업을 통해 태그하는 것이다.
# 시작할 때는 <>안에 태그 이름을 적고 끝낼 때는 </>안에 태그 이름을 적는다.
# <div>는 분리하는 것(divide)이다. <b>는 진하게 표시하는 것이다.
# 즉 정규표현식은 진하게 표시된다.
# 우리는 여기서 태그들만 추출하고자 한다. 즉 <div>, <b>, </div>, </b>를 추출하려고 한다.

In [182]:
pattern = r"<.+>"
p = re.compile(pattern)
p.findall(txt)

['<div>파이썬 <b>정규표현식</b> </div>']

In [None]:
# 위와 같은 patten을 정의하니 태그들만 나오지 않고 모든 문자열이 출력되었다.
# <> 역시 .에 매칭된다. 그래서 모든 문자열을 추출하게 된 것이다.
# 제일 처음 < 를 인식하고 제일 마지막의 > 을 인식한 것이다.
# 이처럼 최대한 일치하는 모든 것을 찾는 것을 Greedy라고 한다.
# 우리가 원하는 대로 수정하기 위해서는 Non-Greedy를 이용해야 한다.
# Non-Greedy는 설명에도 있듯 갯수를 나타내는 메타문자(수량자)에 ?를 붙이면 된다.
# 이에 맞춰 pattern을 수정해보자.

In [183]:
pattern = r"<.+?>"
p = re.compile(pattern)
p.findall(txt)

['<div>', '<b>', '</b>', '</div>']

# 6. 전방/후방 탐색
- 패턴과 일치하는 문자열을 찾을 때는 사용하되 반환(소비) 되지 않도록 하는 패턴이 있을 때 사용.
- **전방탐색**
    - 반환(소비)될 문자열들이 앞에 있는 경우.
    - 긍정 전방탐색
        - %%%(?=패턴) : %%%-반환될 패턴
    - 부정 전방탐색
        - %%%(?!패턴)  : 부정은 =를 !로 바꾼다.
- **후방탐색**
    - 반환(소비)될 문자열이 뒤에 있는 경우.
    - 긍정 후방탐색
        - (?<=패턴)%%%
    - 부정 후방탐색
        - (?<!패턴)%%%

In [184]:
# 간단한 예시를 통해 전방 탐색과 후방 탐색에 대해 알아보자.

In [187]:
info = """TV 3699000원 30개
컴퓨터 239000원 50개
핸드폰 899000원 70개
"""

In [188]:
# info에서 가격만 조회해보자.

In [189]:
pattern = r"\d+원"
p = re.compile(pattern)
print(p.findall(info))

['3699000원', '239000원', '899000원']


In [190]:
# 이번에는 info에서 가격만 조회하는데 조회 결과에서 "원" 단위를 제외시켜보자.
# 이때 긍정 전방 탐색을 이용해보자.

In [191]:
pattern = r"\d+(?=원)"
p = re.compile(pattern)
print(p.findall(info))

['3699000', '239000', '899000']


In [None]:
# 이번에는 긍정 후방 탐색을 사용해보자. info를 아래와 같이 수정한다.

In [196]:
info = """TV $3699000 30개
컴퓨터 $239000 50개
핸드폰 $899000 70개
"""

In [197]:
# info에서 가격만 조회하는데 조회 결과에서 "$" 단위를 제외시켜보자. 이때 $ 앞에 \를 붙여아 한다.

In [199]:
pattern = r"(?<=\$)\d+"
p = re.compile(pattern)
print(p.findall(info))

['3699000', '239000', '899000']
