# <font size=50>정규 표현식 (Regular Expression)</font>

# 정규 표현식(Regular Expression, Regex) 개요

## 정규 표현식이란
- 정규표현식은 특정한 패턴을 가진 문자열을 검색, 추출, 또는 수정하기 위해 사용되는 기법이다.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.

## 주요 용도

- **문자열 검색**: 특정 패턴에 맞는 문자열을 찾는다.
- **문자열 변경**: 패턴에 맞는 부분 문자열을 다른 문자열로 변경하거나 삭제한다.
- **문자열 유효성 검사**: 이메일 주소, 전화번호와 같이 특정 형식을 확인하여 유효성을 검사합니다.

## 정규표현식 구성 요소
- **패턴** 
    - 찾으려는 문자열의 규칙을 정의한 표현식을 패턴이라고 한다.
    - 정규표현식 패턴은 메타문자와 리터럴로 구성된다.
- **메타문자**
    - 패턴에서 특정 규칙이나 조건을 기술하기 위해 사용되는 특별한 의미를 가지는 문자.
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- **리터럴**
    - 문자나 문자열을 패턴 내에서 그 자체로 사용하는 것을 말한다. 
    - 예) `a`는 `a` 자체를 의미한다.    

# 정규 표현식 메타 문자

## 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
    - `[가-힣ㄱ-ㅎㅏ-ㅣ]`: 한글중 하나와 매치
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미. 와서 안되는 패턴을 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z가-힣0-9_]`와 동일  (문자는 특수문자 제외한 일반문자-언어상관없는-들을 말한다.
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z가-힣0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. \b가 매칭하는 경계문자로 공백, `,`, `.`, `\n` 이 있다.
    - \b는 문자 자체와 매칭하지 않고 경계만 확인한다. 단어의 시작과 단어의 끝을 찾는 데 유용하다.
    - `\bcat\b`는 "cat"이라는 단어가 정확히 존재하는 경우만 매칭한다. 그래서 "**cat**egory"나 "con**cat**enate" 같은 단어에는 매칭되지 않고 "The cat is" 에서 cat 에만 매칭된다.
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 글자수와 관련된 메타문자
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 등 메타문자들을 리터럴로 표현할 경우 `\`를 붙인다.

## 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 기타
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `|` : 둘중 하나(OR) (?:010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 파이썬에서 정규표현식 사용하기
- 표준 모듈 `re` 를 사용한다.
    - re는 정규표현식을 전용 모듈이고 다양한 패키지들이 내부적으로 정규표현식을 사용한다.
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 코딩 방식

1. 객체지향형
    - 패턴 객체를 생성후 메소드를 호출해 원하는 처리를 한다.
     ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. 함수형
    - `re` 모듈의 원하는 작업을 하는 함수를 호출한다. Argument로 패턴과 처리할 값을 전달한다.
    ```python
        re.search(r'\d+', 'abc123def')
    ```
    
> ### raw string
> - 파이썬은 문자열에 `\` 가 있으면 우선적으로 escape 문자로 처리한다. 그런데 메타문자 중 "미리 정의된 문자클래스" 들은 다 `\`로 시작한다.  그래서 이들을 사용할 경우 `escape` 문자와의 구분을 위해 `\\` 두개씩 작성해야한다.  이를 피하기 위해 패턴을 작성할 때는 raw string을 사용하는 것이 편리하다.
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


## 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall(), finditer(s) : 패턴과 일치하는 문장을 **찾을 때** 사용

### Match class
- **검색 결과를** 담는 class
    - match(), search() 의 반환타입으로 검색결과를 담는다.
- 패턴과 일치한 문자열과 그 문자열의 위치를 가진다.
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

In [None]:
import re

txt = "반갑습니다. 안녕하세요. 오늘 날씨는 15도 입니다."
# 객체지향 방식. 1. 패턴 객체를 생성. 2. 패턴 객체를 이용해 원하는 작업 진행.(메소드 호출)
# 패턴 생성
p = re.compile(r"\w{2}하세요")  # \w: a-zA-Z가-힣0-9_, {2} \w 두글자.
# 작업 -> 있는지 여부를 확인
# m = p.match(txt)  # p 패천을  txt 에서 찾아라.  => p패턴으로 txt가 시작하는지?
m = p.match(txt, 7)  # txt 의 7번 index부터 찾아라
print(m) # 찾는 결과가 없으면 None으로 반환.
if m is not None:  #찾았따면
    print(m)
    print(m.start(), m.end())
else:  #없다면
    print("지정한 패턴으로 시작하지 않습니다.")



<re.Match object; span=(7, 12), match='안녕하세요'>
<re.Match object; span=(7, 12), match='안녕하세요'>
7 12


In [None]:
## search())  -> 문장안에 있는지 여부
## 함수형.  함수안에 패턴과 대상문자열 등을 전달해서 호출.
txt = "반갑습니다. 안녕하세요. 오늘 날씨는 15도 입니다. 주문하세요. 식사하세요."
m = re.search(r"\w{2}하세요", txt)
if m is not None:   # if m:
    print(m.group())
    print(m.span(), m.start(), m.end())
else:
    print("없음.")


안녕하세요
(7, 12) 7 12


In [9]:
txt = "각각 가격은, 20, 2000, 3000, 50000, 75000 입니다."
# m = re.search(r"\d", txt)   # \d (숫자1개)
# m = re.search(r"\d+", txt)  # \d (숫자1개),   + : 1개 이상.
# m = re.search(r"\d{5}", txt)  # \d (숫자1개),  {5}:5개
# m = re.search(r"\d{3,}", txt)   # 3개 이상.  # 공백 삽입시  Error = None 반환
m = re.search(r"\d{3,5}", txt)   # 3~5개 까지.
print(m)


<re.Match object; span=(12, 16), match='2000'>


### match(대상문자열 [, pos=0])
- 대상 문자열의 시작이 정규식과 일치하는지를 조회.
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

### search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

### findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 패턴이 없을 경우 빈 리스트를 반환한다.
    
### finditer(대상문자열)
- 대상문자열에서 정규식과 매칭되는 결과들을 조회할 수있는 Iterator를 반환한다.
- 반환값
    - callable_iterator
    - 일치하는 패턴이 없어도 iterator객체는 반환되는데 next()시 StopIteration Exception발생한다.

In [23]:
txt = "반갑습니다. aa안녕하세요. 오늘 날씨는 25도 입니다. 주문하세요. 식사하세요."

p = re.compile(r"\w{2}하세요")
result = p.findall(txt)
print(result)

['안녕하세요', '주문하세요', '식사하세요']


In [24]:
result = re.findall(r"\w{2}하세요", txt)
print(result)

['안녕하세요', '주문하세요', '식사하세요']


In [25]:
result = p.finditer(txt)
print(result)           # iterator - 값을 갖고 있거나, 제공하는 것.

<callable_iterator object at 0x000002919106E7D0>


In [26]:
for v in result:
    # print(v)    # Match  : 위치, 값도 반환해줌
    print(v.group(), v.span(), v.start(), v.end(), sep="  - ")  # 띄어쓰기 모두 인식함.
    

안녕하세요  - (9, 14)  - 9  - 14
주문하세요  - (32, 37)  - 32  - 37
식사하세요  - (39, 44)  - 39  - 44


In [3]:
import re

### TODO
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [4]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [5]:
# 주민번호들만 조회해서 출력
p = re.compile(r"\d{6}-[12349]\d{6}")
jumin_num = p.findall(info)
jumin_num

['801023-1010221',
 '700121-1120212',
 '820301-2020122',
 '781223-2012212',
 '900522-1023218']

In [None]:
## regexr (https://regexr.com/)

In [6]:
# Email 주소만 추출 해서 출력  -    xxxxxxx@xxxxxxxx
p = re.compile(r"[\w\.\-]+@[\w\.\-]+\.\w{2,4}")   # .com , .kr     
 # [\w\. \.]: '\w\', '.', ',', '-' 중 한글자.   는 문자열 끝.
 # + : 한글자 이상.
 # @ : 리터럴 literal
emails = p.finditer(info)
for email in emails:
    print(email)

<re.Match object; span=(4, 17), match='kjs@gmail.com'>
<re.Match object; span=(37, 54), match='pys.abc@gmail.com'>
<re.Match object; span=(74, 91), match='lmy-abc@naver.com'>
<re.Match object; span=(111, 123), match='ksh@daum.net'>
<re.Match object; span=(143, 155), match='ojy@daum.net'>


## 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

In [7]:
import re

txt = "    오늘은  금요일     입니다.    만세.  "
# txt.rstrip()

# 여러개의 공백을 한개의 공백으로 변경.
txt = txt.strip()
result = re.sub(r" +", " ", txt) # " +" : 한개 이상의 공백. 공백도 문자열로 여러개의 공백을  " +"로 작성가능.
print(txt)
print(result)

오늘은  금요일     입니다.    만세.
오늘은 금요일 입니다. 만세.


In [8]:
p = re.compile(r"\s+")   # \s: 공백(space), 엔터, tab => 공백문자.
result2 = p.subn(" ", txt) # tuple(변경된 문자열, 변경개수)
print(result2)

('오늘은 금요일 입니다. 만세.', 3)


# Grouping - 패턴내 하위 패턴 만들기
- 패턴의 일부를 하나의 그룹으로 묶는 기능으로, 매칭된 패턴의 일부를 재사용하거나, 특정 패턴이 일치하는지 확인할 때 유용.
    - 보통 패턴이 여러개의 하위 패턴(속성)들로 구성되 있고 전체 내용에서 일부 속성들을 매칭 시켜야 할 때 사용한다.
    - 예를 들어, 전화번호는 "지역번호/010-국번-번호" 형식으로 구성된다. 이때 패턴을 만들면서 국번 부분을 그룹화하면, 전화번호를 찾은 후 국번만 쉽게 추출하여 조회할 수 있다.

- 구문: 하위 패턴을 **소괄호**로 묶어준다.
    - `(\d{4})/([01]\d)/([0123]\d)`  
    - (년도)/(월)/(일)

## 그룹핑 예

### 전체 패턴과 매칭된 결과에서 하위 패턴을 조회

In [9]:
txt = "tel) 010-1234-0909"
# 전화번호
p = re.compile(r"(0\d{1,2})-(\d{3,4})-(\d{4})")
# (1번 하위그룹)-(2번 하위그룹)-(3번 하위그룹)
# 0\d{1,2} : 0 다음에 숫자 1개 또는 두개가 이어서 온다. 0으로 시작하는 숫자열 패턴을 찾을때 작성.
m = p.search(txt)
if m is not None:
    print(m)
    print(m.group(0))  # ()/(0) : dafault 값이 0 이기때문에 생략가능하며, 전체를 반환함.
    print("지역번호:", m.group(1))
    print("국번:", m.group(2))
    print("번호:", m.group(3))


<re.Match object; span=(5, 18), match='010-1234-0909'>
010-1234-0909
지역번호: 010
국번: 1234
번호: 0909


In [10]:
print(info)

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218



In [11]:
from pprint import pprint
# (id)@(domain)  id 와 domain을 분리하여 따로 조회할 수 있게.
p = re.compile(r"([\w\.\-])+@([\w\.\ \-]+\.\w{2,4})") 
emails = p.findall(info)
pprint(emails)
print(emails[0][0])

[('s', 'gmail.com'),
 ('c', 'gmail.com'),
 ('c', 'naver.com'),
 ('h', 'daum.net'),
 ('y', 'daum.net')]
s


In [12]:
# (id)@(domain.구분)  id 와 domain을 분리하여 따로 조회할 수 있게.
# (id)@((domain).(구분))  domain의 domain과 구분을 분리하여 따로 조회할 수 있게.
p = re.compile(r"([\w\.\-])+@(([\w\.\ \-]+)\.(\w{2,4}))") 
# 1()@2(3().4())

emails2 = p.finditer(info)
for email in emails2:
    print(email.group(1))
    print(email.group(2))
    print(email.group(3))
    print(email.group(4))
    print("="*50)


s
gmail.com
gmail
com
c
gmail.com
gmail
com
c
naver.com
naver
com
h
daum.net
daum
net
y
daum.net
daum
net


### 패턴 안에서 하위 패턴 참조 지정
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

In [13]:
txt = "010-1111-1111, 010-1111-2323, 010-3232-2323, 010-3443-3434"
# 전화번호 중에서 국번과 번호가 같은 번호를 조회.
# p = r"0\d{1,2}-(\d{3,4})-\1"  # \1  - 1번 하위그룹의 값과 같은 값.
p = r"(0\d{1,2})-(\d{3,4})-(\2)" # \2 - 2번 하위그룹의 값과 같은 값. (패턴뿐만 아니라 값이 같은 것.) 

result = re.finditer(p, txt)
for r in result:
    print(r.group(), r.group(1), r.group(2), r.group(3), sep=", ")
    

010-1111-1111, 010, 1111, 1111


### 패턴과 매칭된 결과의 일부분만 변경

In [14]:
print(info)

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218



In [17]:
P = r"(\d{6}-[12349])\d{6}"   # 변경하지 않을 부분을 하위그룹으로 지정.

result = re.sub(p, r"\g<1>#####", info)   
# 변경 문자열 지정시 \g<1> (\g<하위그룹번호>) -> 그 자리에 하위그룹의 문자열이 나온다.
print(result)

김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218



In [None]:
# (801023-1)010221   => 801023-1

### group으로 묶인 것 참조(조회)
- **패턴 안에서 참조**
    - `\번호` , `r'(\d{3}) \1'` => 중복되는 것을 패턴으로 표현할 때.
- **match 조회**
    - match객체.group(번호)
- **sub() 함수에서 대체 문자로 참조**
    - `\g<번호>`

# Greedy 와 Non-Greedy(Lazy) Matching
- **Greedy** matching
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- **Non-Greedy(Lazy)** matching
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자(수량자)에 `?`를 붙인다.
        - `*?`
        - `+?`
        - `{m,n}?`

In [26]:
txt = """
<ul>
    <li>python</li>
    <li>java</li>
</ul>"""
# 태그들만 조회 <ul>, <li>, </li>, ....</ul>
p = r"<.+?>"  #  .  : 공백 제외한 모든 문자열

result = re.findall(p, txt)
result

['<ul>', '<li>', '</li>', '<li>', '</li>', '</ul>']

# 전방/후방 탐색
- 찾을 때는 포함시키지만 조회할 때는 제외시키는 패턴을 정의하는 방법이다. 조회하는 부분이 앞에 정의되면 전방 탐색, 뒤에 정의되면 후방탐색이라고 한다.
    - 이 기능을 통해 문자열 내에서 특정 조건이 충족되는지 확인하면서, 실제 매칭에서는 그 조건을 포함하지 않도록 할 수 있다.
- **전방탐색**
    - 매칭(반환)될 문자열들이 앞에 있는 경우.
    - 긍정 전방탐색
        - %%%(?=패턴) : 괄호안의 패턴이 뒤에 오는 경우를 찾는다. 매칭(반환)는 %%%부분만 한다.
            - `\d(?=abc)`: 숫자 뒤에 abc가 오는 패턴을 찾고 숫자만 매칭한다.
    - 부정 전방탐색
        - %%%(?!패턴)  : 괄호 안의 패턴이 오지 않는 경우를 찾는다. 매칭(반환)은 %%%부분만 한다.
            - - `\d(?!abc)`: 숫자 뒤에 abc가 오지 않는 패턴을 찾고 숫자만 매칭한다.
- **후방탐색**
    - 매칭(반환)될 문자열이 뒤에 있는 경우.
    - 긍정 후방탐색
        - (?<=패턴)%%%
    - 부정 후방탐색
        - (?<!패턴)%%%

In [32]:
info1 = """TV 30000원 30개
컴퓨터 32000원 50개
모니터 15000원 70개"""

# 가격만 조회
# p = r"\d+"
# p = r"\d+(?=원)"   # 찾을때는 \d+원 패턴을 찾고 결과에서 "원"은 뺀다.
p = r"\d+(?!원)"   # 찾을떈든 \d+원이 아닌 것. 결과에서는 "원 이 아닌것"은 뺀다. 
# (?=원) 특정 문자열까지 찾고자했기떄문에 포함하지 않는 문자는 찾지 않음.

re.findall(p, info1)

['3000', '30', '3200', '50', '1500', '70']

In [None]:
info2 = """TV $30000 30개
컴퓨터 $32000 50개
모니터 $15000 70개"""

# 가격만(숫자) 조회.
# p = r"(\$)\d+"    # $ : 메타문자(끝나는.)
p = r"(?<=\$)\d+"   # 찾을때는 $ 를 넣어서 찾지만, 결과값을 가져올때는 $ 를 제외함.
re.findall(p, info2)

['30000', '32000', '15000']