In [1]:
s = "010-1111-2222"
s.replace('2222', '****')

'010-1111-****'

# <font size=50>정규 표현식 (Regular Expression)</font>

# 정규 표현식(Regular Expression) 개요

## 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.
- **정규식, Regexp**이라고도 한다.

## 기본개념
- **패턴** 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
- **메타문자**
    - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- **리터럴**
    - 표현식이 값 자체를 의미하는 것
    - 예) `a`는 `a` 자체를 의미한다.    

# 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
    - `[가-힣ㄱ-ㅎㅏ-ㅣ]`: 한글중 하나와 매치
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미. 와서 안되는 패턴을 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z가-힣0-9_]`와 동일  (문자는 특수문자 제외한 일반문자-언어상관없는-들을 말한다.
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z가-힣0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 단어와 단어를 구분할 수 있는 문자로 보통 공백이 많이 쓰임. 공백이외에도 `,`, `.`, `\n`, `|` 등 문자들을 표현한다.
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 글자수와 관련된 메타문자
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 등 메타문자들을 리터럴로 표현할 경우 `\`를 붙인다.

## 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 기타
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `|` : 둘중 하나(OR) (?:010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 코딩패턴

1. 객체지향형
    - 패턴 객체를 생성후 메소드를 호출해 원하는 처리를 한다.
     ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. 함수형
    - `re` 모듈의 원하는 작업을 하는 함수를 호출한다. Argument로 패턴과 처리할 값을 전달한다.
    ```python
        re.search(r'\d+', 'abc123def')
    ```
    
> ### raw string
> - 패턴문자중 `\`로 시작하는 것들을 사용할 경우 `escape` 문자와의 구분을 위해 `\\` 두개씩 작성해야한다.  그래서 패턴을 지정할 때는 raw string을 사용하는 것이 편리하다.
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


## 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall(), finditer(s) : 패턴과 일치하는 문장을 **찾을 때** 사용

### Match class
- **검색 결과를** 담는 class
    - match(), search() 의 반환타입으로 검색결과를 담는다.
- 패턴과 일치한 문자열과 그 문자열의 위치를 가진다.
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### match(대상문자열 [, pos=0])
- 대상 문자열의 시작이 정규식과 일치하는지를 조회.
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

### search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [15]:
import re

txt = "안녕하세요. 반갑습니다. 저는 20살 홍길동 입니다."
### 객체지향 방식. 패턴을 정의하고 그 패턴을 이용해서 **여러 작업**을 처리할 때 유리.
# 1. 패턴객체 생성
p = re.compile(r"\w{2}하세요")  # `\w` : 일반문자, 숫자, `_` 중 한글자.  {2} 두글자.  "하세요": 리터럴
p = re.compile(r"\d+")   # `\d`: 숫자(0-9), `+`: 1글자 이상.
# print(type(p))
# 2. 패턴으로 원하는 작업을 메소드를 이용해서 처리
## match() -> 패턴으로 시작하는지 여부
result = p.match(txt, pos=17)  # 패턴객체.match(대상문자열)
# print(type(result))
if result: # 조회한 것이 있다면  result is not None, result != None
    print(result)
    print("위치:", result.span())
    print(f"시작 index: {result.start()}, 끝 index: {result.end()}")
    print("찾은 문자열:", result.group())
else:
    print("찾는 패턴이 없음.")

<re.Match object; span=(17, 19), match='20'>
위치: (17, 19)
시작 index: 17, 끝 index: 19
찾은 문자열: 20


In [20]:
## search() : 있는지 여부를 확인
txt = "저는 205살 홍길동 입니다. 30, 40, 50"

p = re.compile(r"\d{2}")
result = p.search(txt)
if result:
    print("위치:", result.span())
    print("찾은 값:", result.group())
else:
    print("없음.")

위치: (3, 5)
찾은 값: 20


### findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 패턴이 없을 경우 빈 리스트를 반환한다.
    
### finditer(대상문자열)
- 대상문자열에서 정규식과 매칭되는 결과들을 조회할 수있는 Iterator를 반환한다.
- 반환값
    - callable_iterator
    - 일치하는 패턴이 없어도 iterator객체는 반환되는데 next()시 StopIteration Exception발생한다.

In [22]:
txt = "물건들의 가격은 각각 400원, 6000원, 3000원입니다. 재고는 각각 10, 5, 53개 있습니다."

## 함수형 - 처리함수를 호출하면서 패턴과 대상 문자열을 전달.
result = re.findall(r"\d+", txt)
print(result)

## 객체지향형
p = re.compile(r"\d+")
result2 = p.findall(txt)
print(result2)

['400', '6000', '3000', '10', '5', '53']
['400', '6000', '3000', '10', '5', '53']


In [26]:
result = re.finditer(r'\d+', txt)
print(type(result))
for r in result:
    print(r.span(), r.group())

<class 'callable_iterator'>
(12, 15) 400
(18, 22) 6000
(25, 29) 3000
(42, 44) 10
(46, 47) 5
(49, 51) 53


In [28]:
result1 = p.findall(txt)
result2 = p.finditer(txt)
print(result1)
print(list(result2))

['400', '6000', '3000', '10', '5', '53']
[<re.Match object; span=(12, 15), match='400'>, <re.Match object; span=(18, 22), match='6000'>, <re.Match object; span=(25, 29), match='3000'>, <re.Match object; span=(42, 44), match='10'>, <re.Match object; span=(46, 47), match='5'>, <re.Match object; span=(49, 51), match='53'>]


# TODO
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [94]:
info ='''김정수 kjs@gmail.com 801033-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [98]:
re.findall(r"\b\w+@[\w\.]+\b", info)

['kjs@gmail.com',
 '박영@수',
 'abc@gmail.com',
 'abc@naver.com',
 'ksh@daum.net',
 'ojy@daum.net']

In [32]:
# Email 주소만 추출 해서 출력
email_pattern = r"[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*@(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?"
email_list = re.findall(email_pattern, info)
email_list

['kjs@gmail.com',
 'pys.abc@gmail.com',
 'lmy-abc@naver.com',
 'ksh@daum.net',
 'ojy@daum.net']

In [39]:
# 주민번호들만 조회해서 출력
jumin_pattern = r"\d{6}-?\d{7}"
jumin_pattern = r"\d{2}(?:0[1-9]|1[0-2])(?:0[1-9]|[12][0-9]|3[01])-[1234]\d{6}"       
# \d{2}: 년도 숫자 두자리.
# 01 ~ 09, 10, 11, 12 -  (?:0[1-9]|1[0-2])   괄호로 단순히 묶기.  0[1-9]:01~09    |  or ==> 월
# 01 ~ 09, 10~19, 20~ 29, 30, 31
## 0[1-9]  or  [12][0-9] or 3[01]
jumin_list = re.findall(jumin_pattern, info)
print(jumin_list)

['700121-1120212', '820301-2020122', '781223-2012212', '900522-1023218']


## 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

In [None]:
#=> 리스트안에 원소들을 하나의 문자열로 합치기
"-".join(["a", "b", "c"])

In [48]:
txt = "    오늘은       목요일     입니다.   "
print(txt.strip())
print(txt.lstrip())
print(txt.rstrip())
" ".join(txt.split())

'오늘은 목요일 입니다.'

In [54]:
p = re.compile("\s+")  #\s: 공백문자 - " ", "\t", "\n", +: 1개이상.
result1 = p.sub(" ", txt.strip())
print(result1)
result2 = p.subn(" ", txt.strip())
print(result2)

오늘은 목요일 입니다.
('오늘은 목요일 입니다.', 2)


In [56]:
re.sub(r"\s+", " ", txt.strip())

'오늘은 목요일 입니다.'

In [61]:
print(info)
# r = re.sub(jumin_pattern, "", info)
r = re.sub(jumin_pattern, "******-*******", info)
print(r)

김정수 kjs@gmail.com 801033-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218

김정수 kjs@gmail.com 801033-1010221
박영수 pys.abc@gmail.com ******-*******
이민영 lmy-abc@naver.com ******-*******
김순희 ksh@daum.net ******-*******
오주연 ojy@daum.net ******-*******



# 패턴내 하위패턴 만들기 (Grouping)
-  여러 속성값들 구성된 패턴에서 각 속성의 패턴을 묶어서 하위 그룹(하위 패턴)으로 정의한다.
- 예를 들어 날짜의 경우 년도/월/일 형식을 가진다. 여기에서 년도, 월, 일 의 패턴을 전체 날짜의 하위 패턴으로 묶어준다.
- 구문: 하위 패턴을 소괄호로 묶어준다.
    - `(\d{4})/([01]\d)/([0123]\d)`  
    - (년도)/(월)/(일)

## 그룹핑 예

### 전체 패턴 내에서 일부 패턴을 조회

In [66]:
import re
tel = "Tel: 010-1122-2121"  # 전화번호:  통신사/지역번호 - 국번 - 번호
pattern = r"(\d{2,3})-(\d{3,4})-(\d{4})"
#    (1번하위그룹) - (2번하위그룹) - (3번하위그룹)
p = re.compile(pattern)
result = p.search(tel)  # 전체 패턴을 이용해서 찾는다.
if result:
    print(result)
    print("찾은 전체 문자열:", result.group(), result.group(0))
    print("1번 하위 그룹-지역/통신사번호:", result.group(1))
    print("2번 - 국번:", result.group(2))
    print("3번 - 번호:", result.group(3))
else:
    print("없음")

<re.Match object; span=(5, 18), match='010-1122-2121'>
찾은 전체 문자열: 010-1122-2121 010-1122-2121
1번 하위 그룹-지역/통신사번호: 010
2번 - 국번: 1122
3번 - 번호: 2121


In [67]:
tel = "Tel: 010-1122-2121" 
pattern = r"(\d{2,3})-((\d{3,4})-(\d{4}))"
#    (1번하위그룹) - (2번하위 (3번하위그룹) - (4번하위그룹))
p = re.compile(pattern)
result = p.search(tel) 
if result:
    print(result)
    print("찾은 전체 문자열:", result.group(), result.group(0))
    print("1번 하위 그룹-지역/통신사번호:", result.group(1))
    print("2번 - 국번+번호:", result.group(2))
    print("3번 - 국번:", result.group(3))
    print("3번 - 번호:", result.group(4))
else:
    print("없음")

<re.Match object; span=(5, 18), match='010-1122-2121'>
찾은 전체 문자열: 010-1122-2121 010-1122-2121
1번 하위 그룹-지역/통신사번호: 010
2번 - 국번: 1122-2121
3번 - 번호: 1122
3번 - 번호: 2121


In [74]:
emails = "abc@naver.com aaaa@daum.net sdkdkd@gmail.com"
# email주소:   계정@도메인주소  (계정패턴)@(도메인주소패턴)
p = re.compile(r"(\w+)@(\w+\.\w{2,4})")
e_list1 = p.findall(emails)
e_list2 = p.finditer(emails)

In [72]:
e_list1
# findall()    subgroup의 문자열들을 튜플로 모아준다.

[('abc', '@', 'naver.com'),
 ('aaaa', '@', 'daum.net'),
 ('sdkdkd', '@', 'gmail.com')]

In [73]:
for email in e_list2:
    print(email.group())
    print("계정:", email.group(1))
    print("도메인:", email.group(2))
    print("="*50)

abc@naver.com
계정: abc
도메인: @
aaaa@daum.net
계정: aaaa
도메인: @
sdkdkd@gmail.com
계정: sdkdkd
도메인: @


### 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

In [79]:
tels = """010-2222-3232
010-3232-3232
010-5555-5555
010-4333-1212
"""
# 국번과 번호가 같은 값인 전화번호를 찾기
pattern = r"\d{2,3}-(\d{4})-\1"
#  번호-(1번하위그룹)-1번하위그룹의 문자열과 같은 문자열
## \번호 => 번호의 하위그룹과 같은 문자열
result = re.finditer(pattern, tels)
for tel in result:
    print(tel.group(), tel.group(1))     #, tel.group(2))

010-3232-3232 3232
010-5555-5555 5555


### 패턴내의 특정 부분만 변경

In [82]:
info ='''김정수 kjs@gmail.com 801033-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''
# 주민번호에서 뒤에 6글자를 감추기. (패턴으로 찾은 대상의 일부만 변경.)
pattern = r"(\d{6}-[1234])\d{6}"  # 변경하지 않을 부분을 subgroup화.
result = re.sub(pattern, "\g<1>######", info)  
#  \g<1>  1번 subgroup의 내용을 그대로 나오게 사용. ==> 찾은 문자열의 일부를 변경시 사용.
print(result)

김정수 kjs@gmail.com 801033-1######
박영수 pys.abc@gmail.com 700121-1######
이민영 lmy-abc@naver.com 820301-2######
김순희 ksh@daum.net 781223-2######
오주연 ojy@daum.net 900522-1######



In [87]:
# info에서 이메일에서 계정을 #### 감추기.
p = re.compile(r"([\w\.-]+)@(\w+\.\w{2,4})")  # (g1)@(g2)
result = p.sub("####@\g<2>", info)
print(result)

김정수 ####@gmail.com 801033-1010221
박영수 ####@gmail.com 700121-1120212
이민영 ####@naver.com 820301-2020122
김순희 ####@daum.net 781223-2012212
오주연 ####@daum.net 900522-1023218



### sub group으로 묶인 것 참조(조회)
- **패턴 안에서 참조**
    - `\번호` , `r'(\d{3}) \1'` => 중복되는 것을 패턴으로 표현할 때.
- **match 조회**
    - match객체.group(번호)
- **sub() 함수에서 대체 문자로 참조**
    - `\g<번호>`

# Greedy 와 Non-Greedy
- **Greedy(탐욕스러운-최대일치)** 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- **Non-Greedy(최소일치)**
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자(수량자)에 **`?`** 붙인다.
    - `*?`, `+?`, `{m,n}?`

In [90]:
content = "<div>파이썬<b>정규표현식</b></div>입니다."

# 태그들을 조회 <div><b></b></div>
# result = re.findall(r"<.+>", content)
result = re.findall(r"<.+?>", content)
result

['<div>', '<b>', '</b>', '</div>']