In [1]:
txt = '111-222-3333'
# txt에 111이 포함되어 있는지 확인
'111' in txt

True

In [2]:
# 222를 이이이로 변경
txt.replace('222', '이이이')

'111-이이이-3333'

In [3]:
# 마지막 4자리를 *로 변경
txt[:-4] + '****'

'111-222-****'

# <font size=50>정규 표현식 (Regular Expression)</font>

# 정규 표현식(Regular Expression) 개요

## 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.
- **정규식, Regexp**이라고도 한다.

## 기본개념
- **패턴** 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
- **메타문자**
    - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- **리터럴**
    - 표현식이 값 자체를 의미하는 것
    - 예) `a`는 `a` 자체를 의미한다.    

# 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z가-힣0-9_]`와 동일  (문자는 특수문자 제외한 일반문자-언어상관없는-들을 말한다.
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z가-힣0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 보통 단어 경계로 빈문자열
    - 단어경계: 단어(글자- `\w`)와 단어가 아닌 문자사이를 가리킨다.
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 글자수와 관련된 메타문자
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 를 리터럴로 표현할 경우 `\`를 붙인다.

## 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 기타
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `|` : 둘중 하나(OR) (?:010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 코딩패턴
- 모듈 import
    - import re
1. 객체지향형
    - 패턴 객체를 생성후 메소드를 호출해 원하는 처리를 한다.
     ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. 함수형
    - `re` 모듈의 원하는 작업을 하는 함수를 호출한다. Argument로 패턴과 처리할 값을 전달한다.
    ```python
        re.search(r'\d+', 'abc123def')
    ```
    
> ### raw string
> - 패턴문자중 `\`로 시작하는 것들을 사용할 경우 `escape` 문자와의 구분을 위해 `\\` 두개씩 작성해야한다.  그래서 패턴을 지정할 때는 raw string을 사용하는 것이 편리하다.
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


In [23]:
import re

# 객체 지향 방식
txt = r'http://www.naver.com'
# 패턴 객체를 생성해 사용
https_p = re.compile(r'^https?://\w+\.\w+\.(?:com|net|co\.kr|org|edu|co|kr)$')
# 패턴 객체의 search 메서드를 사용
https_p.search(txt)

<re.Match object; span=(0, 20), match='http://www.naver.com'>

In [24]:
txt = r'http://www.naver.com'
# 함수 방식
# 패턴 객체를 생성하지 않고
# 모듈의 search 함수를 사용
re.search(r'^https?://\w+\.\w+\.(?:com|net|co\.kr|org|edu|co|kr)$', txt)

<re.Match object; span=(0, 20), match='http://www.naver.com'>

## 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall() : 패턴과 일치하는 문장을 **찾을 때** 사용

In [25]:
txt = r'http://www.naver.com'
https_p = re.compile(r'^https?://\w+\.\w+\.(?:com|net|co\.kr|org|edu|co|kr)$')
print(https_p.search(txt))
print(https_p.match(txt))

<re.Match object; span=(0, 20), match='http://www.naver.com'>
<re.Match object; span=(0, 20), match='http://www.naver.com'>


In [26]:
print(https_p.findall(txt))

['http://www.naver.com']


### Match 객체
- **검색 결과를** 담아 반환되는 객체
    - match(), search() 의 반환타입
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

In [27]:
https_match_obj = https_p.search(txt)
print(https_match_obj.group())
print(https_match_obj.start(), https_match_obj.end())
print(https_match_obj.span())

http://www.naver.com
0 20
(0, 20)


### match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

In [54]:
import re

txt = r'''C:\Users\hyenz\Downloads
C:\Users\hyenz\Downloads\Compressed
E:\WSA
E:\Python\PlayData_Python_AI_learning
D:\Driver\BASW-A0362A\Lang'''

path_p = r'(?:\b|^)[A-Z]:(?:\\[a-zA-Z0-9_-]+)+(?:\b|$)'
path_p = re.compile(path_p)

In [55]:
# match
# match는 문자열의 처음부터 패턴과 일치하는지 확인
# match 객체를 반환
path_m = path_p.match(txt)
print(f'group\t : {path_m.group()}')
print(f'start\t : {path_m.start()}')
print(f'end\t : {path_m.end()}')
print(f'span\t : {path_m.span()}')
print(f'txt[s:e] : {txt[path_m.start():path_m.end()]}')

group	 : C:\Users\hyenz\Downloads
start	 : 0
end	 : 24
span	 : (0, 24)
txt[s:e] : C:\Users\hyenz\Downloads


### search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [56]:
# search
# match와 다르게 문자열 전체를 검색
# match 객체를 반환
path_m = path_p.search(txt,104)
print(f'group\t : {path_m.group()}')
print(f'start\t : {path_m.start()}')
print(f'end\t : {path_m.end()}')
print(f'span\t : {path_m.span()}')
print(f'txt[s:e] : {txt[path_m.start():path_m.end()]}')

group	 : D:\Driver\BASW-A0362A\Lang
start	 : 106
end	 : 132
span	 : (106, 132)
txt[s:e] : D:\Driver\BASW-A0362A\Lang


### findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [61]:
path_p = r'(?:\b|^)[A-Z]:(\\[a-zA-Z0-9_-]+)+(?:\b|$)'
path_p = re.compile(path_p)

# ()로 묶은 부분을 서브그룹이라고 함
# match 객체에서는 정상적으로 인식하나,
# findall 메서드는 서브그룹 인식에 문제가 있음.
# 찾은 전체 문자열에서 서브그룹을 다시 찾아서 반환
# (?:)을 통해 정확히 알려줘야 함.

# findall
# 매치된 모든 문자열을 리스트로 반환
paths = path_p.findall(txt)
print(*paths, sep='\n', end='')

\Downloads
\Compressed
\WSA
\PlayData_Python_AI_learning
\Lang

In [62]:
path_p = r'(?:\b|^)[A-Z]:(?:\\[a-zA-Z0-9_-]+)+(?:\b|$)'
path_p = re.compile(path_p)

# findall
# 매치된 모든 문자열을 리스트로 반환
paths = path_p.findall(txt)
print(*paths, sep='\n', end='')

C:\Users\hyenz\Downloads
C:\Users\hyenz\Downloads\Compressed
E:\WSA
E:\Python\PlayData_Python_AI_learning
D:\Driver\BASW-A0362A\Lang

### finditer(대상문자열)
- 패턴에 일치하는 모든 문자열을 찾아주는 Iterator => for문, list()
- 찾은 문자열을 Match 객체로 반환.

In [63]:
# finditer
# 매치된 모든 문자열을 반복 가능한 객체로 반환
# 반복 가능한 객체의 요소는 match 객체
paths = path_p.finditer(txt)
for p in paths:
    print(f'group\t : {p.group()}')
    print(f'start\t : {p.start()}')
    print(f'end\t : {p.end()}')
    print(f'span\t : {p.span()}')
    print(f'txt[s:e] : {txt[p.start():p.end()]}')
    print()

group	 : C:\Users\hyenz\Downloads
start	 : 0
end	 : 24
span	 : (0, 24)
txt[s:e] : C:\Users\hyenz\Downloads

group	 : C:\Users\hyenz\Downloads\Compressed
start	 : 25
end	 : 60
span	 : (25, 60)
txt[s:e] : C:\Users\hyenz\Downloads\Compressed

group	 : E:\WSA
start	 : 61
end	 : 67
span	 : (61, 67)
txt[s:e] : E:\WSA

group	 : E:\Python\PlayData_Python_AI_learning
start	 : 68
end	 : 105
span	 : (68, 105)
txt[s:e] : E:\Python\PlayData_Python_AI_learning

group	 : D:\Driver\BASW-A0362A\Lang
start	 : 106
end	 : 132
span	 : (106, 132)
txt[s:e] : D:\Driver\BASW-A0362A\Lang



# TODO
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [29]:
infos ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [65]:
# Email 주소만 추출 해서 출력
email_p = r'\b[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]{2,5}\b'
email_p = re.compile(email_p)
emails = email_p.findall(infos)
print(*emails, sep='\n', end='')

kjs@gmail.com
pys.abc@gmail.com
lmy-abc@naver.com
ksh@daum.net
ojy@daum.net

In [66]:
# 주민번호들만 조회해서 출력
pnum_p = r'\d{6}-(?:1|2|3|4)\d{6}'
pnum_p = re.compile(pnum_p)
pnums = pnum_p.findall(infos)
print(*pnums, sep='\n', end='')

801023-1010221
700121-1120212
820301-2020122
781223-2012212
900522-1023218

## 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

In [43]:
infos ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys.abc@gmail.com 700121-1120212
이민영 lmy-abc@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [64]:
# \B[0-9]{6}\b -> 6자리 숫자, 앞쪽은 문자열과 붙어있고, 뒤쪽은 문자열과 붙어있지 않음
# 생년월일은 6자리 숫자이므로, 이를 이용하여 예외처리
pnum_p = r'\B[0-9]{6}\b'
pnum_p = re.compile(pnum_p)

infos_blind_pnum = pnum_p.sub('******', infos)
print(infos_blind_pnum)

infos_blind_pnum = pnum_p.subn('******', infos)
print(infos_blind_pnum[0], infos_blind_pnum[1])

김정수 kjs@gmail.com 801023-1******
박영수 pys.abc@gmail.com 700121-1******
이민영 lmy-abc@naver.com 820301-2******
김순희 ksh@daum.net 781223-2******
오주연 ojy@daum.net 900522-1******

김정수 kjs@gmail.com 801023-1******
박영수 pys.abc@gmail.com 700121-1******
이민영 lmy-abc@naver.com 820301-2******
김순희 ksh@daum.net 781223-2******
오주연 ojy@daum.net 900522-1******
 5


In [67]:
# 앞쪽이 문자열과 붙어있고 글자수가 1~3인 한글만 추출(성을 제외한 이름)
# \B[가-힣]{1,3}\b -> 앞쪽이 문자열과 붙어있고 글자수가 1~3인 한글
name_p = r'\B[가-힣]{1,3}\b'
name_p = re.compile(name_p)

infos_blind_name = name_p.sub('**', infos)
print(infos_blind_name)
infos_blind_name = name_p.subn('**', infos)
print(infos_blind_name[0], infos_blind_name[1])

김** kjs@gmail.com 801023-1010221
박** pys.abc@gmail.com 700121-1120212
이** lmy-abc@naver.com 820301-2020122
김** ksh@daum.net 781223-2012212
오** ojy@daum.net 900522-1023218

김** kjs@gmail.com 801023-1010221
박** pys.abc@gmail.com 700121-1120212
이** lmy-abc@naver.com 820301-2020122
김** ksh@daum.net 781223-2012212
오** ojy@daum.net 900522-1023218
 5


In [51]:
# email중 아이디의 앞글자 한자리만 남기고 나머지는 *로 변경
# \B[a-zA-Z0-9+-_.]+@ -> 앞쪽이 문자열과 붙어있고, 알파벳, 숫자, +, -, _, .이 1개 이상이며, @가 붙어있는 문자열.
email_p = r'\B[a-zA-Z0-9+-_.]+@'
email_p = re.compile(email_p)

infos_blind_mail = email_p.sub('**@', infos)
print(infos_blind_mail)
infos_blind_mail = email_p.subn('**@', infos)
print(infos_blind_mail[0], infos_blind_mail[1])

김정수 k**@gmail.com 801023-1010221
박영수 p**@gmail.com 700121-1120212
이민영 l**@naver.com 820301-2020122
김순희 k**@daum.net 781223-2012212
오주연 o**@daum.net 900522-1023218

김정수 k**@gmail.com 801023-1010221
박영수 p**@gmail.com 700121-1120212
이민영 l**@naver.com 820301-2020122
김순희 k**@daum.net 781223-2012212
오주연 o**@daum.net 900522-1023218
 5


In [68]:
def blind_name(info):
    name_p = r'\B[가-힣]{2,}\b'
    name_p = re.compile(name_p)
    result = name_p.sub('**', info)
    return result

def blind_mail(info):
    email_p = r'\B[a-zA-Z0-9+-_.]+@'
    email_p = re.compile(email_p)
    result = email_p.sub('*@', info)
    return result

def blind_pnum(info):
    pnum_p = r'\B[0-9]{6}\b'
    pnum_p = re.compile(pnum_p)
    result = pnum_p.sub('******', info)
    return result

def blind_person_info(info):
    
    result = blind_name(info)
    result = blind_mail(result)
    result = blind_pnum(result)
    
    return result

In [70]:
print(blind_person_info(infos))

김** k*@gmail.com 801023-1******
박** p*@gmail.com 700121-1******
이** l*@naver.com 820301-2******
김** k*@daum.net 781223-2******
오** o*@daum.net 900522-1******



## 나누기(토큰화)
### split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환: 나눈 문자열을 원소로 하는 리스트

In [47]:
space_enter = r'\s+'
se_p = re.compile(space_enter)

infos_l = se_p.split(infos)

# 패턴내 하위패턴 만들기 (Grouping)
- 전체 패턴에서 일부 패턴들을 묶어 하위패턴으로 만든다.
- 구문: (패턴)

## 그룹핑 예

### 전체 패턴 내에서 일부 패턴을 조회

### 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

### 패턴내의 특정 부분만 변경

### group으로 묶인 것 참조(조회)
- **패턴 안에서 참조**
    - `\번호` , `r'(\d{3}) \1'` => 중복되는 것을 패턴으로 표현할 때.
- **match 조회**
    - match객체.group(번호)
- **sub() 함수에서 대체 문자로 참조**
    - `\g<번호>`

# Greedy 와 Non-Greedy
- **Greedy(탐욕스러운-최대일치)** 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- **Non-Greedy(최소일치)**
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자(수량자)에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

# 전방/후방 탐색
- 패턴과 일치하는 문자열을 찾을 때는 사용하되 반환(소비) 되지 않도록 하는 패턴이 있을 때 사용.
- **전방탐색**
    - 반환(소비)될 문자열들이 앞에 있는 경우.
    - 긍정 전방탐색
        - %%%(?=패턴) : %%%-반환될 패턴
    - 부정 전방탐색
        - %%%(?!패턴)  : 부정은 =를 !로 바꾼다.
- **후방탐색**
    - 반환(소비)될 문자열이 뒤에 있는 경우.
    - 긍정 후방탐색
        - (?<=패턴)%%%
    - 부정 후방탐색
        - (?<!패턴)%%%
        
