In [2]:
txt='111-222-333'
'222' in txt

True

In [4]:
txt.replace('222','###')

'111-###-333'

In [5]:
txt.startswith('111')  # txt의 문자열이 '111'로 시작하냐

True

In [None]:
# 간단히 생각해서 위 내용들의 업그레드 버전이 정규표현식

# <font size=50>정규 표현식 (Regular Expression)</font>

# 1. 정규 표현식(Regular Expression) 개요

## 1.1. 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- 파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.
- **정규식, Regexp**이라고도 한다.

## 1.2. 기본개념
- 패턴 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
- 메타문자
    - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
    - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
- 리터럴
    - 표현식이 값 자체를 의미하는 것
    - 예) `a`는 `a` 자체를 의미한다.    

# 2. 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 2.1 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치 
    - `[가-힣]` or `[ㄱ-힣]` : 한글
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 2.2 미리 정의된 문자 클래스
- 자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z0-9_]`와 동일
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 보통 단어 경계로 공백을 의미
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 2.3. 글자수와 관련된 메타문자
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 를 리터럴로 표현할 경우 `\`를 붙인다.

만약 메타문자가 아니라 문자 자체로 쓰고싶을 경우 `\.` 와 같이 앞에 `\`를 붙인다.

## 2.4. 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 2.5. 기타
- `|` : 둘중 하나 (OR) (010|011|016|019)
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 3. re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 3.1 코딩패턴
1. 모듈 import
    - import re
2. 패턴 객체 생성
    - 패턴 컴파일
    - 패턴을 가지고 있는 객체 생성
3. 텍스트에서 패턴 문자열 검색또는 변경 작업

> ### raw string
> - 패턴을 지정하는 문자열 앞에 r 표시구분자를 붙인 것을 말한다.
> - `\`를 일반문자로 처리
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


In [9]:
txt='a\tb\n\c'
txt2=r'a\tb\n\c' # 문자열 앞에 r을 붙이면 정규식표현이 아닌 있는 그대로 써라
print(txt)
print(txt2)

a	b
\c
a\tb\n\c


> ### 정규식 관련 함수 구문의 두 형태
1. pattern객체.함수(매개변수)
    ```python
        p = re.compile(r'\d+')
        p.search('abc123def')
    ```
2. re.정규식사용함수(패턴, 매개변수)
    ```python
        re.search(r'\d+', 'abc123def')
    ```

## 3.2. 검색함수
- match(), search() : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- findall() : 패턴과 일치하는 문장을 **찾을 때** 사용

### 3.2.1. Match 객체
- **검색 결과를** 담아 반환되는 객체
    - match(), search() 의 반환타
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### 3.2.2 match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

In [3]:
import re
txt = "안녕하세요. 제 나이는 20세 입니다."
#txt = "반갑습니다. 제 나이는 20세 입니다."
#txt = "제 나이는 20세 입니다."
# txt가 '안녕하세요' or '반갑습니다' 로 **시작**하는지 확인 => match() 함수 사용
m = re.match(r'안녕하세요|반갑습니다', txt)
print(m)
print(m.group())
print(m.span())
print(m.start())
print(m.end())
# re.Match: 결과를 match에 담는다

<re.Match object; span=(0, 5), match='안녕하세요'>
안녕하세요
(0, 5)
0
5


In [4]:
p=re.compile(r'안녕하세요|반갑습니다')
m=p.match(txt)
if m:  # 매치되는것이 존재한다. (True)
    print(m.group())
else:  # 존재하지 않는다. (False)
    print("xxx")

안녕하세요


In [6]:
m2=p.search("abc 안녕하세요 반갑습니다 abc") # 찾고자 하는 여러 문자열이 모두 존재해도 첫번째 패턴만 찾아내고 끝냄
print(m2)

<re.Match object; span=(4, 9), match='안녕하세요'>


In [23]:
txt2="30으로 시작합니다."
m = re.match(r'\d{2}', txt2)  # \d=>정수, \d\d or \d{2} => 정수 2개로 시작하니?
if m: # m값이 있다면=True라면, 즉 None 이 아니라면
    print(m.group())
else:
    print("숫자로 시작안함")

30


In [24]:
txt2="3으로 시작합니다."
m = re.match(r'\d{2}', txt2)  # \d=>정수, \d\d or \d{2} => 정수 2개로 시작하니?
if m: # m값이 있다면=True라면, 즉 None 이 아니라면
    print(m.group())
else:
    print("숫자로 시작안함")

숫자로 시작안함


### 3.2.3 search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [29]:
txt = "안녕하세요. 제 나이는 20세 30, 40 입니다."
m = re.search(r'\d{2}',txt) # 문자열내에 정수 2개가 있니? / match: 시작하니? search: 있니?
print(m)

<re.Match object; span=(13, 15), match='20'>


In [32]:
p = re.compile(r'\d{2}')
m = p.search(txt, pos=15)   # 문자열의 15번째뒤로 정수 2개가 있니?
m

<re.Match object; span=(17, 19), match='30'>

In [35]:
def my_search(pattern, txt):
    p = re.compile(pattern)
    m = p.search(txt)
    return m

In [36]:
m = my_search(r'\d{2}', 'aaa 20 aaa')
print(m)

<re.Match object; span=(4, 6), match='20'>


### 3.2.4. findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [13]:
import re
txt = 'Life is short. You need python.'
p=re.compile(r'[a-zA-Z]')
print(p.search(txt))  # search는 첫번째로 찾은 문자열만 반환
p.findall(txt)   # a-zA-Z 에 매치되는 모!든! 문자열을 리스트로 반환

<re.Match object; span=(0, 1), match='L'>


['L',
 'i',
 'f',
 'e',
 'i',
 's',
 's',
 'h',
 'o',
 'r',
 't',
 'Y',
 'o',
 'u',
 'n',
 'e',
 'e',
 'd',
 'p',
 'y',
 't',
 'h',
 'o',
 'n']

In [22]:
import re
txt = 'Life is short. You need python.'
p=re.compile(r'[a-zA-Z]+')  # +: 앞의 패턴이 여러번(1번이상) 반복
print(p.search(txt))  # search는 첫번째로 찾은 문자열만 반환
p.findall(txt)   # a-zA-Z 에 매치되는 모!든! 문자열을 리스트로 반환

<re.Match object; span=(0, 4), match='Life'>


['Life', 'is', 'short', 'You', 'need', 'python']

In [23]:
r=p.findall(txt)   # a-zA-Z 에 매치되는 모!든! 문자열을 리스트로 반환
r2=re.findall(r'[a-zA-Z]{4}', txt) # {4}: 앞의 패턴이 4개가 연속되게 반환 ex)is뒤에는 공백이므로 탈락, short는 4개만 연속되므로 shor까지 반환
r2

['Life', 'shor', 'need', 'pyth']

### 예제
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [25]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 pys@gmail.com 700121-1120212
이민영 lmy@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

# [0-9a-zA-Z]+@[a-zA-Z]+\.[a-zA-Z]{2,3}
# \w: [모든문자열,숫자,_]
# [abc ]

In [34]:
# 이메일 주소만 조회
import re
pattern=r'[0-9a-zA-Z](?:[-_.]?[0-9a-zA-Z])*@[0-9a-zA-Z](?:[-_.]?[0-9a-zA-Z])*.[a-zA-Z]{2,3}'
p=re.compile(pattern)
# 이메일 주소가 존재하는지 여부만 확인
m = p.search(info)
if m:
    print(m)
else:
    print("이메일주소 없음")

<re.Match object; span=(4, 17), match='kjs@gmail.com'>


In [37]:
# 모든 이메일 주소 조회
email_list=p.findall(info)
email_list
#for email in p.finditer(info):
#    print(email)

['kjs@gmail.com',
 'pys@gmail.com',
 'lmy@naver.com',
 'ksh@daum.net',
 'ojy@daum.net']

In [39]:
# 주민번호만 출력  {}:개수 => {6}:6개 / {6,10}:6~10개 / {6,}:6개 이상
pattern=r'[0-9]{6}-[1-4][0-9]{6}'  # [1-4] or [1234] : 1,2,3,4 중 하나
# 다른 방법 => pattern=r'\d{6}-[1-4]\d{6}'  # \d == [0-9]: 숫자 1개

p=re.compile(pattern)
j_list=p.findall(info)
j_list

['801023-1010221',
 '700121-1120212',
 '820301-2020122',
 '781223-2012212',
 '900522-1023218']

### finditer(대상문자열)
 - 패턴에 일치하는 모든 문자열을 찾아주는 Iterator => for문, list()
 - 찾은 문자열을 Match 객체로 반환 

In [40]:
import re

In [51]:
pattern=r'\d{6}-[1234]\d{6}'
p=re.compile(pattern)
for m in p.finditer(info):
#    print(m)
    print(m.group(),m.start(),m.end(),m.span())
    
# re.finditer(pattern,info)

801023-1010221 18 32 (18, 32)
700121-1120212 51 65 (51, 65)
820301-2020122 84 98 (84, 98)
781223-2012212 116 130 (116, 130)
900522-1023218 148 162 (148, 162)


<callable_iterator at 0x19098f6ed68>

## 3.3. 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열, 변경개수 반환

### 3.3.1 sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### 3.3.2 subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

### 예제 

In [52]:
# 띄여 쓰기 여러개를 한개로 변경.
txt= "오늘            밥을           먹었다." # "오늘 밥을 먹었다."
import re
#p = re.compile(r'[ ]+') # [ ]+ : 연이은 공백 여러개
p = re.compile(r'\s+')  # \s: 공백 하나 \s+: 공백 여러개
txt2 = p.sub(' ', txt)  # ' ': 공백 하나로 변경 
txt2

'오늘 밥을 먹었다.'

In [54]:
txt3 = p.subn(' ', txt)  # subn: 변경 후 변경된 문자의 개수도 반환
txt3

('오늘 밥을 먹었다.', 2)

In [55]:
# 전화번호에서 사용된 구분자를 제거. 각 전화번호를 구분하는 공백은 남긴다.
tel = '010-1111-2222, 01033213201 (010)3213-3031'
# pattern=r'^a' : 문자열로 a로 시작하여라 r'[^abc]': abc를 제외한 나머지
pattern=r'[^0-9]'
p=re.compile(pattern)
tel2=p.subn("",tel)  # "": 지워라 / " ":공백
tel2

('010111122220103321320101032133031', 8)

In [56]:
pattern=r'[^0-9 ]'  # 구분자 공백을 포함하려면 뒤에 공백표시
p=re.compile(pattern)
tel3=p.subn("",tel)  # "": 지워라 / " ":공백
tel3

('01011112222 01033213201 01032133031', 6)

## 3.4 나누기(토큰화)
### 3.4.1 split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환: 나눈 문자열을 원소로 하는 리스트

In [59]:
txt = 'A.B|C.D,E:F'

In [60]:
import re
p=re.compile(r'[.|,:]')
l=p.split(txt)
l

['A', 'B', 'C', 'D', 'E', 'F']

In [62]:
re.split(r'\w', txt)  # 글자가 구분자가 되어 특수문자가 분리됨

['', '.', '|', '.', ',', ':', '']

In [63]:
re.split(r'\W', txt)  # \W: \w의 반대 즉 문자빼고 나머지가 구분자가 됨

['A', 'B', 'C', 'D', 'E', 'F']

# 4. 그룹핑(Grouping)
- 패턴 내에서 하위패턴을 만드는 것.
    - 전체 패턴에서 일부 패턴을 묶어준다.
- 구문: (패턴)

## 4.1. 그룹핑 예

### 4.1.1 전체 패턴 내에서 일부 패턴을 조회

In [70]:
# 전화번호에서 국번만 조회하려는 경우
tel = 'TEL:010-1111-2345'
pattern=r'(\d{2,3})-(\d{3,4})-(\d{4})'  # 전체 전화번호 패턴을 먼저 생성해야 함
p = re.compile(pattern)
m = p.search(tel)
if m:
    print(m.group())
    print(m.group(1))  # 패턴 중 첫번째 괄호의 값만 반환
    print(m.group(2))
    print(m.group(3))

010-1111-2345
010
1111
2345


In [76]:
pattern=r'(\d{2,3})-((\d{3,4})-(\d{4}))'
p = re.compile(pattern)
m = p.search(tel)
if m:
    print(m.group())
    print(m.group(1))  # 패턴 중 첫번째 괄호의 값만 반환
    print(m.group(2))
    print(m.group(3))
    print(m.group(4))

010-1111-2345
010
1111-2345
1111
2345


In [None]:
# 중첩 그룹
num = '010-1111-2345-9999'


### 4.1.2 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

In [83]:
import re
# p=re.compile(r'\d{2,3}-(\d{3,4})-\1')  # \1: 앞의 패턴과 일치하는 것 즉, 반복되는 것 ex)010-3232-3232
p=re.compile(r'(\d{2,3})-(\d{3,4})-\1')
print(p.search('010-2222-3333'))
print(p.search('010-3333-3333'))
print(p.search('010-3232-3232'))
print(p.search('010-3232-010'))

None
None
None
<re.Match object; span=(0, 12), match='010-3232-010'>


In [84]:
p=re.compile(r'(\w+)\s\1')
print(p.search('나는 정말 정말 배가 고파요'))

<re.Match object; span=(3, 8), match='정말 정말'>


In [85]:
p=re.compile(r'(\w+)\s\1\s\1')
print(p.search('나는 정말 정말 정말 배가 고파요'))

<re.Match object; span=(3, 11), match='정말 정말 정말'>


In [86]:
# 주민번호 뒷자리 변경
jumin='891105-2222222'
pattern=r'(\d{6}-[1-4])\d{6}'  # 바꾸지 않을것은 ()로 묶는다
p=re.compile(pattern)
p.sub(r'\g<1>******',jumin)  # \g<1>: 첫번째 그룹은 그대로

'891105-2******'

In [88]:
print(p.sub('\g<1>******',info))

김정수 kjs@gmail.com 801023-1******
박영수 pys@gmail.com 700121-1******
이민영 lmy@naver.com 820301-2******
김순희 ksh@daum.net 781223-2******
오주연 ojy@daum.net 900522-1******



In [103]:
pattern=r'(\d{6})-(\d{7})'
p=re.compile(pattern)
print(p.sub('\g<1>-\g<1>-\g<1>', jumin))   # 앞의 그룹을 반복하여 반환   
print(p.sub('\g<1>-\g<1>-\g<1>:\g<2>-\g<2>***안녕', jumin))
print(p.sub('\g<1>', jumin))

891105-891105-891105
891105-891105-891105:2222222-2222222***안녕
891105


### group으로 묶인 것 참조(조회)
 - 패턴 안에서 참조
     - `\번호`, `r'(\d{3} \1)'` => 중복되는 것을 패턴으로 표현할 때
 - match 조회
     - match객체.group(번호)
 - sub() 함수에서 대체 문자로 참조
     - `\g<번호>`

# 5. Greedy 와 Non-Greedy
- Greedy(탐욕스러운-최대일치) 의 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- Non-Greedy(최소일치)
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

In [104]:
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'
pattern=r'<.*>'  # <.*>: 문장내 <가 시작하는 순간부터 문장 내 마지막 >까지 싹 다 반환     /  .: 문자or숫자 한글자  .*: 한글자 이상
p=re.compile(pattern)
p.findall(txt)


['<h1>파이썬 정규식<h2>정규식이란</h2></h1>']

In [106]:
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'
pattern=r'<.*?>'  # <.*?>: 뒤에 ?를 붙이면 < >을 하나씩 각각 따로 반환
p=re.compile(pattern)
p.findall(txt)

['<h1>', '<h2>', '</h2>', '</h1>']