문자열변경: 함수를 이용해 어느정도 변경 가능

In [2]:
txt = "111-222-333"
"222" in txt

True

In [3]:
txt.replace("222","###")

'111-###-333'

In [4]:
txt.startswith("111")

True

In [5]:
txt.startswith("222")

False

- 모든 숫자를 바꾸거나 공백을 바꾸는 것은 함수로 가능하지 않음
- 정규표현식을 이용해 서 할 수 있다

# <font size=50>정규 표현식 (Regular Expression)</font>

# 1. 정규 표현식(Regular Expression) 개요

## 1.1. 정규 표현식이란
- 텍스트에서 특정한 형태나 규칙을 가지는 문자열을 찾기 위해 그 형태나 규칙을 정의하는 것.
- **파이썬 뿐만 아니라 문자열을 다루는 모든 곳에서 사용된다.**
- **정규식, Regexp**이라고도 한다.

## 1.2. 기본개념
- 패턴 
    - 정규 표현식이라고 한다.
    - 문장내에서 찾기위한 문구의 형태에 대한 표현식.
    
- 패턴의 종류
    - 메타문자: 
        - 패턴을 기술하기 위해 사용되는 특별한 의미를 가지는 문자
        - 예) `a*` : a가 0회 이상 반복을 뜻한다. a, aa, aaaa
    - 리터럴
        - 표현식이 값 자체를 의미하는 것
        - 예) `a`는 `a` 자체를 의미한다.    

# 2. 정규 표현식 메타 문자
- 패턴을 기술하기 위한 문자

## 2.1 문자 클래스 :  [  ]
- `[ ]` 사이의 문자들과 매칭
    - `[abc]` : a, b, c 중 **하나의 문자**와 매치
- `-`를 이용해 범위로 설정할 수 있다.
    - `[a-z]` : 알파벳소문자중 하나의 문자와 매치
    - `[a-zA-Z0-9]` : 알파벳대소문자와 숫자 중 하나의 문자와 매치
    - `[가-힣]` : 한글
    - `[ㄱ-ㅎ]` : 자음
- `[^ 패턴]` : ^ 으로 시작하는 경우 반대의 의미
    - `[^abc]` : a, b, c를 제외한 나머지 문자들 중 하나와 매치.
    - `[^a-z]` : 알파벳 소문자를 제외한 나머지 문자들 중 하나와 매치

## 2.2 미리 정의된 문자 클래스
자주 사용되는 문자클래스를 미리 정의된 별도 표기법으로 제공한다.
- `\소문자`  <-> `\대문자`
- `\d` : 숫자와 매치. [0-9]와 동일
- `\D` : `\d`의 반대. 숫자가 아닌 문자와 매치.  [^0-9]와 동일
- `\w` : 문자와 숫자, _(underscore)와 매치. `[a-zA-Z0-9_]`와 동일
- `\W` : `\w`의 반대. 문자와 숫자와 _ 가 아닌 문자와 매치.  `[^a-zA-Z0-9_]`와 동일
- `\s` : 공백문자와 매치. tab,줄바꿈,공백문자와 일치
- `\S` : `\s`와 반대. 공백을 제외한 문자열과 매치.
- `\b` : 단어 경계(word boundary) 표시. 보통 단어 경계로 공백을 의미
    - `\b가족\b` => 우리 가족 만세(O), 우리가족만세 (X)
- `\B` : `\b`의 반대. 단어 경계로 구분된 단어가 아닌 경우
    - `\B가족\B` => 우리 가족 만세(X), 우리가족만세 (O)

## 2.3. 글자수와 관련된 메타문자
- `.` : 한개의 모든 문자(\n-줄바꿈 제외) (`a.b`)
- `*` : 앞의 문자(패턴)과 일치하는 문자가 0개 이상인 경우. (`a*b`)
- `+` : 앞의 문자(패턴)과 일치하는 문자가 1개이상인 경우.  (`a+b`)
- `?` :  앞의 문자(패턴)과 일치하는 문자가 한개 있거나 없는 경우. (`a?b`)
- `{m}` : 앞의 문자(패턴)가 m개. (`a{3}b`)
- `{m,}` : 앞의 문자(패턴)이 m개 이상. (`a{3,}b`)
    - , 뒤에 공백이 들어오지 않도록 한다.
- `{m,n}` : 앞의 문자(패턴)이 m개이상 n개 이하. (`a{2,5}b`)    
- `.`, `*`, `+`, `?` 를 리터럴로 표현할 경우 `\`를 붙인다.

## 2.4. 문장의 시작과 끝 표현
- `^` 문자열의 시작 (`^abc`)
    - 문자 클래스([ ])의 ^와는 의미가 다르다.
- `$` : 문자열의 끝 (`abc$`)

## 2.5. 기타
- `|` : 둘중 하나 (OR) (010|011|016|019)
    - 보통 ( )로 묶어서 사용한다. --> 생략가능 
    - 010|016-111 : 010 또는 016-111 이 된다. 
- `(  )` : 패턴내 하위그룹을 만들때 사용

# 3. re 모듈
- 파이썬에서 정규 표현식을 지원하기 위한 모듈
- 파이썬 기본 라이브러리

## 3.1 코딩패턴
1. 모듈 import
    - import re
2. 패턴 객체 생성
    - 패턴 컴파일
    - 패턴을 가지고 있는 객체 생성
3. 텍스트에서 패턴 문자열 검색또는 변경 작업

> ### raw string
> - 패턴을 지정하는 문자열 앞에 r 표시구분자를 붙인 것을 말한다.
> - `\`를 일반문자로 처리
>    - `re.compile('\b가족\b')` : `\b`를 escape 문자 b(백스페이스)로 인식
>    - `re.compile(r'\b가족\b')` : `\b`가 일반문자가 되어 컴파일시 정규식 메타문자로 처리된다.


In [52]:
txt = 'a\tb\n\c\b' # \b:지우기: 이스케이프 문자
print(txt)
txt = 'a\tb\n\c\\b' # \을 \b앞에 하나 붙여줌으로 스트링으로 바꿈 
print(txt)

a	b
\c
a	b
\c\b


`r" "`: raw string으로 바꿈

In [13]:
txt = r'a\tb\n\c\b'
print(txt)

a\tb\n\c\b


**정규식을 만들땐 raw string을 이용해 문자열로 만든다**

> ### 정규식 관련 함수 구문의 두 형태
1. pattern객체.함수(매개변수) *--> 객체지향적 호출방식*
    - 같은 패턴을 여러번 사용할 때 편리함
    ```python
        p = re.compile(r'\d+') # 패턴을 만드는 함수 객체
        p.search('abc123def')  # 패턴을 찾는 함수
    ```
2. re.정규식사용함수(패턴, 매개변수) *--> 함수형 호출방식*
    ```python
        re.search(r'\d+', 'abc123def')
    ```

## 3.2. 검색함수
- `match()` : 패턴과 일차하는 문장으로 **시작하는지** 확인
- `search()` : 패턴과 일치하는 문장이 **있는지 여부**를 확인할 때 사용
- `findall()` : 패턴과 일치하는 문장을 **모두 찾을 때** 사용

### 3.2.1. Match 객체
- **검색 결과를** 담아 반환되는 객체
    - match(), search() 의 반환타
- 패턴과 일치한 문자열과 대상문자열 내에서의 위치를 가지고 있는 객체
- 주요 메소드
    - **group()** : 매치된 문자열들을 튜플로 반환
    - **group(subgroup 번호)** : 패턴에 하위그룹이 지정된 경우 특정 그룹의 문자열 반환
    - **start(), end()** : 대상 문자열내에서 시작, 끝 index 반환
    - **span()** : 대상 문자열 내에서 시작, 끝 index를 tuple로 반환

### 3.2.2 match(대상문자열 [, pos=0])
- 대상 문자열의 시작 부터 정규식과 일치하는 것이 있는지 조회
- pos : 시작 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우

re정규식 활용

In [54]:
import re

txt = "안녕하세요. 제 나이는 20세 입니다."
#txt가 안녕하세요, 반갑습니다 로 **시작**하는지?   => match()
m = re.match(r"안녕하세요|반갑습니다",txt)
m
print(m)
print(m.group())
print(m.span())
print(m.start())
print(m.end())

<re.Match object; span=(0, 5), match='안녕하세요'>
안녕하세요
(0, 5)
0
5


패턴객체 이용 정규식 사용

In [74]:
txt = "안녕하세용 반갑습니다"
p = re.compile(r'안녕하세요|반갑습니다')
m = p.match(txt)
if m:
    print(m.group())
else: 
    print("못찾았다")
m2 = p.search("abc 안녕하세요 abc")
print(m2)
print(m2.group())
f = p.findall(txt)
print(f)

못찾았다
<re.Match object; span=(4, 9), match='안녕하세요'>
안녕하세요
['반갑습니다']


span = 찾은 문자열 위치 match = 검색결과

In [20]:
import re

txt = "반갑습니다. 제 나이는 20세 입니다."
#txt가 안녕하세요, 반갑습니다 로 **시작**하는지?   => match()
m = re.match(r"안녕하세요|반갑습니다",txt)
m

<re.Match object; span=(0, 5), match='반갑습니다'>

In [21]:
import re

txt = " 제 나이는 20세 입니다."
#txt가 안녕하세요, 반갑습니다 로 **시작**하는지?   => match()
m = re.match(r"안녕하세요|반갑습니다",txt)
print(m)

None


In [29]:
import re

txt = "제 나이는 20세 입니다. 안녕하세요."
#txt가 안녕하세요, 반갑습니다 로 **시작**하는지?   => match()
m = re.match(r"안녕하세요|반갑습니다",txt)
print(m)

None


In [31]:
txt2 = "30으로 시작합니다"
m = re.match(r"\d", txt2) #\d => 정수하나
if m: #None이 아니면
    print(m.group())
else:
    print("숫자로 시작 안함")
    

3


In [32]:
txt2 = "30으로 시작합니다"
m = re.match(r"\d{2}", txt2) #\d{2} => 정수 두개
if m: #None이 아니면
    print(m.group())
else:
    print("숫자로 시작 안함")
    

30


In [4]:
import re
txt2 = "3으로 시작합니다"
m = re.match(r"\d{2}", txt2) #\d{2} => 정수 두개
if m: #None이 아니면
    print(m.group())
else:
    print("숫자한자리로 시작 안함")

숫자한자리로 시작 안함


### 3.2.3 search(대상문자열 [, pos=0])
- 대상문자열 전체 안에서 정규식과 일치하는 것이 있는지 조회
- pos: 찾기 시작하는 index 지정
- 반환값
    - Match 객체: 일치하는 문자열이 있는 경우
    - None: 일치하는 문자열이 없는 경우|

In [39]:
txt = "안녕하세요. 제 나이는 20세 입니다.30,40"
m = re.search(r'\d{2}',txt)
print(m)

# 첫번째로 일차하는 패턴만 조회

<re.Match object; span=(13, 15), match='20'>


In [40]:
p = re.compile(r'\d{2}')
m = p.search(txt,pos=15)  #15번쨰 글자부터 찾아라
print(m)

<re.Match object; span=(21, 23), match='30'>


search는 아래의 함수를 사용하는 것과 같은 역할을 함

In [49]:
def my_search(pattern, txt):
    p = re.compile(pattern)
    m = p.search(txt)
    return m

In [50]:
m = my_search(r'\d{2}','aaa 20 aaa')
print(m)

<re.Match object; span=(4, 6), match='20'>


### 3.2.4. findall(대상문자열)
- 대상문자열에서 정규식과 매칭되는 문자열들을 리스트로 반환
- 반환값
    - 리스트(List) : 일치하는 문자열들을 가진 리스트를 반환
    - 일치하는 문자열이 없는 경우 빈 리스트 반환

In [70]:
import re
txt = 'Life is short. You need python.'
# 대괄호[]: or
# p = re.compile(r'[abcde]')  # a,b,c,d,e 중 하나  = r'[a-e]'
p = re.compile(r'[a-zA-z]')
s = p.search(txt)
print(s)
r = p.findall(txt)
print(r)

#여러글자를 찾고싶은 경우
p = re.compile(r'[a-zA-z]+') #앞의 것이 1번이상 반복
r = p.findall(txt)
print(r)

<re.Match object; span=(0, 1), match='L'>
['L', 'i', 'f', 'e', 'i', 's', 's', 'h', 'o', 'r', 't', 'Y', 'o', 'u', 'n', 'e', 'e', 'd', 'p', 'y', 't', 'h', 'o', 'n']
['Life', 'is', 'short', 'You', 'need', 'python']


In [75]:
import re
txt = 'Life is short. You need python.'
# 대괄호[]: or
# p = re.compile(r'[abcde]')  # a,b,c,d,e 중 하나  = r'[a-e]'
p = re.compile(r'[a-zA-z]')
r2 = re.findall(r'[a-zA-z]{4}', txt) #{4}: 앞의 패턴이 4개
print(r2)

['Life', 'shor', 'need', 'pyth']


### 예제
- info 변수는 한줄에 한사람의 data가 있고 구성은 **`이름 이메일주소 주민번호`** 순서로 되어있다.

In [178]:
info ='''김정수 kjs@gmail.com 801023-1010221
박영수 py-s@gmail.com 700121-1120212
이민영 lmy@naver.com 820301-2020122
김순희 ksh@daum.net 781223-2012212
오주연 ojy@daum.net 900522-1023218
'''

In [179]:
# \w: [모든글자, 숫자,_]
# 이메일 주소만 조회
import re
# pattern = r"[a-zA-Z0-9]+@[a-zA-Z]+\.[a-zA-Z]{2,3}"
# pattern = r"^[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$" #인터넷 조회 이메일 패턴

pattern2 = r'[0-9a-zA-Z]([-_.]?[0-9a-zA-Z])*@[0-9a-zA-Z]([-_.]?[0-9a-zA-Z])*.[a-zA-Z]{2,3}'
p2 = re.compile(pattern2)
m2 = p2.search(info)
print(p2.findall(info))
print(m2.group())
print(m2.group(1))
print(m2.group(2))

# ?: ()안을 하위그뤂이 아닌, 묶어주는 형식으로 
pattern = r'[0-9a-zA-Z](?:[-_.]?[0-9a-zA-Z])*@[0-9a-zA-Z](?:[-_.]?[0-9a-zA-Z])*.[a-zA-Z]{2,3}'
p = re.compile(pattern)
m = p.search(info)
#email 주소 있는지 여부 조회
if m:
    print(m.group())

        
else:
    print("이메일 없음")

#모든 이메일 다 조회
email_list = p.findall(info)
email_list

[('s', 'l'), ('-s', 'l'), ('y', 'r'), ('h', 'm'), ('y', 'm')]
kjs@gmail.com
s
l
kjs@gmail.com


['kjs@gmail.com',
 'py-s@gmail.com',
 'lmy@naver.com',
 'ksh@daum.net',
 'ojy@daum.net']

In [103]:
# 주민번호만 출력 {6}, {6,10}, {6,}

pattern = r'[0-9]{6}-[1-4][0-9]{6}' # \d == [0-9]
pattern = r'\d{6}-[1-4]\d{6}'
p = re.compile(pattern)
j_list = p.findall(info)
j_list

['801023-1010221',
 '700121-1120212',
 '820301-2020122',
 '781223-2012212',
 '900522-1023218']

### finditer(대상문자열)
- 패턴에 일치하는 모든 문자열을 찾아주는 Iterator => for문, list()
- 찾은 문자열을 Match 객체로 반환

In [129]:
import re
pattern = r'\d{6}-[1234]\d{6}'
p = re.compile(pattern)
p.finditer(info)
for m in p.finditer(info):
    print(m)
    print(m.group(),m.start(),m.end(),m.span())

<re.Match object; span=(18, 32), match='801023-1010221'>
801023-1010221 18 32 (18, 32)
<re.Match object; span=(51, 65), match='700121-1120212'>
700121-1120212 51 65 (51, 65)
<re.Match object; span=(84, 98), match='820301-2020122'>
820301-2020122 84 98 (84, 98)
<re.Match object; span=(116, 130), match='781223-2012212'>
781223-2012212 116 130 (116, 130)
<re.Match object; span=(148, 162), match='900522-1023218'>
900522-1023218 148 162 (148, 162)


In [131]:
for m in re.finditer(pattern,info):
    print(m)

<re.Match object; span=(18, 32), match='801023-1010221'>
<re.Match object; span=(51, 65), match='700121-1120212'>
<re.Match object; span=(84, 98), match='820301-2020122'>
<re.Match object; span=(116, 130), match='781223-2012212'>
<re.Match object; span=(148, 162), match='900522-1023218'>


## 3.3. 문자열 변경
- sub(): 변경된 문자열 반환
- subn(): 변경된 문자열(바뀐 후 값), 변경개수(num of changed characters) 반환

### 3.3.1 sub(바꿀문자열, 대상문자열 [, count=양수])
- 대상문자열에서 패턴과 일치하는 것을 바꿀문자열로 변경한다.
- count: 변경할 개수를 지정. 기본: 매칭되는 문자열은 다 변경
- 반환값: 변경된 문자열

### 3.3.2 subn(바꿀문자열, 대상문자열 [, count=양수])
- sub()와 동일한 역할.
- 반환값 : (변경된 문자열, 변경된문자열개수) 를 tuple로 반환

### 예제 

In [139]:
# 띄여 쓰기 여러개를 한개로 변경.
txt= "오늘            밥을           먹었다." # "오늘 밥을 먹었다."

import re

p = re.compile(r'\s+') #\s: 모든 공백들
txt2 = p.sub(" ",txt)
print(txt2)

txt3 = p.subn(" ",txt)
print(txt3)

오늘 밥을 먹었다.
('오늘 밥을 먹었다.', 2)


In [142]:
# 전화번호에서 사용된 구분자를 제거. 각 전화번호를 구분하는 공백은 남긴다.
tel = '010-1111-2222, 01033213201 (010)3213-3031'

pattern = r'[^0-9 ]'
p = re.compile(pattern)
tel2 = p.subn("",tel)
tel2

('01011112222 01033213201 01032133031', 6)

## 3.4 나누기(토큰화)
### 3.4.1 split(대상문자열)
- pattern을 구분자로 문장을 나눈다.
- 반환: 나눈 문자열을 원소로 하는 리스트

In [152]:
txt = 'A.B|C.D,Ee:F 0'

import re
p = re.compile(r'[.|,: ]')
l = p.split(txt)
l

['A', 'B', 'C', 'D', 'Ee', 'F', '0']

In [151]:
re.split(r'\W',txt)

['A', 'B', 'C', 'D', 'Ee', 'F', '0']

# 4. 그룹핑(Grouping)
- 패턴 내에서 하위패턴을 만드는 것.
    - 전체 패턴에서 일부 패턴을 묶어준다.
- 구문: (패턴)

pattern = (group1) - (group2) -  (group3)

(1)-(2(3)-(4))-(5(6))

## 4.1. 그룹핑 예

### 4.1.1 전체 패턴 내에서 일부 패턴을 조회

In [171]:
# 전화번호에서 국번만 조회하려는 경우
tel = 'tel: 010-1111-2345'
pattern = r'(\d{2,3})-(\d{3,4})-(\d{4})'
p = re.compile(pattern)
m = p.search(tel)
if m:
    print(m.group())
    print(m.group(1))
    print(m.group(2))
    print(m.group(3))


010-1111-2345
010
1111
2345


In [180]:
# 전화번호에서 국번만 조회하려는 경우
tel = 'tel: 010-1111-2345'
pattern = r'(\d{2,3})-((\d{3,4})-(\d{4}))'
p = re.compile(pattern)
m = p.search(tel)
if m:
    print(m)
    print(m.group())
    print(m.group(1))
    print(m.group(2))
    print(m.group(3))
    print(m.group(4))

<re.Match object; span=(5, 18), match='010-1111-2345'>
010-1111-2345
010
1111-2345
1111
2345


In [None]:
# 중첩 그룹
num = '010-1111-2345-9999'


### 4.1.2 패턴 내에서 하위그룹 참조
- `\번호`
- 지정한 '번호' 번째 패턴으로 매칭된 문자열과 같은 문자열을 의미

In [183]:
import re
p = re.compile(r'\d{2,3}-(\d{3,4})-\1') #\1: 1번 그룹의 패턴으로 찾은 값과 동일한 값 
print(p.search('010-2222-3333'))
print(p.search('010-3333-3333'))
print(p.search('010-3232-3232'))

None
<re.Match object; span=(0, 13), match='010-3333-3333'>
<re.Match object; span=(0, 13), match='010-3232-3232'>


In [184]:
import re
p = re.compile(r'(\d{2,3})-(\d{3,4})-\1') #\1: 1번 그룹의 패턴으로 찾은 값과 동일한 값 
print(p.search('010-2222-3333'))
print(p.search('010-3333-010'))
print(p.search('010-3232-3232'))

None
<re.Match object; span=(0, 12), match='010-3333-010'>
None


In [187]:
p = re.compile(r'(\w+)\s\1')
print(p.search('나는 정말 정말 너무 너무 어구배고 배고프다'))
print(p.findall('나는 정말 정말 정말 너무 너무 어구배고 배고프다'))

<re.Match object; span=(3, 8), match='정말 정말'>
['정말', '너무', '배고']


In [188]:
p = re.compile(r'(\w+)\s\1\s\1')
print(p.search('나는 정말 정말 너무 너무 어구배고 배고프다'))
print(p.findall('나는 정말 정말 정말 너무 너무 어구배고 배고프다'))

None
['정말']


In [190]:
jumin = '911123-1027212'
pattern = r'(\d{6}-[1-4])\d{6}'
p = re.compile(pattern)
print(p.sub('\g<1>******',jumin))   #\g<1>: 첫번쩨 그룹은 그대로 써라
print(p.sub('\g<1>******',info))

911123-1******
김정수 kjs@gmail.com 801023-1******
박영수 py-s@gmail.com 700121-1******
이민영 lmy@naver.com 820301-2******
김순희 ksh@daum.net 781223-2******
오주연 ojy@daum.net 900522-1******



In [193]:
pattern = r'(\d{6})-(\d{7})'
p = re.compile(pattern)
print(p.sub(r'\g<1>-\g<1>:\g<2>',jumin))
print(p.sub(r'생년월일:\g<1>\n뒷자리:\g<2>',jumin))

911123-911123:1027212
생년월일:911123
뒷자리:1027212


#### Group으로 묶인 것 참조(조회)
- 패턴 안에서 참조
    - `\번호`: `r'(\d{3}) \1'`   => 중복되는 것을 패턴으로 표현할 때
    - match 조회
        - match객체.group(번호)
    - sub() 함수에서 대체문자로 참조
        - `\g<번호>`

# 5. Greedy 와 Non-Greedy
- Greedy(탐욕스러운-*최대일치*) 의 의미
    - 주어진 패턴에 만족하는 문자열을 최대한 넓게(길게) 잡아 찾는다.
    - 매칭시 기본 방식
- Non-Greedy(*최소일치*)
    - 주어진 패턴에 만족하는 문자열을 최초의 일치하는 위치까지 찾는다
    - 개수를 나타내는 메타문자에 **`?`**를 붙인다.
    - `*?`, `+?`, `{m,n}?`

Greedy:

In [195]:
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'
pattern = r'<.*>' # .*:한글자 이상 
p = re.compile(pattern)
p.findall(txt)

['<h1>파이썬 정규식<h2>정규식이란</h2></h1>']

Non-Greedy:

In [196]:
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'
pattern = r'<.*?>' # .*:한글자 이상 
p = re.compile(pattern)
p.findall(txt)

['<h1>', '<h2>', '</h2>', '</h1>']

In [197]:
txt = '<h1>파이썬 정규식<h2>정규식이란</h2></h1>'
pattern = r'<.*?정' # .*:한글자 이상 
p = re.compile(pattern)
p.findall(txt)

['<h1>파이썬 정', '<h2>정']