# 정규 표현식은 왜 필요한가?
문제) 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경해 보자.

먼저 정규식을 전혀 모르면 다음과 같은 순서로 프로그램을 작성해야 할 것이다.

1. 전체 텍스트를 공백 문자로 나눈다(split).
2. 나뉜 단어가 주민등록번호 형식인지 조사한다.
3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다.
4. 나뉜 단어를 다시 조립한다.    조립한다.

In [1]:
data = '''
park 800905-1049118
kim  700905-1059119
'''

result = []
for line in data.split('\n'):
    word_result = []
    for word in line.split(' '):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))

print('\n'.join(result))


park 800905-*******
kim  700905-*******



In [2]:
# 정규표현식을 사용하여 훤씬 간편하고 직관적이 코드 작성
import re

data = '''
park 800905-1049118
kim  700905-1059119
'''

pat = re.compile(r"(\d{6})[-]\d{7}")
print(pat.sub(r"\g<1>-*******", data))


park 800905-*******
kim  700905-*******



# 정규 표현식의 기초, 메타 문자
메타 문자란 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자를 말한다.

### [ ] 문자 - 문자 클래스
문자 클래스(character class)로 만들어진 정규식은 `[` 와 `]` 사이의 문자들과 매치’라는 의미    
`[ ]` 사이에는 어떤 문자도 들어갈 수 있다.    
`[]` 안의 두 문자 사이에 하이픈(-)을 사용하면 두 문자 사이의 범위를 의미

* `[a-zA-Z]` : 모든 알파벳
* `[0-9]` : 모든 숫자
* ^ 메타 문자를 사용할 경우에는 반대(not)라는 의미

### ** 자주 사용하는 문자 클래스
* `\d` - 숫자와 매치된다. `[0-9]`와 동일한 표현식.
* `\D` - 숫자가 아닌 것과 매치된다. `[^0-9]`와 동일한 표현식.
* `\s` - 화이트스페이스(whitespace) 문자와 매치된다. `[ \t\n\r\f\v]`와 동일한 표현식. 맨 앞의 빈칸은 공백 문자(space)를 의미.
* `\s` - 화이트스페이스(whitespace) 문자와 매치된다. `[^ \t\n\r\f\v]`와 동일한 표현식. 맨 앞의 빈칸은 공백 문자(space)를 의미.
* `\w` - 문자+숫자(alphanumeric)와 매치된다. `[a-zA-Z0-9_]`와 동일한 표현식.
* `\W` - 문자+숫자(alphanumeric)가 아닌 문자와 매치된다. `[^a-zA-Z0-9_]`와 동일한 표현식.    
**대문자로 사용된 것은 소문자의 반대임을 추측할 수 있다.

### .(dot) 문자 - \n을 제외한 모든 문자
`a.b   `
a와 b라는 문자 사이에 어떤 문자가 들어가도 모두 매치된다는 의미

** 정규식을 작성할 때 re.DOTALL 옵션을 주면 `.`(dot) 문자와 `\n`

### * 문자
`ca*t`
`*`은 반복을 의미하는 메타 문자   
`*`바로 앞에 있는 문자 a가 0부터 무한대까지 반복될 수 있다는 의미

### + 문자
`+`는 최소 1번 이상 반복될 때 사용   
`*`가 반복 횟수가 0부터라면 `+`는 반복 횟수가 1부터인 것이다.

### {} 문자와 ? 문자
`{}` 메타 문자를 사용하면 반복 횟수를 고정할 수 있다.   
`{m, n}` 정규식을 사용하면 반복 횟수가 m부터 n까지인 문자와 매치할 수 있다.   

m 또는 n을 생략할 수도 있다.   
만약 `{3,}`처럼 사용하면 반복 횟수가 3 이상인 경우이고   
`{, 3}`처럼 사용하면 반복 횟수가 3 이하인 경우를 의미한다.    
생략된 m은 0과 동일하며, 생략된 n은 무한대(약 2억 개 미만)의 의미

#### 1. {m}
`ca{2}t`  
"a"가 2번 반복

#### 2. {m, n}
`ca{2,5}t`   
"a"를 2~5회 반복

#### 3. ?
`?` 메타 문자가 의미하는 것은 {0, 1}이다.

`ab?c`
b가 1번 있어도 되고 없어도 됨

# 파이썬에서 정규 표현식을 지원하는 re 모듈
파이썬은 정규 표현식을 지원하기 위해 re(regular expression) 모듈을 제공   
re 모듈은 파이썬을 설치할 때 자동으로 설치되는 표준 라이브러리

In [3]:
import re
p = re.compile('ab*')

re.compile을 사용하여 정규 표현식(위 예에서는 `ab*`)을 컴파일한다.   
re.compile의 리턴값을 객체 p(컴파일된 패턴 객체)에 할당해 그 이후의 작업을 수행

# 정규식을 이용한 문자열 검색
* match() : 문자열의 처음부터 정규식과 매치되는지 조사
* search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사
* findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴
* finditer() : 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴

** match, search는 정규식과 매치될 때는 match 객체를 리턴하고 매치되지 않을 때는 None을 리턴

In [4]:
import re
p = re.compile('[a-z]+')

### match()

In [5]:
m = p.match("python")
print(m)  # "python" 문자열은 [a-z]+ 정규식에 부합되므로 match 객체가 리턴

<re.Match object; span=(0, 6), match='python'>


In [6]:
m = p.match("3 python")
print(m)  # 처음에 나오는 문자 3이 정규식 [a-z]+에 부합되지 않으므로 None이 리턴

None


### search()

In [7]:
m = p.search("python")
print(m)  # "python" 문자열에 search 메서드를 수행하면 match 메서드를 수행했을 때와 동일하게 매치

<re.Match object; span=(0, 6), match='python'>


In [8]:
m = p.search("3 python")
print(m)   # search는 문자열 전체를 검색하기 때문에 "3" 이후의 "python" 문자열과 매치

<re.Match object; span=(2, 8), match='python'>


### findall()

In [9]:
result = p.findall("life is too short")
print(result)   # findall은 패턴([a-z]+)과 매치되는 모든 값을 찾아 리스트로 리턴

['life', 'is', 'too', 'short']


### finditer()

In [10]:
result = p.finditer("life is too short")
print(result)

<callable_iterator object at 0x00000161D9BDE860>


In [11]:
for r in result: print(r)   # finditer는 findall과 동일하지만, 그 결과로 반복 가능한 객체(iterator object)를 리턴

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


# match 객체의 메서드
match 객체란 p.match, p.search 또는 p.finditer 메서드에 의해 리턴된 매치 객체(Match Object)를 의미

* group : 매치된 문자열을 리턴
* start : 매치된 문자열의 시작 위치를 리턴
* end : 매치된 문자열의 끝 위치를 리턴
* span매치된 문자열의 (시작, 끝)에 해당하는 튜플을 리턴

In [12]:
m = p.match("python")
m.group()

'python'

In [13]:
m.start()

0

In [14]:
m.end()

6

In [15]:
m.span()

(0, 6)

In [16]:
# search 메서드를 사용하면
m = p.search("3 python")
m.group()

'python'

In [17]:
m.start()

2

In [18]:
m.end()

8

In [19]:
m.span()

(2, 8)

### ** 모듈 단위로 수행하기
보통 한 번 만든 패턴 객체를 여러 번 사용해야 할 때는 축약 방법보다 re.compile을 사용하는 것이 편리

In [20]:
import re
p = re.compile('[a-z]+')
m = p.match("python")
m

<re.Match object; span=(0, 6), match='python'>

In [21]:
# 위 코드를 축약하면 
import re
m = re.match('[a-z]+', "python")
m

<re.Match object; span=(0, 6), match='python'>

# 컴파일 옵션
* DOTALL(S) : .(dot)이 줄바꿈 문자를 포함해 모든 문자와 매치될 수 있게 한다.* 
IGNORECASE(I):- 대소문자에 관계없이 매치될 수 있게 한다
* MULTILINE(M) - 여러 줄과 매치될 수 있게 한다. ^, $ 메타 문자 사용과 관계 있는 옵션이다.
* VERBOSE(X) - verbose 모드를 사용할 수 있게 한다. 정규식을 보기 편하게 만들 수 있고 주석 등을 사용할 수 있게 된다.된다.

### DOTALL, S
`.` 메타 문자는 줄바꿈 문자(`\n`)를 제외한 모든 문자와 매치되는 규칙이 있다.   
만약 `\n` 문자도 포함하여 매치하고 싶다면 re.DOTALL 또는 re.S 옵션을 사용해 정규식을 컴파일하면 된다.

In [22]:
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [23]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


### IGNORECASE, I
대소문자 구별 없이 매치를 수행

In [24]:
p = re.compile('[a-z]+', re.I)
p.match('python')

<re.Match object; span=(0, 6), match='python'>

In [25]:
p.match('Python')

<re.Match object; span=(0, 6), match='Python'>

In [26]:
p.match('PYTHON')

<re.Match object; span=(0, 6), match='PYTHON'>

### MULTILINE, M
^는 문자열의 처음, $는 문자열의 마지막   
`^python`인 경우, 문자열의 처음은 항상 python으로 시작해야 매치   
`python$`이라면 문자열의 마지막은 항상 python으로 끝나야 매치

In [27]:
import re
p = re.compile(r"^python\s\w+")  
#python이라는 문자열로 시작하고 그 뒤에 화이트스페이스, 그 뒤에 단어가 와야 한다는 의미

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [28]:
# ^ 메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우
import re
p = re.compile(r"^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


### VERBOSE, X
정규식 전문가들이 만든 정규식을 보면 거의 암호 수준이다.   
어려운 정규식을 주석 또는 줄 단위로 구분할 수 있다면 얼마나 보기 좋고 이해하기 쉬울까?   
이 경우에는 re.VERBOSE 또는 re.X 옵션을 사용하면 된다.

In [29]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [30]:
# 정규식이 복잡할 경우, 두 번째처럼 주석을 적고 여러 줄로 표현하는 것이 훨씬 가독성이 좋다
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

# 역슬래시 문제
`\section` 문자열을 찾기 위한 정규식을 만든다고 가정해 보자.   
정규식은 `\s` 문자가 whitespace로 해석되어 의도한 대로 매치가 이루어지지 않는다.

의도한 대로 매치하고 싶다면, `\\section` 와 같이 역슬래시 2개를 사용해 이스케이프 처리를 해야 한다.

In [31]:
p = re.compile('\\section')

이처럼 정규식을 만들어서 컴파일하면 실제 파이썬 정규식 엔진에는   
파이썬 문자열 리터럴 규칙에 따라 `\\`이 `\`로 변경되어 `\section`이 전달된다.
결국 정규식 엔진에 `\\` 문자를 전달하려면 파이썬은 `\\\\`처럼 역슬래시를 4개나 사용해야 한다.

만약 이와 같이 `\`를 사용한 표현이 계속 반복되는 정규식이라면   
**raw string** 표현법을 사용해야 한다.    
정규식 문자열 앞에 r 문자를 삽입하면 이 정규식은 raw string 규칙에 의해   
역슬래시 2개 대신 1개만 써도 2개를 쓴 것과 동일한 의미를 가지게 된다.

In [32]:
p = re.compile(r'\\section')

# 문자열 소비가 없는 메타 문자
### `|`
`|` 메타 문자는 or과 동일한 의미

In [33]:
p = re.compile('Crow|Servo')
m = p.match('CrowHello')
print(m)

<re.Match object; span=(0, 4), match='Crow'>


### `^`
`^` 메타 문자는 문자열의 맨 처음과 일치한다는 것을 의미

In [34]:
print(re.search('^Life', 'Life is too short'))

<re.Match object; span=(0, 4), match='Life'>


In [35]:
print(re.search('^Life', 'My Life'))

None


### `$`
`$`는 문자열의 끝과 매치한다는 것을 의미

In [36]:
print(re.search('short$', 'Life is too short'))

<re.Match object; span=(12, 17), match='short'>


In [37]:
print(re.search('short$', 'Life is too short, you need python'))

None


### `\A`
`\A`는 문자열의 처음과 매치된다는 것을 의미    
`^` 메타 문자와 동일한 의미이지만, re.MULTILINE 옵션을 사용할 경우   
`^`은 각 줄의 문자열의 처음과 매치되지만, `\A`는 줄과 상관없이 전체 문자열의 처음하고만 매치

### `\Z`
`\Z`는 문자열의 끝과 매치된다는 것을 의미   
re.MULTILINE 옵션을 사용할 경우, `\Z`는 달리 전체 문자열의 끝과 매치

### `\b`
`\b`는 단어 구분자(word boundary)이다.   
보통 단어는 화이트스페이스에 의해 구분

In [38]:
p = re.compile(r'\bclass\b')  # 앞뒤가 화이트스페이스로 구분된 class라는 단어와 매치
print(p.search('no class at all'))

<re.Match object; span=(3, 8), match='class'>


In [39]:
print(p.search('the declassified algorithm'))

None


In [40]:
print(p.search('one subclass is'))

None


### `\B`
`\B` 메타 문자는 `\b` 메타 문자와 반대의 경우   
화이트스페이스로 구분된 단어가 아닌 경우에만 매치

In [41]:
p = re.compile(r'\Bclass\B')  # class 단어의 앞뒤에 화이트스페이스가 하나라도 있는 경우에는 매치
print(p.search('no class at all'))  

None


In [42]:
print(p.search('the declassified algorithm'))

<re.Match object; span=(6, 11), match='class'>


In [43]:
print(p.search('one subclass is'))

None


# 그루핑
ABC 문자열이 계속해서 반복되는지 조사하는 정규식을 작성할 때 필요한 것이 **그루핑(grouping)** 이다.   
그룹을 만들어 주는 메타 문자는 바로 `()`이다.

In [44]:
p = re.compile('(ABC)+')
m = p.search('ABCABCABC OK?')
print(m)

<re.Match object; span=(0, 9), match='ABCABCABC'>


In [45]:
print(m.group())

ABCABCABC


In [46]:
# \w+\s+\d+[-]\d+[-]\d+은 이름 + " " + 전화번호 형태의 문자열을 찾는 정규식
p = re.compile(r"\w+\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m)

<re.Match object; span=(0, 18), match='park 010-1234-1234'>


In [47]:
# "이름" 부분만 출력 하려면
p = re.compile(r"(\w+)\s+\d+[-]\d+[-]\d+")
m = p.search("park 010-1234-1234")
print(m.group(1))  # match 객체의 group(인덱스) 메서드를 사용하여 그루핑된 부분의 문자열만 뽑아 낼 수 있다.

park


In [48]:
# 전화번호만 출력
p = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(2))

010-1234-1234


In [49]:
# 전화번호중에서 국번만 출력
p = re.compile(r"(\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(3))

010


### 그루핑된 문자열 재참조하기
재참조 메타 문자인 `\1`이다.   
`\1`은 정규식의 그룹 중 첫 번째 그룹을 가리킨다.   
두 번째 그룹을 참조하려면 `\2`를 사용하면 된다.

In [50]:
p = re.compile(r'(\b\w+)\s+\1')  # (그룹) + " " + 그룹과 동일한 단어와 매치
p.search('Paris in the the spring').group()

'the the'

### 그루핑된 문자열에 이름 붙이기
정규식 안에 그룹이 무척 많아진다고 가정해 보자.   
예를 들어 정규식 안에 그룹이 10개 이상만 되어도 매우 혼란스러울 것이다.   
이러한 이유로 정규식은 그룹을 만들 때 그룹 이름을 지정할 수 있다.

이름과 전화번호를 추출하는 정규식 `(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)`   
기존과 달라진 부분은 `(\w+) → (?P<name>\w+)`   
`(\w+)`라는 그룹에 `name`이라는 이름을 붙인 것에 불과하다.   
여기에서 사용한 `(?P<그룹명>...)`표현식은 정규 표현식의 확장 구문이다.

In [51]:
# 그룹에 이름을 지정하고 참조
p = re.compile(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group("name"))

park


In [52]:
# 정규식 안에서 재참조
p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')  # 재참조할 때는 (?P=그룹이름)이라는 확장 구문을 사용
p.search('Paris in the the spring').group()

'the the'

# 문자열 바꾸기
sub() 메서드를 사용하면 정규식과 매치되는 부분을 다른 문자로 쉽게 바꿀 수 있다.   
sub("바꿀 문자열(replacement)", "대상 문자열")

In [53]:
p = re.compile('(blue|white|red)')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [54]:
# 바꾸기 횟수를 제어 - 세 번째 인수에 count 값을 설정
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

### sub() 메서드 사용 시 참조 구문 사용하기
sub의 바꿀 문자열 부분에 `\g<그룹_이름>`을 사용하면 정규식의 그룹 이름을 참조할 수 있게 된다.

In [55]:
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>(\d+)[-]\d+[-]\d+)")
print(p.sub(r"\g<2> \g<1>", "park 010-1234-1234"))

010-1234-1234 park


### sub() 메서드의 매개변수로 함수 넣기
sub() 메서드의 첫 번째 인수에 함수를 전달할 수도 있다.

In [56]:
# hexrepl()은 match 객체를 입력으로 받아 16진수로 변환하여 리턴해 주는 함수
def hexrepl(match):
    value = int(match.group())
    return hex(value)

p = re.compile(r'\d+')
p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'