### 정규표현식
- 복잡한 문자열을 처리할 때 사용
- 문자열을 처리하는 모든 곳에서 사용

> 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 `*` 문자로 변경하시오.

1. 전체 텍스트를 공백 문자로 나눈다(split)
2. 나누어진 단어들이 주민등록번호 형식인지 조사
3. 단어가 주민등록번호 형식이라면 뒷자기를 `*`로 변환
4. 나누어진 단어들을 다시 조립

In [1]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [3]:
lines = data.split('\n')
lines

['', 'park 800905-1049118', 'kim  700905-1059119', '']

In [9]:
word = list(map(lambda x : lines[x].split(' '), range(len(lines))))
word

[[''], ['park', '800905-1049118'], ['kim', '', '700905-1059119'], ['']]

In [15]:
for line in data.split('/n'):
    for word in line.split(' '):
        print(word)


park
800905-1049118
kim

700905-1059119



In [27]:
result = []

for line in data.split("\n"):
    
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:7] + ("*" * 7)
        
        result.append(word)

print(result)

['', 'park', '800905-*******', 'kim', '', '700905-*******', '']


In [32]:
for line in data.split("\n"):
    temp = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:7] + ("*" * 7)
        
        temp.append(word)
    
    print(" ".join(temp))


park 800905-*******
kim  700905-*******



In [37]:
result = []

for line in data.split("\n"):
    temp = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:7] + ("*" * 7)
        
        temp.append(word)

    result.append(" ".join(temp))
    
print(result)
print(" ".join(result))
print("\n".join(result))

['', 'park 800905-*******', 'kim  700905-*******', '']
 park 800905-******* kim  700905-******* 

park 800905-*******
kim  700905-*******



#### 정규표현식으로 풀어보기

In [38]:
import re

In [39]:
data = """
park 800905-1049118
kim  700905-1059119
"""

In [44]:
pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******", data))


park 800905-*******
kim  700905-*******



### 메타 문자

- 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자

``` 
. ^ $ * + ? { } [ ] \ | ( ) `
```

#### 문자 클래스 []
- "["와 "]" 사이에는 어떤 문자도 들어갈 수 있다
- `[abc]` : a, b, c 중 한 개의 문자와 매치
    - "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치
    - "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치
    - "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음
    

- [] 안의 두 문자 사이에 하이픈(-)을 사용하게 되면 두 문자 사아의 범위(from - to)를 의미
    - `[a-c]` : `[abc]`
    - `[0-5]` : `[012345]`


- `[a-zA-Z]` : 알파벳 모두
- `[0-9]` : 숫자

##### 자주 사용하는 문자 클래스

- [0-9] 또는 [a-zA-Z] 등은 무척 자주 사용하는 정규 표현식 



- \d : 
    - 숫자와 매치
    - [0-9]와 동일한 표현식
- \D : 
    - 숫자가 아닌 것과 매치
    - [^0-9]와 동일한 표현식
- \s : 
    - whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식
    - 맨 앞의 빈 칸은 공백문자(space)를 의미
- \S : 
    - whitespace 문자가 아닌 것과 매치, 
    - [^ \t\n\r\f\v]와 동일한 표현식
- \w : 
    - 문자+숫자(alphanumeric)와 매치
    - [a-zA-Z0-9]와 동일한 표현식이다.
- \W : 
    - 문자+숫자(alphanumeric)가 아닌 문자와 매치
    - [^a-zA-Z0-9]와 동일한 표현식이다.


 > 대문자로 사용된 것은 소문자의 반대임을 추측

#### Dot(.)
- 줄바꿈 문자인 `\n`를 제외한 모든 문자와 매치
- re.DOTALL이라는 옵션을 주면 `\n` 문자와도 매치


- `a.b` : a + 모든문자 + b
    - "aab"는 가운데 문자 "a"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치
    - "a0b"는 가운데 문자 "0"가 모든 문자를 의미하는 .과 일치하므로 정규식과 매치
    - "abc"는 "a"문자와 "b"문자 사이에 어떤 문자라도 하나는있어야 하는 이 정규식과 일치하지 않으므로 매치 X
    

- `a[.]b` : a + Dot(.)문자 + b
    - "a.b"라는 문자열과는 매치
    - "a0b"라는 문자와는 매치 X

#### 반복(*)
- 반복을 의미한는 `*` 메타문자가 사용
- `*`바로 앞에 있는 문자 a가 0부터 무한대로 반복


- `ca*t` : c + a(0~) + t
    - "ct"는 "a"가 0번 반복되어 매치
    - "cat"는 "a"가 0번 이상 반복되어 매치 (1번 반복)
    - "caaat"는 "a"가 0번 이상 반복되어 매치 (3번 반복)

#### 반복(+)
- `+`는 최소 1번 이상 반복될 때 사용
- `*`가 반복 횟수 0부터라면 `+`는 반복 횟수 1부터


- `ca+t` : c + a(1~) + t
    - "ct" : "a"가 0번 반복되어 매치되지 않음
    - "cat" : "a"가 1번 이상 반복되어 매치 (1번 반복)
    - "caaat" : "a"가 1번 이상 반복되어 매치 (3번 반복)

#### 반복({m, n}, ?)
- 반복 횟수 제한
- {m, n} 정규식을 사용하면 반복 횟수가 m부터 n까지인 것을 매치
    - m 또는 n을 생략 가능
    - `{3,}` : 반복 횟수가 3 이상인 경우 (n = 무한대(2억개 미만))
    - `{,3}` : 사용하면 반복 횟수가 3 이하 (m = 0)


- `ca{2}t` : c + a(반드시 2번 반복) + t
    - "cat" : "a"가 1번만 반복되어 매치되지 않음
    - "caat" : "a"가 2번 반복되어 매치
    
    
- `ca{2, 5}t` : c + a(2~5회 반복) + t
    - "cat" : "a"가 1번만 반복되어 매치되지 않음
    - "caat" : "a"가 2번 반복되어 매치 
    - "caaaaat" : "a"가 5번 반복되어 매치

#### '?'
- `{0, 1}`


- `ab?c` : a + b(있어도 되고 없어도 된다) + c
    - "abc" : "b"가 1번 사용되어 매치
    - "ac" : "b"가 0번 사용되어 매치

### re 모듈
- 파이썬은 정규 표현식(regular expression) 모듈

In [1]:
import re
p = re.compile('ab*')

1. re.compile 을 이용하여 정규표현식(위 예에서는 ab\*)을 컴파일
2. 컴파일된 패턴객체(re.compile의 결과로 리턴되는 객체 p)를 이용하여 그 이후의 작업을 수행

### 정규식을 이용한 문자열 검색


|Method|목적|
|---|---|
|match()|문자열의 처음부터 정규식과 매치되는지 조사|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 조사|
|findall()|정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴|
|finditer()|정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 리턴|

- match, search는 정규식과 매치될 때에는 match 객체를 리턴하고 매치되지 않을 경우에는 None을 리턴

In [64]:
import re
p = re.compile('[a-z]+')

#### match
- 문자열의 처음부터 정규식과 매치되는지 조사

In [29]:
m = p.match("python")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [35]:
m = p.match("python 3")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [36]:
m = p.match("3 python")
print(m)

None


In [38]:
m = p.match("@ python")
print(m)

None


In [39]:
m = p.match("python @")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [42]:
pat = re.compile('[[a-zA-Z]+[ .,!?]*]+')

In [49]:
m = pat.match("python 3")
print(m)
m = pat.match("python")
print(m)
m = pat.match("@ python")
print(m)
m = pat.match("python @")
print(m)
m = pat.match("   ")
print(m)

None
None
None
None
None


In [48]:
m = pat.match("pytHon !")
print(m)

None


#### search
- 문자열 전체를 검색

In [50]:
m = p.search("python")
print(m)

<_sre.SRE_Match object; span=(0, 6), match='python'>


In [51]:
m = p.search("3 python")
print(m)

<_sre.SRE_Match object; span=(2, 8), match='python'>


#### findall
- 패턴과 매치된 것들이 리스트로 반환

In [52]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


#### finditer
- 반복 가능한 객체(iterator object)를 리턴

In [53]:
result = p.finditer("life is too short")
print(result)
for r in result : print(r)

<callable_iterator object at 0x000001FD1D2BD1D0>
<_sre.SRE_Match object; span=(0, 4), match='life'>
<_sre.SRE_Match object; span=(5, 7), match='is'>
<_sre.SRE_Match object; span=(8, 11), match='too'>
<_sre.SRE_Match object; span=(12, 17), match='short'>


### match 객체의 메서드
- 어떤 문자열이 매치되었는가?
- 매치된 문자열의 인덱스는 어디서부터인가?

|method|목적|
|---|---|
|group()|매치된 문자열을 리턴한다.|
|start()|매치된 문자열의 시작 위치를 리턴한다.|
|end()|매치된 문자열의 끝 위치를 리턴한다.|
|span()|매치된 문자열의 (시작, 끝) 에 해당되는 튜플을 리턴한다.|

In [59]:
m = p.match("python")

print("group : " + m.group())
print("start point : " + str(m.start()))
print("end point : " + str(m.end()))
print("span : " + str(m.span()))

group : python
start point : 0
end point : 6
span : (0, 6)


In [61]:
m = p.search("3 python")

print("group : " + m.group())
print("start point : " + str(m.start()))
print("end point : " + str(m.end()))
print("span : " + str(m.span()))

group : python
start point : 2
end point : 8
span : (2, 8)


##### 모듈 단위로 수행
- 컴파일과 match 메서드를 한 번에 수행
- 패턴 객체를 여러번 사용해야 할 때는 re.compile을 사용하는 것이 유리

In [62]:
p = re.compile('[a-z]+')
m = p.match("python")

In [63]:
m = re.match('[a-z]+', "python")

### 컴파일 옵션
- DOTALL(S) : . 이 줄바꿈 문자를 포함하여 모든 문자와 매치
- IGNORECASE(I) : 대소문자에 관계없이 매치
- MULTILINE(M) : 여러줄과 매치(^, $ 메타문자의 사용과 관계가 있는 옵션)
- VERBOSE(X) : verbose 모드를 사용(정규식을 보기 편하게 만들수 있고 주석등을 사용)

#### DOTALL, S
- `.` :  줄바꿈 문자(`\n`)를 제외한 모든 문자와 매치되는 규칙
- `re.DOTALL`은 여러줄로 이루어진 문자열에서 \n에 상관없이 검색

In [66]:
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [67]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

<_sre.SRE_Match object; span=(0, 3), match='a\nb'>


#### IGNORECASE, I
- `re.IGNORECASE` 또는 `re.I` 는 대소문자 구분없이 매치를 수행

In [68]:
p = re.compile('[a-z]', re.I)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<_sre.SRE_Match object; span=(0, 1), match='p'>
<_sre.SRE_Match object; span=(0, 1), match='P'>
<_sre.SRE_Match object; span=(0, 1), match='P'>


#### MULTILINE, M
- `^`, `$`와 연관된 옵션
    - `^` : 문자열의 시작
    - `$` : 문자열의 끝
- `re.MULTILINE` 옵션은 `^, $`메타 문자를 문자열의 각 라인마다 적용

In [69]:
p = re.compile("^python\s\w+")
# "python"이라는 문자열로 시작하고 
# whitespace와야 한다.
# 그 다음에 단어가 와야한다는 의미

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one']


In [71]:
p = re.compile("^python\s\w+", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


#### VERBOSE, X
- 이해하기 어려운 정규식을 주석 또는 라인 단위로 구분

In [72]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [73]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)