# 정규 표현식

정규 표현식(Regular Expressions)(정규식)은 복잡한 문자열을 처리할 때 사용하는 기법이다.

사용하는 이유

- 주민등록번호를 포함하고 있는 텍스트가 있다. 이 텍스트에 포함된 모든 주민등록번호의 뒷자리를 * 문자로 변경하시오.

정규표현식을 모른다면,
1. 전체 텍스트를 공백문자로 나눈다(split).
2. 나누어진 단어들이 주민등록번호 형식인지 조사한다.
3. 단어가 주민등록번호 형식이라면 뒷자리를 *로 변환한다.
4. 나누어진 단어들을 다시 조립한다.

아래는 정규 표현식을 모른 상태로 짠 코드이다.
```python
data="""
    park 800905-1049118
    kim 700905-1059119
    """

result=[]
for line in data.split("\n"):
    word_result = []
    for word in line.split(" "):
        if len(word) == 14 and word[:6].isdigit() and word[7:].isdigit():
            word = word[:6] + "-" + "*******"
        word_result.append(word)
    result.append(" ".join(word_result))
print("\n".join(result))
```
이번에는 정규 표현식을 사용해 보겠다.
```python
import re

data = """
    park 800905-1049118
    kim 700905-1059119
    """

pat = re.compile("(\d{6})[-]\d{7}")
print(pat.sub("\g<1>-*******",data))
```

# `메타 문자`

그 문자가 가진 뜻이 아닌 특별한 용도로 사용되는 문자를 말한다.

. ^ $ * + ? { } [ ] \ | ( ) 와 같은 것들이 있다

---
#### [ ]

문자 클래스

[와 ] 사이의 문자들과 매치 라는 뜻이다.

[abc]는 abc중 한개의 문자와 매치를 뜻한다.

정규식 [abc]

문자열 a bd d

매치 여부 y y no

정규식[abc]과 일치하는 문자가 하나라도 있으면 매치yes

---
#### -

[ ] 안의 두 문자 사이에 하이픈(-)을 사용하게 되면 두 문자 사이의 범위를 의미한다.

- ex)
    - [a-zA-Z]=알파벳 모두
    - [0-9]=숫자

---
#### ^

^=not

- ex)
    - [^0-9]=숫자빼고 다  

---
#### \

- ex)
    - [0-9] = \d
    - [^0-9] = \D 
    - [a-zA-z0-9] = 문자,숫자(alphanumeric)와 매치 = \w
    - [^a-zA-z0-9] = 문자,숫자(alphanumeric)가 아닌 것과 매치 = \W
    - [ \t\n\r\f\v](자세히 보면 처음에 띄어쓰기 되어있음) = whitespace문자와 매치(공백, 탭, 엔터등) = \s
    - [^ \t\n\r\f\v] = whitespace문자가 아닌 것과 매치(공백, 탭, 엔터등) = \S

---
#### .

.은 줄바꿈 문자인 \n를 제외한 모든 문자와 매치된다.

a.b는 a와 b사이에 줄바꿈 문자를 제외한 어떤 문자가 들어가도 모두 매치라는 뜻이다.

다음과 같다 "a + 모든 문자 + b"

정규식 a.b

문자열 aab a0b abc

매치 여부 yes yes no

정규식 a[.]b은 a와 b 사이에 . 문자가 있으면 매치라는 뜻이다.

---
#### *

ca*t 은 *문자 바로 앞에있는 a가 0번 이상 반복되면 매치된다.(최대 2억 개 정도 가능하다고 한다.)

ct, cat, caaat 모두 매치가 된다. 각각 0,1,3번 반복됐기 때문이다.

---
#### +

+는 최소 1번 이상 반복될 때 사용한다.

---
#### {m,n}

m회이상 n회이하 반복된 것을 매치할 수 있다. 이 때 m또는 n을 생략할 수도 있다.

---
#### ?

{0,1}이라고 생각하면 된다.

---
#### ( )

예를 들어 ABC가 반복되는지를 알고싶다면 [ABC+]라고 해야할까?

아니다. [ABC+]는 A나 B나 C가연속으로 1번이상 반복되는지 이다.

그래서 (와 )로 묶으면 된다. 이렇게 '(ABC)+'

In [None]:
import re
m = re.search('(ABC)+','ABCABCABC OK?')
print(m)
print(m.group())
print(m.group(1))  # 이해 안된다고 해도 아래서 설명할거임 아 그리고 참고로 '(ABC)+' 이지, '(ABC+)'는 아니야

In [None]:
import re

m = re.search(r"\w+\s+\d+[-]\d+[-]\d+","park 010-1234-1234")
print(m)
print(m.group()) # group(), group(0)은 에러가 나지 않는다. (1)이상부터 에러가 난다.

m = re.search(r"(\w+\s+\d+[-]\d+[-]\d+)","park 010-1234-1234")
print(m)
print(m.group(1)) # group(), group(0), gorup(1)은 에러가 나지않는다 그 이후부터 에러가 난다.

m = re.search(r"(\w+)\s+(\d+[-]\d+[-]\d+)","park 010-1234-1234")
print(m)
print(m.group(1))
print(m.group(2))

m = re.search(r"(\w+)\s+((\d+)[-]\d+[-]\d+)","park 010-1234-1234")
print(m)
print(m.group(2))
print(m.group(3))  # ( 이거 기준으로 순서대로 123456.... 알제?

#### 그룹핑된 문자열 재참조

재참조 메타 문자 \(숫자)

In [42]:
p = re.compile(r'(\b\w+)\s+\1')   # (\b\w+) 는 whitespace와 여러문자들을 그룹화 시켰고 그 뒤에 whitespace가 바로 오고
                                  # 그룹화한(\1)이 또 온다.  (\1는 1번째 그룹을 재참조)
print(p.search('paris in the the spring').group())

the the


#### 그룹핑된 문자열에 이름 붙이기

긴 정규식에 많은 그룹이 있다. 이 정규식을 수정해보자 다른 코드들도 모두 바뀐다.

이 문제를 방지하기위해 인덱스가 아닌 이름으로 참조하는 방법이 있다.

(?P<그룹명>...) 밖에서는 group("그룹명") 안에서는 (?P=그룹명)으로 불리운다.

In [None]:
import re
m = re.search(r"(\w+)\s+((\d+)[-]\d+[-]\d+)","park 010-1234-1234")
print(m)
print(m.group(1))
print(m.group(3))

# 이 코드는 나왔던 코드이다 이 코드를 고쳐보자

import re
m = re.search(r"(?P<name>\w+)\s+((\d+)[-]\d+[-]\d+)","park 010-1234-1234")
print(m)
print(m.group("name"),m.group(1),sep=' ')
print(m.group(3),end='\n\n')

# 그룹명을 이용해 재참조도 가능하다. (정규식 내에서)

p = re.compile(r'(?P<word>\b\w+)\s+(?P=word)')
m = p.search('Paris in the the spring')
print(m.group())
print(p.search('Paris in the the spring').group())

#### 전방 탐색

- (?=...) 긍정형 전방 탐색
    - ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않는다.
- (?!...) 부정형 전방 탐색
    - ...에 해당되는 정규식과 매치되어야 하며 조건이 통과되어도 문자열이 소모되지 않는다.

In [None]:
# 긍정형 전방 탐색
import re

p = re.compile(".+:")
m = p.search("http://google.com")
print(m.group())

# 그룹핑을 사용하지 않고 위 코드에서 http:가 아닌 http를 리턴하는 방법

p = re.compile(".+(?=:)")    # 위와 같지만, : 에 해당되는 문자열이 소모되지 않아(검색에는 포함되지만 검색결과에선 제외됨)
m = p.search("http://google.com")    # 아니.... 위 주석만 보면 소모가 아니라 사용이잖아!!!! 아니면 있는것을 써서 없앤다의 소모가아니라
print(m.group())                     # 불러서 모은다의 소모인가..? 그냥 리턴이라고 하지는....
                                     # 근데 아래 메타문자들은 출력 잘되는거 아닌가?

In [None]:
# 부정형 전방 탐색
import re

def test(p):
    print(p.search("asdf."))
    print(p.search("asdf.b"))
    print(p.search("asdf.ba"))
    print(p.search("asdf.bac"))
    print(p.search("asdf.exe"))
    print(p.search("asdf.bat"))
    print(p.search("asdf.batc"))
    print(p.search("asdf.ccccc"),end='\n\n')

    
# .bat 파일을 제외하고 파일명.확장자 파일들과 매치시키려고 한다.

p1 = re.compile(".*[.].*$")  # "파일명 + . + 확장자" 를 나타내는 정규식이다. $ 로 인해 뒤에서부터 찾음
p2 = re.compile(".*[.][^b].*$")  # .(어떤문자든)*(여러번 반복됨) 그 뒤에 [.] .이 나오고 [^b] b가 아닌게 나오고 .(어떤문자든)*(여러번)
                                 # 이러면 확장자가 b로 시작하지 않는것 이라는 의미
p3 = re.compile(".*[.]([^b]..|.[^a].|..[^t])$") # 확장자가 b..이 아니거나, .a.이 아니거나, ..t가 아닌것
                                                # 문제가 있음! asdf.js 이런 두글자 확장자는 오류 생김..
# p3 = re.compile(".*[.](^b^a^t)") # 이게 아닌 이유는 b도 안들어가고 a도 안들어가고 t도 안들어가는거라서
p4 = re.compile(".*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$")
test(p4)  #  # 0글자 오류(얜 인정), 4글자 이상 오류

# 이렇게 오류도 많고, .exe 파일도 제외하라고 하면 멘탈이 펑! 이제 부정형 전방 탐색을 보자


# 진짜 부정형 전방 탐색

p5 = re.compile(".*[.](?!bat$).+$") #간단!
test(p5)
p5 = re.compile(".*[.](?!bat$|exe$).+$")
test(p5)

#### 문자열 바꾸기

이제 뭐하고 싶겠어??? 찾은 부분을 바꿔야지!

sub를 사용하자

In [36]:
# sub

import re

p = re.compile('blue|white|red')
m = p.sub('color','blue socks and red shoes') # sub('얘로 바뀌면 좋겠다 하는거', '문자열')
print(m)
print(re.sub('o','오','blue socks and red shoes'))
print(re.sub('o','오','blue socks and red shoes',count=1)) # sub('얘바좋', '문', count=몇개바꿀지)


print("\n참조구문 사용하기! (\g 사용!)") # \g 사용!
data = "park 010-1234-5678"
p = re.compile(r"(?P<name>\w+)\s+(?P<phone>\d+[-]\d+[-]\d+)")
m = p.sub("폰번호 : \g<phone>\n이름 : \g<name>",data)
print(m)
m = p.sub("폰번호 : \g<2>\n이름 : \g<1>",data)
print(m,"\n")


# sub 메서드의 입력 인수로 함수 넣기
def hexrepl(match):
    value = int(match.group())
    return hex(value)              # 16진수로 리턴한다.

p = re.compile(r'\d+') # 0~9(숫자) 여러개를 찾는다
print(p.sub(hexrepl, 'Call 65490 for printing, 49152 for user code.'),"\n") # 찾은 숫자를 sub(1,2) 의 1인수로 리턴한다.
                                                                            # 참조구문 때 처럼 아마 1에서 검사하는듯?
                                                                            # 그리고 맞는 값을 리턴 받아 찾은 숫자 대신 넣는다.


# subn
print(re.subn('o','오','blue socks and red shoes',count=1)) # 튜플로 바꾸기 발생 수 추가 출력

color socks and color shoes
blue s오cks and red sh오es
blue s오cks and red shoes

참조구문 사용하기! (\g 사용!)
폰번호 : 010-1234-5678
이름 : park
폰번호 : 010-1234-5678
이름 : park 

Call 0xffd2 for printing, 0xc000 for user code. 

('blue s오cks and red shoes', 1)


#### Greedy vs Non-Greedy

greed is good 기억나지? greedy(탐욕스러운) 이게 뭘까?

In [41]:
# Greedy

import re
data = "<html><head><title>Title<\title>"
print(len(data))
print(re.match('<.*>',data).span()) # match니까 > 나오자 마자 리턴? 하겠지???? ㅎㅎㅎ
# 아니다.
print(re.match('<.*>',data).group()) # 너무 탐욕스럽다야....


# Non-Greedy
print(re.match('<.*?>',data).group()) # *은 바로 앞 대상이 0번 이상 반복 되는것  ?는 바로 앞 대상이 0번 이상 1번 이하 반복되는것
# 아닌가? 책 보니까 ?가 non-greedy문자래 그냥 욕심 없는 문자라는거겠지?
# 사용 예로는 *?, +?, ??, {m.n}? 등이 있대

31
(0, 31)
<html><head><title>Title<	itle>
<html>


---
---
# 이전까지는 매치되는 문자열들을 소모시킨다.

소모된다면 그 부분은 검색 대상에서 제외되지만 소모되지 않는 경우에는 다음에 또 다시 검색 대상이 된다

예제로 나오는 코드가 이해가 안되면 아래로 쭈욱 내리면 **re모듈**에 대해 설명이 나와있다.

---
---

#### |

| 메타 문자는 or과 동일한 의미이다.

In [None]:
import re
m = re.match('Crow|Servo','CrowHello')
print(m)

In [None]:
import re
ch = "badsojibsdhuibgyuabssdba"
p = re.compile("[asd]")
m = p.search(ch)
print(m.group())
m = p.search(ch)
print(m.group())
p = re.compile("a|s|d")
m = p.search(ch)
print(m.group())
m = p.search(ch)
print(m.group())                        # 으아아아악 소모가 대체 뭐야!!
                                        # pop처럼 문자열에서 소모도 아니고...

#### ^

^ 메타 문자는 문자열의 맨 처음과 일치함을 의미한다.

\A와 같지만, \A는 re.MULTILINE옵션을 사용할 경우에도 처음과만 매치된다.

In [None]:
import re
p = re.compile('^Life')
print(p.search('Life is too short'))
print(p.search('My Life'))

#### $

^ 메타 문자와 반대의 경우이다. 즉, $는 문자열의 끝과 매치함을 의미한다.

\Z와 같고, 역시 \Z는 re.MULTILINE사용시에도 끝과만 매치된다.

In [None]:
import re
p = re.compile('Life$')
print(p.search('Life is too short'))
print(p.search('My Life'))

#### \b

\b는 단어구분자 이다. 보통 단어는 whitespace에 의해 구분이된다.

In [None]:
import re
p = re.compile(r'\bclass\b')     # r 을 사용한 이유는, \b는 파이썬 리터럴 규칙에 의해 백스페이스를 의미하기때문이다.
print(p.search('no class at all'))
print(p.search('class'))
print(p.search('the declassifed algorithm'))

#### \B

대문자는 소문자의 not이다.

In [None]:
import re
p = re.compile(r'\Bclass\B')
print(p.search('no class at all'))
print(p.search('class'))
print(p.search('the declassifed algorithm'))

# `re 모듈`

In [None]:
# 기본적인 사용법

import re
p = re.compile('ab*') # 패턴(정규식을 컴파일한 결과) 객체

# 패턴 객체가 지원하는 메서드
# match() # 문자열의 처음부터 정규식과 매치되는지 조사한다.
# search() # 문자열 전체를 검색하여 정규식과 매치되는지 조사한다.
# findall() # 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다.
# finditer() # 정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴한다.

# match, search는 정규식과 매치될 때 match 객체를, 매치되지 않을 때는 None을 리턴한다.

#### match

In [None]:
import re
p = re.compile('[a-z]+')
m = p.match("python") # 위에서 말했듯이 정규식과 매치될 때 match 객체를 리턴함
print(m)
m = p.match("3python")
print(m) # 얘는 왜 안되고,
m = p.match("python3")
print(m) # 얘는 왜 되는거지? search와 연관이 있나?

In [None]:
# match는 match객체 또는 None이 리턴 되기 때문에 보통 아래와 같이 코드를 짠다.
import re
p = re.compile('[ 가-힣]+')
m = p.match("조사할 문자열")
if m:
    print('Match found: ',m.group())
else:
    print('No match')

#### search

In [None]:
import re
p = re.compile('[a-z]+')
m = p.search("python")
print(m)
m = p.search("3python")
print(m) # 아 match는 처음부터 검색하기때문에 처음에 틀리면 None이지만,
        # 이 search는 문자열 전체를 검색하기 때문에 3이후의 python이라는 문자열과 매치된다.

#### findall

In [None]:
import re
p = re.compile('[a-z]+')
result = p.findall("life is too short")
print(result) # 정규식과 매치해서 맞는 모두를 리스트로 리턴한다.
p = re.compile('[ a-z]+')
result = p.findall("life is too short")
print(result) # 요런 차이가 있다.

#### finditer

In [None]:
import re
p = re.compile('[a-z]+')
result = p.finditer("life is too short")
print(result)
print("그리고")
for r in result:    # 결과로 반복 가능한 객체(ITERator object)를 리턴한다.
    print(r)        # 반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.

### match 객체의 메서드

- group()
    - 매치된 문자열을 리턴한다.
    - 위에 ( ) 메타 문자에서 자세히 서술한다.
- start()
    - 매치된 문자열의 시작 위치를 리턴한다.
- end()
    - 매치된 문자열의 끝 위치를 리턴한다.
- span()
    - 매치된 문자열의 (시작,끝)에 해당되는 튜플을 리턴한다.

In [None]:
import re
def a(m):
    print(m.group())
    print(m.start(),m.end())
    print(m.span())
    
p = re.compile('[a-z]+')
m = p.match("python3")
a(m)
print("")
m = p.search("3.14python3")
a(m)

#### 만든 패턴 객체를 한 번만 쓸 때

In [None]:
import re

# 이 방법은 p 패턴 객체를 다음과 같이 여러번 사용할 때 쓴다.
p = re.compile('[a-z]+')
m = p.match("python")
m = p.match("3python")

# 이 방법은 딱 한줄만 쓸 때 유용하다
m = re.match('[a-z]+',"python")

## 컴파일 옵션

- DOTALL (약어는 S)
    - 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE (약어는 I)
    - 대·소문자에 관계 없이 매치할 수 있도록 한다.
- MULTILINE (약어는 M)
    - 여러 줄과 매치할 수 있도록 한다. (^,$ 메타 문자의 사용과 관계가 있는 옵션이다)
- VEROSE (약어는 X)
    - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들 수도 있고 주석 등을 사용할 수도 있다.)
    
사용 시 re.DOTALL또는 re.S를 사용할 수 있다 (둘다 같음)

#### DOTALL, S

. 메타 문자는 줄바꿈 문자(\n)를 제외한 모든 문자와 매치되는 규칙이 있다.

만약 \n 문자도 포함하여 매치하고 싶다면 사용한다.

In [None]:
import re
p = re.compile('a.b')
print(p.match('a\nb'))

In [None]:
import re
p  = re.compile('a.b',re.DOTALL)
print(p.match('a\nb'))

#### IGNORECASE, I

귀찮게 [a-zA-z]할 필요 없이, 즉 대·소문자 구분 없이 매치하고 싶을 때 사용한다.

In [None]:
import re
p = re.compile('[a-z+]')
print(p.match('python'))
print(p.match('PYTHON'))

In [None]:
import re
p = re.compile('[a-z+]',re.IGNORECASE)
print(p.match('python'))
print(p.match('PYTHON'))

#### MULTILINE, M

'^python'인 경우 문자열의 처음은 항상 python으로 시작해야 매치되고, (이 때 [^] 와 ^[]는 다르다!)

'python&'인 경우 문자열의 마지막은 항상 python으로 끝나야 매치된다.

이 두 옵션은 본디 문자열 전체에 해당하지만, 각 줄마다 적용 시키고 싶을 때 이 모듈을 사용한다.

In [None]:
import re
p = re.compile("^python\s\w+")
              # python이라는 문자열로 시작하고 그 뒤에 whitespace, 그 뒤에 단어가 와야한다는 의미이다.

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

In [None]:
import re
p = re.compile("^python\s\w+",re.MULTILINE) # MULTILINE? 닉값 하죠?

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

#### VERBOSE, X

정규식 코드가 복잡하기 때문에, 보기쉽게 할 수 있는 모듈이다

In [None]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);') # 어렵지?????

# 이렇게 가독성 좋게 쓸 수 있다는 소리야
charref = re.compile(r"""
&[#]                  # Start of a numeric entity reference
(
    0[0-7]+           # Octal form
  | [0-9]+            # Decimal form
  | x[0-9a-fA-F]+     # Hexadecimal form
)
;                     # Trailing semicolon
""", re.VERBOSE)

## 백슬래시 문제

'\section'이라는 문자열을 찾기 위한 정규식을 만든다면 \s(whitespace)로 인해서 의도한 대로 매치가 되지 않는다. 즉

'[\t\n\r\f\v]ection'가 되어버린다. 해결하기 위해서는

'\\\\section'처럼 사용하면 된다. 그런데! __파이썬__ 에서는 \\\\문자가 ￦로 변경된다. 즉

'￦￦￦￦section'처럼 사용해야 올바로 전달이 된다. 그런데 너무 기니까 Raw String이라는 파이썬 문법이 생겨서

r'\\\\section'로 사용하면 된다.

# `파이썬으로 XML 처리하기`