# 파이썬에서의 기본 사용법

### 파이썬에서 정규 표현식을 지원하는 re 모듈
파이썬은 정규 표현식을 지원하기 위해 re(regular expression) 모듈을 제공한다

In [1]:
import re
p = re.compile('ab*') #re.compile을 사용하여 정규 표현식을 컴파일한다.

### 정규식을 이용한 문자열 검색
|Method|목적|
|--|--|
|match()|문자열의 처음부터 정규식과 매치되는지 조사|
|search()|문자열 전체를 검색하여 정규식과 매치되는지 조사|
|findall()|정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴|
|finditer()|정규식과 매치되는 모든 문자열(substring)을 반복 가능한 객체로 리턴|

In [17]:
import re
p = re.compile('[a-z]+') # 알파벳이 하나 이상 반복

In [5]:
# match
m = p.match("python")
print(m)

#"python" 문자열은 [a-z]+ 정규식에 부합되므로 match 객체를 돌려준다.

<re.Match object; span=(0, 6), match='python'>


In [8]:
m = p.match("123 python")
print(m)

#"123 python" 문자열은 처음에 나오는 문자 1이 정규식 [a-z]+에 부합되지 않으므로 None을 돌려준다.

None


In [None]:
# 정규식 프로그램 예시
p = re.compile(정규표현식)
m = p.match('string goes here')
if m:
    print('Match found: ', m.group())
else:
    print('No match')
# 즉 match의 결과 값이 있을 때만 그다음 작업을 수행하겠다는 것

In [9]:
# search
m = p.search("python")
print(m)

#"python" 문자열에 search 메서드를 수행하면 match를 수행했을 때와 동일하게 매치된다.

<re.Match object; span=(0, 6), match='python'>


In [12]:
m = p.search("123 python")
print(m)

#첫 번째 문자는 "1"이지만 search는 문자열의 처음부터 검색하는 것이 아니라 문자열 전체를 검색하기 때문에 
#"1 " 이후의 "python" 문자열과 매치된다.

<re.Match object; span=(4, 10), match='python'>


In [13]:
# findall
result = p.findall("life is too short")
print(result)

#findall은 패턴([a-z]+)과 매치되는 모든 값을 찾아 리스트로 리턴한다

['life', 'is', 'too', 'short']


In [16]:
#finditer
result = p.finditer("life is too short")
print(result)
for r in result: print(r)

#finditer는 findall과 동일하지만 반복 가능한 객체를 리턴한다. 
#반복 가능한 객체가 포함하는 각각의 요소는 match 객체이다.

<callable_iterator object at 0x0000020F4AA603A0>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


### match 객체의 메서드
|Method|목적|
|--|--|
|group()|매치된 문자열을 리턴|
|start()|매치된 문자열의 시작 위치를 리턴|
|end()|매치된 문자열의 끝 위치를 리턴|
|span()|매치된 문자열의 (시작, 끝)에 해당하는 튜플을 리턴|

In [23]:
m = p.match("python")
print("매치된 문자열 : ", m.group())
print("매치된 문자열의 시작 위치 : ", m.start())
print("매치된 문자열의 끝 위치 : ", m.end())
print("매치된 문자열의 (시작,끝) 위치 : ", m.span())

매치된 문자열 :  python
매치된 문자열의 시작 위치 :  0
매치된 문자열의 끝 위치 :  6
매치된 문자열의 (시작,끝) 위치 :  (0, 6)


In [31]:
m = p.search("123 python")
print("매치된 문자열 : ", m.group())
print("매치된 문자열의 시작 위치 : ", m.start())
print("매치된 문자열의 끝 위치 : ", m.end())
print("매치된 문자열의 (시작,끝) 위치 : ", m.span())

매치된 문자열 :  python
매치된 문자열의 시작 위치 :  4
매치된 문자열의 끝 위치 :  10
매치된 문자열의 (시작,끝) 위치 :  (4, 10)


In [33]:
# 축약된 형태
m = re.match('[a-z]+', "python")
m

<re.Match object; span=(0, 6), match='python'>

### 컴파일 옵션
- DOTALL(S) - <code>.</code>이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
- IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
- MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (<code>^</code>, <code>$</code> 메타문자의 사용과 관계가 있는 옵션)
- VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용)<p>
-> 옵션을 사용할 때는 <code>re.DOTALL</code>처럼 전체 옵션 이름을 써도 되고 <code>re.S</code>처럼 약어 사용 가능

##### DOTALL, S
<code>.</code> 메타 문자는 줄바꿈 문자(<code>\n</code>)를 제외한 모든 문자와 매치되는 규칙이 있다. </br>
만약 <code>\n</code> 문자도 포함하여 매치하고 싶다면 <code>re.DOTALL</code> 또는 <code>re.S</code> 옵션을 사용해 정규식을 컴파일하면 된다.

In [36]:
# DOTALL, S
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

#정규식이 a.b인 경우 문자열 a\nb는 매치되지 않음을 알 수 있다. 
#왜냐하면 \n은 . 메타 문자와 매치되지 않기 때문이다. 

None


In [38]:
# \n 문자와도 매치되게 하려면 다음과 같이 re.DOTALL 옵션을 사용해야 한다.
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)

#re.DOTALL 옵션은 여러 줄로 이루어진 문자열에서 줄바꿈 문자에 상관없이 검색할 때 많이 사용

<re.Match object; span=(0, 3), match='a\nb'>


##### IGNORECASE, I
<code>re.IGNORECASE</code> 또는 <code>re.I</code> 옵션은 대소문자 구별 없이 매치를 수행할 때 사용하는 옵션이다.

In [41]:
p = re.compile('[a-z]+', re.IGNORECASE)
p.match('PYTHON')

#[a-z]+ 정규식은 소문자만을 의미하지만 re.IGNORECASE 옵션으로 대소문자 구별 없이 매치된다.

<re.Match object; span=(0, 6), match='PYTHON'>

##### MULTILINE, M
<code>re.MULTILINE</code> 또는 <code>re.M</code> 메타 문자인 <code>^</code>, <code>$</code>와 연관된 옵션이다. </br>
<code>^</code> : 문자열의 처음 </br>
<code>$</code> : 문자열의 마지막

In [48]:
import re
p = re.compile("^python\s\w+")
data = """python one
life is too short
python two
you need python
python three"""
print(p.findall(data))

#^ 메타 문자에 의해 python이라는 문자열을 사용한 첫 번째 줄만 매치된 것

['python one']


In [49]:
#^ 메타 문자를 문자열 전체의 처음이 아니라 각 라인의 처음으로 인식시키고 싶은 경우
#사용할 수 있는 옵션이 re.MULTILINE 또는 re.M이다.
import re
p = re.compile("^python\s\w+", re.MULTILINE) #re.MULTILINE 옵션 추가

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

#re.MULTILINE 옵션으로 인해 ^ 메타 문자가 문자열 전체가 아닌 각 줄의 처음이라는 의미
#-> 즉, re.MULTILINE 옵션은 ^, $ 메타 문자를 문자열의 각 줄마다 적용해 주는 것


['python one', 'python two', 'python three']


##### VERBOSE, X
<code>re.VERBOSE</code> 또는 <code>re.X</code> 옵션은 이해하기 어려운 정규식을 주석 또는 줄 단위로 구분할 때 사용하는 옵션이다.

In [56]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
print(charref)
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)
print(charref)

# 첫 번째와 두 번째 예를 비교해 보면 컴파일된 패턴 객체인 charref는 모두 동일한 역할
# 하지만 정규식이 복잡할 경우 두 번째처럼 주석을 적고 여러 줄로 표현하는 것이 훨씬 가독성이 좋다

# -> re.VERBOSE 옵션으로 문자열에 사용된 whitespace는 컴파일할 때 제거한 후(단 [ ] 안에 사용한 whitespace는 제외)
# 줄 단위로 #기호를 사용하여 주석문을 작성

re.compile('&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')
re.compile('\n &[#]                # Start of a numeric entity reference\n (\n     0[0-7]+         # Octal form\n   | [0-9]+          # Decimal form\n   | x[0-9a-fA-F]+   # Hexadecimal form\n )\n ;              , re.VERBOSE)


##### 백슬래시 문제
<code> \section </code>이 정규식은 <code>\s</code> 문자가 whitespace로 해석되어 의도한 대로 매치가 이루어지지 않는다.</br>
<code> [ \t\n\r\f\v]ection </code>다음 과 동일한 의미이다.</br>
의도한 대로 매치하고 싶다면 <code>\\section</code> 다음 과 같이 작성 해야한다.

In [64]:
p = re.compile('\\section')
p

# \ 문자가 문자열 자체임을 알려 주기 위해 백슬래시 2개를 사용하여 이스케이프 처리

re.compile(r'\section', re.UNICODE)

In [68]:
p = re.compile('\\\\section')
print(p)
# 정규식 엔진에 \\ 문자를 전달하려면 파이썬은 \\\\ 처럼 백슬래시를 4개나 사용해야한다

p = re.compile(r'\\section')
print(p)
# 너무 복잡해지는 문제를 해결 하기 위해서  Raw String을 사용해야 한다.

re.compile('\\\\section')
re.compile('\\\\section')
