## 정규식을 컴파일 할 때 다음 옵션을 사용할 수 있다.
* DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다.
* IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
* MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계가 있는 옵션이다)
* VERBOSE(X) - verbose 모드를 사용할 수 있도록 한다. (정규식을 보기 편하게 만들수 있고 주석등을 사용할 수 있게된다.)

In [1]:
import re

### DOTALL, S

In [2]:
original_text="""a
b"""
# original_text="a\nb"
p=re.compile("a.b") # 정규식 '.'는 원문에 \n에 대해서 기본 옵션으로 사용하면 패턴 매칭이
                     # 일어나지 않는다.
m = p.match(original_text)
print(m)

None


In [3]:
p=re.compile("a\nb")# 참고) 정규식에 '\n'을 사용한 경우는 기본 옵션을 사용해도 패턴 매칭
                     # 을 할 수 있다.
m = p.match(original_text)
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [4]:
p=re.compile("a.b", re.DOTALL)
p.match(original_text)

<re.Match object; span=(0, 3), match='a\nb'>

In [5]:
p=re.compile("a.b", re.S)
p.match(original_text)

<re.Match object; span=(0, 3), match='a\nb'>

### IGNORECASE, I
* re.IGNORECASE 또는 re.I 옵션은 대소문자 구별 없이 매치를 수행할 때 사용하는 옵션

In [6]:
p = re.compile('[a-z]+')
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
None
None


In [7]:
p = re.compile('[a-z]+', re.IGNORECASE)
print(p.match('python'))
print(p.match('Python'))
print(p.match('PYTHON'))

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(0, 6), match='Python'>
<re.Match object; span=(0, 6), match='PYTHON'>


### MULTILINE, M

In [23]:
multiline_str="""ID001,이순신,90,84,39
,강감찬,90,84,39
ID003,유관,90,84,39
ID0004,유관순,90,84,39
"""

In [25]:
# 유효한 ID가 있는 행만 추출
# 유효한 ID조건
# 1.ID로 시작
# 2.ID다음에 숫자3개
# 3. 그 이후 데이터는 제약사항 없음
p = re.compile('^ID[0-9]{3,3},.+', re.MULTILINE) 
p.findall(multiline_str)

['ID001,이순신,90,84,39', 'ID003,유관,90,84,39']

In [26]:
# 유효한 ID가 있는 행만 추출
# 유효한 ID조건
# 1.ID로 시작
# 2.ID다음에 숫자3개
# 3. 그 이후 데이터는 제약사항 없음
# 제약조건 추가: 이름열의 이름은 한글 3글자
p = re.compile('^ID[0-9]{3,3},[가-힣]{3,3},.+', re.MULTILINE) 
p.findall(multiline_str)

['ID001,이순신,90,84,39']

## VERBOSE, X
* 한 줄로 표현하는 정규식을 여러줄로 표현 할 수 있다.

In [8]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

* 아래에서 컴파일 옵션을 지정하지 않으면 여러줄의 정규식을 쓰면 에러발생

In [9]:
charref = re.compile(r'&[#](0[0-7]+
|[0-9]+|x[0-9a-fA-F]+);')

SyntaxError: unterminated string literal (detected at line 1) (3720079345.py, line 1)

In [10]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE) # 줄바꿈 이후의 공백문자는 컴파일시 제거된다.