# 정규표현식


### 문자 클래스를 만드는 메타 문자인 [와] 사이에는 어떤 문자라도 들어갈 수 있다.

In [3]:
# [abc]
a = 'a' # 매치
b = 'before' # 매치
c = 'dude' # 매치 X

#### []안의 두 문자 사이에 하이픈(-)을 사용하게되면 두 문자 사이의 범위(From - To)를 의미함.
* Ex) [a-c] = [abc]        [0,5] = [012345]           [a-zA-Z] = 알파벳 모두

#### ^은 not의 의미로 [^0-9]는 숫자가 아닌 문자만 매치됨
* \d : 숫자만 매치, [0-9]와 동일한 표현식
* \D : 숫자가 아닌것과 매치, [^0-9]와 동일한 표현식
* \s : whitespace 문자와 매치, [ \t\n\r\f\v]와 동일한 표현식, 맨 앞의 빈칸은 공백(space)이다
* \S : whitespace 문자가 아닌 것과 매치, [a-zA-Z0-9_]와 동일한 표현식
* \w : 문자+숫자와 매치, [a-zA-Z0-9_]와 동일한 표현식
* \W : 문자+숫자가 아닌 문자와 매치, [^a-zA-Z0-9_]와 동일한 표현식

#### Dot(.)는 줄바꿈 문자인 \n을 제외한 모든 문자와 매치됨

In [4]:
# a.b = "a + 모든문자 + b" = a와 b사이에 어떤 문자가 들어가도 매치됨

In [5]:
"aab" # 매치
'a0b' # 매치
'abc' # 매치 X

'abc'

## []내에 .이 들어가면 모든문자가 아닌 문자 . 그대로를 의미

#### a[.]b = "a + . + b

## 반복( * ) , ( + ), ( {} ), ( ? )

### ca*t => * 바로앞에 있는 문자 a가 0부터 무한대로 반복될 수 있다는 의미
* ct = # 매치
* cat = # 매치
* caaat = # 매치
### ca+t => "c + a(1번이상 반복)                                                             
* ct = # 매치 X
* cat = # 매치
* caaat = # 매치
### ca{2}t => "c + a(반드시 2번 반복) + t"
* cat = # 매치 X
* caat = # 매치
### ca{2,5}t => "c + a(2~5회 반복) + t"
* cat = # 매치 X
* caat = # 매치
* caaaaat # 매치
### ab?c => "a + b(있어도 되고 없어도 된다) + C"
* abc = # 매치
* ac = # 매치

In [1]:
import re # 정규 표현식을 지원하는 re 모듈
p = re.compile('ab*')

### match() : 문자열의 처음부터 정규식과 매치되는지 조사한다.
### search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사한다
### findall() : 정규식과 매치되는 모든 문자열(substring)을 리스트로 리턴한다
### finditer() : 정규식과 매치되는 모든 문자열(substring)을 iterator 객체로 리턴한다

## match()

In [2]:
import re
p = re.compile('[a-z]+') # a-z까지 한번 이상 반복 되는가?

In [3]:
m = p.match("python") # 문자열의 처음부터 정규식과 매치되는가?
print(m) # 매치

<re.Match object; span=(0, 6), match='python'>


In [4]:
m = p.match("3 python")
print(m) # 매치 X

None


In [None]:
p = recompile(정규표현식)
m = p.match('string goes here')
if m:
    print('Match found: ', m.group())
else:
    print('No match')

## search()

In [5]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [7]:
m = p.search("3 pyhton") # 2~8번째 문자까지 매치됨
print(m)

<re.Match object; span=(2, 8), match='pyhton'>


## findall()

In [8]:
result = p.findall("life is too short")
print(result) # 문자열의 각 단어들이 정규식과 매치되어 리스트로 리턴됨

['life', 'is', 'too', 'short']


## findtier()

In [9]:
result = p.finditer("life is too short")
print(result)

<callable_iterator object at 0x055E6FB0>


In [10]:
for r in result: print(r)

<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## match 객체의 메서드
* group() : 매치된 문자열을 리턴
* start() : 매치된 문자열의 시작 위치를 리턴
* end() : 매치된 문자열의 끝 위치를 리턴
* span() : 매치된 문자열의 (시작, 끝) 에 해당하는 튜플을 리턴

In [11]:
m = p.match("python")
m.group() # 매치된 문자열 리턴

'python'

In [12]:
m.start() # 매치된 문자열의 시작위치 리턴

0

In [13]:
m.end() # 매치된 문자열의 끝위치 리턴

6

In [14]:
m.span() # 매치된 문자열의 (시작, 끝) 위치의 튜플 리턴

(0, 6)

# 모듈 단위로 수행하기

In [15]:
# 기존의 방식
p = re.compile('[a-z]+')
m = p.match("python")

In [17]:
# 축약된 형태
m = re.match('[a-z]+', 'python')

# 컴파일 옵션
* DOTALL(S) - . 이 줄바꿈 문자를 포함하여 모든 문자와 매치할 수 있도록 한다
* IGNORECASE(I) - 대소문자에 관계없이 매치할 수 있도록 한다.
* MULTILINE(M) - 여러줄과 매치할 수 있도록 한다. (^, $ 메타문자의 사용과 관계있는 옵션)
* VERBOSE(X) - verbose 모드를 사용가능
#### 옵션을 사용할때는 re.DOTALL처럼 전체 옵션명을 써도되고 re.S처럼 약어를 써도 됨

In [18]:
import re
p = re.compile('a.b') # \n은 . 메타문자와 매치가 안되므로 매치 X
m = p.match('a\nb')
print(m)

None


# DOTALL, S

In [19]:
p = re.compile('a.b', re.DOTALL)
m = p.match('a\nb')
print(m)
# 보통 re.DOTALL은 여러줄로 이루어진 문자열에서 \n에 상관없이 검색하고자 할 경우 사용

<re.Match object; span=(0, 3), match='a\nb'>


# IGNORECASE, I -> 대소문자 구분 X

In [21]:
p = re.compile('[a-z]', re.I) 
p.match('python')

<re.Match object; span=(0, 1), match='p'>

In [22]:
p.match('Python')

<re.Match object; span=(0, 1), match='P'>

In [23]:
p.match('PYTHON')

<re.Match object; span=(0, 1), match='P'>

# MULTILINE, M
### ^는 문자열의 처음을 의미, \$은 문자열의 마지막을 의미
* Ex) ^python : 문자열의 처음은 항상 python으로 시작해야 매치
* Ex) python$ : 문자열의 마지막은 항상 python으로 끝나야 매치

In [24]:
import re
p = re.compile("^python\s\w+")
# "python" 이라는 문자열로 시작하고 그 후에 whitespace, 그 후에 단어가 와야한다는 의미

data = """python one
life is too short
python tow
you need python
python three"""

print(p.findall(data))

['python one']


In [26]:
import re
p = re.compile("^python\s\w+", re.MULTILINE)
# re.MULTILINE의 추가로 각 라인의 처음으로 인식
# ^, % 옵션을 각 라인마다 적용 시킴

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['python one', 'python two', 'python three']


# VERBOSE, X

In [32]:
charref = re.compile(r'&[#](0[0-7]+|[0-9]+|x[0-9a-fA-F]+);')

In [34]:
charref = re.compile(r"""
&[#]              # Start of a numeric entity reference
(
    0[0-7]+     # Octal form
  I [0-9]+       # Decimal form
  I x[0-9a-fA-F]+ # Hexadecimal form
)
;                     # Trailing semicolon
""", re.VERBOSE)

## 백슬레시

In [35]:
p = re.compile('\\section')

* 파이썬에서는 \\\\을 \하나로 변경되므로 \\\\\\\\을 해야함

In [36]:
p = re.compile(r'\\section')

* 그리하여 r = Raw string이 생김

In [38]:
import re
p = re.compile("[a-z]+")
m = p.search("5 python")
m.start() + m.end()

10

In [39]:
m.start()

2

In [41]:
m.end()

8
