# Introduction
- RE는 C engine에 의해 실행되는 bytecodes로 컴파일된다.

# Simple Patterns
- Matching Characters

### [] : Specifying a character class
1. Metacharacters are not active inside classes. ex) [akm$]  
2. set안에다가 '맨앞'에 ^를 써줘야 except방식으로 쓸 수 있다. ex) [^5]


### \\(backslash) : Most important metacharacter
1. metacharacter를 문자로 나오게 해준다.
2. \\를 붙여서 특별한 sequence를 만든다. ex) \\w는 모든 unicode 문자
- \\d는 모든 숫자
- \\D는 숫자가 아닌 것
- \\s는 모든 whitespace
- \\S는 non-whitespace  
★위의 것들은 character class([]) 안에 들어갈 수 있다.

### 기타
1. .은 any character
2. ..은 newline character 빼고 전부


# Repeating Things
1. \*는 '\*'를 매치하는게 아니라, 0번 이상을 의미한다.
2. +는 1번 이상을 의미한다.
3. ?는 0번 혹은 1번을 의미한다. (있거나 없거나)
4. {m,n}은 m번이상 n번 이하를 의미한다.

# The Backslash Plague

In [68]:
import re
p = re.compile(r'a\/{0,4}b')
p

re.compile(r'a\/{0,4}b', re.UNICODE)

In [69]:
a = p.match(r'a////b') # 맨 앞부터 찾는다.
b = p.search(r'abfsfdsa///b') # 전체 중에 맞는 곳을 찾는다.
c = p.findall(r'abfsfdsa///b') # 맞는 곳 찾아서 리스트로 반환
d = p.finditer(r'abfsfdsa///b')

In [74]:
a.span()

(0, 6)

In [71]:
c

['ab', 'a///b']

In [79]:
import re
p = re.compile('[a-z]+')

In [43]:
print(p.match(""))

None


In [45]:
m = (p.match("tempo"))

In [47]:
m.group()

'tempo'

In [82]:
m = (p.search(":::message"))
m

<re.Match object; span=(3, 10), match='message'>

In [81]:
m.group()

'message'

In [83]:
m.span()

(3, 10)

In [90]:
m = p.match( '::::' )
m

if m:
    print('Match found: ', m.group())
else:
    print('No match')

No match


In [92]:
p = re.compile(r'\d+')
p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['12', '11', '10']

In [97]:
iterator = p.finditer(('12 drummers drumming, 11 pipers piping, 10 lords a-leaping'))

In [98]:
for match in iterator:
    print(match.span())

(0, 2)
(22, 24)
(40, 42)


# Module-Level Functions

In [110]:
print(re.search('^From', 'From Here to Eternity')) 

<re.Match object; span=(0, 4), match='From'>


In [108]:
print(re.search(r'^From', 'Reciting From Memory'))

None


### Compilation Flags
- ASCII : only ASCII
- DOTALL : newline도 포함
- IGNORECASE : 대소문자 구분이나 기타 letter포함
- LOCALE : 유니코드 아닌경우 타언어도 포함
- MULTILINE : ^와 &에 영향 끼치는 것으로 multi-line포함
- VERBOSE : 주석달게 가능. # 쓸거면 []처리.

In [141]:
charref = re.compile(r"""
 &[#]                # Start of a numeric entity reference
 (
     0[0-7]+         # Octal form
   | [0-9]+          # Decimal form
   | x[0-9a-fA-F]+   # Hexadecimal form
 )
 ;                   # Trailing semicolon
""", re.VERBOSE)

In [126]:
charref

re.compile(r'\n &[#]                # Start of a numeric entity reference\n (\n     0[0-7]+         # Octal form\n   | [0-9]+          # Decimal form\n   | x[0-9a-fA-F]+   # Hexadecimal form\n )\n ;                   # Trailing semicolon\n',
re.UNICODE|re.VERBOSE)

In [143]:
charref.search('&#878309638360340953;')

<re.Match object; span=(0, 21), match='&#878309638360340953;'>

In [120]:
charref = re.compile("&#(0[0-7]+"
                     "|[0-9]+"
                     "|x[0-9a-fA-F]+);")

In [123]:
charref

re.compile(r'&#(0[0-7]+|[0-9]+|x[0-9a-fA-F]+);', re.UNICODE)

# More Metacharacters
- zero-width assertions : 반복할 필요가 없다.  
- | : or operator, ex) Crow|Servo ; 'Crow'나 'Servo'. | 매칭은 [|] or \|
- ^ : matches at the beginning of lines. (MULTILINE 없으면 맨앞만).
- $ : matches at the end of line. end나 \n직전이면 된다.
- \A : matches only at the start of the string
- \Z : matches only at the end of the string
- \b : word boundary
- \B : word가 이어지는 것 (boundary없이)

In [149]:
print(re.search('^From', 'From Here to Eternity'))  

<re.Match object; span=(0, 4), match='From'>


In [150]:
print(re.search('}$', '{block}\n'))

<re.Match object; span=(6, 7), match='}'>


In [162]:
p = re.compile(r'\bclass\b')
print(p.search('no class.'))
print(p.search('no class at all'))
print(p.search('one subclass is'))

<re.Match object; span=(3, 8), match='class'>
<re.Match object; span=(3, 8), match='class'>
None


In [178]:
p = re.compile('\bclass\b') # r을 안붙이면 백스페이스로 인식하므로 주의하라.
print(p.search('\b' + r'class' + '\b'))

<re.Match object; span=(0, 7), match='\x08class\x08'>


In [166]:
p

re.compile(r'\x08class\x08', re.UNICODE)

In [179]:
p = re.compile('[\b]class\b')

In [180]:
p # character class 안에서는 백스페이스가 된다.

re.compile(r'[\x08]class\x08', re.UNICODE)

# Grouping

In [186]:
p = re.compile('(ab)*')

In [187]:
print(p.match('ababababab'))

<re.Match object; span=(0, 10), match='ababababab'>


In [188]:
p = re.compile('(a(b)c)d')
m = p.match('abcd')

In [191]:
m.group(3)

IndexError: no such group

In [199]:
p = re.compile(r'\b(\w+)\s+\1\b') # Backreferences
p.search('Paris in the the spring').group() 
# Backrefecrence는 repeated data를 찾기보다는 substitution할 때 유용하다.

'the the'

# Non-capturing and Named Groups

#### Non-capturing group
- (?=...)은 어떤 extension이 사용될건지 나타낸다. (lookahead assertion)  
\[abc\](?=foo) 는 afoo, bfoo, cfoo에서 a,b,c,를 matching한다.
- (?:...) 을 통해 capturing되지 않을 그룹을 나타낼 수 있다.★★  
속도는 caturing이나 non-capturing group이나 빠르다.  

#### Named Group은 name으로도 reference되는 group이다.
- (?P\< name>...)
- Named group도 number를 부여받는다.
- (?P=name)은 앞에 있던 name이라는 그룹을 지칭한다.

#### 기타
- (?!...)은 (?=...)의 반대로 negative lookahead assertion이다.

In [258]:
m = re.match("([abc])+", "abc")
m.groups()

('c',)

In [212]:
m = re.match("(?:[abc])+", "abc")
m.groups() # capturing되지 않았다.

()

In [259]:
p = re.compile(r'(?P<word>\b\w+\b)')
m = p.search('(((( Lots of punctuation )))')

In [261]:
m.group(1)

'Lots'

In [219]:
InternalDate = re.compile(r'INTERNALDATE "'
        r'(?P<day>[ 123][0-9])-(?P<mon>[A-Z][a-z][a-z])-'
        r'(?P<year>[0-9][0-9][0-9][0-9])'
        r' (?P<hour>[0-9][0-9]):(?P<min>[0-9][0-9]):(?P<sec>[0-9][0-9])'
        r' (?P<zonen>[-+])(?P<zoneh>[0-9][0-9])(?P<zonem>[0-9][0-9])'
        r'"')

In [220]:
p = re.compile(r'\b(?P<word>\w+)\s+(?P=word)\b')
p.search('Paris in the the spring').group()

'the the'

In [221]:
p = re.compile(r'\b(\w+)\s+\1\b')
p.search('Paris in the the spring').group()

'the the'

In [223]:
print(r'.*[.](?!bat$|exe$)[^.]*$') # 확장자 제거

.*[.](?!bat$|exe$)[^.]*$


# Modifying Strings
- split() : matching 되는 것으로 쪼개고 나머지를 반환
- sub() : 찾고 replace
- subn() : sub()와 같지만 new string과 replacement 갯수를 반환함.

In [229]:
p = re.compile(r'\W+')
p.split('This is a test, short and sweet, of split().',3)

['This', 'is', 'a', 'test, short and sweet, of split().']

In [231]:
# Capturing parentheses를 사용하면 그것들도 같이 반환된다.
p = re.compile(r'(\W+)')
p.split('This is a test, short and sweet, of split().')

['This',
 ' ',
 'is',
 ' ',
 'a',
 ' ',
 'test',
 ', ',
 'short',
 ' ',
 'and',
 ' ',
 'sweet',
 ', ',
 'of',
 ' ',
 'split',
 '().',
 '']

In [236]:
p2 = re.compile(r'(\W+)')
p2.split('This... is a test.')

['This', '... ', 'is', ' ', 'a', ' ', 'test', '.', '']

In [238]:
p2 = re.compile(r'(\W+)')
p2.subn('@','This... is a test.')

('This@is@a@test@', 4)

In [241]:
p = re.compile('x*')
p.sub('-', 'abxd') 
# empty match는 previous empty match가 인접하지 않을때 replace한다.

'-a-b--d-'

In [242]:
p = re.compile('x*')
p.split('abxd') 

['', 'a', 'b', '', 'd', '']

- replacement가 string이라면, backslash escape들이 한개로 취급된다.
- \g<1> or \g\< name> 으로도 나타낼 수 있다.

In [247]:
p = re.compile('section{([^}]*)}', re.VERBOSE)
p.sub(r'subsection{\1}','section{First} section{second}')
# 이 예시를 통해 그룹은 한 패턴안에서 얘기하는 것을 알 수 있다.

'subsection{First} subsection{second}'

In [248]:
p = re.compile('section{(?P<name>[^}]*)}', re.VERBOSE)
p.sub(r'subsection{\1}','section{First}')

'subsection{First}'

In [249]:
p = re.compile('section{(?P<name>[^}]*)}', re.VERBOSE)
p.sub(r'subsection{\g<1>}','section{First}')

'subsection{First}'

In [252]:
p = re.compile('section{(?P<namee>[^}]*)}', re.VERBOSE)
p.sub(r'subsection{\g<namee>}','section{First} section{Second}')

'subsection{First} subsection{Second}'

- replacement는 function이 될 수도 있다.

In [254]:
def hexrepl(match):
    """Return the hex string for a decimal number"""
    value = int(match.group())
    return hex(value)

In [256]:
p = re.compile(r'\d+')
p.sub(hexrepl,'Call 65490 for printing, 49152 for user code.')

'Call 0xffd2 for printing, 0xc000 for user code.'

In [263]:
re.sub("(?i)b+", "x", "bbbb BBBB")

'x x'

# Tip
- string의 replace()랑 translate()를 잘 이용하라.
- match()와 search의 차이를 기억하라.  
match 앞에 .*같은 것을 추가하는 것은 성능을 저하시킨다.  
- Greedy vs Non-Greedy (lazy)
- re.VERBOSE flag : whitespace가 []안에 있는게 아니라면 무시됨, 주석 적기 가능

In [267]:
print(re.match('super', 'insuperable'))

None


In [269]:
print(re.search('super', 'insuperable'))

<re.Match object; span=(2, 7), match='super'>


In [272]:
s = '<html><head><title>Title</title>'
print(re.match('<.*>', s).group()) # .*의 greedy한 속성때문에 오작동한 예

<html><head><title>Title</title>


In [289]:
print(re.findall('<.*?>', s)) # ?의 non-greedy한 속성 사용

['<html>', '<head>', '<title>', '</title>']
