# Regular Expression

## Specify Pattern Using RegEx

### MetaCharacters
Metacharacters are characters that are interpreted in a special way by a RegEx engine. Here's a list of metacharacters:
- 메타문자란 원래 그 문자가 가진 뜻이 아닌 다른 용도로 사용되는 문자
- [] . ^ $ * + ? {} () \ |

#### [] - Square brackets

- [] 사이의 문자
    - [a-e] = [abcde]
    - [1-4] = [1234]
    - [0-39] = [01239]
    - [^abc] a or b or c를 제외한 문자
    - [^0-9] 숫자를 제외한 문자

#### . - Period

- newline '\n' 을 제외한 문자

#### ^ - Caret

- ^는 반대(not)를 의미한다. [^0-9]는 숫자가 아닌 문자를 의미한다

#### $ - Dollar

- $는 문자열의 마지막을 의미한다. code$는 code로 끝나는 매치되는 문자열을 의미한다

#### * - Star

- 왼쪽부터 *앞에 문자가 0번 또는 여러번 반복될 수 있다는 것을 의미한다

#### + - Plus

- 왼쪽부터 +앞에 문자가 1번 또는 여러번 반복될 수 있다는 것을 의미한다

#### ? - Question Mark

- {0, 1}을 의미한다. 최소 0번 최대 1번까지 문자열이 사용되면 매치된다

#### {} - Braces

- {n,m} 최소 n번, 최대 m번 문자열이 반복되는 것을 의미한다

#### | - Alternation

- or 연산자와 같은 의미로, A|B 일 경우, A 또는 B를 의미한다

#### () - Group

- () 는 sub-patterns을 의미한다
- 예를 들어, (a|b|c)xz 는 a or b or c가 xz와 연결되는 문자열을 의미한다


#### \ - Backslash

- \를 escape하기 위해서 사용된다. "\\dog"


#### Special Sequences

- \A : 문자열 전체에서의 맨 처음을 의미한다
- \b : 단어 구분자로 사용된다 -> \\bNew\\b -> Happy New Year
- \B : 문자열을 찾는데 사용된다 -> \\BNew\\B -> HappyNewYear
- \d : 모든 숫자와 매치 = [0-9]
- \D : 숫자가 아닌 문자와 매치 = [^0-9]
- \s : 모든 whitespace와 매치 = [ \t\n\r\f\v].
- \S : 모든 whitespace를 제외한 문자와 매치 = [^ \t\n\r\f\v].
- \w : 문자+숫자와 매치 = [a-zA-Z0-9_]
- \W : 문자+숫자가 아닌 것과 매치 = [^a-zA-Z0-9_]

# Regular Expressions in Python

In [1]:
import re

## Using r prefix before RegEx

- When r or R prefix is used before a regular expression, it means raw string. 

In [2]:
s = 'Hi\nHello'
raw_s = r'Hi\nHello'

In [3]:
print(s)
print(raw_s)

Hi
Hello
Hi\nHello


In [5]:
string = '\nection\n\\n'
print(string)
result = re.findall('\n', string)
print(result)
result = re.findall('\\\\n', string)
print(result)
result = re.findall(r'\\n', string)
print(result)


ection
\n
['\n', '\n']
['\\n']
['\\n']


## re.findall()
- The **re.findall()** method returns a list of strings containing all matches.
- Check **re.search()** as well for your reference

In [None]:
string = 'I like this 34a class. Very much 64. 2389, but love another class with 29039812.3882199slie.c222'
pattern = '\d+'
result = re.findall(pattern, string) 
print(result)

['34', '64', '2389', '29039812', '3882199', '222']


In [None]:
string = 'hello 12 hi 89. Howdy 34, +'
result = re.findall('[\d+, \s+]', string) 
print(result)

[' ', '1', '2', ' ', ' ', '8', '9', ' ', ' ', '3', '4', ',', ' ', '+']


## re.split()
- The **re.split** method splits the string where there is a match and returns a list of strings where the splits have occurred.

In [None]:
string = 'Twelve:12 Eighty nine:89.'
pattern = '\d+'
result = re.split(pattern, string) 
print(result)

['Twelve:', ' Eighty nine:', '.']


## re.sub()
re.sub(pattern, replace, string)
<br>
- String where matched occurrences are replaced with content of replace variable.

In [None]:
string = 'abc 12\
de 23 \n f45 6'
print("current:"+string)
print("\n")

pattern = '\s+' # matches all whitespace characters
replace = '<SPACE>' # empty string
new_string = re.sub(pattern, replace, string) 
print("new:"+new_string)

current:abc 12de 23 
 f45 6


new:abc<SPACE>12de<SPACE>23<SPACE>f45<SPACE>6


In [None]:
# multiline string
string = 'abc 12\
de 23 \n f45 6'
print("current:", string)

# matches all whitespace characters
pattern = '\s+'
replace = ''
new_string = re.sub(r'\s+', replace, string, 2) 
print("new:"+new_string)

current: abc 12de 23 
 f45 6
new:abc12de23 
 f45 6


## Match object
- You can get methods and attributes of a match object using dir() function.

- Some of the commonly used methods and attributes of match objects are:

### match.group()
- The *group()* method returns the part of the string where there is a match.

### match.start(), match.end() and match.span()
- The **start()** function returns the index of the start of the matched substring. 
- Similarly, **end()** returns the end index of the matched substring.
- The **span()** function returns a tuple containing start and end index of the matched part.

### match.re and match.string
- The **re** attribute of a matched object returns a regular expression object. 
- Similarly, **string** attribute returns the passed string.