## regex in python
- re 모듈을 통한 정규표현식 지원
    - re 모듈을 이용해서 정규표현식 컴파일 후
        - RegixObject 객체 반환
    - 반환된 객체의 match() or search() 메서드에 찾고자하는 문자열 넘겨주면 
        - MatchObject 객체 반환
- 메서드
    - https://docs.python.org/3/library/re.html#regular-expression-objects
    - RegexObject
        - match() - 문자열의 시작부분에서 regex 일치 검사 (일치 성공시 시작위치 항상 0)
        - search() - 문자열 전체를 훑어 regex 일치 검사
        - findall() - regex와 일치한 텍스트 모두 찾아 리스트 형태로 반환
        - finditer() - regex와 일치한 텍스트를 모두 찾아 iterator 형태로 반환
        - sub() - regex와 일치한 텍스트를 사용자가 지정한 텍스트로 치환
    - MatchObject ; match, search가 반환
        - group() - regex와 일치한 텍스트 반환
        - start() - regex와 일치한 텍스트 시작 위치 반환
        - end() - regex와 일치한 텍스트 마지막 위치 반환
        - span() - regex와 일치한 텍스트의 시작 위치와 마지막 위치 tuple로 반환
- 조건 달기 지원 x
- \E, \1, \L, \u, \U를 통한 대소문자 변호나 지원 x
- \z 지원 x
- 먼말이지?

### 사용 예시

In [1]:
import re
p = re.compile(r'\d{3}')
m = p.match('12345')
m.group()

'123'

In [2]:
m = re.match(r'\d{3}', '123456')
m.group()

'123'

In [3]:
target = 'Hello, my name is Ben, Please visit my website at http://www.zum.com/.'

### 특정 문자  찾기
- 그냥 써주면 됨

In [4]:
re.search(r'Ben', target).group()

'Ben'

In [5]:
re.findall(r'my', target)

['my', 'my']

### 임의의 문자 찾기
- dot(.)으로 모든 문자를 매칭할 수 
- re.match를 썼을 때 시작위치부터 매칭이 안되면 None이 반환됨

In [6]:
target = 'abc.xls, abe.xls, ab3.xls, acb.xls'

In [7]:
re.search(r'ab.', target).group()

'abc'

In [8]:
re.findall('a..', target)

['abc', 'abe', 'ab3', 'acb']

### 특수 문자 찾기
- dot(.) 자체를 찾으려면 어떻게?
- \를 붙인다 (역슬래시)
- \ 자체를 찾고 싶을 땐 \ 두번

In [9]:
re.findall(r'ab.\.xls', target)

['abc.xls', 'abe.xls', 'ab3.xls']

### 문자 집합으로 찾기
- dot(.) 을 쓰면 모든 문자와 일치 되어버리니
- 특정 집합안에 속하는 문자를 찾고 싶을 때, 문자 집합을 명시할 수 있다, 대괄호\[\]를 이용

In [10]:
target = 'ka1.xls, ka2.xls, na1.xls, na2.xls, ca1.xls, sales1.xls, abc.xls'

In [11]:
re.findall(r'[nc]a.\.xls', target)

['na1.xls', 'na2.xls', 'ca1.xls']

캐럿(^)을 쓰면 해당 문자 집합을 제외한 나머지 패턴을 일치 시킨다

In [12]:
re.findall(r'[nc]a[^1]\.xls', target)

['na2.xls']

na, ca 바로 뒤에 숫자만 오게 하고 싶다면

In [13]:
re.findall(r'[nc]a[0123456789]\.xls', target)

['na1.xls', 'na2.xls', 'ca1.xls']

0부터 9까지나 A부터 Z까지 문자들의 범위를 간편하게 지정 가능하다  
하이픈(-)을 이용하며, 하이픈은 대괄호 안에서만 메타 문자의 의미를 가진다 (밖에서는 그냥 문자)

In [14]:
re.findall(r'[nc]a[0-9]\.xls', target)

['na1.xls', 'na2.xls', 'ca1.xls']

사실 usa1.xls 가 있었다면 매칭이 되버림, 이를 제외하는 방법은 이후에

문자 집합은 흔히 대소문자 구별 없이 검색할 때에도 사용

In [15]:
target = 'The phrase "regular expression" is often abbreviated as RegEx or regex'

In [16]:
re.findall(r'[Rr]eg[Ee]x', target)

['RegEx', 'regex']

In [17]:
#re.findall(r'[A-Za-z0-9]', target)

In [18]:
target = '<body bgcolor="#336633" text="#ffffff"></body>'

In [19]:
re.findall(r'#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f]', target)

['#336633', '#ffffff']

### 메타 문자에 대해서...
- 메타 문자 자체를 찾고 싶을 땐 역슬래시로 이스케이핑이 필요하다.

In [20]:
target = 'var myArray = new Array(); if (myArray[0] == 0) {myArray[1] = 1; myArray[2] = 3; }'

In [21]:
re.findall(r'myArray\[[0-9]\]', target)

['myArray[0]', 'myArray[1]', 'myArray[2]']

### 공백 메타 문자
- \b - 역스페이스
- \f - 페이지 넘김
- \n - 줄바꿈
- \r - 캐리지 리턴
- \t - 탭
- \v - 수직 탭
- 참고
    - 윈도우에선 줄 끝을 나타낼 때 \r\n을 사용
    - 유닉스/리눅스에선 단순히 \n만 사용

In [22]:
target = """안녕하세요 저는
송제인 입니다. \t
"""

In [23]:
re.findall(r'\n', target)

['\n', '\n']

### 자주 쓰는 문자 집합들은 특수한 메타 문자로 만들어 두었다.
- classes of characters
    - 숫자와 숫자가 아닌 문자
        - \d - 숫자 하나와 같음 == [0-9]
        - \D - 숫자를 제외한 문자 하나 == [^0-9]
    - 영숫자 문자와 영숫자 아닌 문자 찾기
        - \w - 대소문자와 밑줄을 포함하는 모든 영숫자 - [a-zA-Z0-9_]
        - \W - 영숫자, 밑줄이 아닌 모든 문자 [^a-zA-Z0-9]
    - 공백 문자와 공백이 아닌 문자 찾기
        - \s - 모든 공백 문자 - [\f\n\r\t\v]
        - \S - 공백 문자가 아닌 모든 문자 - [^\f\n\r\t\v]

In [24]:
target = 'var myArray = new Array(); if (myArray[0] == 0) {myArray[1] = 1; myArray[2] = 3; myArray[10] = 5;}'

[10]은 일치 되지 않은 것에 주목

In [25]:
re.findall(r'myArray\[\d\]', target)

['myArray[0]', 'myArray[1]', 'myArray[2]']

In [26]:
target = """
11213
A1C2E3
48075
H1H2H2
"""

왜 숫자로만 이루어진 애들은 못찾았는지 알아서 생각해보라함

In [27]:
re.findall(r'\w\d\w\d\w\d', target)

['A1C2E3', 'H1H2H2']

In [28]:
re.findall(r'\s', target)

['\n', '\n', '\n', '\n', '\n']

### 16진수 8진수 표현
- 16진수는 앞에 \x를 붙여 표시
    - \x0A (아스키문자 10) == \n
- 8진수는 앞에 \0을 붙여 표시
    - \011 (아스키문자 9) == \t

### 특정 문자가 하나 이상인 경우 찾기
- 임의의 문자나, dot(.)을 이용하면 하나의 문자만 매칭 시킬 수 있었는데
- 그 뒤에 +를 붙임으로써 최소 하나 이상 일치 할 경우를 찾을 수 있다.
    - a+ -> 하나 이상 연속된 a 찾음
    - [0-9]+ -> 하나 이상 연속된 숫자를 찾음
- 앞으로 나오는 메타문자(+, *, ?)를 **quantifier**라고 부른다

In [29]:
target = """
Send personal email to song.ben@forta.com. For questions
about a book use support@forta.com. Feel free to send 
unsolicited email to spam@master.forta.com
"""

song.ben, master.forta.com 패턴을 찾을 때 문제가 있음

In [30]:
re.findall(r'\w+@\w+\.\w+', target)

['ben@forta.com', 'support@forta.com', 'spam@master.forta']

아래와 같이 문자 집합을 정의하면 가능하다

In [31]:
re.findall(r'[\w.]+@[\w.]+\.\w+', target)

['song.ben@forta.com', 'support@forta.com', 'spam@master.forta.com']

### 특정 문자가 없는 경우나 하나 이상 연속하는 문자 찾기
- 에스터리슼(*) 을 쓰자
- 더하기(+)는 하나 이상 연속된 문자를 찾음

In [32]:
target = 'Hello .ben@forta.com is my email address'

주소 시작점이 dot(.)일 수 없는데 포함된 상황

In [33]:
re.findall(r'[\w.]+@[\w.]+\.\w+', target)

['.ben@forta.com']

위 케이스를 피하고자 한다면 아래와 같이 작성할 수 있다  
dot(.)이 있을 수도 없을 수도 있는 거니까. *으로 표현하는게 맞다

In [34]:
re.findall(r'\w+[\w.]*@[\w.]+\.\w+', target)

['ben@forta.com']

### 특정 문자가 없거나, 하나인 경우 찾기
- 물음표를 박는다
- 물음표는 자기 앞에 있는 문자가 없거나 하나가 있는 경우만 일치 시킨다

In [35]:
target = 'The URL is http://www.zum.com/, to connect securely use https://www.zum.com/ instead'

In [36]:
re.findall(r'http://[\w./]+', target)

['http://www.zum.com/']

In [37]:
re.findall(r'http[s]?://[\w./]+', target)

['http://www.zum.com/', 'https://www.zum.com/']

In [38]:
re.findall(r'https?://[\w./]+', target)

['http://www.zum.com/', 'https://www.zum.com/']

앞서 살펴본 윈도우에서의 개행 \r\n과 리눅스/유닉스에서의 개행 \n을 동시에 고려해야하는 문제는  
[\r]?\n 으로 해결할 수 있다.

### 반복 횟수 및 범위를 지정; range interval)
- 기존에 메타 문자 (+, *, ?) 로는 일치하는 문자 수를 지정할 수 없음
- 중괄호를 이용해 구간(interval)을 지정할 수 있다.
- {3}은 바로 앞에 있는 문자나 문자 집합이 세 번 연속해서 일치하는지 확인
- {0,1}은 물음표와 같은 기능
- {3,}은 최소 3번 이상 일치해야 함을 정의, {1,}는 더하기와 같은 기능

In [39]:
target = '''
<BODY BGCOLOR='#336633' TEXT='#FFFFFF'
MARGINWIDTH='0' MARGINHEIGHT='0', TOPMARGIN='0' LEFTMARGIN='0'>
'''

In [42]:
re.findall(r'#[0-9A-Fa-f]{6}', target)

['#336633', '#FFFFFF']

In [43]:
target = '''
4/8/03
10-6-2004
2/2/2
01-01-01
'''

In [44]:
re.findall(r'\d{1,2}[-\/]\d{1,2}[-\/]\d{2,4}', target)

['4/8/03', '10-6-2004', '01-01-01']

In [45]:
target = '''
1001: $496.80
1002: $1290.69
1003: $26.43
1004: $613.42
'''

최소 세자리 숫자

In [48]:
re.findall(r'\d+: \$\d{3,}\.\d{2}', target)

['1001: $496.80', '1002: $1290.69', '1004: $613.42']

### 별표나 더하기 메타 문자는 탐욕적이다
- 가능한 큰 덩어리를 찾으려 한다
- greedy quantifier를 lazy quantifier로 바꿀 수 있다
    - 기존 quantifier에 물음표를 붙이면 됨
        - * -> \*?
        - + -> +?
        - {n,} -> {n,}?

In [49]:
target = '''
This offer is not available to customers living in <B>AK</B> and <B>HI</B>
'''

In [50]:
re.findall(r'<[Bb]>.*</[Bb]>', target)

['<B>AK</B> and <B>HI</B>']

In [52]:
re.findall(r'<[Bb]>.*?</[Bb]>', target)

['<B>AK</B>', '<B>HI</B>']