#### re.match()와 re.search의 차이
 - re.match()의 경우 대상 문자열의 시작부터 검색
 - re.search()는 대상 문자열 전체에 대해서 검색을 수행

In [1]:
import re

In [2]:
bool(re.match('[0-9]*th', '     35th')) # 불린으로 검색결과 확인

False

In [3]:
bool(re.search('[0-9]*th', '     35th'))

True

In [4]:
bool(re.match('ap', 'This is an apple')) # 문자열의 시작부터 검색

False

In [5]:
bool(re.search('ap', 'This is an apple')) # 문자열의 전체에 대해 검색

True

#### re.aplit() - 대상 문자열을 입력된 패턴을 구분자로 하여 분리

In [6]:
re.split('[:. ]+', 'apple Orange:banana tomato') # ':', '.', ' ' 문자를 구분자로 분리

['apple', 'Orange', 'banana', 'tomato']

In [8]:
re.split('([:.])+', 'apple Orange:banana tomato') # 패턴에 괄호를 사용하면 해당 분리 문자도 결과 문자열에 포함

['apple Orange', ':', 'banana tomato']

##### re.sub() - 패턴과 일치하는 문자열 변경

In [10]:
re.sub("-", "@", "880727-1234567") # 주민번호 형식을 변경

'880727@1234567'

In [12]:
re.sub(r"[:,|\s]", ", ", "Apple:Orange Banana|Tomato") # 필드 구분자를 통일

'Apple, Orange, Banana, Tomato'

In [13]:
re.sub(r"[:,|\s]", ", ", "Apple:Orange Banana|Tomato", 2) #  변경횟수 제한

'Apple, Orange, Banana|Tomato'

In [16]:
# html문장의 일부분 중 연도부분을 이탤릭체로 변경
re.sub(r"\b(\d{4}-\d{4})\b", r"<I>\1</I>", "Copyright Deric 1990-2009")

'Copyright Deric <I>1990-2009</I>'

#### 동일한 패턴을 연속적으로 검색하는 경우, 정규식을 컴파일하여 정규표현식 객체를 생성.

In [19]:
c = re.compile(r"app\w*")
c.findall("application orange apple banana")

['application', 'apple']

#### re.IGNORECASE 플래그로 대소문자 구분하지 않고 매칭 작업 수행

In [20]:
s = 'Apple is a big company and apple is very delicious.'
c = re.compile('apple', re.I)
c.findall(s)

['Apple', 'apple']

#### re.MULTILINE 플래그를 설정하여 빈 라인을 제외하고 라인별로 분리

In [21]:
s = """window
unix
linux
solaris"""

In [22]:
c = re.compile('^.+') # 첫 라인만 매칭
c.findall(s)

['window']

In [24]:
c = re.compile('^.+', re.M) # MULTILINE 설정
c.findall(s)

['window', 'unix', 'linux', 'solaris']

#### 일반적인 형식의 전화번호를 인식하여 Match 객체가 지원하는 메소드 분석.

In [25]:
telChecker = re.compile(r"(\d{2,3})-(\d{3,4})-(\d{4})")
m = telChecker.match("02-123-4567")
m.groups()

('02', '123', '4567')

In [27]:
m.group() # 매칭된 전체 문자열을 반환

'02-123-4567'

In [28]:
m.group(1) # 첫번째로 매칭된 문자열 반환

'02'

In [29]:
m.group(2,3) # 두,세번째로 매칭된 문자열을 튜플로 반환

('123', '4567')

In [33]:
m.start(2) # 두번째 매칭된 문자열("123")의 시작 인덱스

3

In [32]:
m.end(2) # 두번째 매칭된 문자열("123")의 종료 인덱스

6

In [34]:
m.string[m.start(2):m.end(3)] # 지역번호를 제외한 전화번호 출력

'123-4567'

#### 정규식 작성시 '(?<이름>..)' 형식으로 매칭 결과에 대해 이름을 부여하고 groupdict() 메서드를 이용하여 사전형태로 이름과 검색된 문자쌍을 얻음.

In [39]:
c = re.compile(r"(?P<area>\d+)-(?P<exchange>\d+)-(?P<user>\d+)") # ?P<name>... 형태는 ...에 매칭되는 그룹에 name이라는 이름을 붙여줌
m = c.match("02-123-4567")

In [36]:
m.group("area")

'02'

In [37]:
m.groupdict()

{'area': '02', 'exchange': '123', 'user': '4567'}