## 정규표현식
1. 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어
2. 복잡한 문자열 패턴을 정의하는 문자 표현 공식
3. 많은 텍스트 편집기와 프로그래밍 언어에서 문자열의 검색과 치환을 위해 지원
4. 검색엔진, 워드 프로세서와 문서 편집기의 찾아 바꾸기 대화상자 등 문자처리 유틸리티에 사용 \
ex. ([A-Za-z]+)\. : 대문자와 소문자로 순서로 이루어져있고 한 글자만이 아니라 여러 글자가 올 수 있다.
5. 정규표현식에는 표준 기호가 있다.

In [1]:
#http://docs.python.org/ko/3/howto/regex.html

In [2]:
import re

In [4]:
text = 'hewxo hello hewxo heeo he'
re.findall('he..o', text)

['hewxo', 'hello', 'hewxo']

In [5]:
re.findall('he..o', 'hewxo hello hewxo heeo he')

['hewxo', 'hello', 'hewxo']

In [7]:
re.search('h...o', 'hewxo hello hewxo heeo he') #search는 해당하는 첫 번째 (span 위치)

<re.Match object; span=(0, 5), match='hewxo'>

### 2.^문자열의 시작

In [8]:
re.findall('^hello', 'hewxo hello hewxo heeo he') #앞의 다섯자리가 맞으면 출력

[]

In [9]:
re.findall('^hello', 'hello hewxo hello hewxo heeo he')

['hello']

In [10]:
re.findall('^he', 'hello hewxo hello hewxo heeo he')

['he']

In [11]:
re.findall('^he..', 'hello hewxo hello hewxo heeo he')

['hell']

### 3. $문자열의 끝

In [12]:
re.findall('world$', 'We are the world') #끝의 다섯자리가 맞으면 출력

['world']

### 4. *해당 기회 바로 앞 문자가 0번 이상 반복

In [13]:
re.findall('aix*', 'ai, aix, aixx, bds, qqw')

['ai', 'aix', 'aixx']

### 5. '+' 해당 기호 바로 앞 문자가 1번 이상 반복

In [14]:
re.findall('aix+', 'ai, aix, aixx, bds, qqw')

['aix', 'aixx']

### 6. ?해당 기호 바로 앞 문자가 0번 또는 1번

In [16]:
re.findall('aix?', 'ai, aix, aixx, bds, qqw')

['ai', 'aix', 'aix']

### 7.[]문자집합, 기호 안의 여러 문자 중 일치할 경우 한 문자

In [17]:
re.findall('[c-e]', 'abcdefghijk')

['c', 'd', 'e']

### 8. {m,n} 바로 앞 문자의 반복 횟수 m번부터~n번까지

In [19]:
re.findall('a{2}', 'a aa aaa aaaa aaaaa aaaaaa aaaaaaa')

['aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa']

In [21]:
re.findall('a{2,4}', 'a aa aaa aaaa aaaaa aaaaaa aaaaaaa')

['aa', 'aaa', 'aaaa', 'aaaa', 'aaaa', 'aa', 'aaaa', 'aaa']

### 9. 해당 기호의 앞 문자 또는 뒷 문자

In [25]:
re.findall('a|b|c', 'abcdef')

['a', 'b', 'c']

In [23]:
re.findall('[a-c]','abcdef')

['a', 'b', 'c']

### 10. \ --> d, D, w, W, s, S

In [24]:
#숫자만 뽑을 때 > 리스트형으로 나옴
re.findall('[0-9]', '전화 번호는 010-1234-5678 입니다.')

['0', '1', '0', '1', '2', '3', '4', '5', '6', '7', '8']

In [26]:
re.findall('\d', '전화 번호는 010-1234-5678 입니다.')

['0', '1', '0', '1', '2', '3', '4', '5', '6', '7', '8']

In [27]:
re.findall('^[0-9]', '전화 번호는 010-1234-5678 입니다.')

[]

In [28]:
re.findall('[^0-9]', '전화 번호는 010-1234-5678 입니다.')

['전', '화', ' ', '번', '호', '는', ' ', '-', '-', ' ', '입', '니', '다', '.']

In [29]:
re.findall('\D', '전화 번호는 010-1234-5678 입니다.')

['전', '화', ' ', '번', '호', '는', ' ', '-', '-', ' ', '입', '니', '다', '.']

In [30]:
#영문 대소문자, 숫자, 밑줄문자
re.findall('\w', '전화 번호는 010-1234-5678 call 해주세요.')

['전',
 '화',
 '번',
 '호',
 '는',
 '0',
 '1',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 'c',
 'a',
 'l',
 'l',
 '해',
 '주',
 '세',
 '요']

In [31]:
re.findall('\W', '전화 번호는 010-1234-5678 call 해주세요.')

[' ', ' ', '-', '-', ' ', ' ', '.']

### 11. 또 다른 구현 방법

In [32]:
import re
re.findall('ab*', 'ab abc abde abcd')

['ab', 'ab', 'ab', 'ab']

In [33]:
p = re.compile('ab*')

In [34]:
p

re.compile(r'ab*', re.UNICODE)

In [35]:
p.findall('ab abc abde abcd')

['ab', 'ab', 'ab', 'ab']

## 정규식 re

In [40]:
import re
p = re.compile('[a-z]+') #a부터 z까지 하나 이상의 문자열
p

re.compile(r'[a-z]+', re.UNICODE)

In [41]:
print(p.match(''))

None


In [42]:
p.match('tempo')

<re.Match object; span=(0, 5), match='tempo'>

In [43]:
m =p.match('tempo')
m

<re.Match object; span=(0, 5), match='tempo'>

In [44]:
m.group()

'tempo'

In [45]:
m.start()

0

In [46]:
m.end()

5

In [47]:
m.span()

(0, 5)

In [49]:
#p = re.compile('[a-z]+')
print(p.match(':::message'))

None


In [50]:
m = p.search(':::message'); print(m)

<re.Match object; span=(3, 10), match='message'>


In [51]:
m.group()

'message'

In [52]:
m.span()

(3, 10)

In [53]:
p = re.compile('...')
m = p.match('string goes here')
print(m)
if m:
    print('Match found:', m.group())
else:
    print('No ,match')

<re.Match object; span=(0, 3), match='str'>
Match found: str


In [54]:
# return - re.Match object
p = re.compile(r'\d+')
p.search('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

<re.Match object; span=(0, 2), match='12'>

In [55]:
# return - list
p = re.compile(r'\d+')
p.findall('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')

['12', '11', '10']

In [57]:
iterator = p.finditer('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')
iterator

<callable_iterator at 0x21ddf91a0d0>

In [59]:
for match in iterator:
    print(match)

<re.Match object; span=(0, 2), match='12'>
<re.Match object; span=(22, 24), match='11'>
<re.Match object; span=(40, 42), match='10'>


In [61]:
#iterable 형태는 한 번 사용하면 오브젝트가 빈공간처럼 사라짐. 다시 정의해주어야 함.
iterator = p.finditer('12 drummers drumming, 11 pipers piping, 10 lords a-leaping')
for match in iterator:
    print(match.span())

(0, 2)
(22, 24)
(40, 42)


In [62]:
print(re.match(r'From\s+','Fromage amk'))

None


In [63]:
re.match(r'From\s+', 'From amk Thu May 14 19:12:10 1998') #반복해서 사용하려면 compile이 낫고 그렇지 않으면 이렇게 직접 쓴다.

<re.Match object; span=(0, 5), match='From '>

In [64]:
#From으로 시작해야 값이 매칭
print(re.search('^From', 'From Here to Eternity'))

<re.Match object; span=(0, 4), match='From'>


In [65]:
print(re.search('^From', 'Reciting From Memory'))

None


In [66]:
p = re.compile(r'\W+')
p.split('This is a test, short and sweet, of split().')

['This', 'is', 'a', 'test', 'short', 'and', 'sweet', 'of', 'split', '']

In [67]:
#split()에 옵션을 지정해줄 수 있다.
p = re.compile(r'\W+')
p.split('This is a test, short and sweet, of split().',1)

['This', 'is a test, short and sweet, of split().']

In [68]:
p = re.compile(r'\W+')
p.split('This is a test, short and sweet, of split().',3)

['This', 'is', 'a', 'test, short and sweet, of split().']

In [69]:
#단어 변환
p = re.compile('blue|white|red')
p.sub('colour', 'blue socks and red shoes')

'colour socks and colour shoes'

In [70]:
p.sub('colour', 'blue socks and red shoes', count=1)

'colour socks and red shoes'

In [71]:
#튜플형태로 반환
p = re.compile('blue|white|red')
p.subn('colour', 'blue socks and red shoes')

('colour socks and colour shoes', 2)