## 정규 표현식

1. python 사이트 url<br>
https://docs.python.org/ko/3.6/library/re.html#module-re
<br>
- 정규표현식 시각화 사이트<br>
https://regexper.com/

>주요 API
1. compile() : 형식(패턴)이 반영되는 함수, 실행 속도가 좋음
- search() : 데이터 전체에서 정규식에 부합하는 문자열 존재 여부 검색
- match() : 데이터의 처음부터 정규식과 부합하는지 검색
- group() : 정규식에서 필터링한 데이터를 파이썬에서 출력시 사용
- findall() : 정규식에 부합하는 모든 문자열을 리스트로 리턴
- sub() : 패턴과 일치되는 부분을 다른 문자로 변경
- split() : 주어진 문자열을 특정 패턴을 기준으로 분리



In [2]:
import re

### [표현식] - 포함 여부

In [3]:
# 찾고 싶은 문자열 지정
# a 또는 b를 찾고자 함
# toast에 a 또는 b 검색
pattern = re.compile("[ab]")
print(pattern.search('toast'))

<re.Match object; span=(2, 3), match='a'>


In [4]:
print(pattern.search('tost'))

None


In [5]:
print(pattern.search('tostb'))

<re.Match object; span=(4, 5), match='b'>


In [6]:
print(pattern.search('toastb'))

<re.Match object; span=(2, 3), match='a'>


In [7]:
print(pattern.search('tobsta'))

<re.Match object; span=(2, 3), match='b'>


In [8]:
pattern = re.compile("[ab]")
print(pattern.match('abc'))

<re.Match object; span=(0, 1), match='a'>


In [9]:
print(pattern.match('ba'))

<re.Match object; span=(0, 1), match='b'>


In [10]:
print(pattern.match('ac'))

<re.Match object; span=(0, 1), match='a'>


In [11]:
print(pattern.match('cba'))

None


### [^ 표현식] : 미포함 

In [12]:
pattern = re.compile("[^ab]")

In [13]:
print(pattern.search('abc'))

<re.Match object; span=(2, 3), match='c'>


In [14]:
print(pattern.search('test'))

<re.Match object; span=(0, 1), match='t'>


In [15]:
print(pattern.match('abc'))

None


In [16]:
print(pattern.match('test'))

<re.Match object; span=(0, 1), match='t'>


In [17]:
print(pattern.match('cabc'))

<re.Match object; span=(0, 1), match='c'>


### 정규 표현식 기초 문법

> . : 임의의 한 문자

In [18]:
pattern = re.compile("a.c")

In [19]:
pattern.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [20]:
pattern.search("abtc")

In [21]:
pattern.search("ayc")

<re.Match object; span=(0, 3), match='ayc'>

In [22]:
pattern = re.compile("a..c")

In [23]:
pattern.search("abtc")

<re.Match object; span=(0, 4), match='abtc'>

In [24]:
pattern.search("abc")

> ? : 바로 앞의 문자 존재 여부 결정
- 없거나 하나 존재하거나(0, 1)

In [25]:
pattern = re.compile("a?b")
"""
* search() & match() 함수로 ? 를 정하기
a?b로 표현 가능한 모든 표현식을 다 도출해 내기
    
"""
pattern.search('ac')

In [26]:
pattern.search('abc')

<re.Match object; span=(0, 2), match='ab'>

In [27]:
pattern.search('bc')

<re.Match object; span=(0, 1), match='b'>

In [28]:
pattern.search('aabc')

<re.Match object; span=(1, 3), match='ab'>

In [29]:
pattern = re.compile("test?t")

In [30]:
pattern.search("test") #"test?t"

<re.Match object; span=(0, 4), match='test'>

In [31]:
pattern.search("tet") #"test?t"

In [32]:
pattern.search("tessr") #"test?t"

In [33]:
pattern.search("tessssrt") #"test?t"

In [34]:
pattern.search("tesssstt") #"test?t"

In [35]:
pattern.search("testsstt") #"test?t"

<re.Match object; span=(0, 4), match='test'>

In [36]:
pattern.search("testt") #"test?t"

<re.Match object; span=(0, 5), match='testt'>

In [37]:
pattern.search("testtt") #"test?t"

<re.Match object; span=(0, 5), match='testt'>

In [38]:
pattern.search("testat") #"test?t"

<re.Match object; span=(0, 4), match='test'>

In [39]:
pattern = re.compile('test?a') #testa or tesa
print(pattern.search('test'))


None


In [40]:
pattern.search('atest')

In [41]:
pattern.search('atesta')

<re.Match object; span=(1, 6), match='testa'>

In [42]:
pattern.search('atesa')

<re.Match object; span=(1, 5), match='tesa'>

> \* : 바로 앞단의 문자가 미존재하거나 개수와 상관없이 존재하거나<br>
(0~\*)

In [43]:
#s 는 0 또는 여러개 선언 가능
#단, te와 t는 단 한번씩 필수
pattern = re.compile("tes*t")

In [44]:
pattern.search('test')

<re.Match object; span=(0, 4), match='test'>

In [45]:
pattern.search("tet")

<re.Match object; span=(0, 3), match='tet'>

In [46]:
pattern.search('tessst')

<re.Match object; span=(0, 6), match='tessst'>

In [47]:
pattern.search("tsst") #re.compile("tes*t")

> \+ : 한번 이상 무한대 선언(1~*)

In [48]:
pattern = re.compile("tes+t")
"""
1. test  o
2. tet   x
3. tesst  o
4. tessss  x
5. tset   x
"""

'\n1. test  o\n2. tet   x\n3. tesst  o\n4. tessss  x\n5. tset   x\n'

> ^ : 시작되는 문자 지정

In [49]:
pattern = re.compile("^t")

In [50]:
pattern.search("test")

<re.Match object; span=(0, 1), match='t'>

In [51]:
pattern.search("data test")

In [52]:
pattern.search("test test")

<re.Match object; span=(0, 1), match='t'>

>$ : 끝나는 문구 지정

In [53]:
pattern = re.compile("t$")

In [54]:
pattern.search('test')

<re.Match object; span=(3, 4), match='t'>

In [55]:
pattern.search('tes')

> 중간 점검 : $(마무리), ^(시작), \+(1~*), *(0~*), \?(0 or 1), .(음절개수), \[](포함관계-search/match)

> [] : 재확인

In [56]:
pattern = re.compile("[dD]")

In [57]:
pattern.search("data")

<re.Match object; span=(0, 1), match='d'>

In [58]:
pattern.search("DATA")

<re.Match object; span=(0, 1), match='D'>

> [^] : ^ 문구 뒤에 오는 문자를 제외하는 표현식

In [59]:
pattern = re.compile("[^t]")

In [60]:
re.search("[^t]", "test")

<re.Match object; span=(1, 2), match='e'>

In [61]:
re.search("[^t]", "es")

<re.Match object; span=(0, 1), match='e'>

In [62]:
re.search("[^t]", "tt")

> \- : 구간 표기

In [63]:
re.search("[a-b]", "abc")

<re.Match object; span=(0, 1), match='a'>

In [64]:
re.search("[a-c]", "abc")

<re.Match object; span=(0, 1), match='a'>

In [65]:
re.search("[a-c]", "btest")

<re.Match object; span=(0, 1), match='b'>

In [66]:
#? a~e까지의 철자가 포함되는 형식의 패턴만들고 test 해보기
re.search("[a-e]", "data")

<re.Match object; span=(0, 1), match='d'>

In [67]:
#? 가~다 표기로 한글도 구간 반영이 되는지 test 해 보기
re.search("[가-다]", "나와")

<re.Match object; span=(0, 1), match='나'>

> 특정 데이터로 가공하기

In [68]:
'''
+ : 1~*
\d : 숫자
\d+ : 숫자가 1번이상 무한대
'''
re.search("\d+", "김장용 배추값 10000원?, 세포기 9000원")

<re.Match object; span=(8, 13), match='10000'>

In [69]:
re.search("\d{4}", "김장용 배추값 10000원?, 세포기 9000원")  #9000

<re.Match object; span=(8, 12), match='1000'>

In [70]:
#search() - 문서 내부의 패턴에 해당하는 첫번째 데이터 검색
#findall() - 문서 내부에 패턴에 해당하는 모든 데이터를 list 타입
data = re.search("9\d{3}", "김장용 배추값 10000원?, 세포기 9000원, 9000")  #9000

In [71]:
data

<re.Match object; span=(21, 25), match='9000'>

In [72]:
data = re.findall("9\d{3}", "김장용 배추값 10000원?, 세포기 9000원, 9000")  #9000


In [73]:
data

['9000', '9000']

In [74]:
data = re.findall("\d{4}", "김장용 배추값 10000원?, 세포기 9000원")  #9000

In [75]:
data

['1000', '9000']

In [76]:
data[1]

'9000'

In [77]:
data = re.findall("9\d{3}", "김장용 배추값 10000원?, 세포기 9000원")  #9000
data

['9000']

In [78]:
# split() 함수를 활용한 데이터 구분
data = re.split("\d+", "김장용 배추 10000원? 아니아니 9000원")

In [79]:
data

['김장용 배추 ', '원? 아니아니 ', '원']

In [80]:
# sub("패턴", "변경하고자 하는 데이터", "가공을 위한 원본 데이터") 
#? 간단한 예제 - 구글링 불가, api 문서로만 

In [81]:
data = re.sub('2\d{2}', "10", "김장 10000, 깍두기 200원")
data

'김장 10000, 깍두기 10원'

In [82]:
data = re.sub(r'<*?>', " ", "김장<<10000>깍두기.200원")
data

'김장<<10000 깍두기.200원'

In [83]:
data = re.sub(r'<.*?>', " ", "김장<<10000>깍두기<<.200원")
data

'김장 깍두기<<.200원'

In [84]:
data = re.sub(r'<.?>', " ", "김장<<10000>깍두기.200원")
data

'김장<<10000>깍두기.200원'

In [85]:
data = re.sub(r'<*?>', " ", "김장<<10000>깍두기.200원")
data

'김장<<10000 깍두기.200원'

In [86]:
data = re.sub(r'<.*?>', " ", "김장<<<10000>깍두기.200원")
data

'김장 깍두기.200원'

In [87]:
data = re.sub(r'<.*>', " ", "김장<<10000>깍두기.200원")
data

'김장 깍두기.200원'

In [88]:
data = re.sub(r'<.+>', " ", "김장<<10000>깍두기.200원")
data

'김장 깍두기.200원'

In [89]:
data = re.sub(r'<+>', " ", "김장<<10000>깍두기.200원")
data

'김장<<10000>깍두기.200원'

In [90]:
data = re.sub(r'<.*?>.*', " ", "김장<<10000>깍두기.200원")
data

'김장 '

In [91]:
data = re.sub(r'-.*?>', " ", "김장-10000>깍두기.200원")
data

'김장 깍두기.200원'

In [92]:
data = re.sub(r'-*?>', " ", "김장-10000>깍두기.200원")
data

'김장-10000 깍두기.200원'

In [93]:
data = re.sub(r'김.*?>', " ", "김장-10000>깍두기.200원")
data

' 깍두기.200원'

In [94]:
data = re.sub(r'김*?>', " ", "김장-10000>깍두기.200원")
data

'김장-10000 깍두기.200원'

In [95]:
data = re.sub('[김.*?>-]', " ", "김장-10000>깍두기.200원")
data

' 장 10000 깍두기 200원'

>데이터 그룹핑 하기<br>
1. 그룹핑이란? 특정 데이터가 계속해서 반복하는지를 조사할때 사용 가능한 정규식<br>
- grouping 표기 : ()


> 그룹핑 관련 함수
1. group() : 매치된 전체 문자열
- group(1) : 첫번째 그룹에 해당하는 문자열
- group(n) : n번째 그룹에 해당하는 문자열


In [96]:
import re

In [97]:
p = re.compile('(test)+')
m = p.search('testtesttest OK?')
print(m)
type(m)

<re.Match object; span=(0, 12), match='testtesttest'>


re.Match

In [98]:
print(m)

<re.Match object; span=(0, 12), match='testtesttest'>


In [99]:
print(m.group(0))

testtesttest


In [100]:
print(m.group(1))

test


In [101]:
#"이름 000-0000-0000"과 같은 전화번호 형태의 
#정규 표현식 만들고 데이터 그룹 이해하기
#답안 - (\w+)\s\d{3}[-]\d{3,4}[-]\d{4}

pattern = re.compile("(\w+)\s\d+[-]\d+[-]\d+")
data = pattern.search("유재석 010-1111-2345")
print(data)

<re.Match object; span=(0, 17), match='유재석 010-1111-2345'>


In [102]:
data.group()

'유재석 010-1111-2345'

In [103]:
data.group(0)

'유재석 010-1111-2345'

In [104]:
data.group(1)

'유재석'

In [105]:
pattern = re.compile(r"(\w+)\s+(\d+[-]\d+[-]\d+)")
data = pattern.search("유재석 010-1111-2345")
print(data.group(2))

010-1111-2345


In [106]:
pattern = re.compile(r"(\w+)(\s+)(\d+[-]\d+[-]\d+)")
data = pattern.search("유재석 010-1111-2345")
print(data.group(2))

 


In [107]:
print(data.group(3))

010-1111-2345


In [34]:
pattern = re.compile(r"(\w+)(\s+)(\d+)[-](\d+)[-](\d+)")
data = pattern.search("유재석 010-1111-2345")
print(data.group(5))

2345


# 데이터를 효율적으로 구분하는 또 다른 기술-암호는 아님

In [36]:
# http://www.google.com 에서 http만 뽑는 패턴 
# 긍정형 전방 탐색
patten = re.compile(".+(?=:)")
data = patten.search("http://www.google.com")
print(data.group())

http


In [37]:
print(data.group(0))

http
