## 정규 표현식

1. url<br>
https://docs.python.org/ko/3.6/library/re.html?highlight=re#module-re
<br>

>주요 API
1. compile() : 형식(패턴)이 반영되는 함수, 실행 속도가 좋음
- search() : 데이터 전체에서 정규식에 부합하는 문자열 존재 여부 검색
- match() : 데이터의 처음부터 정규식과 부합하는지 검색
- group() : 정규식에서 필터링한 데이터를 파이썬에서 출력시 사용
- findall() : 정규식에 부합하는 모든 문자열을 리스트로 리턴
- sub() : 패턴과 일치되는 부분을 다른 문자로 변경
- split() : 주어진 문자열을 특정 패턴을 기준으로 분리

- [xy] x와 y중 하나를 의미 x와 y중에 먼저 나온 단어 검색
- [^xy] not을 표현하며 x및 y를 제외한 단어를 의미

In [4]:
import re

### [표현식] - 포함여부

In [5]:
# 찾고 싶은 문자열 지정
# a 또는 b를 찾고자 함
# toast에 a 또는 b 검색
pattern = re.compile("[ab]")
print(pattern.search('toast'))

<re.Match object; span=(2, 3), match='a'>


In [6]:
print(pattern.search('tost'))

None


In [7]:
print(pattern.search('tostb'))

<re.Match object; span=(4, 5), match='b'>


In [8]:
print(pattern.search('toastb'))

<re.Match object; span=(2, 3), match='a'>


In [9]:
print(pattern.search('tobsta'))

<re.Match object; span=(2, 3), match='b'>


In [11]:
print(pattern.match('abc'))

<re.Match object; span=(0, 1), match='a'>


In [13]:
print(pattern.match('ba'))

<re.Match object; span=(0, 1), match='b'>


In [14]:
print(pattern.match('ac'))

<re.Match object; span=(0, 1), match='a'>


# [^ 데이터] : 미포함

In [3]:
pattern = re.compile("[^ab]")

In [16]:
print(pattern.search('abc'))

<re.Match object; span=(2, 3), match='c'>


In [17]:
print(pattern.search('test'))

<re.Match object; span=(0, 1), match='t'>


In [18]:
print(pattern.match('test'))

<re.Match object; span=(0, 1), match='t'>


In [6]:
print(pattern.match('abc'))

None


In [7]:
print(pattern.match('cab'))

<re.Match object; span=(0, 1), match='c'>


In [5]:
print(pattern.match('cabc'))

<re.Match object; span=(0, 1), match='c'>


## 정규 표현식 기초 문법

>. : 임의의 한 문자

In [22]:
pattern = re.compile("a.c")

In [23]:
pattern.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [24]:
pattern.search("abtc")

In [25]:
pattern.search("ayc")

<re.Match object; span=(0, 3), match='ayc'>

In [26]:
pattern = re.compile("a..c")

In [27]:
pattern.search("abtc")

<re.Match object; span=(0, 4), match='abtc'>

In [28]:
pattern.search("abc")

> ? : 바로 앞의 문자 존재 여부 결정
- 없거나 하나 하나 존재하거나(0,1)

In [42]:
pattern = re.compile("a?b")
"""
#- ? 앞 음절이 하나 존재하거나 없거나
* search() & match() 함수로 ? 를 정하기 
a?b로 표현 가능한 모든 표현식을 다 도출해 내기 
    ab
    b
    a
    
""" 

In [37]:
pattern.search("abc")

<re.Match object; span=(0, 2), match='ab'>

In [38]:
pattern.search("bc")

<re.Match object; span=(0, 1), match='b'>

In [31]:
pattern.search("abtjnglern;c")

<re.Match object; span=(0, 2), match='ab'>

In [45]:
pattern.search("ac")

In [46]:
pattern = re.compile("test?t")

In [47]:
pattern.search("test")

<re.Match object; span=(0, 4), match='test'>

In [48]:
pattern.search("tet")

In [49]:
pattern.search("tettestt")

<re.Match object; span=(3, 8), match='testt'>

In [50]:
pattern.search("tettestwt")

<re.Match object; span=(3, 7), match='test'>

In [56]:
pattern = re.compile("a?b")

In [62]:
pattern.match("aaaaaaab")

In [52]:
pattern.match("ab")

<re.Match object; span=(0, 2), match='ab'>

In [58]:
pattern.match("b")

<re.Match object; span=(0, 1), match='b'>

In [61]:
pattern.search("aaaaaaaab")

<re.Match object; span=(7, 9), match='ab'>

In [54]:
pattern.search("ab")

<re.Match object; span=(0, 2), match='ab'>

In [55]:
pattern.search("b")

<re.Match object; span=(0, 1), match='b'>

> \* : 바로 앞단의 문자가 미존재하거나 개수와 상관없이 존재하거나 (0~*) - *앞 음절이 0개거나 같은게 여러개일때만

In [63]:
pattern = re.compile("tes*t")

In [64]:
pattern.search('test')

<re.Match object; span=(0, 4), match='test'>

In [65]:
pattern.search('tet')

<re.Match object; span=(0, 3), match='tet'>

In [66]:
pattern.search('tessssssssssssssst')

<re.Match object; span=(0, 18), match='tessssssssssssssst'>

In [70]:
pattern.search('tesst')

<re.Match object; span=(0, 5), match='tesst'>

In [75]:
pattern.search('teset')

> \+ : 한번 이상 무한대 선언(1~*) 

In [76]:
pattern = re.compile("tes+t")

In [77]:
pattern.search('tet')

In [78]:
pattern.search('test')

<re.Match object; span=(0, 4), match='test'>

In [79]:
pattern.search('tesssssssst')

<re.Match object; span=(0, 11), match='tesssssssst'>

> ^ : 시작되는 문자 지정

In [81]:
pattern = re.compile("^t")

In [82]:
pattern.search('test')

<re.Match object; span=(0, 1), match='t'>

In [83]:
pattern.search('eest')

In [84]:
pattern.search('tes1111111111111t')

<re.Match object; span=(0, 1), match='t'>

>$ : 끝나는 문구 지정

In [85]:
pattern = re.compile("t$")

In [86]:
pattern.search('test')

<re.Match object; span=(3, 4), match='t'>

> 중간 점검 : $(마무리), ^(시작), \+(1~*), *(0~*), \?(0 or 1). .(음절개수), \[](포함관계-search/match)

>[] : 재확인

In [89]:
pattern = re.compile("[dD]")

In [90]:
pattern.search("data")

<re.Match object; span=(0, 1), match='d'>

In [91]:
pattern.search("Data")

<re.Match object; span=(0, 1), match='D'>

>[^] : ^ 문구 뒤에 오는 문자를 제외하는 표현식

In [94]:
pattern = re.compile("[^t]")

In [95]:
re.search("[^t]", "test")

<re.Match object; span=(1, 2), match='e'>

In [96]:
re.search("[^t]", "es")

<re.Match object; span=(0, 1), match='e'>

In [97]:
re.search("[^t]", "tttttttttttt")

> \- : 구간 표기

In [98]:
re.search("[a-b]", "abc")

<re.Match object; span=(0, 1), match='a'>

In [99]:
re.search("[a-c]", "abc")

<re.Match object; span=(0, 1), match='a'>

In [100]:
re.search("[a-c]", "btest")

<re.Match object; span=(0, 1), match='b'>

In [102]:
#? a~e까지의 철자가 포함되는 형식의 패턴 만들고 test 해보기
re.search("[a-e]", "dtest")

<re.Match object; span=(0, 1), match='d'>

In [104]:
#? 가~다 표기로 한글도 구간 반영이 되는지 test 해 보기
re.search("[가-다]","나와")

<re.Match object; span=(0, 1), match='나'>

> 특정 데이터로 가공하기

In [106]:
"""
+ : 1~*
\d : 숫자
\d+ : 숫자가 1번이상 무한대
"""
re.search("\d+", "김장용 배추값 10000원?, 세포기 9000원")

<re.Match object; span=(8, 13), match='10000'>

In [144]:
#search() - 문서 내부의 패턴에 해당하는 첫번째 데이터 검색
#findall() - 문서 내부에 패턴에 해당하는 모든 데이터를 list 타입
re.search("9\d+", "김장용 배추값 10000원?, 세포기 9000원")

<re.Match object; span=(21, 25), match='9000'>

In [142]:
re.findall("\d+", "김장용 배추값 10000원?, 세포기 9000원")[0]

'10000'

In [147]:
# split() 함수를 활용한 데이터 구분
data = re.split("\d+","김장용 배추 10000원? 아ㅏ니아니 9000원")

In [148]:
data

['김장용 배추 ', '원? 아ㅏ니아니 ', '원']

In [156]:
# sub() :
#? 간단한 예제 - 구글링 불가, api 문서로만
re.sub("\d+","(가격있던자리)","김장용 배추 10000원? 아ㅏ니아니 9000원")

'김장용 배추 (가격있던자리)원? 아ㅏ니아니 (가격있던자리)원'

In [179]:
data = re.sub(r'<.*?>', "", "김장<<10000>깍두기.200원<<10000><10000><<10000><<10000><<10000><<10000><<10000><<10000>")
data

'김장깍두기.200원'

>데이터 그루핑 하기<br>
> 1. 그루핑이란? 특정 데이터가 계속해서 반복하는지를 조사할때 사용 가능한 정규식
> 2. grouping 표기:()

>그루핑 관련 함수<br>
> 1. group():매치된 전체 문자열
> 2. group(1):첫번째 그룹에 해당하는 문자열
> 3. group(n):n번째 그룹에 해당하는 문자열

In [9]:
# 신통방통 문제
# 파일명.확장자 형태의 패턴 구성
pattern = re.compile("\w+[.]\w+")  # .+[.].+
data = pattern.search("test.txt")
print(data)

<re.Match object; span=(0, 8), match='test.txt'>


In [12]:
# # "파일명.확장자" 형태의 패턴 구성
# 단 bat는 제외(힌트:b로 시작하는 것 제외하기)
pattern = re.compile("\w+[.][^b]\w+")  # .+[.][^b].+        # .+[.][^b].+$
data = pattern.search("test.bat")
print(data)

None


# 데이터를 효율적으로 구분하는 또 다른 기술 - 암호는 아님

In [17]:
# http://www.google.com 에서 http만 뽑는 패턴
# 긍정형 전방 탐색
pattern = re.compile(".+(?=:)")
data = pattern.search("http://www.google.com")
print(data.group())

http


In [26]:
pattern = re.compile(".*[.]([^b].?.?|.[^a]?.?|..?[^t]?)$")
data = pattern.search("index.txt")
print(data)

<re.Match object; span=(0, 9), match='index.txt'>
