#### 정방 탐색 
* 정규표현식으로 구분해 내고 매칭한 결과내용중, 정규표현식에 사용되었던 글자를 제외한 나머지를 결과로 얻고자 할때
* 예를 들어 http://www.naver.com   에서 '글자들이 반복되고 : 으로 끝남'   이라는 정규식이 있다면 결과는 http: 가 될테지만
* 원하는 결과가 ':' 을 제외한 'http' 만을 목적할때 사용하는 방식입니다

In [2]:
# 정방 탐색을 사용하지 않은 예
import re
# \n 이 아닌 모든 글자가 1회 이상 반복되다가 ':'' 로 끝나는 문자열 매칭
p = re.compile(".+:")   
m = p.search("http://www.naver.com")
print(m.group())

http:


In [3]:
# 정방탐색을 사용한 예
# 정규식 : (?=정규식 또는 글자)
# 조건에 매칭이 된 후, 해당(?= 뒤로 이어진) 정규식에 있는 글자는 
# 소모하지 않는다(취하지 않는다)
p = re.compile(".+(?=:)")
m = p.search("http://www.naver.com")
print(m.group())

http


#### 긍정형 전방위 탐색
* (?=정규식 또는 글자)  -> 정규식 또는 글자와 매칭되는 패턴 검색

#### 부정형 전방위 탐색
* (?!정규식 또는 글자)  -> 정규식 또는 글자를 제외한 매칭 검색

#### 긍정형, 부정형 모두 검색 결과에서 검색된 내용을 취하지 않습니다
* 위 예제는 마지막 글자가 ':' 인결과를 검색하되 ':' 는 검색결과로 취하지 않은 결과입니다

#### 전방위 탐색
* 앞에서 정방탐색이라는 이름으로 매칭하고자 할때, 버릴 문자와 취할 문자들을 앞, 또는 뒤에서 검색하는것을 말합니다. 전방위 탐색은 검색하고 버릴 문자를 앞쪽에서 검색합니다
* ?<=정규식

#### 후방위 탐색
* 검색후 버릴 문자를 뒤에서 검색합니다
* ?=정규식 : 기존 방식과 동일 

In [4]:
html ="""<html>
<head>
<title>안녕하세요 방갑습니다</title>
</head>
<body>
<div>웹사이트에서 내용을 발췌합니다</div>
</body>
</html>
"""
import re
p = re.compile('(?<=<div>).*(?=</div>)', re.M)
m = p.findall(html)
print(m)

p = re.compile('(?<=<title>).*(?=</title>)', re.M)   #title 태그안의 텍스트 추출
m = p.findall(html)
print(m)

['웹사이트에서 내용을 발췌합니다']
['안녕하세요 방갑습니다']


###  종합 : 여러가지 정규식 표현의 예

In [None]:
# 파일의 이름.확장자를 나타내는 정규식
# 글자반복 + '.' + 글자반복으로 종료
p = re.compile('.*[.].*$')   
print(p.search('abc.txt').group())
print(p.search('autoexe.bat').group())
print(p.search('bigdata.ai').group())
print(p.search('korea.bar').group())
print(p.search('abcdefg'))

In [6]:
#  파일의 확장자 중  'b'로 시작하지 않은 파일을 매칭하세요
p = re.compile('.*[.][^b].*$')
print(p.search('abc.txt'))
print(p.search('autoexe.bat'))
print(p.search('bigdata.ai'))
print(p.search('korea.bar'))
print(p.search('abcdefg'))

<re.Match object; span=(0, 7), match='abc.txt'>
None
<re.Match object; span=(0, 10), match='bigdata.ai'>
None
None


In [7]:
# 파일이름 형식이면서,
# b로 시작하지 않거나
# a로 시작하는 문자열 매칭
# 메타 캐릭터 '^' : [  ] 안에서 해당 내용을 제외한 패턴으로 사용됩니다
p = re.compile('.*[.]([^b]|[a]).*$')
print(p.search('abc.txt'))
print(p.search('autoexe.bat'))
print(p.search('bigdata.ai'))
print(p.search('korea.bar'))
print(p.search('abcdefg'))

<re.Match object; span=(0, 7), match='abc.txt'>
None
<re.Match object; span=(0, 10), match='bigdata.ai'>
None
None


In [8]:
p = re.compile('.*[.](?!bat$|exe$).*$')
# '.' 뒤로 문자반복으로 끝나지만   bat 또는 exe 로 끝나지 않는 부정형 정방 탐색 
print(p.search('abc.txt'))
print(p.search('autoexe.bat'))
print(p.search('bigdata.ai'))
print(p.search('korea.bar'))
print(p.search('abcdefg.exe'))

<re.Match object; span=(0, 7), match='abc.txt'>
None
<re.Match object; span=(0, 10), match='bigdata.ai'>
<re.Match object; span=(0, 9), match='korea.bar'>
None


In [9]:
p = re.compile('.*[.]([^b].?.?|.[^a]?.?|..?[^t])$')
# [^b].?.? : b 로 시작하지 않는 1~3 글자
# ? : 없거나 1번 반복
# .[^a]?.? : 두번째 글자가 a 가 아닌 1~3글자
# ..?[^t] : 마지막이 t로 끝나지 않는 1~3 글자
print(p.search('abc.txt'))   #  b 로 시작하지 않은 세글자
print(p.search('autoexe.bat')) # b 로 시작, 두번째 글자 a, 마지막 t
print(p.search('bigdata.ai'))  # b 로 시작하지 않는 두글자
print(p.search('korea.bar'))  # b로 시작, 두번째 글자 a 이지만 마지막 글자 t 가 아님
print(p.search('abcdefg'))   # 파일 형식이 아님 abc.abc

<re.Match object; span=(0, 7), match='abc.txt'>
None
<re.Match object; span=(0, 10), match='bigdata.ai'>
<re.Match object; span=(0, 9), match='korea.bar'>
None


In [10]:
# 이메일 주소만 검색
p  = re.compile('.*[@].*[.].*')
print( p.match('park@naver.com'))
print( p.match('kim@daum.net'))
print( p.match('lee@myhome.co.kr'))
print( p.match('http://abcdefg.co.kr'))

<re.Match object; span=(0, 14), match='park@naver.com'>
<re.Match object; span=(0, 12), match='kim@daum.net'>
<re.Match object; span=(0, 16), match='lee@myhome.co.kr'>
None


In [11]:
# 이메일 주소만 검색(.com 과 .net 만 검색)
p  = re.compile('.*[@].*[.](com$|net$)')
print( p.match('park@naver.com'))
print( p.match('kim@daum.net'))
print( p.match('lee@myhome.co.kr'))
print( p.match('http://abcdefg.co.kr'))

<re.Match object; span=(0, 14), match='park@naver.com'>
<re.Match object; span=(0, 12), match='kim@daum.net'>
None
None


In [12]:
# 아래 텍스트에서 아이피 주소만 정규식으로 매칭하여 출력하시오
text = """현재 접속중인 외부 아이피는 121.66.42.195  이며, 
내부아이피는 192.168.0.2 입니다"""
p = re.compile('\d{1,3}[.]\d{1,3}[.]\d{1,3}[.]\d{1,3}', re.M)
#p = re.compile('[12]?[0-9]?[0-9][.]\d{1,3}[.]\d{1,3}[.]\d{1,3}', re.M)
m = p.findall(text)
print(m)

['121.66.42.195', '192.168.0.2']


In [13]:
# 아래 텍스트에서 웹사이트 URL만 매칭하여 출력하시오
text = """http://www.naver.com
https://www.daum.net
park@naver.com
"""
p = re.compile('https?://.*[.].*[.].*', re.M)
m = p.findall(text)
print(m)

['http://www.naver.com', 'https://www.daum.net']
