#### 정규 표현식 <hr>

- 정규 표현식 객체 사용:
    - 정규식 객체를 생성 : compile(pattern)
        - 동일 패턴을 여러 번 검색하는 경우, 편리하게 사용
        - re모듈 함수들은 pattern 파라미터 없이 호출이 가능 => search(string, pos), match(string, pos) 등
    - 정규식 객체를 생성 : match
        - 문자열의 처음부터 검사


- 정규 표현식 예제 #1

In [2]:
import re

# compile 사용 안함
m = re.match('[a-z]+', 'Python')
print(m)
print(re.search('apple', 'I like apple!'))

# compile 사용
p = re.compile('[a-z]+')
m = p.match('python')
print(m)
print(p.search('I like apple 123'))

None
<re.Match object; span=(7, 12), match='apple'>
<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 6), match='like'>


In [3]:
m = re.match('[a-z]+', 'PYthon')  # 소문자가 1개 이상
print(m)

None


- 정규 표현식 예제 #2

In [4]:
print(re.match('[a-z]+', 'regex python'))
print(re.match('[a-z]+', ' regexpython'))  # 문자열 처음에 공백 포함

print(re.match('[a-z]+', 'regexpythoN'))
print(re.match('[a-z]+$', 'regex pythoN'))  # $ : 문자열의 마지막 부분 검사

print(re.match('[a-z]+', 'regexPython'))
print(re.match('[a-z]+$', 'regexpython'))

<re.Match object; span=(0, 5), match='regex'>
None
<re.Match object; span=(0, 10), match='regexpytho'>
None
<re.Match object; span=(0, 5), match='regex'>
<re.Match object; span=(0, 11), match='regexpython'>


- 정규 표현식 예제 #3
    - findall() 함수 : 일치하는 모든 문자열을 리스트로 리턴
    - search() 함수 : 일치하는 첫 번째 문자열만 리턴
    - match() 함수

In [6]:
p = re.compile('[a-z]+')  # 알파벳 소문자
p.findall('life	is	too	short!	Regular	expression	test')

['life', 'is', 'too', 'short', 'egular', 'expression', 'test']

In [8]:
result = p.search('I like apple 123')
print(result)
print(result.group())  # group() : 일치하는 전체 문자열 리턴

result = p.findall('I like apple 123')
print(result)

<re.Match object; span=(2, 6), match='like'>
like
['like', 'apple']


- 전화번호 분석
    - 전화번호 : '지역번호-국번-전화번호'
        - 전화번호 : (2, 3자리)-(3, 4자리)-(4자리)
        - 예 : 02-123-4567, 053-123-1234

In [10]:
import re
# ^ .. $ 을 명시해야 정확한 자리수 검사가 이루어짐
tel_checker = re.compile('^(\d{2,3})-(\d{3,4})-(\d{4})$')

print(tel_checker.match('02-123-4567').group())
print(tel_checker.match('053-950-45678'))  # 마지막 숫자의 자리수가 맞지 않음
print(tel_checker.match('053950-4567'))  # dash(-)가 없음

02-123-4567
None
None


- groups() : 매칭 결과를 튜플로 출력
- group() : 매칭된 전체 문자열 반환
- group(index) : 해당 인덱스에 매칭된 문자열 반환
    - index = 0 : 전체 리턴

In [13]:
tel_checker = re.compile('^(\d{2,3})-(\d{3,4})-(\d{4})$')
m = tel_checker.match('02-123-4567')

print(m.groups())
print('group():	', m.group())
print('group(0): ', m.group(0))
print('group(1): ',	m.group(1))
print('group(2,3): ', m.group(2,3))
print('start():	', m.start())	#	매칭된 문자열의 시작 인덱스
print('end(): ', m.end())	#	매칭된 문자열의 마지막 인덱스+1

('02', '123', '4567')
group():	 02-123-4567
group(0):  02-123-4567
group(1):  02
group(2,3):  ('123', '4567')
start():	 0
end():  11


- 휴대전화번호
    - 휴대전화번호 구성 : '사업자번호(3자리)-국번(3,4자리)-전화번호(4자리)'
        - 사업자 번호 : 010, 011, 016, 017, 018, 019
        - 예 : 010-123-4567, 011-1234-5678, 019-111-2222

In [14]:
cell_phone = re.compile('^(01(?:0|1|[6-9]))-(\d{3,4})-(\d{4})$')

print(cell_phone.match('010-123-4567'))
print(cell_phone.match('019-1234-5678'))
print(cell_phone.match('001-123-4567'))
print(cell_phone.match('010-1234567'))

<re.Match object; span=(0, 12), match='010-123-4567'>
<re.Match object; span=(0, 13), match='019-1234-5678'>
None
None


#### 전방 탐색(lookahead) <hr>

- 전방 긍정 탐색
    - 패턴과 일치하는 문자열을 만나면 패턴 앞의 문자열 반환 : (?=패턴)
- 전방 부정 탐색
    - 패턴과 일치하는 문자열을 만나면 패턴 앞의 문자열 반환 : (?!패턴)

In [15]:
import	re
# 전방 긍정 탐색 : (문자열이 won을 포함하고 있으면 won	앞의 문자열 리턴)
lookahead1 = re.search('.+(?=won)',	'1000 won')
if(lookahead1 != None):
	print(lookahead1.group())
else:
	print('None')
lookahead2 = re.search('.+(?=am)', '2023-01-26 am 10:00:01')
print(lookahead2)
# 전방 부정 탐색 (?!) :	4자리 숫자 다음에 '-'를 포함하지 않으면 앞의 문자열 리턴
lookahead3 = re.search('\d{4}(?!-)', '010-1234-5678')
print(lookahead3)

1000 
<re.Match object; span=(0, 11), match='2023-01-26 '>
<re.Match object; span=(9, 13), match='5678'>


#### 후방 탐색(lookbehind) <hr>

- 후방 긍정 탐색
    - 패턴과 일치하는 문자열을 만나면 패턴 뒤의 문자열 반환 : (?<=패턴)
- 후방 부정 탐색
    - 패턴과 일치하지 않는 문자열을 만나면 패턴 뒤의 문자열 반환 : (?<!패턴)

In [16]:
lookbehind1 = re.search('(?<=am).+', '2023-01-26 am	11:10:01')
print(lookbehind1)

lookbehind2	= re.search('(?<=:).+',	'USD: $51')
print(lookbehind2)

# 후방 부정 탐색('\b':	공백)
# 공백 다음에 $기호가 없고 숫자가 1개 이상이고 공백이 있는 경우
lookbehind4	= re.search(r'\b(?<!\$)\d+\b', 'I paid $30 for 100 apples.')
print(lookbehind4)

<re.Match object; span=(13, 22), match='\t11:10:01'>
<re.Match object; span=(4, 8), match=' $51'>
<re.Match object; span=(15, 18), match='100'>


#### 정규 표현식과 BeautifulSoup #1 <hr>

- BeautifulSoup의 문자열을 받는 함수들
    - 정규 표현식을 매개 변수로 받을 수 있음
- 제품 이미지 검색 :
    - img src = "..." 태그의 속성['src'] 사용

In [21]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
soup = BeautifulSoup(html, 'html.parser')

# 정규식: ('img.*\.jpg'): img 다음에 임의의 한 문자가 0회 이상
# - img.jpg, img1.jpg, imga.jpg 등
img_tag = re.compile('/img/gifts/img.*.jpg')
# find_all()에서 img의 src 속성값에 정규식 사용
images = soup.find_all('img', {'src' : img_tag})	
for	image in images:	
	print(image, end = " => ['src'] 속성: ")
	print(image['src'])

<img src="../img/gifts/img1.jpg"/> => ['src'] 속성: ../img/gifts/img1.jpg
<img src="../img/gifts/img2.jpg"/> => ['src'] 속성: ../img/gifts/img2.jpg
<img src="../img/gifts/img3.jpg"/> => ['src'] 속성: ../img/gifts/img3.jpg
<img src="../img/gifts/img4.jpg"/> => ['src'] 속성: ../img/gifts/img4.jpg
<img src="../img/gifts/img6.jpg"/> => ['src'] 속성: ../img/gifts/img6.jpg


#### 정규 표현식과 BeautifulSoup #2 <hr> 

- 대소문자 구분없이 특정 단어 검색
    - '[T|t]{1}he prince' : T 또는 t가 1회


In [22]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, 'html.parser')

princeList = bs.find_all(text = 'the prince')
print('the prince count : ', len(princeList))

prince_list = bs.find_all(text = re.compile('[T|t]{1}he prince'))
print('T|the prince count : ', len(prince_list))

the prince count :  7
T|the prince count :  11


  princeList = bs.find_all(text = 'the prince')
  prince_list = bs.find_all(text = re.compile('[T|t]{1}he prince'))


In [25]:
princeList

['the prince',
 'the prince',
 'the prince',
 'the prince',
 'the prince',
 'the prince',
 'the prince']

In [24]:
prince_list

['the prince',
 'the prince',
 'the prince',
 'the prince',
 'the prince',
 'the prince',
 'The prince',
 'The prince',
 '" she continued after a short pause, drawing nearer\nto the prince and smiling amiably at him as if to show that\npolitical and social topics were ended and the time had come for\nintimate conversation- "',
 'the prince',
 'The prince']