# 2일차. 정규식(Regula Expression)

In [1]:
import re

# compile() 사용 안함
# match(pattern, 문자열)
m = re.match('[a-z]+', 'Python') # 알파벳 소문자
print(m)
print(re.search('apple', 'I like apple!'))

None
<re.Match object; span=(7, 12), match='apple'>


In [2]:
p = re.compile('[a-z]+') # 알파벳 소문자 \w: 알파벳, 숫자, _
m = p.match('python')
print(m)

print(p.search('I like apple 123'))
print(p.search('I like apple 123').group(0)) # group(), group(0): 매칭되는 전체 문자열 리턴

<re.Match object; span=(0, 6), match='python'>
<re.Match object; span=(2, 6), match='like'>
like


#### *findall()* 메소드
- 일치하는 모든 문자열을 리스트로 리턴

In [3]:
p = re.compile('[a-z]+')
print(p.findall('Life is too short'))

['ife', 'is', 'too', 'short']


#### *search()* 메소드
- 일치하는 첫 번째 문자열만 리턴

In [5]:
p = re.compile('[a-z]+')
result = p.search('I like apple 123')
print(result)

result = p.findall('I like apple 123')
print(result)
print(result[0])

<re.Match object; span=(2, 6), match='like'>
['like', 'apple']
like


#### *match()* 메소드
- 전화번호 분석 (지역번호-국번-전화번호)
- (2,3자리)-(3,4자리)-(4자리)

In [9]:
import re
                        # 02, 053-123-4567, 053-1234-4567
tel_checker = re.compile('^(\d{2,3})-(\d{3,4})-(\d{4})$')

print(tel_checker.match('02-123-4567'))
print(tel_checker.match('053-950-45678')) #마지막 자리수가 틀림
print(tel_checker.match('053950-4567')) # dash가 없음

<re.Match object; span=(0, 11), match='02-123-4567'>
None
None


#### *groups()*
- 매칭 결과를 튜플로 출력

In [15]:
# tel_checker = re.compile('^(\d{2,3})-(\d{3,4})-(\d{4})$')
m = tel_checker.match('02-123-4567')
print(m.groups()) # 튜플 형태로 리턴
print('group(0):', m.group(0)) # group(), group(0): (02)-(123)-(4567)
print('group(1):', m.group(1)) #           (1) (2)  (3)
print('group(2,3):', m.group(2,3))
print('start():', m.start()) # 매칭된 전체 문자열의 시작 인덱스
print('end():', m.end()) # 마지막 인덱스 + 1

('02', '123', '4567')
group(0): 02-123-4567
group(1): 02
group(2,3): ('123', '4567')
start(): 0
end(): 11


#### 전방 긍정 탐색: (?=패턴)
- 패턴과 일치하는 문장열을 만나면 패턴 앞의 문자열 반환

#### 전방 부정 탐색: (?!패턴)
- 패턴과 일치하지 않는 문자열을 만나면 해당 문자열 반환

In [7]:
import re

# 전방 긍정 탐색 (.: 임의의 문자
lookahead1 = re.search('.+(?=won)', '1000 won') # 패턴(won) 앞의 문자열을 가지고 옴
print(lookahead1)

lookahead2 = re.search('.+(?=log:)', '2022-07-01 00:00:01 ABC.log: 전방탐색')
print(lookahead2)

# 전방 부정 탐색
lookahead3 = re.search('\d{4}(?!-)', '010-1234-5678')
print(lookahead3)

<re.Match object; span=(0, 5), match='1000 '>
<re.Match object; span=(0, 24), match='2022-07-01 00:00:01 ABC.'>
<re.Match object; span=(9, 13), match='5678'>


#### 후방 긍정 탐색: (?<=패턴)
- 패턴과 일치하는 문자열을 만나면 패턴 뒤의 문자열을 반환
#### 후방 부정 탐색: (?>!패턴)
- 패턴과 일치하지 않는 문자열을 만나면 해당 문자열 반환

In [18]:
# 후방 긍정 탐색
lookbehind1 = re.search('(?<=log:).+', '2022-07-01 00:00:01 ABC.log: this is python')
print(lookbehind1)

lookbehind2 = re.search('(?<=:).+', 'USD: $51')
print(lookbehind2)

# 후방 부정 탐색 (\b: blank)
lookbehind3 = re.search('\\b(?<!\$)\\d+\\b', 'I paid $30 for 100 apples.')
print(lookbehind3)
# r'문자열'
lookbehind4 = re.search(r'\b(?<!\$)\d+\b', 'I paid $30 for 100 apples.')
print(lookbehind4)

<re.Match object; span=(28, 43), match=' this is python'>
<re.Match object; span=(4, 8), match=' $51'>
<re.Match object; span=(15, 18), match='100'>
<re.Match object; span=(15, 18), match='100'>


## 정규식과 BeautifulSoup
#### <img src="..."> 태그이 속성['src'] 사용

In [19]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/page3.html')
bs = BeautifulSoup(html, 'html.parser')
#img_tag = re.compile('\.\.\/img\/gifts/img.*\.jpg')
img_tag = re.compile('/img/gifts/img.*.jpg') # .: 임의의 한 문자
images = bs.find_all('img', {'src': img_tag})
for image in images:
    print(image, end=', ')
    print(image['src'])

<img src="../img/gifts/img1.jpg"/>, ../img/gifts/img1.jpg
<img src="../img/gifts/img2.jpg"/>, ../img/gifts/img2.jpg
<img src="../img/gifts/img3.jpg"/>, ../img/gifts/img3.jpg
<img src="../img/gifts/img4.jpg"/>, ../img/gifts/img4.jpg
<img src="../img/gifts/img6.jpg"/>, ../img/gifts/img6.jpg


#### 대소문자 구분없이 특정 단어 검색
- [T|t]{1}he prince

In [22]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
bs = BeautifulSoup(html, 'html.parser')

princeList = bs.find_all(text='the prince')
#print(princeList)
print('the prince count: ', len(princeList))

#prince_list = bs.find_all(text=re.compile('^[T|t]{1}he prince$'))
prince_list = bs.find_all(text=re.compile('[T|t]{1}he prince'))

print('T|the prince count:', len(prince_list))

the prince count:  7
T|the prince count: 11


#### Tag 속성에 접근하기
- <img>태그의 src 속성값 가져오기: attrs['src']

In [24]:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<img src=../img/gifts/img1.jpg>', 'html.parser')

img_tag = soup.img # img태그 선택
print(img_tag)
print(img_tag.attrs)
print(img_tag.attrs['src'])

<img src="../img/gifts/img1.jpg"/>
{'src': '../img/gifts/img1.jpg'}
../img/gifts/img1.jpg


#### URL정보 가져왹
- <a> 태그: href 속성에 URL정보를 가짐

In [25]:
html = '<a href="https://www.naver.com">Naver</a>'
soup = BeautifulSoup(html, 'html.parser')

link = soup.a # <a>태그 지정
print(link)
print(link.attrs['href']) # <a> 태그의 href 속성 접근

link1 = soup.find('a')
print('find:', link1)
print(link1.attrs['href'])

<a href="https://www.naver.com">Naver</a>
https://www.naver.com
find: <a href="https://www.naver.com">Naver</a>
https://www.naver.com
