In [1]:
html = """
<html>
<head><title>HTML Sample</title>
</head>
<body>
    <h1>Hello CSS</h1>
    <div id="subject">선택자</div>
    <div class="contents">선택자를 어떻게 작성하느냐에 따라
      <span>다른 <b>요소가 반환</b></span> 됩니다.</div>
    <div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>
</body>
</html>
"""

In [2]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
soup


<html>
<head><title>HTML Sample</title>
</head>
<body>
<h1>Hello CSS</h1>
<div id="subject">선택자</div>
<div class="contents">선택자를 어떻게 작성하느냐에 따라
      <span>다른 <b>요소가 반환</b></span> 됩니다.</div>
<div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>
</body>
</html>

In [5]:
el = soup.select_one('h1')
el.text

'Hello CSS'

In [7]:
div_el = soup.select('div')
div_el

[<div id="subject">선택자</div>,
 <div class="contents">선택자를 어떻게 작성하느냐에 따라
       <span>다른 <b>요소가 반환</b></span> 됩니다.</div>,
 <div>CSS 선택자는 다양한 곳에서 <b>활용</b>됩니다.</div>]

In [8]:
for d in div_el:
    print(d.text)

선택자
선택자를 어떻게 작성하느냐에 따라
      다른 요소가 반환 됩니다.
CSS 선택자는 다양한 곳에서 활용됩니다.


In [11]:
soup.select('h1, span')

[<h1>Hello CSS</h1>, <span>다른 <b>요소가 반환</b></span>]

In [18]:
# div > span > b    ->  후손이 다 나옴
soup.select('div b')

[<b>요소가 반환</b>, <b>활용</b>]

In [19]:
soup.select('div > b')      # 직계만 나옴

[<b>활용</b>]

In [20]:
soup.select('.contents')

[<div class="contents">선택자를 어떻게 작성하느냐에 따라
       <span>다른 <b>요소가 반환</b></span> 됩니다.</div>]

In [21]:
soup.select('#subject')

[<div id="subject">선택자</div>]

In [22]:
soup.select('[id=subject]')

[<div id="subject">선택자</div>]

# 정규표현식

In [23]:
import re
pattern = re.compile(r'\d+')   # 숫자이면서 1개이상 반복되는 것
match = pattern.match('123abc')

if match:
    print(match.group())

123


In [24]:
match

<re.Match object; span=(0, 3), match='123'>

In [26]:
# 1. 전화번호 추출
string = 'hello grovy04@gmail.com 010-222-3333 world 02-5678-9988'

In [33]:
# 2. 패턴 정하기
# d는 숫자 찾기, {이상, 이하} 반복횟수 지정
pattern = re.compile(r'\d{2,3}-\d{3,4}-\d{4}')
# match_list = pattern.match(string)     # 처음부터 찾기
match_list = pattern.search(string)     # 1개 찾기
match_list = pattern.findall(string)

match_list

['010-222-3333', '02-5678-9988']

In [34]:
# 이메일 패턴
email_pattern = re.compile(r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}') 

email_list = re.findall(email_pattern, string)
print(email_list)

['grovy04@gmail.com']


In [36]:
string2 = 'abc123def456'
result = re.compile(r'\d+')
result.match(string2)
result.search(string2)
result.findall(string2)

['123', '456']

In [38]:
result.sub('***', string2)

'abc***def***'

# selenium

In [39]:
import selenium
print(selenium.__version__)

4.34.2


In [40]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options

In [42]:
driver = webdriver.Chrome()
driver.get('https://www.python.org/')

In [43]:
driver.close()