# 23. BeautifulSoup 으로 Webpage 읽어오기

- 23_index.html file 을 webserver 에서 open   

    VS Code --> LiveServer 확장 프로그램 설치 --> Open with Live Server

## Web Scraping

- program 이 browser 인 것 처럼 행동하여 web page 를 access 하고 정보 추출  


    - hard way : regular expression 을 이용  
    - easy way : beautifulsoup 사용
    
- ``pip install beautifulsoup4``

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req
import re

### html file 읽기

- 웹페이지의 주소는 매번 바뀔 수 있으므로 새로운 주소를 아래의 url 에 update 해 줍니다.

In [2]:
# 웹브라우저의 주소창에서 url을 copy 합니다. 
url = "http://localhost:5504/Notebooks/23_index.html"

In [4]:
res = req.urlopen(url)  # 지정된 URL로부터 응답을 받아옵니다.

# 받아온 응답(res)의 내용을 읽고, UTF-8로 디코딩하여 문자열로 변환한 뒤 출력합니다.
print(res.read().decode('utf-8'))

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h1>BeautifulSoup Web Crawling</h1>
    <p>뷰티플숩을 이용한 웹 크롤링</p>
    <div class="firstclass" id="div1">
        <p>첫번째 div 안의 paragraph 입니다.</p>
    </div>
    <div class="secondclass" id="div2">
        <p>두번째 div 안의 paragraph 입니다.</p>
    </div>
<!-- Code injected by live-server -->
<script>
	// <![CDATA[  <-- For SVG support
	if ('WebSocket' in window) {
		(function () {
			function refreshCSS() {
				var sheets = [].slice.call(document.getElementsByTagName("link"));
				var head = document.getElementsByTagName("head")[0];
				for (var i = 0; i < sheets.length; ++i) {
					var elem = sheets[i];
					var parent = elem.parentElement || head;
					parent.removeChild(elem);
					var rel = elem.rel;
					if (elem.href && typeof rel != "string" || rel.length == 0 || rel.toLowerCase() == "stylesheet") {
		

### BeautifulSoup object 에 html file 저장

In [5]:
res = req.urlopen(url)  # 지정된 URL로부터 응답을 받아옵니다.

# 받아온 응답(res)을 BeautifulSoup 객체로 변환하여 HTML을 파싱합니다. 파서로는 'html.parser'를 사용합니다.
soup = BeautifulSoup(res, 'html.parser')

- html 내의 특정 `<div>` tag 검색

In [6]:
soup.find_all('div', id="div1")

[<div class="firstclass" id="div1">
 <p>첫번째 div 안의 paragraph 입니다.</p>
 </div>]

- html 내의 특정 class 검색 

In [7]:
soup.find_all(class_='secondclass')

[<div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

### soup object 의 내용 읽기

### hard way

- regular expression 이용

#### ``title`` tag 내용 읽기

- 정규식 이용

In [9]:
res = req.urlopen(url)  # 지정된 URL로부터 응답을 받아옵니다.

# 받아온 응답(res)을 읽고, UTF-8로 디코딩하여 문자열 형태로 변환합니다.
text = res.read().decode('utf-8')

# 디코딩된 문자열에서 '<h1>' 태그의 위치를 찾습니다.
p1 = re.search('<h1>', text)
# 디코딩된 문자열에서 '</h1>' 태그의 위치를 찾습니다.
p2 = re.search('</h1>', text)

# '<h1>' 태그와 '</h1>' 태그 사이의 내용을 추출합니다.
text[p1.span()[1] : p2.span()[0]]

'BeautifulSoup Web Crawling'

- Beautifulsoup 이용

In [10]:
soup.h1.text

'BeautifulSoup Web Crawling'

In [11]:
print(soup.title.get_text())
print(soup.title.text)

Document
Document


#### html 내의 title tag 내용 검색
- 정규식 이용

In [13]:
# 디코딩된 문자열에서 '<title>' 태그의 위치를 찾습니다.
p1 = re.search('<title>', text)
# 디코딩된 문자열에서 '</title>' 태그의 위치를 찾습니다.
p2 = re.search('</title>', text)

# '<title>' 태그가 끝나는 위치의 인덱스를 start 변수에 저장합니다.
start = p1.span()[1]
# '</title>' 태그가 시작하는 위치의 인덱스를 end 변수에 저장합니다.
end = p2.span()[0]

# start 인덱스와 end 인덱스 사이의 텍스트를 추출합니다.
text[start: end]

'Document'

- Beautifulsoup 이용

In [14]:
soup.title.get_text()

'Document'

In [15]:
soup.title.text

'Document'

- ``h1`` tag 내용 읽기

In [16]:
print(soup.h1)
print(soup.h1.text)

<h1>BeautifulSoup Web Crawling</h1>
BeautifulSoup Web Crawling


- 같은 tag 가 중복된 경우 첫번째 tag display

In [17]:
soup.div

<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>

- 중복된 tag 를 모두 find

In [18]:
soup.find_all('div')

[<div class="firstclass" id="div1">
 <p>첫번째 div 안의 paragraph 입니다.</p>
 </div>,
 <div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

- 특정 id 를 지정하여 find

In [19]:
print(soup.find_all(id="div1"))
print(soup.find_all(id="div1")[0].text)

[<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>]

첫번째 div 안의 paragraph 입니다.



- 특정 class 를 지정하여 find  
- class 는 Python 의 keyword 이므로 class_ 로 표시

In [20]:
soup.find_all(class_="secondclass")

[<div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

- tag 내의 속성 (attribute) 가져오기

In [21]:
soup.find('div')['class']

['firstclass']

## bitcoin price 읽어 오기

In [27]:
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re

URL = "https://www.coindesk.com/price/bitcoin"
hdr = {'User-Agent': 'Mozilla/5.0'}

- BeautifulSoup object 에 html file 저장

In [28]:
req = Request(URL, headers=hdr)
page = urlopen(req)
html = BeautifulSoup(page, "html.parser")

In [29]:
html

<!DOCTYPE html>
<html lang="en"><head><meta charset="utf-8"/><meta content="width=device-width, initial-scale=1" name="viewport"/><script>APP_ENV = "production";</script><script>window.googletag = window.googletag || {cmd: []};</script><script data-cookieconsent="ignore">(function googleConsent(onLoadPageData, ID, AUTH, ENV) {window.dataLayer = window.dataLayer || [onLoadPageData];function gtag() {window.dataLayer.push(arguments);}window["gtag_enable_tcf_support"] = true;window.gtag = gtag;gtag("consent", "default", {ad_storage: "granted",analytics_storage: "granted",functionality_storage: "granted",personalization_storage: "granted",security_storage: "granted",wait_for_update: 500});gtag("set", "ads_data_redaction", false);gtag("set", "url_passthrough", true);gtag("consent", "default", {ad_storage: "denied",analytics_storage: "denied",functionality_storage: "granted",personalization_storage: "denied",security_storage: "granted",wait_for_update: 500,region: ["AT", "BE", "BG", "HR", "CY

### page source 보기에서 비트코인 가격 있는 class_ id 찾기

- 개발자 도구(F12)를 열고, 비트코인 가격이 표시된 부분을 마우스 오른쪽 버튼으로 클릭 후 "Inspect" 또는 "검사"를 선택합니다. 이렇게 하면 해당 HTML 요소를 바로 볼 수 있습니다. 해당 요소의 class 또는 id를 확인합니다. (복사 --> 요소 복사)

In [32]:
found = html.find(class_='currency-pricestyles__Price-sc-1v249sx-0 fcfNRE')
found

<span class="currency-pricestyles__Price-sc-1v249sx-0 fcfNRE">63,969.66</span>

In [34]:
# 'found' 변수에 저장된 문자열에서 숫자 및 쉼표, 점을 포함하는 부분을 검색합니다.
# 이는 일반적으로 가격이나 숫자를 추출할 때 사용됩니다.
match = re.search('([0-9,.]+)</span>', str(found))

# match 객체의 group() 메서드를 호출하여, 검색된 패턴의 첫 번째 그룹(가장 첫 번째 괄호에 해당하는 부분)을 반환합니다.
# 이 경우 숫자 및 쉼표, 점으로 이루어진 문자열을 추출합니다.
match.group()

'63,969.66</span>'

In [35]:
match.group(1)

'63,969.66'