# 23. BeautifulSoup 으로 Webpage 읽어오기

- 23_index.html file 을 webserver 에서 open   

    VS Code --> LiveServer 확장 프로그램 설치 --> Open with Live Server

## Web Scraping

- program 이 browser 인 것 처럼 행동하여 web page 를 access 하고 정보 추출  


    - hard way : regular expression 을 이용  
    - easy way : beautifulsoup 사용
    
- ``pip install beautifulsoup4``

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req
import re

### html file 읽기

In [4]:
url = "http://localhost:5500/Notebooks/23_index.html"

In [5]:
res = req.urlopen(url)

print(res.read().decode('utf-8'))

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h1>BeautifulSoup Web Crawling</h1>
    <p>뷰티플숩을 이용한 웹 크롤링</p>
    <div class="firstclass" id="div1">
        <p>첫번째 div 안의 paragraph 입니다.</p>
    </div>
    <div class="secondclass" id="div2">
        <p>두번째 div 안의 paragraph 입니다.</p>
    </div>
<!-- Code injected by live-server -->
<script>
	// <![CDATA[  <-- For SVG support
	if ('WebSocket' in window) {
		(function () {
			function refreshCSS() {
				var sheets = [].slice.call(document.getElementsByTagName("link"));
				var head = document.getElementsByTagName("head")[0];
				for (var i = 0; i < sheets.length; ++i) {
					var elem = sheets[i];
					var parent = elem.parentElement || head;
					parent.removeChild(elem);
					var rel = elem.rel;
					if (elem.href && typeof rel != "string" || rel.length == 0 || rel.toLowerCase() == "s

### BeautifulSoup object 에 html file 저장

In [10]:
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

- html 내의 특정 `<div>` tag 검색

In [11]:
soup.find_all('div', id="div1")

[<div class="firstclass" id="div1">
 <p>첫번째 div 안의 paragraph 입니다.</p>
 </div>]

- html 내의 특정 class 검색 

In [12]:
soup.find_all(class_='secondclass')

[<div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

### soup object 의 내용 읽기

### hard way

- regular expression 이용

#### ``title`` tag 내용 읽기

- 정규식 이용

In [13]:
res = req.urlopen(url)
text = res.read().decode('utf-8')

p1 = re.search('<h1>', text)
p2 = re.search('</h1>', text)

text[p1.span()[1] : p2.span()[0]]

'BeautifulSoup Web Crawling'

- Beautifulsoup 이용

In [14]:
soup.h1.text

'BeautifulSoup Web Crawling'

In [15]:
print(soup.title.get_text())
print(soup.title.text)

Document
Document


#### html 내의 title tag 내용 검색
- 정규식 이용

In [16]:
p1 = re.search('<title>', text)
p2 = re.search('</title>', text)

start = p1.span()[1]
end = p2.span()[0]
text[start: end]

'Document'

- Beautifulsoup 이용

In [17]:
soup.title.get_text()

'Document'

In [18]:
soup.title.text

'Document'

- ``h1`` tag 내용 읽기

In [19]:
print(soup.h1)
print(soup.h1.text)

<h1>BeautifulSoup Web Crawling</h1>
BeautifulSoup Web Crawling


- 같은 tag 가 중복된 경우 첫번째 tag display

In [20]:
soup.div

<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>

- 중복된 tag 를 모두 find

In [21]:
soup.find_all('div')

[<div class="firstclass" id="div1">
 <p>첫번째 div 안의 paragraph 입니다.</p>
 </div>,
 <div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

- 특정 id 를 지정하여 find

In [22]:
print(soup.find_all(id="div1"))
print(soup.find_all(id="div1")[0].text)

[<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>]

첫번째 div 안의 paragraph 입니다.



- 특정 class 를 지정하여 find  
- class 는 Python 의 keyword 이므로 class_ 로 표시

In [23]:
soup.find_all(class_="secondclass")

[<div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

- tag 내의 속성 (attribute) 가져오기

In [24]:
soup.find('div')['class']

['firstclass']

## bitcoin price 읽어 오기

In [1]:
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re

URL = "https://kr.investing.com/crypto/bitcoin/"
hdr = {'User-Agent': 'Mozilla/5.0'}

- BeautifulSoup object 에 html file 저장

In [2]:
req = Request(URL, headers=hdr)
page = urlopen(req)
html = BeautifulSoup(page, "html.parser")

In [3]:
html

 <!DOCTYPE HTML>

<html class="kr" dir="ltr" geo="KR" lang="ko" xml:lang="ko" xmlns="http://www.w3.org/1999/xhtml" xmlns:schema="http://schema.org/">
<head>
<script async="" src="https://cdn.pbxai.com/aba93a3a-0792-49b0-9740-2018808409c4.js"></script>
<link href="https://i-invdn-com.investing.com" rel="dns-prefetch"/>
<link href="https://a-invdn-com.investing.com" rel="dns-prefetch"/>
<link href="//si.education.investing.com" rel="preconnect"/>
<link href="//si.education.investing.com" rel="dns-prefetch"/>
<link href="//c.amazon-adsystem.com" rel="preconnect"/>
<link href="//c.amazon-adsystem.com" rel="dns-prefetch"/>
<script async="" src="https://securepubads.g.doubleclick.net/tag/js/gpt.js"></script>
<script>
        // Load ToolSet hardcoded instead of from file
        /**
         * ToolSet (Investing Lib for DFP)
         */
        (()=>{
            let lcl = console.log,
                defineSlot = ({ defineSlot, sizes, adSlotDivID, middleDefinition, collapseDiv }, slotHolder

- page source 보기에서 `1 BTC =` 검색하여 비트코인 가격 있는 class_ id 찾기

In [4]:
found = html.find(class_="pid-1057391-last")
found

<span class="pid-1057391-last" id="last_last">26,075.0</span>

In [5]:
match = re.search('([0-9,.]+)</span>', str(found))
match.group()

'26,075.0</span>'

In [6]:
match.group(1)

'26,075.0'