# 23. BeautifulSoup 으로 Webpage 읽어오기

- 23_index.html file 을 webserver 에서 open   

    VS Code --> LiveServer 확장 프로그램 설치 --> Open with Live Server

## Web Scraping

- program 이 browser 인 것 처럼 행동하여 web page 를 access 하고 정보 추출  


    - hard way : regular expression 을 이용  
    - easy way : beautifulsoup 사용
    
- ``pip install beautifulsoup4``

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req

### html file 읽기

In [7]:
url = "http://127.0.0.1:5500/jupytorNotebooks/23_index.html"

In [8]:
res = req.urlopen(url)

print(res.read().decode('utf-8'))

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h1>BeautifulSoup Web Crawling</h1>
    <p>뷰티플숩을 이용한 웹 크롤링</p>
    <div class="firstclass" id="div1">
        <p>첫번째 div 안의 paragraph 입니다.</p>
    </div>
    <div class="secondclass" id="div2">
        <p>두번째 div 안의 paragraph 입니다.</p>
    </div>
<!-- Code injected by live-server -->
<script type="text/javascript">
	// <![CDATA[  <-- For SVG support
	if ('WebSocket' in window) {
		(function () {
			function refreshCSS() {
				var sheets = [].slice.call(document.getElementsByTagName("link"));
				var head = document.getElementsByTagName("head")[0];
				for (var i = 0; i < sheets.length; ++i) {
					var elem = sheets[i];
					var parent = elem.parentElement || head;
					parent.removeChild(elem);
					var rel = elem.rel;
					if (elem.href && typeof rel != "string" || rel.length == 0 || rel.toLowerCase(

### BeautifulSoup object 에 html file 저장

In [9]:
res = req.urlopen(url)

soup = BeautifulSoup(res, 'html.parser')
print(soup)

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>Document</title>
</head>
<body>
<h1>BeautifulSoup Web Crawling</h1>
<p>뷰티플숩을 이용한 웹 크롤링</p>
<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>
<div class="secondclass" id="div2">
<p>두번째 div 안의 paragraph 입니다.</p>
</div>
<!-- Code injected by live-server -->
<script type="text/javascript">
	// <![CDATA[  <-- For SVG support
	if ('WebSocket' in window) {
		(function () {
			function refreshCSS() {
				var sheets = [].slice.call(document.getElementsByTagName("link"));
				var head = document.getElementsByTagName("head")[0];
				for (var i = 0; i < sheets.length; ++i) {
					var elem = sheets[i];
					var parent = elem.parentElement || head;
					parent.removeChild(elem);
					var rel = elem.rel;
					if (elem.href && typeof rel != "string" || rel.length == 0 || rel.toLowerCase() == "stylesheet") {
						var url = elem.href.re

### soup object 의 내용 읽기

- ``title`` tag 내용 읽기

### hard way

- regular expression 이용

In [10]:
import re

res = req.urlopen(url)
text = res.read().decode('utf-8')

p1 = re.search('<title>', text)
p2 = re.search('</title>', text)

text[p1.span()[1] : p2.span()[0]]

'Document'

- Beautifulsoup 이용

In [11]:
soup.title

<title>Document</title>

In [12]:
print(soup.title.get_text())
print(soup.title.text)

Document
Document


- ``h1`` tag 내용 읽기

In [13]:
print(soup.h1)
print(soup.h1.text)

<h1>BeautifulSoup Web Crawling</h1>
BeautifulSoup Web Crawling


- 같은 tag 가 중복된 경우 첫번째 tag display

In [14]:
soup.div

<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>

- 중복된 tag 를 모두 find

In [15]:
soup.find_all('div')

[<div class="firstclass" id="div1">
 <p>첫번째 div 안의 paragraph 입니다.</p>
 </div>,
 <div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

- 특정 id 를 지정하여 find

In [16]:
print(soup.find_all(id="div1"))
print(soup.find_all(id="div1")[0].text)

[<div class="firstclass" id="div1">
<p>첫번째 div 안의 paragraph 입니다.</p>
</div>]

첫번째 div 안의 paragraph 입니다.



- 특정 class 를 지정하여 find  
- class 는 Python 의 keyword 이므로 class_ 로 표시

In [17]:
soup.find_all(class_="secondclass")

[<div class="secondclass" id="div2">
 <p>두번째 div 안의 paragraph 입니다.</p>
 </div>]

- tag 내의 속성 (attribute) 가져오기

In [18]:
soup.find('div')['class']

['firstclass']

## bitcoin price 읽어 오기

In [1]:
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
import re

URL = "https://kr.investing.com/crypto/bitcoin/"
hdr = {'User-Agent': 'Mozilla/5.0'}

In [4]:
req = Request(URL, headers=hdr)
page = urlopen(req)

html = BeautifulSoup(page, "html.parser")
found = html.find(class_="newInput inputTextBox alertValue")
found

<input class="newInput inputTextBox alertValue" placeholder="46,770.2" type="text" value="46,770.2"/>

In [5]:
price = re.search('[0-9,.]+', str(found))
price

<re.Match object; span=(61, 69), match='46,770.2'>

In [6]:
price.group()

'46,770.2'