# 本範例示範如何使用BeautifulSoup動態控制html

## 1.使用BeautifulSoup修改html碼然後產生一個網頁
手動製作一個範例如下：

In [2]:
# 匯入BeautifulSoup
from bs4 import BeautifulSoup
html = """
<html><head><title>這是標題</title></head>
<body>
<div id='body1'>
<p class="title" name="dromouse">第一段</p>
<p class="story">第一部分內文前半段
<a href="http://example.com/elsie" class="link" id="link1">連結一</a>,
<a href="http://example.com/lacie" class="link" id="link2">連結二</a> and
<a href="http://example.com/tillie" class="link" id="link3">連結三</a>;
第一部分內文後半段</p></div>
<div id='body2'>
<p class="title" name="dromouse"><b>第一段</b></p>
<p class="story">第二部分內文</p></div>
"""


In [None]:
# 產生soup物件，BeautifulSoup套件會把html讀取後變成一個可以控制的物件
soup=BeautifulSoup(html,'lxml')
# 寫入成一個真的html
with open('test_old.html', 'w') as out_file:
    out_file.write(soup.prettify())

In [4]:
# 取得html的head部分，以便對html做一點修改
print(soup.head)
soup.head = '<head><title>這是新的標題</title></head>'
print(soup.head)

<head><title>這是標題</title></head>
<head><title>這是新的標題</title></head>


In [3]:
# 寫入成新的html
with open('test_new.html', 'w') as out_file:
    out_file.write(soup.prettify())

試著比較看看，修改後的差異是否成功出現

## 2.find_all html文件搜尋器
可以傳入KeyWords：  
1.node類別  
2.可以指定該類別的屬性&屬性值


In [6]:
ps=soup.find_all("div") #p,div,title
ps

[<div id="body1">
 <p class="title" name="dromouse">第一段</p>
 <p class="story">第一部分內文前半段
 <a class="link" href="http://example.com/elsie" id="link1">連結一</a>,
 <a class="link" href="http://example.com/lacie" id="link2">連結二</a> and
 <a class="link" href="http://example.com/tillie" id="link3">連結三</a>;
 第一部分內文後半段</p></div>, <div id="body2">
 <p class="title" name="dromouse"><b>第一段</b></p>
 <p class="story">第二部分內文</p></div>]

In [7]:
s = soup.find_all("p",attrs={'class':'title'}) 
s

[<p class="title" name="dromouse">第一段</p>,
 <p class="title" name="dromouse"><b>第一段</b></p>]

In [8]:
import re #正則式運作built-in module
a = soup.find_all(text=re.compile("連結"))
a

['連結一', '連結二', '連結三']

In [9]:
import re #正則式運作built-in module
a = soup.find_all(id=re.compile("link"))
a

[<a class="link" href="http://example.com/elsie" id="link1">連結一</a>,
 <a class="link" href="http://example.com/lacie" id="link2">連結二</a>,
 <a class="link" href="http://example.com/tillie" id="link3">連結三</a>]

## 3.select css搜尋器  
運作方式類似jquery，也就是js的Document.getElementById()等函式

In [10]:
print(soup.select('#link1'))

[<a class="link" href="http://example.com/elsie" id="link1">連結一</a>]


In [11]:
print(soup.select('p #link1'))

[<a class="link" href="http://example.com/elsie" id="link1">連結一</a>]


In [12]:
print(soup.select("head > title"))

[<title>這是標題</title>]


In [13]:
print(soup.select('a[class="link"]'))

[<a class="link" href="http://example.com/elsie" id="link1">連結一</a>, <a class="link" href="http://example.com/lacie" id="link2">連結二</a>, <a class="link" href="http://example.com/tillie" id="link3">連結三</a>]


https://jasonblog.github.io/note/python/pythonpa_chong_zhi_beautifulsoup.html
https://ithelp.ithome.com.tw/articles/10191165