In [None]:
# 參考資料：https://blog.gtwang.org/programming/python-beautiful-soup-module-scrape-web-pages-tutorial/

In [2]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# If has Chinese, apply decode()
html = urlopen("https://morvanzhou.github.io/static/scraping/basic-structure.html").read().decode('utf-8')
print(html)

<!DOCTYPE html>
<html lang="cn">
<head>
	<meta charset="UTF-8">
	<title>Scraping tutorial 1 | 莫烦Python</title>
	<link rel="icon" href="https://morvanzhou.github.io/static/img/description/tab_icon.png">
</head>
<body>
	<h1>爬虫测试1</h1>
	<p>
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	</p>

</body>
</html>


In [None]:
# 再取得網址後，也可以利用BeautifulSoup裡的 'html.parser' 來產生的結構樹，以便觀察整份文件的輪廓。

In [9]:
from bs4 import BeautifulSoup
import requests

html_doc = requests.get('https://morvanzhou.github.io/static/scraping/basic-structure.html')
soup = BeautifulSoup(html_doc.text, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="cn">
 <head>
  <meta charset="utf-8"/>
  <title>
   Scraping tutorial 1 | 莫烦Python
  </title>
  <link href="https://morvanzhou.github.io/static/img/description/tab_icon.png" rel="icon"/>
 </head>
 <body>
  <h1>
   爬虫测试1
  </h1>
  <p>
   这是一个在
   <a href="https://morvanzhou.github.io/">
    莫烦Python
   </a>
   <a href="https://morvanzhou.github.io/tutorials/scraping">
    爬虫教程
   </a>
   中的简单测试.
  </p>
 </body>
</html>


In [None]:
# 可以直接透過 "soup.關鍵字" 來找尋關鍵字的那一行，更可以再利用 "soup.關鍵字.string" 來找出<關鍵字>內容</關鍵字>中間的內容
# "soup.關鍵字.string" == "soup.關鍵字.get_text()"

In [18]:
tag = soup.h1
print(tag,'\n')

print(tag.string)

<h1>爬虫测试1</h1> 

爬虫测试1


In [2]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# If has Chinese, apply decode()
html = urlopen("https://morvanzhou.github.io/static/scraping/basic-structure.html").read().decode('utf-8')

soup = BeautifulSoup(html, features='lxml')
print(soup.h1)
print('\n', soup.p)

<h1>爬虫测试1</h1>

 <p>
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	</p>


In [None]:
# 可以先利用 "soup.find_all('a')" 在html中搜索到所有含有'a'標籤的字串。
# 再透過迴圈，便可將所有字串中含有 "變數[href]" 字串的那行網址取出來，或是使用 "變數.get('href')" 也可達到相同的效果。

# 變數.get(HTML屬性)，可以取出 HTML 節點的各種屬性內容。

In [23]:
# 在html中搜索到所有含有'a'標籤的字串給all_href
all_href = soup.find_all('a')
print(all_href,'\n')

# 從所有的字串中，再找到
for i in all_href:
    print(i['href'],'\n')

[<a href="https://morvanzhou.github.io/">莫烦Python</a>, <a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a>] 

https://morvanzhou.github.io/ 

https://morvanzhou.github.io/tutorials/scraping 



In [16]:
all_href2 = soup.find_all('a')
for tag in all_href2:
  print(tag.get('href'),'\n')

https://morvanzhou.github.io/ 

https://morvanzhou.github.io/tutorials/scraping 



In [None]:
# 若要同時搜尋多種 HTML 標籤，可以使用 list 來指定所有的要列出的 HTML 標籤名稱，並且可以用 limit 參數來指定搜尋節點數量的上限值。

In [5]:
tags = soup.find_all(["a", "h1"], limit=2)
print(tags)

[<h1>爬虫测试1</h1>, <a href="https://morvanzhou.github.io/">莫烦Python</a>]


In [None]:
# 利用 CSS 來爬蟲

In [12]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

# If has Chinese, apply decode()
html = urlopen("https://morvanzhou.github.io/static/scraping/list.html").read().decode('utf-8')
print(html)

<!DOCTYPE html>
<html lang="cn">
<head>
	<meta charset="UTF-8">
	<title>爬虫练习 列表 class | 莫烦 Python</title>
	<style>
	.jan {
		background-color: yellow;
	}
	.feb {
		font-size: 25px;
	}
	.month {
		color: red;
	}
	</style>
</head>

<body>

<h1>列表 爬虫练习</h1>

<p>这是一个在 <a href="https://morvanzhou.github.io/" >莫烦 Python</a> 的 <a href="https://morvanzhou.github.io/tutorials/scraping" >爬虫教程</a>
	里无敌简单的网页, 所有的 code 让你一目了然, 清晰无比.</p>

<ul>
	<li class="month">一月</li>
	<ul class="jan">
		<li>一月一号</li>
		<li>一月二号</li>
		<li>一月三号</li>
	</ul>
	<li class="feb month">二月</li>
	<li class="month">三月</li>
	<li class="month">四月</li>
	<li class="month">五月</li>
</ul>

</body>
</html>


In [None]:
# 可以利用 "soup.find_all('關鍵字', class_（為一個CSS屬性） = 'CSS的關鍵字')"，來擷取自己想要的內容。

In [33]:
soup = BeautifulSoup(html, features='lxml')

month = soup.find_all('li')
for m in month:
    print(m.get_text())
print('\n')

month = soup.find_all('li', class_='month')
for m in month:
    print(m)
    
print('\n')

for m in month:
    print(m.get_text())

print('\n')

for m in month:
    print(m.string)

一月
一月一号
一月二号
一月三号
二月
三月
四月
五月


<li class="month">一月</li>
<li class="feb month">二月</li>
<li class="month">三月</li>
<li class="month">四月</li>
<li class="month">五月</li>


一月
二月
三月
四月
五月


一月
二月
三月
四月
五月


In [41]:
# class_（為一個CSS屬性_） = 'CSS的關鍵字' 也可以以 {"class（為一個CSS屬性)": 'CSS的關鍵字'} 表示。

# {"class": 'jan'} 中：可以有代表=的意思。

# 較建議用這個，因為與下方正則表達式有異曲同工之妙。

In [34]:
jan = soup.find('ul', {"class": 'jan'})
d_jan = jan.find_all('li')              # Use jan as a parent

for d in d_jan:
    print(d.get_text())

一月一号
一月二号
一月三号


In [None]:
# 利用正則表達式來輔佐

In [35]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

# if has Chinese, apply decode()
html = urlopen("https://morvanzhou.github.io/static/scraping/table.html").read().decode('utf-8')

In [51]:
soup = BeautifulSoup(html, features='lxml')

img_links = soup.find_all("img", {"src": re.compile('.*.jpg')})
for link in img_links:
    print(link.get('src'))

print('\n')

for link in img_links:
    print(link['src'])

https://morvanzhou.github.io/static/img/course_cover/tf.jpg
https://morvanzhou.github.io/static/img/course_cover/rl.jpg
https://morvanzhou.github.io/static/img/course_cover/scraping.jpg


https://morvanzhou.github.io/static/img/course_cover/tf.jpg
https://morvanzhou.github.io/static/img/course_cover/rl.jpg
https://morvanzhou.github.io/static/img/course_cover/scraping.jpg


In [47]:
course_links = soup.find_all('a', {"href": re.compile('https://.*')})
for link in course_links:
    print(link['href'])

https://morvanzhou.github.io/
https://morvanzhou.github.io/tutorials/scraping
https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/
https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/
https://morvanzhou.github.io/tutorials/data-manipulation/scraping/
