# 網路爬蟲基本篇－抓出 PTT 電影版之文章標題
1. 連線到特定網址，抓取資料
2. 解析資料，取得實際想要的部分

##### HTML -> 使用 BeautifulSoup 來解析
##### json -> 使用 內建的 json 來解析

## 首先，觀察該網頁的資料
* https://www.ptt.cc/bbs/movie/index.html

In [1]:
# 抓取 PTT 電影版網頁原始碼
import urllib.request as req

url = 'https://www.ptt.cc/bbs/movie/index.html'
with req.urlopen(url) as response:
    data = response.read().decode('utf-8')

print(data)

HTTPError: HTTP Error 403: Forbidden

發現連線被拒絕，我們應該模擬使用者發送 Request 給網頁時的感覺

In [2]:
# 抓取 PTT 電影版網頁原始碼
import urllib.request as req

url = 'https://www.ptt.cc/bbs/movie/index.html'

# 建立一個 request 物件，附加一個 headers 的資訊
request = req.Request(url, headers = {
    'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
})

with req.urlopen(request) as response:
    data = response.read().decode('utf-8')

print(data)

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>看板 movie 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">




	</head>
    <body>
		
<div id="topbar-container">
	<div id="topbar" class="bbs-content">
		<a id="logo" href="/bbs/">批踢踢實業坊</a>
		<span>&rsaquo;</span>
		<a class="board" href="/bbs/movie/index.html"><span class="board-label">看板 </span>movie</a>
		<a class="right small" href="/about.html">關於我們</a>
		<a class="right small" href="/contact.html">

## 解析原始碼，取得文章標題

In [3]:
# 解析 HTML 檔案
import bs4

root = bs4.BeautifulSoup(data, "html.parser")
root

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>看板 movie 文章列表 - 批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.27/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>
<body>
<div id="topbar-container">
<div class="bbs-content" id="topbar">
<a href="/bbs/" id="logo">批踢踢實業坊</a>
<span>›</span>
<a class="board" href="/bbs/movie/index.html"><span class="board-label">看板 </span>movie</a>
<a class="right small" href="/about.html">關於我們</a>
<a class="right small" href="/contact.html">聯絡資訊</a>
</div>
</div>
<div id=

In [4]:
root.title

<title>看板 movie 文章列表 - 批踢踢實業坊</title>

In [5]:
root.title.string

'看板 movie 文章列表 - 批踢踢實業坊'

In [6]:
# 尋找 class = title 的 div 標籤
title = root.find("div", class_ = "title")
title

<div class="title">
<a href="/bbs/movie/M.1624867491.A.273.html">[情報] 吉姆.布洛班 海倫.米蘭 Duke 預告</a>
</div>

In [7]:
title.a

<a href="/bbs/movie/M.1624867491.A.273.html">[情報] 吉姆.布洛班 海倫.米蘭 Duke 預告</a>

In [8]:
title.a.string

'[情報] 吉姆.布洛班 海倫.米蘭 Duke 預告'

In [9]:
# 抓取所有的標題
titles = root.find_all("div", class_ = "title")
titles

[<div class="title">
 <a href="/bbs/movie/M.1624867491.A.273.html">[情報] 吉姆.布洛班 海倫.米蘭 Duke 預告</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624868270.A.210.html">Re: [討論] 讓子彈飛裡涼粉那段劇情</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624868331.A.274.html">[新聞] 只花三個月！《音速小子2》真人電影殺青</a>
 </div>,
 <div class="title">
 			
 				arsonlolita刪除) &lt;silentgiant&gt;請充實內容
 			
 			</div>,
 <div class="title">
 <a href="/bbs/movie/M.1624869502.A.E6B.html">[負雷] 神劍闖江湖人誅篇，星霜篇還是勝一籌</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624870733.A.10B.html">[公告] 水桶</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624871050.A.87B.html">[公告] ★板主參選報名開始囉★</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624871842.A.D2B.html">[片單] 求推薦跟音樂有關的電影</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624877382.A.D97.html">[新聞] 「地表最強老爸」收新作劇本 傻眼：知我</a>
 </div>,
 <div class="title">
 <a href="/bbs/movie/M.1624880360.A.760.html">[討論] 不可能的任務全面瓦解是近年神作吧</a>
 </div>,
 <div cl

In [10]:
# 印出所有標題
for title in titles:
    if title.a != None: # 如果標題包含 a 才印出來（沒有被刪除）
        print(title.a.string)

[情報] 吉姆.布洛班 海倫.米蘭 Duke 預告
Re: [討論] 讓子彈飛裡涼粉那段劇情
[新聞] 只花三個月！《音速小子2》真人電影殺青
[負雷] 神劍闖江湖人誅篇，星霜篇還是勝一籌
[公告] 水桶
[公告] ★板主參選報名開始囉★
[片單] 求推薦跟音樂有關的電影
[新聞] 「地表最強老爸」收新作劇本 傻眼：知我
[討論] 不可能的任務全面瓦解是近年神作吧
[討論] 恐怖驚悚片問題大挑戰
[新聞] 「玩命關頭9」3日北美票房破19億 登2年來
[公告] 電影板板規 12/08/202
[情報] 近期院線預計重映片單
[公告] 試行版規-未有在台上映計畫電影規範
[公告] 版主選舉
