# Web Crawler 

## 安裝環境

In [None]:
# pip install jupyter notebook

# 對網路發動請求的套件，可實作對網頁做get、post等HTTP協定的行為
# pip install requests

# 借助網頁的結構特性來解析網頁的工具，只需要簡單的幾條指令就可以提取HTML標籤裡的元素
# pip install beautifulsoup4


## 小實作: 爬取PTT八卦版的文章資訊

### 以PTT八卦版為例 : https://www.ptt.cc/bbs/Gossiping/index.html

### Step1. import 套件

In [10]:
import requests
from bs4 import BeautifulSoup

# 把Warning訊息去掉
requests.packages.urllib3.disable_warnings()

### Step2. 將網頁Get下來

In [11]:
http_proxy = "http://auhqproxy.corpnet.auo.com:8080/"
https_proxy = "http://auhqproxy.corpnet.auo.com:8080/"
ftp_proxy = "http://auhqproxy.corpnet.auo.com:8080/"

proxyDict = { 
              "http"  : http_proxy, 
              "https" : https_proxy, 
              "ftp"   : ftp_proxy
            }
            
#r = requests.get(url, proxies=proxyDict, verify=False)

In [12]:
# 要爬的網站
url = "https://www.ptt.cc/bbs/Gossiping/index.html"

In [18]:
# 處理PTT網站詢問是否已滿18歲的問題
payload = {
    "from":"/bbs/Gossiping/index.html",
    "yes":"yes"
}

rs = requests.session()

# 送出資訊已滿18歲的資訊
# verify=False 是為了避免SSL認證
result = rs.post("https://www.ptt.cc/ask/over18", proxies=proxyDict, verify=False, data=payload)

# 將此頁面的HTML GET下來
result = rs.get(url, proxies=proxyDict, verify=False)

# 印出HTML
print(result.text)

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">




	</head>
    <body>
		
<div id="topbar-container">
	<div id="topbar" class="bbs-content">
		<a id="logo" href="/bbs/">批踢踢實業坊</a>
		<span>&rsaquo;</span>
		<a class="board" href="/bbs/Gossiping/index.html"><span class="board-label">看板 </span>Gossiping</a>
		<a class="right small" href="/about.html">關於我們</a>
		<a class="right small" href="/co

## 擷取各文章標題
```html=
<div class="title">	
    <a href="/bbs/Gossiping/M.1650337301.A.456.html">[新聞] 基隆無症狀、輕症 居家照護今啟動</a>
</div>
```

In [22]:
# 將網頁資料以html.parser
soup = BeautifulSoup(result.text, "html.parser")

# 取HTML標中的 <div class="title"></div> 中的<a>標籤存入title
title = soup.select("div.title a")
print(title)

[<a href="/bbs/Gossiping/M.1650349536.A.615.html">[新聞] 柯文哲預言「這週全台大亂」陳時中：與</a>, <a href="/bbs/Gossiping/M.1650349539.A.C4A.html">Re: [問卦] 第一次學Swift有多痛苦</a>, <a href="/bbs/Gossiping/M.1650349550.A.60C.html">[問卦] 兒童BNT合約上文字還需討論簡化？</a>, <a href="/bbs/Gossiping/M.1650349586.A.E45.html">[問卦] 同一類型病毒 為何南韓開放 台灣卻隔離?</a>, <a href="/bbs/Gossiping/M.1650349629.A.8C0.html">Re: [問卦] 要怎麼回 如果死的是你家人?</a>, <a href="/bbs/Gossiping/M.1650349641.A.B88.html">Re: [問卦] 我就共存仔！</a>, <a href="/bbs/Gossiping/M.1650349658.A.1FD.html">[新聞] 女高中生揭國小時遭性騷擾 校方調查解聘</a>, <a href="/bbs/Gossiping/M.1650349706.A.AB3.html">Re: [爆卦] 教育部官員不甩實聯制衝突襲系所</a>, <a href="/bbs/Gossiping/M.1650349752.A.C02.html">[新聞] 台首例2歲重症童父母陪伴下離世 院方：懷</a>, <a href="/bbs/Gossiping/M.1650349798.A.66D.html">[問卦] 到底誰說要共存的</a>, <a href="/bbs/Gossiping/M.1650349837.A.EBA.html">Re: [問卦] 幹你YouTube頻道也太難經營了</a>, <a href="/bbs/Gossiping/M.1650349848.A.6D8.html">Re: [問卦]為什麼有人希望CDC不要開記者會</a>, <a href="/bbs/Gossiping/M.1650349888.A.2B6.html">[問卦] 「勞工」是不是該正名了？要叫什麼？</

In [23]:
# 將爬下來的文章標題印出來
for s in title:
    print(s["href"], s.text)

/bbs/Gossiping/M.1650349536.A.615.html [新聞] 柯文哲預言「這週全台大亂」陳時中：與
/bbs/Gossiping/M.1650349539.A.C4A.html Re: [問卦] 第一次學Swift有多痛苦
/bbs/Gossiping/M.1650349550.A.60C.html [問卦] 兒童BNT合約上文字還需討論簡化？
/bbs/Gossiping/M.1650349586.A.E45.html [問卦] 同一類型病毒 為何南韓開放 台灣卻隔離?
/bbs/Gossiping/M.1650349629.A.8C0.html Re: [問卦] 要怎麼回 如果死的是你家人?
/bbs/Gossiping/M.1650349641.A.B88.html Re: [問卦] 我就共存仔！
/bbs/Gossiping/M.1650349658.A.1FD.html [新聞] 女高中生揭國小時遭性騷擾 校方調查解聘
/bbs/Gossiping/M.1650349706.A.AB3.html Re: [爆卦] 教育部官員不甩實聯制衝突襲系所
/bbs/Gossiping/M.1650349752.A.C02.html [新聞] 台首例2歲重症童父母陪伴下離世 院方：懷
/bbs/Gossiping/M.1650349798.A.66D.html [問卦] 到底誰說要共存的
/bbs/Gossiping/M.1650349837.A.EBA.html Re: [問卦] 幹你YouTube頻道也太難經營了
/bbs/Gossiping/M.1650349848.A.6D8.html Re: [問卦]為什麼有人希望CDC不要開記者會
/bbs/Gossiping/M.1650349888.A.2B6.html [問卦] 「勞工」是不是該正名了？要叫什麼？
/bbs/Gossiping/M.1650349956.A.13D.html [問卦] 台灣人的個性 永遠都要看歐美國家先做?
/bbs/Gossiping/M.1650349961.A.3D5.html Re: [問卦] 如果下週每天本土+200 你真的能接受？
/bbs/Gossiping/M.1650349961.A.E95.html [新聞] 役男赴美讀碩士「有好工作拒當兵