## Requests : 建立各種 HTTP 請求，從網頁伺服器上取得想要的資料。
## Beautiful Soup : 分析 HTML 網頁( 用於擷取出網頁中所需的資料 )。 

In [1]:
import pandas as pd
import numpy as np
import os
import requests
from bs4 import BeautifulSoup

### Step 1 : 貼上網址  

<img src="1_Web_page.png" width="80%">

In [2]:
Target_URL = 'https://www.ptt.cc/bbs/Gossiping/index.html'

### Step 2 : 自訂 HTTP 請求的標頭，避免訪問網站時受限制。( Not necessarily )

In [3]:
URL_headers = { 'user-agent':'Mozilla/5.0(Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36' }

### Step 3 : 設定請求時間，避免網站回應時間過久。( Not necessarily ) 

In [4]:
time = 0.5

### Step 4 : 抓取網頁資料。
##### 4-1 設定 Cookie ( If necessary )
###### 進入網站之前，使用者須先點選 『 是否已滿18歲 』 按鈕
<img src="2_Cookie_page.png" width="80%">  
###### 開啟瀏覽器開發者模式( F12 )，觀察點選「已滿18歲」會送給伺服器之封包內容
<img src="3_Set_cookie.png" width="80%">  

##### 4-2 查看網頁伺服器回應請求的狀態
##### 4-3 抓取資料

In [5]:
Cookie_URL = 'https://www.ptt.cc/ask/over18?from=%2Fbbs%2FGossiping%2Findex.html'

# Session() 將我們送出 requests 所收到的 cookies 全部儲存起來，且於下一次發送請求時送出對應的參數。
r = requests.Session( ) 

# 設定 Cookies 內容
payload = { 'from':'/bbs/Gossiping/index.html', 'yes' : 'yes' }

# post( ) 函數送出 post 請求 
r1 = r.post( Cookie_URL, data = payload )

# 查看網頁伺服器回應 post( ) 請求的狀態
print( '網頁伺服器回應 post( ) 請求的狀態：' )
try:
    if r1.status_code == 200 : 
        print( '請求成功！' )
    r1.raise_for_status( )    # 取得請求錯誤的詳細資訊！
except  requests.exceptions.RequestException as ex1 :
    print( 'HTTP 請求錯誤 : ' + str( ex1 ) )
except  requests.exceptions.HTTPError as ex2 :
    print( 'HTTP 回應錯誤 : ' + str( ex2 ) )
except  requests.exceptions.Timeout as ex3 :
    print( 'Timeout 錯誤 : ' + str( ex3 ) )
except  requests.exceptions.ConnectionError as ex4 :
    print( '網路連線錯誤 : ' + str( ex4 ) )
print( '---------------------' '\n'  )


# get( ) 函數送出 HTTP 請求
r2 =  r.get( Target_URL, timeout = time )

# 查看網頁伺服器回應 get( ) 請求的狀態
print( '網頁伺服器回應  get( ) 請求的請求狀態：' )
try:
    if r2.status_code == 200 : 
        print( '請求成功！' )
    r2.raise_for_status( )    # 取得請求錯誤的詳細資訊！
except  requests.exceptions.RequestException as ex1 :
    print( 'HTTP 請求錯誤 : ' + str( ex1 ) )
except  requests.exceptions.HTTPError as ex2 :
    print( 'HTTP 回應錯誤 : ' + str( ex2 ) )
except  requests.exceptions.Timeout as ex3 :
    print( 'Timeout 錯誤 : ' + str( ex3 ) )
except  requests.exceptions.ConnectionError as ex4 :
    print( '網路連線錯誤 : ' + str( ex4 ) )
print( '---------------------' '\n'  )

print( '網頁使用的編碼：' + str( r2.encoding ) + '\n' '---------------------' '\n' )

print(  '網址：' )
print( r2.url )
print( '---------------------' '\n'  )

print(  '\n' '網頁原始碼： ' '\n'  )
print( r2.text )


網頁伺服器回應 post( ) 請求的狀態：
請求成功！
---------------------

網頁伺服器回應  get( ) 請求的請求狀態：
請求成功！
---------------------

網頁使用的編碼：utf-8
---------------------

網址：
https://www.ptt.cc/bbs/Gossiping/index.html
---------------------


網頁原始碼： 

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.25/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.25/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.25/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.25/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.25/bbs-print.css" media="print">




	</head>
    <body>
		
<div id="topbar-container">
	<div id="topbar" class="bbs-content">
		<a id="logo" href="/bbs/">

### Step 5 : 使用 BeautifulSoup，將從網頁抓取下來的資料轉為 html.parser。

In [6]:
soup = BeautifulSoup( r2.text, "html.parser" )
print( soup )

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.25/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.25/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>
<body>
<div id="topbar-container">
<div class="bbs-content" id="topbar">
<a href="/bbs/" id="logo">批踢踢實業坊</a>
<span>›</span>
<a class="board" href="/bbs/Gossiping/index.html"><span class="board-label">看板 </span>Gossiping</a>
<a class="right small" href="/about.html">關於我們</a>
<a class="right small" href="/contact.html">聯絡資訊</a>
</div>
</d

### Step 6 : 使用 select( ) 函數，取出 HTML 網頁中的資料。

In [7]:
# 範例：取出文章的標題

# 取 HTML 標中的 <div class="title">
#                        .........
#                        </div> 中的 <a> 標籤存入 tag_title
tag_title = soup.select( 'div.title a' ) 
print( tag_title )

[<a href="/bbs/Gossiping/M.1555511349.A.7CE.html">Re: [問卦] 8+9真的很容易交到女友嗎？</a>, <a href="/bbs/Gossiping/M.1555511358.A.4CB.html">[問卦] 有沒有拜一輩子關公卻被媽祖拖夢的八卦？</a>, <a href="/bbs/Gossiping/M.1555511365.A.F04.html">Re: [新聞] 郭台銘選總統 工商界不看好</a>, <a href="/bbs/Gossiping/M.1555511459.A.0ED.html">[問卦] 睡在神壇會比較容易被神明託夢嗎？</a>, <a href="/bbs/Gossiping/M.1555511468.A.EDD.html">Re: [問卦] 看到中國網民笑台灣人迷信不能反駁很難過</a>, <a href="/bbs/Gossiping/M.1555511486.A.9B3.html">[問卦] 大腕有什麼必點的菜嗎</a>, <a href="/bbs/Gossiping/M.1555511486.A.05B.html">[新聞] 北韓寧邊核能中心又有新動靜</a>, <a href="/bbs/Gossiping/M.1555511502.A.8DF.html">[新聞] 立委提案 放寬自行車可合法載幼童</a>, <a href="/bbs/Gossiping/M.1555511514.A.281.html">[新聞] 台海緊張!2美眾議員密訪愛國者飛彈 蔡英</a>, <a href="/bbs/Gossiping/M.1555511533.A.905.html">[新聞] 中國在南海填海造島 菲律賓埋怨美國未制止</a>, <a href="/bbs/Gossiping/M.1555511535.A.F64.html">[新聞] 一撞就碎！中國工人控訴工地安全帽像蛋殼</a>, <a href="/bbs/Gossiping/M.1555511546.A.527.html">[問卦] 為什麼水是乳白色？</a>, <a href="/bbs/Gossiping/M.1555511602.A.42B.html">Re: [新聞] 郭台銘霸氣宣布參選2020　BBC：若當總

### Step 7 : 印出網址及文章標題

In [8]:
for title in tag_title:
    print( title["href"], title.text ) 

/bbs/Gossiping/M.1555511349.A.7CE.html Re: [問卦] 8+9真的很容易交到女友嗎？
/bbs/Gossiping/M.1555511358.A.4CB.html [問卦] 有沒有拜一輩子關公卻被媽祖拖夢的八卦？
/bbs/Gossiping/M.1555511365.A.F04.html Re: [新聞] 郭台銘選總統 工商界不看好
/bbs/Gossiping/M.1555511459.A.0ED.html [問卦] 睡在神壇會比較容易被神明託夢嗎？
/bbs/Gossiping/M.1555511468.A.EDD.html Re: [問卦] 看到中國網民笑台灣人迷信不能反駁很難過
/bbs/Gossiping/M.1555511486.A.9B3.html [問卦] 大腕有什麼必點的菜嗎
/bbs/Gossiping/M.1555511486.A.05B.html [新聞] 北韓寧邊核能中心又有新動靜
/bbs/Gossiping/M.1555511502.A.8DF.html [新聞] 立委提案 放寬自行車可合法載幼童
/bbs/Gossiping/M.1555511514.A.281.html [新聞] 台海緊張!2美眾議員密訪愛國者飛彈 蔡英
/bbs/Gossiping/M.1555511533.A.905.html [新聞] 中國在南海填海造島 菲律賓埋怨美國未制止
/bbs/Gossiping/M.1555511535.A.F64.html [新聞] 一撞就碎！中國工人控訴工地安全帽像蛋殼
/bbs/Gossiping/M.1555511546.A.527.html [問卦] 為什麼水是乳白色？
/bbs/Gossiping/M.1555511602.A.42B.html Re: [新聞] 郭台銘霸氣宣布參選2020　BBC：若當總統
/bbs/Gossiping/M.1555511607.A.6BF.html Re: [問卦] 癌症3期，救還是不救? 要400萬喔
/bbs/Gossiping/M.1555511631.A.54D.html [問卦] 爸爸頭腦比電腦好
/bbs/Gossiping/M.1555511663.A.8F3.html [問卦] 現在有誰唱現場跟錄音室一樣
/bbs/Gossip