# PTT 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 印出最新文章的「作者」「標題」「時間」
* ② 印出第一頁所有文章的「作者」「標題」「時間」
* ③ 試著爬爬看其他版的文章


In [10]:
import requests
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/Stock/index.html'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

### ② 印出第一頁所有文章的「作者」「標題」「時間」

In [None]:
# 方法一：只從首頁
for d in soup.find_all(class_="r-ent"):
    print('標題： ', d.find(class_='title').text.replace('\t', '').replace('\n', ''))
    print('作者： ', d.find(class_='author').text.replace('\t', '').replace('\n', ''))
    print('時間： ', d.find(class_='date').text.replace('\t', '').replace('\n', ''))
    

In [14]:
# 方法二：進入內頁抓
for d in soup.find_all(class_="title"):
    try:
        print('標題： ', d.text.replace('\t', '').replace('\n', ''))
        r = BeautifulSoup(requests.get('https://www.ptt.cc'+d.find('a')['href']).text, "html5lib")
        print('作者： ' + r.find(class_='article-meta-value').text)
        print('時間： ' + r.find_all(class_='article-meta-value')[-1].text)
    except:
        continue

標題：  [請益] 買晶圓雙雄可以嗎？
作者： aaasssddd (希望相隨)
時間： Thu Dec 12 09:34:29 2019
標題：  (本文已被刪除) [greattower]
標題：  Re: [請益] 買晶圓雙雄可以嗎？
作者： gametheory (正直和善良會回來)
時間： Thu Dec 12 10:29:14 2019
標題：  [請益] 幫媽媽存的GG該買回來嗎
作者： c0854206 (雙層起司豬排)
時間： Thu Dec 12 10:32:41 2019
標題：  [公告] 精華區導覽Q&A
作者： IanLi (IanLi)
時間： Sun Jan 25 23:18:20 2015
標題：  [公告] Stock 板規V2.6             (2019/06/20)
標題：  [閒聊] 2019/12/12 盤中閒聊
作者： justforsing (雯晴啦不是晴雯)
時間： Thu Dec 12 08:30:02 2019


### ① 印出最新文章的「作者」「標題」「時間」

In [18]:
# 因為原始的資料難以判斷「新/舊」，因此我們必須進入內頁抓取詳細的時間，最終存成 List of Dict 的形式再自行排序。

posts = []

for d in soup.find_all(class_="title"):
    try:
        post = {}
        post['標題'] = d.text.replace('\t', '').replace('\n', '')
        
        r = BeautifulSoup(requests.get('https://www.ptt.cc'+d.find('a')['href']).text, "html5lib")
        post['作者'] = r.find(class_='article-meta-value').text
        post['時間'] = r.find_all(class_='article-meta-value')[-1].text
        
        posts.append(post)
    except:
        continue
        
posts = sorted(posts, key= lambda x: x['時間'])
# 補充：List of Dict 的排序方法
# https://stackoverflow.com/questions/72899/how-do-i-sort-a-list-of-dictionaries-by-a-value-of-the-dictionary
posts[-1]

{'標題': '[請益] 幫媽媽存的GG該買回來嗎',
 '作者': 'c0854206 (雙層起司豬排)',
 '時間': 'Thu Dec 12 10:32:41 2019'}

### ③ 試著爬爬看其他版的文章

In [19]:
# 改成 Lifeismoney 版，抓出最新一筆的文章

import requests
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/Lifeismoney/index.html'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

posts = []

for d in soup.find_all(class_="title"):
    try:
        post = {}
        post['標題'] = d.text.replace('\t', '').replace('\n', '')
        
        r = BeautifulSoup(requests.get('https://www.ptt.cc'+d.find('a')['href']).text, "html5lib")
        post['作者'] = r.find(class_='article-meta-value').text
        post['時間'] = r.find_all(class_='article-meta-value')[-1].text
        
        posts.append(post)
    except:
        continue
        
posts = sorted(posts, key= lambda x: x['時間'])
posts[-1]

{'標題': '[情報] 蝦皮雙12家用品&衛生紙0.063/抽',
 '作者': 'Drummer14 (血族女妖)',
 '時間': 'Thu Dec 12 11:05:25 2019'}

In [21]:
# 改成 Gossiping 版，發生錯誤，因為八卦版會跳轉到一個「十八歲的同意驗證頁面」導致錯誤。


import requests
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
r = requests.get(url)

soup = BeautifulSoup(r.text, "html5lib")

posts = []

for d in soup.find_all(class_="title"):
    try:
        post = {}
        post['標題'] = d.text.replace('\t', '').replace('\n', '')
        
        r = BeautifulSoup(requests.get('https://www.ptt.cc'+d.find('a')['href']).text, "html5lib")
        post['作者'] = r.find(class_='article-meta-value').text
        post['時間'] = r.find_all(class_='article-meta-value')[-1].text
        
        posts.append(post)
    except:
        continue
        
posts = sorted(posts, key= lambda x: x['時間'])
posts[-1]

IndexError: list index out of range

In [29]:
# 改成 Gossiping 版，發生錯誤，因為八卦版會跳轉到一個「十八歲的同意驗證頁面」導致錯誤。
# 參考圖片下載時的解法，加上 cookies 繞過驗證（後面課程會再進行補充）


import requests
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
r = requests.get(url, cookies={'over18': '1'})

soup = BeautifulSoup(r.text, "html5lib")

posts = []

for d in soup.find_all(class_="title"):
    try:
        post = {}
        post['標題'] = d.text.replace('\t', '').replace('\n', '')
        
        r = BeautifulSoup(requests.get('https://www.ptt.cc'+d.find('a')['href'], cookies={'over18': '1'}).text, "html5lib")
        post['作者'] = r.find(class_='article-meta-value').text
        post['時間'] = r.find_all(class_='article-meta-value')[-1].text
        
        posts.append(post)
    except:
        continue
        
posts = sorted(posts, key= lambda x: x['時間'])
posts[-1]

{'標題': '[公告] 宣導禁止回文政問',
 '作者': 'arsonlolita (板主)',
 '時間': 'Wed Nov 20 09:14:42 2019'}

In [33]:
# 我們發現這個時間好像不是正確的，原因是我們前面存到的時間，其實不是正確的格式

# 改成 Gossiping 版，發生錯誤，因為八卦版會跳轉到一個「十八歲的同意驗證頁面」導致錯誤。
# 參考圖片下載時的解法，加上 cookies 繞過驗證（後面課程會再進行補充）


import requests
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/Gossiping/index.html'
r = requests.get(url, cookies={'over18': '1'})

soup = BeautifulSoup(r.text, "html5lib")

posts = []

for d in soup.find_all(class_="title"):
    try:
        post = {}
        post['標題'] = d.text.replace('\t', '').replace('\n', '')
        
        r = BeautifulSoup(requests.get('https://www.ptt.cc'+d.find('a')['href'], cookies={'over18': '1'}).text, "html5lib")
        post['作者'] = r.find(class_='article-meta-value').text
        post['時間'] = r.find_all(class_='article-meta-value')[-1].text
        post['時間'] = datetime.strptime(post['時間'], "%a %b %d %H:%M:%S %Y")
        # 時間轉換：https://stackoverflow.com/questions/10256093/how-to-convert-ctime-to-datetime-in-python
        
        posts.append(post)
    except:
        continue
        
posts = sorted(posts, key= lambda x: x['時間'])
posts[-1]

{'標題': '[新聞] 共青團捧網紅 網友：她怎麼上YouTube的',
 '作者': 'KahoJyumonji (Kahojyumonji)',
 '時間': datetime.datetime(2019, 12, 12, 11, 16, 52)}