# 教學目標

- 複習 PTT 文章的爬蟲邏輯
- 熟悉單網站多網頁，透過列表將連結內的文章內容都爬下來

In [1]:
import requests
import re
import json
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# PTT 八卦版網址
PTT_URL = 'https://www.ptt.cc/bbs/Gossiping/index.html'

## 範例重點

這個練習題在 PTT 單頁文章上的程式碼比較多，建議可以先把他寫成一個 function 方便後面程式邏輯的撰寫

In [2]:
def crawl_article(url): #查看單一文章開發人員選項觀察標籤
    response = requests.get(url, cookies={'over18': '1'})
    
    # 假設網頁回應不是 200 OK 的話, 我們視為傳送請求失敗
    if response.status_code != 200:
        print('Error - {} is not available to access'.format(url))
        return
    
    # 將網頁回應的 HTML 傳入 BeautifulSoup 解析器, 方便我們根據標籤 (tag) 資訊去過濾尋找
    soup = BeautifulSoup(response.text)
    
    # 取得文章內容主體
    main_content = soup.find(id='main-content')
    
    # 假如文章有屬性資料 (meta), 我們在從屬性的區塊中爬出作者 (author), 文章標題 (title), 發文日期 (date)
    metas = main_content.select('div.article-metaline')
    author = ''
    title = ''
    date = ''
    if metas:
        if metas[0].select('span.article-meta-value')[0]:
            author = metas[0].select('span.article-meta-value')[0].string
        if metas[1].select('span.article-meta-value')[0]:
            title = metas[1].select('span.article-meta-value')[0].string
        if metas[2].select('span.article-meta-value')[0]:
            date = metas[2].select('span.article-meta-value')[0].string

        # 從 main_content 中移除 meta 資訊（author, title, date 與其他看板資訊）
        #
        # .extract() 方法可以參考官方文件
        #  - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#extract
        for m in metas:
            m.extract()
        for m in main_content.select('div.article-metaline-right'):
            m.extract()
    
    # 取得留言區主體
    pushes = main_content.find_all('div', class_='push')
    for p in pushes:
        p.extract()
    
    # 假如文章中有包含「※ 發信站: 批踢踢實業坊(ptt.cc), 來自: xxx.xxx.xxx.xxx」的樣式
    # 透過 regular expression 取得 IP
    # 因為字串中包含特殊符號跟中文, 這邊建議使用 unicode 的型式 u'...'
    try:
        ip = main_content.find(text=re.compile(u'※ 發信站:'))
        ip = re.search('[0-9]*\.[0-9]*\.[0-9]*\.[0-9]*', ip).group() #從上行找出的樣式中找匹配IP的文字
    except Exception as e:
        ip = ''
    
    # 移除文章主體中 '※ 發信站:', '◆ From:', 空行及多餘空白 (※ = u'\u203b', ◆ = u'\u25c6')
    # 保留英數字, 中文及中文標點, 網址, 部分特殊符號
    #
    # 透過 .stripped_strings 的方式可以快速移除多餘空白並取出文字, 可參考官方文件 
    #  - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#strings-and-stripped-strings
    filtered = []
    for v in main_content.stripped_strings:
        # 假如字串開頭不是特殊符號或是以 '--' 開頭的, 我們都保留其文字
        if v[0] not in [u'※', u'◆'] and v[:2] not in [u'--']:
            filtered.append(v)

    # 定義一些特殊符號與全形符號的過濾器
    expr = re.compile(u'[^一-龥。；，：“”（）、？《》\s\w:/-_.?~%()]')
    for i in range(len(filtered)):
        filtered[i] = re.sub(expr, '', filtered[i]) #re.sub()用於正則表達式匹配後替換，將符合expr過濾器匹配出來的特殊符號等都替換成空白
    
    # 移除空白字串, 組合過濾後的文字即為文章本文 (content)
    filtered = [i for i in filtered if i] #用i for i in x if i 把空白過濾掉
    content = ' '.join(filtered) #再用join拼成字串
    
    # 處理留言區
    # p 計算推文數量
    # b 計算噓文數量
    # n 計算箭頭數量
    p, b, n = 0, 0, 0
    messages = []
    for push in pushes:
        # 假如留言段落沒有 push-tag 就跳過
        if not push.find('span', 'push-tag'):
            continue
        
        # 過濾額外空白與換行符號
        # push_tag 判斷是推文, 箭頭還是噓文
        # push_userid 判斷留言的人是誰
        # push_content 判斷留言內容
        # push_ipdatetime 判斷留言日期時間
        push_tag = push.find('span', 'push-tag').string.strip(' \t\n\r') #strip()去除頭尾字符和空白符...等
        push_userid = push.find('span', 'push-userid').string.strip(' \t\n\r')
        push_content = push.find('span', 'push-content').strings
        push_content = ' '.join(push_content)[1:].strip(' \t\n\r') #從push_content的1號字符開始結合(ptt推文0號字符是冒號)
        push_ipdatetime = push.find('span', 'push-ipdatetime').string.strip(' \t\n\r')

        # 整理打包留言的資訊, 並統計推噓文數量
        messages.append({
            'push_tag': push_tag,
            'push_userid': push_userid,
            'push_content': push_content,
            'push_ipdatetime': push_ipdatetime})
        if push_tag == u'推':
            p += 1
        elif push_tag == u'噓':
            b += 1
        else:
            n += 1
    
    # 統計推噓文
    # count 為推噓文相抵看這篇文章推文還是噓文比較多
    # all 為總共留言數量 
    message_count = {'all': p+b+n, 'count': p-b, 'push': p, 'boo': b, 'neutral': n}
    
    # 整理文章資訊
    data = {
        'url': url,
        'article_author': author,
        'article_title': title,
        'article_date': date,
        'article_content': content,
        'ip': ip,
        'message_count': message_count,
        'messages': messages
    }
    return data

## 範例重點

分析列表取得要爬蟲的網址

In [4]:
# 對文章列表送出請求並取得列表主體
resp = requests.get(PTT_URL, cookies={'over18': '1'})
soup = BeautifulSoup(resp.text)
main_list = soup.find('div', class_='bbs-screen')
all_data = []

# 依序檢查文章列表中的 tag, 遇到分隔線就結束, 忽略這之後的文章
for div in main_list.findChildren('div', recursive=False): #recursive=False關閉遞迴搜尋功能
    class_name = div.attrs['class'] #有class屬性的div標籤
    
    # 遇到分隔線要處理的情況
    if class_name and 'r-list-sep' in class_name: #若class屬性值為'r-list-sep'
        print('Reach the last article')
        break
    # 遇到目標文章
    if class_name and 'r-ent' in class_name:
        div_title = div.find('div', class_='title')
        a_title = div_title.find('a', href=True) 
        if a_title: #有些文章已被刪除沒有a標籤也沒href屬性值的相對網址
            article_URL = urljoin(PTT_URL, a_title['href']) #沒被刪除的文章用urljoin()建立絕對網址
            article_title = a_title.text
            print('Parse {} - {}'.format(article_title, article_URL))
        else:
            continue
        
        # 呼叫上面寫好的 function 來對文章進行爬蟲
        parse_data = crawl_article(article_URL)
        
        # 將爬完的資料儲存
        all_data.append(parse_data)

Parse [問卦] 選舉公報看不到讓勞工多加班的政見 - https://www.ptt.cc/bbs/Gossiping/M.1578131879.A.A04.html
Parse [問卦] 做鬼也不會放過你們的！ - https://www.ptt.cc/bbs/Gossiping/M.1578132114.A.F8E.html
Parse [問卦] 有沒有台北好朋友的八卦？ - https://www.ptt.cc/bbs/Gossiping/M.1578132170.A.01A.html
Parse [新聞] 旅客班機上丟餐盤推擠空服員致傷 長榮將1 - https://www.ptt.cc/bbs/Gossiping/M.1578132269.A.608.html
Parse [問卦] 練波比跳過年前能減5公斤嗎?? - https://www.ptt.cc/bbs/Gossiping/M.1578132304.A.8C7.html
Parse Re: [問卦] 認真問 要幾座核電廠才能取代火力發電 - https://www.ptt.cc/bbs/Gossiping/M.1578132446.A.E34.html
Parse [新聞] 支持統一就是叛國？邱毅嗆：我就支持 來 - https://www.ptt.cc/bbs/Gossiping/M.1578132490.A.DFB.html
Parse [問卦] 有人也是沒拿到選舉通知的嗎 - https://www.ptt.cc/bbs/Gossiping/M.1578132537.A.F83.html
Parse [問卦] 說周子瑜世界第一美 是在哈樓? - https://www.ptt.cc/bbs/Gossiping/M.1578132541.A.F7E.html
Parse [新聞] 億元車王領跑！封街拉力賽 明在彰化高鐵 - https://www.ptt.cc/bbs/Gossiping/M.1578132594.A.AD9.html
Parse Fw: [爆卦] 國昌直播慶富案 韓國瑜高雄銀行在打啥假球 - https://www.ptt.cc/bbs/Gossiping/M.1578132614.A.85E.html
Parse Re: [新聞] 民進黨喊停選舉造勢 柯文哲:典型行政

In [5]:
# 將爬完的資訊存成 json 檔案
with open('parse_data.json', 'w+') as f:
    json.dump(all_data, f, ensure_ascii=False, indent=4) #用ensure_ascii=False關掉json.dump默認的'寫入中文編碼'，否則中文會變成ascii編碼形式