# 教學目標

- 複習 PTT 文章的爬蟲邏輯
- 熟悉單網站多網頁，透過列表將連結內的文章內容都爬下來

In [11]:
import requests
import re
import json
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# PTT 八卦版網址 
PTT_URL = 'https://www.ptt.cc/bbs/Gossiping/index.html'

In [12]:
response = requests.get(PTT_URL)
#response #測試回應為200
#將網頁回應的 HTML 傳入 BeautifulSoup 解析器，根據 tag 標籤資訊過濾尋找
soup = BeautifulSoup(response.text)
soup

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.27/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>
<body>
<div class="bbs-screen bbs-content">
<div class="over18-notice">
<p>本網站已依網站內容分級規定處理</p>
<p>警告︰您即將進入之看板內容需滿十八歲方可瀏覽。</p>
<p>若您尚未年滿十八歲，請點選離開。若您已滿十八歲，亦不可將本區之內容派發、傳閱、出售、出租、交給或借予年齡未滿18歲的人士瀏覽，或將本網站內容向該人士出示、播放或放映。</p>
</div>
</div>
<div class="bbs-screen bbs-content center clear">
<form action="/ask/over18" method="post">
<input name="from" type="hidden" valu

In [13]:
response = requests.get(PTT_URL , cookies={'over18':'1'})
#response #測試回應為200
#將網頁回應的 HTML 傳入 BeautifulSoup 解析器，根據 tag 標籤資訊過濾尋找
soup = BeautifulSoup(response.text)
soup

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.27/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>
<body>
<div id="topbar-container">
<div class="bbs-content" id="topbar">
<a href="/bbs/" id="logo">批踢踢實業坊</a>
<span>›</span>
<a class="board" href="/bbs/Gossiping/index.html"><span class="board-label">看板 </span>Gossiping</a>
<a class="right small" href="/about.html">關於我們</a>
<a class="right small" href="/contact.html">聯絡資訊</a>
</div>
</di

## 範例重點

這個練習題在 PTT 單頁文章上的程式碼比較多，建議可以先把他寫成一個 function 方便後面程式邏輯的撰寫

In [17]:
def crawl_article(url):
    response = requests.get(url, cookies={'over18':'1'})
    
    # 假設回應不為200，視為請求失敗
    if response.status_code != 200:
        print('Error - {} is not available to access.'.format(url))
        return
    
    # 將網頁回應的 HTML 傳入 BeautifulSoup 解析，根據 tag 標籤過濾尋找
    soup = BeautifulSoup(response.text)
    
    # 取得文章主體
    main_content = soup.find(id='main-container')
    
    # 假如文章有屬性資料 (meta), 我們在從屬性的區塊中爬出作者 (author), 文章標題 (title), 發文日期 (date)
    metas = main_content.select('div.article-metaline')
    author = ''
    title = ''
    date = ''
    if metas:
        if metas[0].select('span.article-meta-value')[0]:
            author = metas[0].select('span.article-meta-value')[0].string
        if metas[1].select('span.article-meta-value')[0]:
            title = metas[1].select('span.article-meta-value')[0].string
        if metas[2].select('span.article-meta-value')[0]:
            date = metas[2].select('span.article-meta-value')[0].string
        
        # 從 main_content 中移除 meta 資訊（author, title, date 與其他看板資訊）
        #
        # .extract() 方法可以參考官方文件
        #  - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#extract
        
        for m in metas:
            m.extract()
        for m in  main_content.select('div.article-metaline-right'):
            m.extract()
            
    # 取得留言區主體
    pushes = main_content.find_all('div', class_='push')
    for p in pushes:
        p.extract()
    
    # 假如文章中有包含「※ 發信站: 批踢踢實業坊(ptt.cc), 來自: xxx.xxx.xxx.xxx」的樣式
    # 透過 regular expression 取得 IP
    # 因為字串中包含特殊符號跟中文, 這邊建議使用 unicode 的型式 u'...'
    try:
        ip = main_content.find(text=re.compile(u'※ 發信站:'))
        ip = re.search('[0-9]*\.[0-9]*\.[0-9]*\.[0-9]*', ip).group()
    except Exception as e:
        ip=''

    # 移除文章主體中 '※ 發信站:', '◆ From:', 空行及多餘空白 (※ = u'\u203b', ◆ = u'\u25c6')
    # 保留英數字, 中文及中文標點, 網址, 部分特殊符號
    #
    # 透過 .stripped_strings 的方式可以快速移除多餘空白並取出文字, 可參考官方文件 
    #  - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#strings-and-stripped-strings
    filtered = []
    for v in main_content.stripped_strings:
        # 假如字串開頭不是特殊符號或是以 '--' 開頭的, 我們都保留其文字
        if v[0] not in [u'※', u'◆'] and v[:2] not in [u'--']:
            filtered.append(v)
    # 定義一些特殊符號與全形符號的過濾器
    expr = re.compile(u'[^一-龥。；，：“”（）、？《》\s\w:/-_.?~%()]')
    for i in range(len(filtered)):
        #sub(正規,替換字串,要處裡的標的)
        filtered[i] = re.sub(expr, '', filtered[i])
        
    # 移除空白字串, 組合過濾後的文字即為文章本文 (content)
    filtered = [i for i in filtered if i]
    content= ' '.join(filtered)

    # 處理留言區
    # p 計算推文數量
    # b 計算噓文數量
    # n 計算箭頭數量
    p, b, n = 0, 0, 0
    messages = []
    for push in pushes:
        # 假如留言段落沒有 push-tag 就跳過
        if not push.find('span', 'push-tag'):
            continue
        
        # 過濾額外空白與換行符號
        # push_tag 判斷是推文, 箭頭還是噓文
        # push_userid 判斷留言的人是誰
        # push_content 判斷留言內容
        # push_ipdatetime 判斷留言日期時間
        push_tag = push.find('span', 'push-tag').string.strip(' \t\n\r')
        push_userid = push.find('span', 'push-userid').string.strip(' \t\n\r')
        push_content = push.find('span', 'push-content').strings
        push_content = ' '.join(push_content)[1:].strip(' \t\n\r')
        push_ipdatetime = push.find('span', 'push-ipdatetime').string.strip(' \t\n\r')

        # 整理打包留言的資訊, 並統計推噓文數量
        messages.append({
            'push_tag': push_tag,
            'push_userid': push_userid,
            'push_content': push_content,
            'push_ipdatetime': push_ipdatetime})
        if push_tag == u'推':
            p += 1
        elif push_tag == u'噓':
            b += 1
        else:
            n += 1
    
    # 統計推噓文
    # count 為推噓文相抵看這篇文章推文還是噓文比較多
    # all 為總共留言數量 
    message_count = {'all': p+b+n, 'count': p-b, 'push': p, 'boo': b, 'neutral': n}
    
    # 整理文章資訊
    data = {
        'url': url,
        'article_author': author,
        'article_title': title,
        'article_date': date,
        'article_content': content,
        'ip': ip,
        'message_count': message_count,
        'messages': messages
    }
    return data

# recursive 参数
https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

In [21]:
# 對文章列表送出請求並取得列表主體
resp = requests.get(PTT_URL, cookies={'over18': '1'})
soup = BeautifulSoup(resp.text)
main_list = soup.find('div', class_='bbs-screen')
all_data = []

# 依序檢查文章列表中的 tag, 遇到分隔線就結束, 忽略這之後的文章
for div in main_list.findChildren('div', recursive=False):
    class_name = div.attrs['class']
    # 遇到分隔線要處理的情況
    if class_name and 'r-list-sep' in class_name:
        print('Reach the last article')
        break
    # 遇到目標文章
    if class_name and 'r-ent' in class_name:
        # href = True则搜索包含href属性的标签; https://www.jianshu.com/p/8e20421a4c57
        div_title = div.find('div', class_='title')
        a_title = div_title.find('a', href=True)
        # 分析拼接 url https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/362937/
        article_URL = urljoin(PTT_URL,a_title['href'])
        article_title = a_title.text
        print('Parse {} - {}'.format(article_title,article_URL))
        
        # 呼叫上面寫好的 function 來對文章進行爬蟲
        parse_data = crawl_article(article_URL)
        
        # 將爬完的資料儲存
        all_data.append(parse_data)


Parse Re: [爆卦] 柯文哲上館長節目 - https://www.ptt.cc/bbs/Gossiping/M.1578575212.A.97F.html
Parse [問卦] 造勢晚會要講些什麼，才能淨化社會啊? - https://www.ptt.cc/bbs/Gossiping/M.1578575231.A.E94.html
Parse [新聞] 蔡英文競選廣告被「加料」 對比港台兩個世 - https://www.ptt.cc/bbs/Gossiping/M.1578575391.A.A25.html
Parse Re: [新聞] 政院拍板！今年起每年春節從小年夜開 - https://www.ptt.cc/bbs/Gossiping/M.1578575392.A.B81.html
Parse Re: [爆卦] 主辦單位宣佈 凱道破90萬人 - https://www.ptt.cc/bbs/Gossiping/M.1578575404.A.B8C.html
Parse Re: [爆卦] 中國BL作家非法出版肉文，維持原判十年 - https://www.ptt.cc/bbs/Gossiping/M.1578575504.A.BDF.html
Parse [新聞] 中國主要城市寫字樓空置率驚人 近乎鬼城 - https://www.ptt.cc/bbs/Gossiping/M.1578575524.A.224.html
Parse [問卦] 燦坤一月的會招是不是延期了? - https://www.ptt.cc/bbs/Gossiping/M.1578575562.A.395.html
Parse [問卦] 能夠跟國家領導人合照的人都是哪些人? - https://www.ptt.cc/bbs/Gossiping/M.1578575668.A.59A.html
Parse Re: [新聞] 民眾黨選情「不好不壞」 柯文哲：不關鍵 - https://www.ptt.cc/bbs/Gossiping/M.1578575706.A.F80.html
Parse [新聞] 報導共諜遭脅迫 NHK：蔡正元爆料變澄清 - https://www.ptt.cc/bbs/Gossiping/M.1578575713.A.2E5.html
Parse [新聞] 沈玉

In [None]:
# 將爬完的資訊存成 json 檔案
with open('parse_data.json', 'w+') as f:
    json.dump(all_data, f, ensure_ascii=False, indent=4)
# 常用参数 : ensure_ascii 默认是True，字符编码格式 , sort_keys 是否对齐 , indent=4  缩进问题

##以下TEST

In [None]:
response = requests.get('https://www.ptt.cc/bbs/Gossiping/M.1578536499.A.984.html', cookies={'over18':'1'})
    
# 假設回應不為200，視為請求失敗
if response.status_code != 200:
    print('Error - {} is not available to access.'.format('https://www.ptt.cc/bbs/Gossiping/M.1578536499.A.984.html'))
    #return

# 將網頁回應的 HTML 傳入 BeautifulSoup 解析，根據 tag 標籤過濾尋找
soup = BeautifulSoup(response.text)

# 取得文章主體
main_content = soup.find(id='main-container')

# 假如文章有屬性資料 (meta), 我們在從屬性的區塊中爬出作者 (author), 文章標題 (title), 發文日期 (date)
metas = main_content.select('div.article-metaline')

author = ''
title = ''
date = ''
if metas:
    if metas[0].select('span.article-meta-value')[0]:
        author = metas[0].select('span.article-meta-value')[0].string
        
    if metas[1].select('span.article-meta-value')[0]:
        title = metas[1].select('span.article-meta-value')[0].string

    if metas[2].select('span.article-meta-value')[0]:
        date = metas[2].select('span.article-meta-value')[0].string

    
    for m in metas:
        m.extract()
        #print("m1............>",m)
    for m in main_content.select('div.article-metaline-right'):
        m.extract()
        #print("m2----------->>>>",m)

#print("m:-----",m)
#print("==========================")
#metas
    # 取得留言區主體
    pushes = main_content.find_all('div', class_='push')
    for p in pushes:
        p.extract()
    
    # 假如文章中有包含「※ 發信站: 批踢踢實業坊(ptt.cc), 來自: xxx.xxx.xxx.xxx」的樣式
    # 透過 regular expression 取得 IP
    # 因為字串中包含特殊符號跟中文, 這邊建議使用 unicode 的型式 u'...'
    try:
        ip = main_content.find(text=re.compile(u'※ 發信站:'))
        ip = re.search('[0-9]*\.[0-9]*\.[0-9]*\.[0-9]*', ip).group()
    except Exception as e:
        ip = ''
    
    # 移除文章主體中 '※ 發信站:', '◆ From:', 空行及多餘空白 (※ = u'\u203b', ◆ = u'\u25c6')
    # 保留英數字, 中文及中文標點, 網址, 部分特殊符號
    #
    # 透過 .stripped_strings 的方式可以快速移除多餘空白並取出文字, 可參考官方文件 
    #  - https://www.crummy.com/software/BeautifulSoup/bs4/doc/#strings-and-stripped-strings
    filtered = []
    for v in main_content.stripped_strings:
        # 假如字串開頭不是特殊符號或是以 '--' 開頭的, 我們都保留其文字
        if v[0] not in [u'※', u'◆'] and v[:2] not in [u'--']:
            filtered.append(v)
    #print(filtered)
    #print("---------------")
    # 定義一些特殊符號與全形符號的過濾器
    expr = re.compile(u'[^一-龥。；，：“”（）、？《》\s\w:/-_.?~%()]')
    for i in range(len(filtered)):
        filtered[i] = re.sub(expr, '', filtered[i])
    
    # 移除空白字串, 組合過濾後的文字即為文章本文 (content)
    # for in 建構新的list https://www.itread01.com/p/447145.html
    filtered = [i for i in filtered if i]
    #print(filtered)
    #print("************")
    content = ' '.join(filtered) 
    #print(content)
    
    # 處理留言區
    # p 計算推文數量
    # b 計算噓文數量
    # n 計算箭頭數量
    p, b, n = 0, 0, 0
    messages = []
    for push in pushes:
        # 假如留言段落沒有 push-tag 就跳過
        if not push.find('span','push-tag'):
            continue
            
        # 過濾額外空白與換行符號
        # push_tag 判斷是推文, 箭頭還是噓文
        # push_userid 判斷留言的人是誰
        # push_content 判斷留言內容
        # push_ipdatetime 判斷留言日期時間
        # https://www.jianshu.com/p/a5fcb58d3375
        push_tag = push.find('span', 'push-tag').string.strip(' \t\n\r')
        push_userid = push.find('span', 'push-userid').string.strip(' \t\n\r')
        push_content = push.find('span', 'push-content').strings
        push_content = ' '.join(push_content)[1:].strip(' \t\n\r')
        push_ipdatetime = push.find('span', 'push-ipdatetime').string.strip(' \t\n\r')
        
        # 整理打包留言的資訊, 並統計推噓文數量
        messages.append({
            'push_tag': push_tag,
            'push_userid': push_userid,
            'push_content': push_content,
            'push_ipdatetime': push_ipdatetime})
        if push_tag == u'推':
            p += 1
        elif push_tag == u'噓':
            b += 1
        else:
            n += 1
    
    # 統計推噓文
    # count 為推噓文相抵看這篇文章推文還是噓文比較多
    # all 為總共留言數量 
    message_count = {'all': p+b+n, 'count': p-b, 'push': p, 'boo': b, 'neutral': n}
    
    # 整理文章資訊
    data = {
        'url': url,
        'article_author': author,
        'article_title': title,
        'article_date': date,
        'article_content': content,
        'ip': ip,
        'message_count': message_count,
        'messages': messages
    }
    return data