# PTT 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 印出最新文章的「作者」「標題」「時間」
* ② 印出第一頁所有文章的「作者」「標題」「時間」


In [1]:
# 引入相關套件
import requests
from bs4 import BeautifulSoup

BASE_URL = 'https://www.ptt.cc'

### ① 印出最新文章的「作者」「標題」「時間」

In [2]:
url = BASE_URL + '/bbs/NBA/index.html'
r = requests.get(url)
nba_soup = BeautifulSoup(r.text, 'html.parser')

# 因為最下方為置底公告，從分隔線上開始爬
separation_line = nba_soup.select_one('.r-list-sep')
article_block = separation_line.find_previous_sibling('div')

title = article_block.select_one('.title').text.replace('\t', '').replace('\n', '').strip()
author = article_block.select_one('.author').text.strip()
date = article_block.select_one('.date').text.strip()

print(f'NBA版 最新的一篇文章為 ->')
print(f'標題: {title}')
print(f'作者: {author}')
print(f'時間: {date}')

NBA版 最新的一篇文章為 ->
標題: [外絮] <B/R> Top 15 控衛
作者: YC1018
時間: 6/14


### ② 印出第一頁所有文章的「作者」「標題」「時間」

In [3]:
def show_first_page_articles(soup):
    articles_block = soup.select('.r-ent')
    print(f'<共計 {len(articles_block)} 篇>')
    for index, article_block in enumerate(articles_block):
        title = article_block.select_one('.title').text.replace('\t', '').replace('\n', '').strip()
        if article_block.select_one('.title a'):
            url = BASE_URL + article_block.select_one('.title a').get('href')
        else:
            url = '-找不到網址-'
        author = article_block.select_one('.author').text.strip()
        date = article_block.select_one('.date').text.strip()
        print(f'———————————————— {index+1:>2d} ————————————————')
        print(f'標題: {title}')
        print(f'網址: {url}')
        print(f'作者: {author}')
        print(f'時間: {date}')


print(f'NBA版 第一頁所有文章(包含置底公告)：')
show_first_page_articles(nba_soup)

NBA版 第一頁所有文章(包含置底公告)：
<共計 13 篇>
————————————————  1 ————————————————
標題: [情報] 匿名前球員工會代表：作為球員代表太痛苦
網址: https://www.ptt.cc/bbs/NBA/M.1592099480.A.512.html
作者: love1500274
時間: 6/14
————————————————  2 ————————————————
標題: Fw: [新聞] 厄文號召罷賽！NBA恐損20億美元　遭遇毀
網址: https://www.ptt.cc/bbs/NBA/M.1592101471.A.E2E.html
作者: STAV72
時間: 6/14
————————————————  3 ————————————————
標題: [花邊] 威廉森成最年輕封面人物？ 2K官方賣關子
網址: https://www.ptt.cc/bbs/NBA/M.1592102544.A.AB1.html
作者: lovea
時間: 6/14
————————————————  4 ————————————————
標題: [討論] 三分高效率 = 中距離不重要嗎？
網址: https://www.ptt.cc/bbs/NBA/M.1592105028.A.395.html
作者: Xavier412958
時間: 6/14
————————————————  5 ————————————————
標題: [討論] 誰的投籃動作很慢但很有用??
網址: https://www.ptt.cc/bbs/NBA/M.1592107987.A.C0D.html
作者: Ayanami5566
時間: 6/14
————————————————  6 ————————————————
標題: Re: [討論] 三分高效率 = 中距離不重要嗎？
網址: https://www.ptt.cc/bbs/NBA/M.1592109726.A.074.html
作者: pujos
時間: 6/14
————————————————  7 ————————————————
標題: Re: [討論] 三分高效率 = 中距離不重要嗎？
網址: https://www.ptt.cc/bbs/NBA/M.15921111

### ③ 試著爬爬看其他版的文章

In [4]:
# 爬取熱門看板
print('取得目前PTT的熱門看板...')
url = f'{BASE_URL}/bbs/index.html'
r = requests.get(url)
hot_soup = BeautifulSoup(r.text, 'html.parser')
boards_block = hot_soup.select('.b-ent')

rank = input('請輸入想看的名次(例如"1")：') or '1'
if not rank.isdigit():
    print('輸入格式錯誤!')
    rank = '1'
rank = int(rank)
print('============================')

board_block = boards_block[rank-1]
board_url = board_block.select_one('a').get('href')
board_url = f'{BASE_URL}{board_url}'
board_name = board_block.select_one('.board-name').text.strip()
board_category = board_block.select_one('.board-class').text.strip()

# 爬取選定的看板
r = requests.get(board_url, cookies={'over18': '1'})
board_soup = BeautifulSoup(r.text, 'html.parser')

print(f'{board_name}版({board_category}) 第一頁所有文章(包含置底公告)：')
print(board_url)
show_first_page_articles(board_soup)


取得目前PTT的熱門看板...
請輸入想看的名次(例如"1")：2
C_Chat版(閒談) 第一頁所有文章(包含置底公告)：
https://www.ptt.cc/bbs/C_Chat/index.html
<共計 21 篇>
————————————————  1 ————————————————
標題: [問題] 看動畫瘋天地無用魎皇鬼第四期第四話
網址: https://www.ptt.cc/bbs/C_Chat/M.1592111606.A.FCE.html
作者: ROMEL
時間: 6/14
————————————————  2 ————————————————
標題: [閒聊] 現在版上還剩什麼學家？
網址: https://www.ptt.cc/bbs/C_Chat/M.1592111821.A.4D0.html
作者: kaiting00
時間: 6/14
————————————————  3 ————————————————
標題: [SC]酒後亂性？
網址: https://www.ptt.cc/bbs/C_Chat/M.1592111864.A.209.html
作者: s50189
時間: 6/14
————————————————  4 ————————————————
標題: [閒聊] 還有什麼麵能稱作"國士無雙麵"?
網址: https://www.ptt.cc/bbs/C_Chat/M.1592112042.A.426.html
作者: ClownT
時間: 6/14
————————————————  5 ————————————————
標題: [情報] 寄宿學校的茱麗葉 線上賞
網址: https://www.ptt.cc/bbs/C_Chat/M.1592112147.A.4BF.html
作者: wingkauzy
時間: 6/14
————————————————  6 ————————————————
標題: [閒聊] JK羅琳在請人畫插畫跟拍電影都沒發現膚色
網址: https://www.ptt.cc/bbs/C_Chat/M.1592112242.A.EB1.html
作者: zxasqw0246
時間: 6/14
————————————————  7 ————————————————
標題: [新聞] 紀