# PTT 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：
* ① 印出最新文章的「作者」「標題」「時間」
* ② 印出第一頁所有文章的「作者」「標題」「時間」

流程：
       1. 從首頁進入
       2. 取得第一頁所有文章
       3. 將第一頁所有文章爬下來
       4-1. 篩選最新的文章
       4-2. 將所有的作者、標題、時間存成json

resp.text vs resp.content:
1. resp.text返回的是Unicode型的数据->想取文本，可以通过r.text
2. resp.content返回的是bytes型也就是二进制的数据。->想取图片，文件，则可以通过r.content。
3. resp.json()返回的是json格式数据

### ① 印出最新文章的「作者」「標題」「時間」

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
# get all data
def get_data(url):
    data = requests.get(url=url, cookies={'over18':'1'})
    if data.status_code !=200:
        print('Invalid url: ', url)
        return None
    else:
        return data.text

In [20]:
#filter the data
def analysis_data(data, purpose):
    soup= BeautifulSoup(data, 'html5lib')
    articles = []
    if purpose=='latest':
        div_latest = soup.find('div', 'r-ent')
        author=div_latest.find('div', 'author').text if div_latest.find('div', 'author') else " "
        title = div_latest.find('a').text
        date = div_latest.find('div', 'date').text
        articles.append(
        {
            'author':author,
            'title':title,
            'date':date
        })
    elif purpose =='firstpage':
        div_latest = soup.find_all('div', 'r-ent')
        for d in div_latest:
            author=d.find('div', 'author').text if d.find('div', 'author') else " "
            title = d.find('a').text if d.find('a') else ""
            date = d.find('div', 'date').text
            articles.append(
            {
                'author':author,
                'title':title,
                'date':date
            })
    return articles

In [10]:
url = 'https://www.ptt.cc/bbs/NBA/index.html'
data = get_data(url)
latest_article = analysis_data(data, 'latest')

In [11]:
latest_article

[{'author': 'go190214', 'title': '[新聞] 為何不讓勇士禁區悍將上場？ 柯爾提出', 'date': '12/20'}]

### ② 印出第一頁所有文章的「作者」「標題」「時間」

In [21]:
data = get_data(url)
firstpage_article = analysis_data(data, 'firstpage')

In [22]:
firstpage_article

[{'author': 'go190214', 'title': '[新聞] 為何不讓勇士禁區悍將上場？ 柯爾提出', 'date': '12/20'},
 {'author': '-', 'title': '', 'date': '12/20'},
 {'author': 'thnlkj0665',
  'title': '[花邊] 賽前摸喬丹祈求好運 前公牛球員分享過往趣事',
  'date': '12/20'},
 {'author': 'lovea', 'title': '[新聞] 對手抓己方延誤比賽 格林斥偷雞摸狗歪風', 'date': '12/20'},
 {'author': 'Rambo', 'title': '[情報] ★今日排名(2019.12.20)★', 'date': '12/20'},
 {'author': 'lvntrs59', 'title': '[新聞] 3兄弟聚首NBA 安戴托昆波有感而發', 'date': '12/20'},
 {'author': 'bbbyes123', 'title': '[情報] 字母哥和Doncic獲獎單月最佳球員', 'date': '12/20'},
 {'author': 'wade5566', 'title': '[討論] 未來是誰的 字母哥or東77？', 'date': '12/20'},
 {'author': 'asdf1256', 'title': '[新聞] 湖人戰績一飛衝天 魔術強森邀功策略奏效', 'date': '12/20'},
 {'author': 'DerLuna', 'title': '[討論] 熱火是不是沒有退休Wade的3號?', 'date': '12/20'},
 {'author': 'Gotham', 'title': '[新聞] 唐西奇恢復神速開始練投 將隨獨行俠赴客', 'date': '12/20'},
 {'author': 'GaGabull5566',
  'title': 'Re: [情報] 快艇火箭互相看不順眼?Doc:是我跟我兒子',
  'date': '12/21'},
 {'author': 'Acetoxy', 'title': '[討論] 今天湖人輸的關鍵到底是什麼？', 'date': '12/21'},
 {'aut

### ③ 試著爬爬看其他版的文章

In [26]:
url = 'https://www.ptt.cc/bbs/Soft_Job'
data_soft = get_data(url)
latest_article_soft = analysis_data(data_soft, 'latest')
firstpage_article_soft = analysis_data(data_soft, 'firstpage')

In [24]:
latest_article_soft

[{'author': 'VFCanisLupus', 'title': '[心得]11月~12月多家面試心得', 'date': '12/20'}]

In [27]:
firstpage_article_soft

[{'author': 'VFCanisLupus', 'title': '[心得]11月~12月多家面試心得', 'date': '12/20'},
 {'author': '-', 'title': '', 'date': '12/20'},
 {'author': '-', 'title': '', 'date': '12/20'},
 {'author': 'staycation',
  'title': '[徵才] 台北小公司誠徵 iOS Developer',
  'date': '12/20'},
 {'author': 'Uzak', 'title': 'Re: [請益] web前後端的選擇', 'date': '12/20'},
 {'author': 'wake', 'title': '[徵才] 正職 初階 PHP 後端工程師（全遠端）', 'date': '12/20'},
 {'author': 'MOONY135', 'title': '[公告] 本板板規  2017/4/10更新', 'date': ' 8/04'},
 {'author': 'MOONY135', 'title': '[公告] 徵才不符板規或徵才自刪公司', 'date': ' 8/04'},
 {'author': 'MOONY135', 'title': '[情報] 訓練課程與付費APP與網站分享', 'date': ' 8/04'},
 {'author': 'MOONY135', 'title': '[情報] 社群活動與免費APP與網站分享', 'date': ' 8/04'},
 {'author': 'MOONY135', 'title': 'Fw: [公告] 請使用安全的連線方式連線本站', 'date': '11/24'}]