# PTT 網路爬蟲實作練習


* 能夠利用 Request + BeatifulSour 撰寫爬蟲，並存放到合適的資料結構


## 作業目標

根據範例 ，完成以下問題：

* ① 印出最新文章的「作者」「標題」「時間」
* ② 印出第一頁所有文章的「作者」「標題」「時間」


### ① 印出最新文章的「作者」「標題」「時間」

參考文章：https://ithelp.ithome.com.tw/articles/10186119

In [1]:
import numpy as np
import pandas as pd
import requests as rq
from bs4 import BeautifulSoup

url = 'https://www.ptt.cc/bbs/NBA/index.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

author_ids = [] # 建立一個空的 list 來放作者 id
recommends = [] # 建立一個空的 list 來放推文數
post_titles = [] # 建立一個空的 list 來放文章標題
post_dates = [] # 建立一個空的 list 來放發文日期

posts = soup.find_all("div", class_ = "r-ent")
for post in posts:
    try:
        author_ids.append(post.find("div", class_ = "author").string)    
    except:
        author_ids.append(np.nan)
    try:
        post_titles.append(post.find("a").string)
    except:
        post_titles.append(np.nan)
    try:
        post_dates.append(post.find("div", class_ = "date").string)
    except:
        post_dates.append(np.nan)

# 推文數藏在 div 裡面的 span 所以分開處理
recommendations = soup.find_all("div", class_ = "nrec")
for recommendation in recommendations:
    try:
        recommends.append(int(recommendation.find("span").string))
    except:
        recommends.append(np.nan)
        
ptt_nba_dict = {"author": author_ids,
                "recommends": recommends,
                "title": post_titles,
                "date": post_dates
}

ptt_nba_df = pd.DataFrame(ptt_nba_dict)
ptt_nba_df

Unnamed: 0,author,recommends,title,date
0,Rambo,,[BOX ] Timberwolves 125:142 Lakers 數據,12/09
1,NSYSUheng,,[情報] AD今天29投20中，狂砍賽季新高50分,12/09
2,cute320518,23.0,[新聞] 向吉喆默哀 中國球迷素質讓林書豪動怒了,12/09
3,thnlkj0665,74.0,[花邊] 笑稱跳投不如兒子 詹皇:我在家中只能排第三,12/09
4,-,,,12/09
5,MayBeSoft,37.0,[花邊] Vogel: AD的表現是old-school風格的,12/09
6,LinBaoYan,60.0,[新聞] 戴維斯狂飆50分 湖人退灰狼笑納4連勝,12/09
7,Angel0724,31.0,[新聞] 致勝上籃後沒跟KD擊掌 丁丁：真不好意思,12/09
8,pneumo,12.0,[情報] CP3對於OKC上半場兩次延誤比賽被吹,12/09
9,VeryGoodBoy,79.0,[情報] ESPN:湖人三頭怪沒人可擋,12/09


### ② 印出第一頁所有文章的「作者」「標題」「時間」

In [2]:
url = 'https://www.ptt.cc/bbs/NBA/index1.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

author_ids = [] # 建立一個空的 list 來放作者 id
recommends = [] # 建立一個空的 list 來放推文數
post_titles = [] # 建立一個空的 list 來放文章標題
post_dates = [] # 建立一個空的 list 來放發文日期

posts = soup.find_all("div", class_ = "r-ent")
for post in posts:
    try:
        author_ids.append(post.find("div", class_ = "author").string)    
    except:
        author_ids.append(np.nan)
    try:
        post_titles.append(post.find("a").string)
    except:
        post_titles.append(np.nan)
    try:
        post_dates.append(post.find("div", class_ = "date").string)
    except:
        post_dates.append(np.nan)

# 推文數藏在 div 裡面的 span 所以分開處理
recommendations = soup.find_all("div", class_ = "nrec")
for recommendation in recommendations:
    try:
        recommends.append(int(recommendation.find("span").string))
    except:
        recommends.append(np.nan)
        
ptt_nba_dict = {"author": author_ids,
                "recommends": recommends,
                "title": post_titles,
                "date": post_dates
}

ptt_nba_df = pd.DataFrame(ptt_nba_dict)
ptt_nba_df

Unnamed: 0,author,recommends,title,date
0,Price,55.0,[轉錄]Lyotard 對於太陽板討論串的結論,5/16
1,Price,23.0,[公告] 請停止一切關於本次活動的發言,5/31
2,Frankaze,10.0,[轉錄]跟之前那篇比起來 我覺得這篇也應該轉過來,6/08
3,Frankaze,2.0,[轉錄]再轉一篇好文來,6/08
4,Price,1.0,[轉錄][情報] 夏洛特山貓系列,6/10
5,Price,32.0,[轉錄]Re: [心得] 真是受不了糗爺....,6/10
6,Price,2.0,[轉錄]總冠軍賽NO.2觀後感,6/10
7,AmuroNamie,1.0,[心得] Rasheed Wallace,6/11
8,toptree,4.0,掌控球賽的男人,6/12
9,skchang,5.0,[閒聊] 說說2004季後賽名場面回顧,6/12


### ③ 試著爬爬看其他版的文章

In [5]:
url = 'https://www.ptt.cc/bbs/C_Chat/index.html'
response = rq.get(url)
html_doc = response.text # text 屬性就是 html 檔案
soup = BeautifulSoup(response.text, "lxml") # 指定 lxml 作為解析器

author_ids = [] # 建立一個空的 list 來放作者 id
recommends = [] # 建立一個空的 list 來放推文數
post_titles = [] # 建立一個空的 list 來放文章標題
post_dates = [] # 建立一個空的 list 來放發文日期

posts = soup.find_all("div", class_ = "r-ent")
for post in posts:
    try:
        author_ids.append(post.find("div", class_ = "author").string)    
    except:
        author_ids.append(np.nan)
    try:
        post_titles.append(post.find("a").string)
    except:
        post_titles.append(np.nan)
    try:
        post_dates.append(post.find("div", class_ = "date").string)
    except:
        post_dates.append(np.nan)

# 推文數藏在 div 裡面的 span 所以分開處理
recommendations = soup.find_all("div", class_ = "nrec")
for recommendation in recommendations:
    try:
        recommends.append(int(recommendation.find("span").string))
    except:
        recommends.append(np.nan)
        
ptt_chat_dict = {"author": author_ids,
                "recommends": recommends,
                "title": post_titles,
                "date": post_dates
}

ptt_chat_df = pd.DataFrame(ptt_chat_dict)
ptt_chat_df

Unnamed: 0,author,recommends,title,date
0,adwsj,68.0,[五等分]長期潛水乃派小感,12/09
1,wingkauzy,5.0,[Figure] NEKOPARA 黏土人 香草 POP 巧克力原型,12/09
2,anpinjou,23.0,[閒聊] 難道只有我第一眼看成阿福嗎？,12/09
3,NukAnah,6.0,[腳腳] 餐前開胃腳腳,12/09
4,hsnu7980,6.0,[閒聊] 怎樣啦>\\\\<,12/09
5,bluejark,2.0,[閒聊] 2019東南亞運動會電競有中文轉播嗎?,12/09
6,PttRecreator,24.0,[問題] 如果用投票決定黨爭結果可行嗎？,12/09
7,a125g,8.0,[閒聊] PSYCHO-PASS 3這季是不是收不完？,12/09
8,songgood,4.0,[閒聊] 天堂m包葉 滿合理的,12/09
9,astrayzip,1.0,[討論] 有沒有酒駕被開單的角色,12/09
