從《Python 網路爬蟲與資料分析入門實戰》第三章的範例中練習爬蟲

從第三章Dcard熱門文章爬蟲範例中練習自己寫的程式碼

書中原始程式碼來源：https://github.com/jwlin/web-crawler-tutorial/tree/master/ch3

# 熱門文章：(1)爬取資料 (2)儲存資料

In [1]:
import requests
import re
from bs4 import BeautifulSoup


url = 'https://www.dcard.tw/f'
#1.向網站發出請求
resp = requests.get(url)
#2.剖析網頁原始碼
soup = BeautifulSoup(resp.text, 'html.parser')
#3.定位資訊大概位置
dcard= soup.find_all('div', re.compile('NormalPostLayout__Left.+'))
#4.創建空的清單存放資訊
articles = []


#5.用迴圈將資料一行一行爬取
for d in dcard:
    #5.1創建一個空的字典(放資料)
    new=dict()
    #5.2創建「標題」:定位h3標籤的字串(去掉空格)
    new['title'] = d.h3.text.strip()
    #5.3創建「摘要」:定位所有第二個div標籤的字串
    new['summary'] = d.find_all('div')[1].text.strip()
    #5.4創建「愛心數」:找「在第三個div標籤的字串中的第二個物件」符合一或多個數字條件的
        ##正則表達式:\d+代表一或多個數字
    new['mark'] = re.findall("\d+",d.find_all('div')[2].text.strip())[1]
    #5.5創建「回應數」:找「在第三個div標籤的字串中的第一個物件」符合一或多個數字條件的
    new['response'] = re.findall("\d+",d.find_all('div')[2].text.strip())[0]
    #5.6創建「網址」:在dcard位置的父節點的父節點的父節點的網址
    new['href'] = 'https://www.dcard.tw' + d.parent.parent.parent['href']
    #5.7將資料加進原先的清單中
    articles.append(new)

    #5.8印出資料筆數
print('共 %d 篇' % (len(articles)))
    #5.9印出前三筆資料查看
for a in articles[:3]:
    print(a)

共 31 篇
{'title': '小笨狗，你害我好丟臉！', 'summary': '這是我們家的小蠢狗，他叫阿蠢。它是一隻吉娃娃，相較你看過的其他吉娃娃還算可愛，但還是很機掰。今天，來說說一個神奇的故事。是一個關於我、我們家的小蠢狗，還有關於我男朋友的故事。那是一個，完全沒有一點風又', 'mark': '178', 'response': '10597', 'href': 'https://www.dcard.tw/f/relationship/p/232603620-小笨狗，你害我好丟臉！'}
{'title': '終於成功讓韓粉老爸動搖了', 'summary': '聽這集廣播聽到毛骨悚然，滿滿既視感啊！！！，來賓的爸爸根本跟我爸870%像啊，1.父權，經不起質疑，只要一有人challenge他，就會嚷嚷自己是一家之主️，2.愛自稱中立李姓選民，口頭禪是「誰當選有', 'mark': '427', 'response': '6836', 'href': 'https://www.dcard.tw/f/trending/p/232604659-終於成功讓韓粉老爸動搖了'}
{'title': '捷運站的清潔人員哭了', 'summary': '今天要搭捷運回家的時候走在電扶梯上，剛好清潔人員正在擦電扶梯的扶手，所以她到電扶梯的底的時候停留了一下。正常人看到應該都會從她左側繞過去，也不會說什麼，畢竟他正在工作中。沒想到我前面的一個阿嬤直接用力', 'mark': '108', 'response': '5571', 'href': 'https://www.dcard.tw/f/mood/p/232607780-捷運站的清潔人員哭了'}


In [2]:
import pandas as pd
import numpy as np

#6.處理資料並儲存
    #6.1創建欄位
name=['title','summary','mark','response','href']
    #6.2將資料轉成DataFrame(輸入欄位與資料)
test=pd.DataFrame(columns=name,data=articles)
    #6.3將索引從1開始(預設從0)
test.index = np.arange(1,len(test)+1)
    #6.4重新命名所引為文章編號
test.index.names = ['article_NO.']

    #6.5印出結果
print(test)
    #6.6儲存成csv檔
test.to_csv('dcardcsv.csv',encoding='utf_8_sig')

                                                         title  \
article_NO.                                                      
1                                                  小笨狗，你害我好丟臉！   
2                                                 終於成功讓韓粉老爸動搖了   
3                                                   捷運站的清潔人員哭了   
4                                                    好像買太小了...   
5            💋卡友勸敗美到心花開！品木宣言🌹心花綻放精油唇膏💄 聖誕節🎄買二送一😍試色就抽「包色」24支...   
6                                                        和男友換臉   
7                                                    那年，是2013年   
8                                               我爸撿到槍 把韓國瑜當形容詞   
9                                                 給他們一個機會—喜憨兒🍲   
10                                                      幫JYPQQ   
11                                                    4個月減17公斤   
12                                            真的有把我噁心到！浙江衛視沒有心   
13                                                    軍校舞會穿搭分享   
14        

# 無註解程式碼

In [None]:
import requests
import re
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np


url = 'https://www.dcard.tw/f'

resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'html.parser')
dcard= soup.find_all('div', re.compile('NormalPostLayout__Left.+'))
articles = []

for d in dcard:
    new=dict()
    new['title'] = d.h3.text.strip()
    new['summary'] = d.find_all('div')[1].text.strip()
    new['mark'] = re.findall("\d+",d.find_all('div')[2].text.strip())[1]
    new['response'] = re.findall(r"\d+",d.find_all('div')[2].text.strip())[0]
    new['href'] = 'https://www.dcard.tw' + d.parent.parent.parent['href']
    articles.append(new)
    
print('共 %d 篇' % (len(articles)))
for a in articles[:3]:
    print(a)

    
name=['title','summary','mark','response','href']
test=pd.DataFrame(columns=name,data=articles)
test.index = np.arange(1,len(test)+1)
test.index.names = ['article_NO.']
print(test)

test.to_csv('dcardcsv.csv',encoding='utf_8_sig')

# urllib套件版本的爬蟲

In [None]:
import urllib.request
import re
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np


url = 'https://www.dcard.tw/f'

#urllib直接抓資料容易WinError 10054,因此輸入User-Agent
request = urllib.request.Request(url, headers={'User-Agent': 'Mozilla/5.0'})
resp = urllib.request.urlopen(url = request)
soup = BeautifulSoup(resp, 'html.parser')
dcard= soup.find_all('div', re.compile('NormalPostLayout__Left.+'))
articles = []

for d in dcard:
    new=dict()
    new['title'] = d.h3.text.strip()
    new['summary'] = d.find_all('div')[1].text.strip()
    new['mark'] = re.findall("\d+",d.find_all('div')[2].text.strip())[1]
    new['response'] = re.findall(r"\d+",d.find_all('div')[2].text.strip())[0]
    new['href'] = 'https://www.dcard.tw' + d.parent.parent.parent['href']
    articles.append(new)
    
print('共 %d 篇' % (len(articles)))
for a in articles[:3]:
    print(a)

    
name=['title','summary','mark','response','href']
test=pd.DataFrame(columns=name,data=articles)
test.index = np.arange(1,len(test)+1)
test.index.names = ['article_NO.']
print(test)

test.to_csv('dcardcsv.csv',encoding='utf_8_sig')