In [None]:
Ex_Thesis

In [None]:
台灣博碩士論文網爬蟲
https://tlyu0419.github.io/2020/06/07/Crawler-ndltd/#more
因為想要做學術圈的社群網絡分析，就順手寫了博碩士論文網的爬蟲程式，以下我簡要記錄了在爬這個網站時遇到的問題與解決方式，
並於文末附上程式，供有需要的人參考

In [None]:
當我們嘗試在博碩士論文網輸入關鍵字並送出查詢後會的看到以下的畫面，在這個畫面中，有以下幾個值得注意的事情：

網址列：網址中有個ccd的參數，這是 cookie 資訊，不同的人、不同的時間進來都會不一樣，
而我們把這個網址複製給其他人時，也會重新被導向首頁，並產生新的 Cookie。
檢索策略：這裡有許多種查詢方式，其中簡易檢索的查詢方式有許多限制，如果我們想要查詢特定學門的所有論文，要採用指令檢索的方式查論文。
查詢結果：查詢出的論文網址是專屬於這個 Cookie 使用的網址，複製網址給其他人並沒有辦法使用，會重新導向首頁。
在這裡查詢出的結果如下，觀察後會發現當中有 cookie(ccd) 與 頁數(r1)的資訊。
https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=fuy93N/record?r1=1&h1=1
https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=fuy93N/record?r1=2&h1=1
https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd=fuy93N/record?r1=3&h1=1

![Image of Yaktocat](https://lh3.googleusercontent.com/pw/ACtC-3fxslKKYVGSGaW6Hez_IUFdsCBLL8B4RkLW0_cmqujo5pt0CqD_9V2fBpAZ7ZmT2rtJtzYMCLTOzbZ824MDF22RIsSFtGREKbIhiiYmORXkfIShD6DvE938KWO83Xn2RZ3jx9QmzXfBUZPLRDLciujE=w851-h868-no?authuser=1)

In [None]:
另外我們如果觀察網頁的背後送的 request 中有哪些參數的話，我們會發現裡面的參數相當複雜，裡面有查詢的關鍵字，與一些不知名的參數

![Image of Yaktocat](https://lh3.googleusercontent.com/pw/ACtC-3fyIiqAg5sBZBbaDujlicUI1JLLEkNO55r08oQOvBMbC4bsbNo1nIAu5Zan5bzhWbo4b9hqso3m4acJjRww4li7CsXIRpt2l3bmtJUNxSZil-wCFoYdFAPuXg2ePVQ_oRLbN-jwktgZpCuWrMoFahHX=w622-h491-no?authuser=1)

In [None]:
考量我們要查詢的資料量並不大，而且查詢的參數也相當複雜，甚至還有加入Cookie的反爬蟲機制，
這時候我們就直接選擇使用Selenium來解決這次的任務!

In [None]:
註：最後要提醒博碩士論文網還有一個反爬蟲機制，一個 Cookie 查詢約 500 篇論文後就會被鎖Session，
這時候我們需要關閉 Selenium 的網頁，並重新開啟網頁取得新的 Session & Cookie 繼續爬蟲任務。
因此可以寫個簡單的 try-except 函數，當網頁請求失敗時就自動啟動!

In [None]:
檢索策略："博士".ty and ("社會服務學門" or "社會及行為科學學門").sglv1；檢索結果共 4205 筆資料

注意事項：

網址列需要送Cookie資訊
簡單查詢一定要指定關鍵字，如果想查詢學門的資料建議用指令查詢
論文的網址是用編號的方式，
參數太複雜，資料量也不多，果斷使用selenium
一定要try-except

In [1]:
import re
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep
import pandas as pd

In [None]:
收集論文清單

In [None]:
df = []
driver = webdriver.Chrome()
driver.get('https://ndltd.ncl.edu.tw/')
driver.find_element_by_xpath('//a[@title="指令查詢"]').click()
driver.find_element_by_id('ysearchinput0').send_keys('"博士".ty and ("社會服務學門" or "社會及行為科學學門").sglv1')
driver.find_element_by_id('gs32search').click()
cookie = re.findall(r'ccd=(.*?)/', driver.current_url)[0]

In [None]:
i = 1
while i <= 4205:
    try:
        print('='*80)
        print('Dealing with ', str(i),'...')
        info1,   info2,  info3,  info4,  info5,  info6,  info7,  info8,  info9, info10, info11, info12, info13, info14, info15, info16, info17, info18, info19, info20, info21, info22, info23, info24, info25 = ['']*25
        driver.get('https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd={}/record?r1={}&h1=0'.format(cookie, i))
        soup = BeautifulSoup(driver.page_source)

        # 論文基本資料
        tbody = soup.find('table',{'id':'format0_disparea'})

        # 連結網址
        url = tbody.find('input',{'id':'fe_text1'})['value']
        print('連結網址：', url)

        # 研究生
        for element in tbody.select('tr'):
            if '研究生' in element.text:
                info1 = element.find('a').text
                break    
        print('研究生:', info1)

        # 研究生_外文
        for element in tbody.select('tr'):
            if '研究生(外文)' in element.text:
                info2 = element.find('a').text
                break    
    #     print('研究生_外文:', info2)

        # 論文名稱
        for element in tbody.select('tr'):
            if '論文名稱' in element.text:
                info3 = element.find('td').text
                break    
        print('論文名稱:', info3)

        # 論文名稱_外文
        for element in tbody.select('tr'):
            if '論文名稱(外文)' in element.text:
                info4 = element.find('td').text
                break   
    #     print('論文名稱_外文:', info4)

        # 指導教授
        for element in tbody.select('tr'):
            if '指導教授' in element.text:
                info5 = element.find('td').text
                break   
        print('指導教授:', info5)

        # 指導教授_外文
        for element in tbody.select('tr'):
            if '指導教授(外文)' in element.text:
                info6 = element.find('td').text
                break   
    #     print('指導教授_外文:', info6)

        # 學位類別
        for element in tbody.select('tr'):
            if '學位類別' in element.text:
                info7 = element.find('td').text
                break   
    #     print('學位類別:', info7)

        # 校院名稱
        for element in tbody.select('tr'):
            if '校院名稱' in element.text:
                info8 = element.find('td').text
                break   
        print('校院名稱:', info8)

        # 系所名稱
        for element in tbody.select('tr'):
            if '系所名稱' in element.text:
                info9 = element.find('td').text
                break   
        print('系所名稱:', info9)

        # 學門
        for element in tbody.select('tr'):
            if '學門' in element.text:
                info10 = element.find('td').text
                break   
    #     print('學門:', info10)

        # 學類
        for element in tbody.select('tr'):
            if '學類' in element.text:
                info11 = element.find('td').text
                break   
    #     print('學類:', info11)

        # 論文出版年
        for element in tbody.select('tr'):
            if '論文出版年' in element.text:
                info12 = element.find('td').text
                break   
    #     print('論文出版年:', info12)

        # 畢業學年度
        for element in tbody.select('tr'):
            if '畢業學年度' in element.text:
                info13 = element.find('td').text
                break   
    #     print('畢業學年度:', info13)

        # 語文別
        for element in tbody.select('tr'):
            if '語文別' in element.text:
                info14 = element.find('td').text
                break   
    #     print('語文別:', info14)

        # 論文頁數
        for element in tbody.select('tr'):
            if '論文頁數' in element.text:
                info15 = element.find('td').text
                break   
    #     print('論文頁數:', info15)

        # 中文關鍵詞
        for element in tbody.select('tr'):
            if '中文關鍵詞' in element.text:
                info16 = element.find('td').text
                break   
    #     print('中文關鍵詞:', info16)

        # 外文關鍵詞
        for element in tbody.select('tr'):
            if '外文關鍵詞' in element.text:
                info17 = element.find('td').text
                break   
    #     print('外文關鍵詞:', info17)

        # 被引用
        for element in tbody.select('tr'):
            if '相關次數' in element.text:
                info18 = element.findAll('li')[0].text
                info18 = re.sub('被引用:','',info20)
                break   
    #     print('被引用:', info18)

        # 點閱
        for element in tbody.select('tr'):
            if '相關次數' in element.text:
                info19 = element.findAll('li')[1].text
                break   
    #     print('點閱:', info19)

        # 下載
        for element in tbody.select('tr'):
            if '相關次數' in element.text:
                info20 = element.findAll('li')[3].text
                info20 = re.sub('下載:','',info20)
                break   
    #     print('下載:', info20)

        # 書目收藏
        for element in tbody.select('tr'):
            if '相關次數' in element.text:
                info21 = element.findAll('li')[4].text
                info21 = re.sub('書目收藏:','',info21)
                break   
    #     print('書目收藏:', info21)

        # 摘要
        try:
            info22 = soup.find('td',{'class':'stdncl2'}).text
        except:
            info22 = ''
    #     print('摘要：', info22)
        # 口試委員
        for element in tbody.select('tr'):
            if '口試委員' in element.text:
                info24 = element.find('td').text
                break   
        #     print('口試委員:', info24)

        # 口試委員_外文
        for element in tbody.select('tr'):
            if '口試委員(外文)' in element.text:
                info25 = element.find('td').text
                break   
        #     print('口試委員_外文:', info25)

        # 引用
        info23 = str(soup.find('div',{'style':'padding:10px;text-align:left;'}))
    #     print('引用：', info23)
        ndf = pd.DataFrame([{'研究生:':info1,
                             '研究生_外文':info2,
                             '論文名稱':info3,
                             '論文名稱_外文:':info4,
                             '指導教授':info5,
                             '指導教授_外文':info6,
                             '口試委員':info24,
                             '口試委員_外文':info25,                         
                             '學位類別':info7,
                             '校院名稱':info8,
                             '系所名稱':info9,
                             '學門':info10,
                             '學類':info11,
                             '論文出版年':info12,
                             '畢業學年度':info13,
                             '語文別':info14,
                             '論文頁數':info15,
                             '中文關鍵詞':info16,
                             '外文關鍵詞':info17,
                             '相關次數':info18,
                             '點閱':info19,
                             '下載':info20,
                             '書目收藏':info21,
                             '摘要':info22,
                             '引用':info23,
                             '連結網址':url}])
        df.append(ndf)
        i += 1
    except:
        driver.close()
        sleep(2)
        driver = webdriver.Chrome()
        sleep(1)
        driver.get('https://ndltd.ncl.edu.tw/')
        sleep(5)
        driver.find_element_by_xpath('//a[@title="指令查詢"]').click()
        sleep(1)
        driver.find_element_by_id('ysearchinput0').send_keys('"博士".ty and ("社會服務學門" or "社會及行為科學學門").sglv1')
        driver.find_element_by_id('gs32search').click()
        sleep(3)
        cookie = re.findall(r'ccd=(.*?)/', driver.current_url)[0]

In [None]:
pd.concat(df, ignore_index=True).to_excel('./shuoboshilunwen.xlsx')

In [None]:
pd.concat(df, ignore_index=True).to_pickle('./shuoboshilunwen.pickle')

In [None]:
# distinct by 學門校系
df2 = pd.concat(df, ignore_index=True)
df2.info()

In [None]:

tmp = df2.groupby(['校院名稱','系所名稱','學類','學門']).size().reset_index()
tmp.columns = ['學類', '學門', '校院名稱', '系所名稱', '則數']
tmp.to_excel('校系學門學類.xlsx')

In [None]:
台灣博碩士論文網爬蟲v2
https://tlyu0419.github.io/2020/06/07/Crawler-ndltd2/#more

In [None]:
前幾天記錄了一篇完全透過 Selenium 來爬博碩士論文網的文章 台灣博碩士論文網爬蟲，但有沒有辦法透過 requests 更快速的完成呢?
這篇簡單記錄了如何透過 request 的 post來保存當前的 Session，再藉由這個 Session 的狀態來 get 我們需要的資料，
另方面也優化部分的程式碼，讓程式變得更簡潔些!

如同前一篇文章所述的內容，博碩士論文網會記錄你的 Session 資訊，因此當我們把連結的網址給別人時，
別人並沒有辦法看到我們轉貼的文章，只會被重新導回首頁 Orz…

同樣的邏輯，我們如果只是單純的 get 特定的網址也沒辦法取得需要的資訊，所以我們要先開一個Session，
並 post 查詢的參數到對方的伺服器，讓對方記得我們，然後再用這個 Session 去 get 我們需要的資料。

怎麼做呢?其實並不能，我們首先觀察瀏覽器 post 過去的資料，並且把這些資料透過 python 送到對方的伺服器

In [None]:
import re
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from time import sleep
import pandas as pd

In [None]:
收集論文清單

In [None]:
df = []
r1 = 1
while r1 <= 4207:
    columns = []
    values = []
    try:
        res2 = rs.get('https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd={}/record?r1={}&h1=1'.format(cookie, r1))
        soup = BeautifulSoup(res2.text)
        for i in soup.find('table', {'id':'format0_disparea'}).findAll('tr'):
            if 'std1' in str(i):
#                 print(i.find('th',{'class':'std1'}).text)
                columns.append(i.find('th',{'class':'std1'}).text)
#                 print(i.find('td',{'class':'std2'}).text)
                values.append(i.find('td',{'class':'std2'}).text)
        
        # 永久網址
        columns.append('永久網址')
        try:
            permanent = soup.find('input',{'id':'fe_text1'})['value']
        except:
            permanent = ''
        values.append(permanent)
        
        
        # 摘要
        columns.append('摘要')
        try:
            abst = soup.find('td',{'class':'stdncl2'}).text
        except:
            abst = ''
        values.append(abst)
#         print('摘要：', abst)
        
        # 引用
        columns.append('引用')
        try:
            Quote = str(soup.find('div',{'style':'padding:10px;text-align:left;'}))
        except:
            Quote = ''
        values.append(Quote)
#         print('引用：', Quote)
        
        ndf = pd.DataFrame(data=values, index=columns).T
        print('論文名稱：',ndf['論文名稱'])
        print('永久網址：', ndf['永久網址'])
        df.append(ndf)
        r1 += 1  
        print('='*88)
    except:
        # Cookie 失效時自動重啟 Selenium 取得新的 Cookie，並更新參數
        print('Get New Cookie')
        driver = webdriver.Chrome()
        driver.get('https://ndltd.ncl.edu.tw/')
        sleep(2)
        driver.find_element_by_xpath('//a[@title="指令查詢"]').click()
        sleep(2)
        driver.find_element_by_id('ysearchinput0').send_keys('"博士".ty and ("社會服務學門" or "社會及行為科學學門").sglv1')
        sleep(0.5)
        driver.find_element_by_id('gs32search').click()
        sleep(2)
        cookie = re.findall(r'ccd=(.*?)/', driver.current_url)[0]
        driver.close()
        headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
                 'Cookie': 'ccd={}'.format(cookie)}
        
        payload = {'qs0': '"博士".ty and ("社會服務學門" or "社會及行為科學學門").sglv1',
                   'qf0': '_hist_',
                   'gs32search.x': '27',
                   'gs32search.y': '9',
                   'displayonerecdisable': '1',
                   'dbcode': 'nclcdr',
                   'action':'',
                   'op':'',
                   'h':'',
                   'histlist':'',
                   'opt': 'm',
                   '_status_': 'search__v2'}
        
        rs = requests.session()
        res = rs.post('https://ndltd.ncl.edu.tw/cgi-bin/gs32/gsweb.cgi/ccd={}/search'.format(cookie),data=payload, headers=headers)

In [None]:
df = pd.concat(df, ignore_index=True)
print(df.shape)
df

In [None]:
df.info()

In [None]:
df.to_pickle('./博碩士論文.pickle')
df.to_excel('./博碩士論文.xlsx')

In [None]:
tmp = df2.groupby(['校院名稱','系所名稱','學類','學門']).size().reset_index()
tmp.columns = ['學類', '學門', '校院名稱', '系所名稱', '則數']
tmp.to_excel('校系學門學類.xlsx')

In [None]:
最後大家會問說，那麼 Cookie 要怎麼來?超過查詢數量的限制怎麼辦?
這時候我們與其花時間去研究/破解 Cookie 的生成方式，不如直接開個 Selenium 直接取結果會更有效益!
畢竟我們最想要節省的時間是中間在抓上千、萬篇論文資料時，頁面切換的時間，語法如下

In [None]:
driver = webdriver.Chrome()
driver.get('https://ndltd.ncl.edu.tw/')
sleep(2)
driver.find_element_by_xpath('//a[@title="指令查詢"]').click()
cookie = re.findall(r'ccd=(.*?)/', driver.current_url)[0]