In [1]:
import requests
import re
from bs4 import BeautifulSoup
import time
import pandas as pd
import random
from collections import Counter
import os
from ckiptagger import WS, POS, NER

In [2]:
bsn_links =['60030', '60001', '60559']
bsn_categories=['電腦應用綜合討論', '電視遊樂器綜合討論', '智慧型手機']
base_url = 'https://forum.gamer.com.tw/'

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36',
}

In [3]:
def get_article_url_list(forum_url):
    r = requests.get(forum_url, headers=HEADERS)
    if r.status_code != requests.codes.ok:
        print("載入失敗")
        return []
    
    article_url_list = []
    soup = BeautifulSoup(r.text,'lxml')
    item_blocks = soup.select('table.b-list > tr[class="b-list__row b-list-item b-imglist-item"]')
    for item_block in item_blocks:
        title_block = item_block.select_one('.b-list__main__title')
        article_url = f"https://forum.gamer.com.tw/{title_block.get('href')}"
        article_url_list.append(article_url)

    return article_url_list



def get_article_total_page(soup):
    article_total_page = soup.select_one('.BH-pagebtnA > a:last-of-type').text
    return int(article_total_page)




#主題頁面資訊
def get_article_info(article_url):
    soup = BeautifulSoup(requests.get(article_url, headers=HEADERS).text,'lxml')


    article_title = soup.select_one('h1.c-post__header__title').text
    
    article_total_page = get_article_total_page(soup)  #獲得總樓層的數量
    
    reply_info_list = []
    for page in range(article_total_page):
        crawler_url = f"{article_url}&page={page + 1}"
        reply_list = get_reply_info_list(crawler_url)
        reply_info_list.extend(reply_list)
        random.uniform(1, 3)
        
    article_info = {
        'title': article_title,
        'url': article_url,
        'reply': reply_info_list[0],
        'category': category
    }
    
    return article_info
    
    
    
    
def get_reply_info_list(url):
    
    reply_info_list = []
    soup = BeautifulSoup(requests.get(url, headers=HEADERS).text,'lxml')
    reply_blocks = soup.select('section[id^="post_"]')
    
    for reply_block in reply_blocks:
 
        reply_info = reply_block.select_one('.c-article__content').text
        reply_info = re.sub(r'\n+',"", reply_info)
        reply_info_list.append(reply_info)
    return reply_info_list


def word_frequency( wp_pair ):
    for word, pos in wp_pair:
        if (pos in allowPOS) & (len(word) >= 2):
            filtered_words.append(word)
    return 0
    

In [4]:
%%time
links = []
titles = []
contents = []
categories = []
item_id = []

for i, url_short_name in enumerate(bsn_links):  #抓類別專版
    if (url_short_name == '60030'):
        category = "電腦應用綜合討論"
    elif (url_short_name == '60001'):
        category = "電視遊樂器綜合討論"
    elif (url_short_name == '60559'):
        category = "智慧型手機"

    B_url = base_url + 'B.php?bsn=' + url_short_name

    article_url_list = get_article_url_list(B_url) #獲得該頁所有主題URL資訊
    
    serial_no = 1
    for article_url in article_url_list:
        info = get_article_info(article_url) #獲取頁面資訊

        item_id.append(category + "_" + str(serial_no))
        serial_no += 1
        

        #insert data
        titles.append(info['title'])
        links.append(info['url'])
        categories.append(category)
        contents.append(info['reply'])

Wall time: 2min 26s


In [5]:
data = zip(item_id, categories, titles, contents, links)
df = pd.DataFrame(list(data), columns=['item_id','category' ,'title','content','link'])
df.head(5)

Unnamed: 0,item_id,category,title,content,link
0,電腦應用綜合討論_1,電腦應用綜合討論,【心得】過氣 G pro wireless 簡單開箱,大家好啊，想說今天開箱了鍵盤就順便把滑鼠也po一下是因為沒錢買G pro x superli...,https://forum.gamer.com.tw/C.php?bsn=60030&snA...
1,電腦應用綜合討論_2,電腦應用綜合討論,【問題】新買才使用24小時的10TB硬碟已經出現狀態不良，是正常的嗎？,Toshiba MD06ACA10T，只存放1..2TB資料，移一些資料到其他硬碟，又會恢復...,https://forum.gamer.com.tw/C.php?bsn=60030&snA...
2,電腦應用綜合討論_3,電腦應用綜合討論,【攻略】2021 144Hz ⬆ 高刷新螢幕規格整理/挑選指南/集中討論帖,星河電腦螢幕資訊分享站(Google site)⬆⬆⬆歡迎進入個人網站查看螢幕規格表格與相關...,https://forum.gamer.com.tw/C.php?bsn=60030&snA...
3,電腦應用綜合討論_4,電腦應用綜合討論,【問題】在Freesync開啟G-SYNC的疑問,各位好，前幾天入手兩台MSI MAG273R螢幕因為這螢幕有Freesync功能，之前也沒用...,https://forum.gamer.com.tw/C.php?bsn=60030&snA...
4,電腦應用綜合討論_5,電腦應用綜合討論,【情報】哭啊，現在連硬碟都能挖了(原價屋8T以上限購，欣亞8T以上沒貨了),最近又出了新的幣種Chia(奇亞)幣，由BitTorrent之父Bram Cohen創立的。...,https://forum.gamer.com.tw/C.php?bsn=60030&snA...


In [6]:
df.content[0]

'大家好啊，想說今天開箱了鍵盤就順便把滑鼠也po一下是因為沒錢買G pro x superlight 而入手的G pro wireless▼外盒正面▼外盒背面• 有一些關於滑鼠特色的介紹▼滑鼠本體▼底下ㄉ東西▼內容物配件• 有mirco usb 連接線(線頭兩邊有做固定卡進去的腳，所以只能接滑鼠或接收器)、貼紙、不重要的說明書、替換的側鍵及檔板、接收器和轉接的 usb母 to mirco usb母(可以接在線上延長用) ▼滑鼠本體▼滑鼠側面• 有可拆式的測鍵共四個，可以依個人習慣去加裝，也讓左撇子也能用。▼滑鼠背面• 有鼠貼、電源、dpi切換跟可支援更換power play的電池槽(可放接收器)▼燈• 支援電腦更換各種顏色及燈效，不過我是無燈派所以都沒開。▼心得這支滑鼠雖然是前一代的G pro wireless 沒有 G pro x superlight 來得更輕，但是入手價才2600比superlight便宜了快2000，這樣的價差還是很有感的，所以還是選擇了g pro wireless。 之前的滑鼠是G304，一上手的心得只有一個字 輕 ，而且滑鼠的大小又較大更適合我這種大手怪握持，滾輪相比304悶悶的感覺也好上不少，不過重心還是有一點偏後面，可能需要上到superlight才能解決了，但考量到價錢我還是很滿意這支滑鼠的。之後有閒錢再看看能不能買superlight來比比看，白色真的好好看 ! 這隻是平常玩遊戲的滑鼠，過幾天有空再來分享我的另一隻日常工作滑鼠G502 lightspeed。謝謝大家收看 !'

In [7]:
computer_content = [] #電腦版資料
console_content = [] #家機版資料
phone_content = [] #手機板資料

for i in range(0, len(df)):
    
    if(df.category[i] == "電腦應用綜合討論"):
        computer_content.append(df.content[i])
    elif(df.category[i] == "電視遊樂器綜合討論"):
        console_content.append(df.content[i])
    elif(df.category[i] == "智慧型手機"):
        phone_content.append(df.content[i])



In [9]:
categories = ["電腦應用綜合討論", "電視遊樂器綜合討論", "智慧型手機"]
all_contents = [computer_content, console_content, phone_content]

data = zip(categories, all_contents)
df2 = pd.DataFrame(list(data), columns=['category' ,'all_contents'])

#df2.head(3)

# 若model無法動，將 model_path改成絕對路徑

In [10]:
wd = os.getcwd()

model_path = wd + '\ckiplab-model-data'

ws = WS(model_path)
pos = POS(model_path)
ner = NER(model_path)

In [11]:
category_freq = []
word = []

for i in range(0, len(df2)):
    
    tokens = ws(df2.all_contents[i])
    tokens_pos = pos(tokens)

    word_pos_pair = [list(zip(w,p)) for w, p in zip(tokens, tokens_pos)]

    with open('stops_chinese_traditional.txt', 'r', encoding='utf8') as f:
        stops = f.read().split('\n') 

    allowPOS=['Na','Nb','Nc','VA','VAC','VB','VC']

    tokens_v2 =[]
    for wp in word_pos_pair:
        tokens_v2.append([w for w,p in wp if w not in stops and (len(w) >= 2) and p in allowPOS])

    tokens_pos = pos(tokens_v2)
    word_pos_pair = [list(zip(w,p)) for w, p in zip(tokens_v2, tokens_pos)]
    word.append(tokens_v2)

    keyfreqs =[]
    filtered_words =[]

    for wp in word_pos_pair:
        word_frequency(wp)
    counter = Counter(filtered_words)
    keyfreqs.append(counter.most_common(200))
        
    category_freq.append(keyfreqs)

In [12]:
df2['tokens'] = word
df2['freq'] = category_freq
df2.head(5)

Unnamed: 0,category,all_contents,tokens,freq
0,電腦應用綜合討論,[大家好啊，想說今天開箱了鍵盤就順便把滑鼠也po一下是因為沒錢買G pro x superl...,"[[開箱, 鍵盤, 滑鼠, 入手, ▼外盒, 面▼, 外盒, 背面, 滑鼠, 特色, 介紹,...","[[(鍵盤, 64), (輸出, 64), (使用, 55), (電源, 34), (螢幕,..."
1,電視遊樂器綜合討論,[https://www.famitsu.com/news/202104/22218511....,"[[魔物, 獵人, 週銷, 版本, 魔物, 獵人, 瑪利歐, 世界, 世界, 任天堂, 登場...","[[(遊戲, 76), (小屋, 44), (板綜板, 41), (任天堂, 21), (玩..."
2,智慧型手機,[大家好，最近想先刷這隻老機看能不能起死回生，微經驗(之前有刷過Arc S)但第一步驟居然就...,"[[經驗, 步驟, 卡關, 教學, 網站, 找到, 版本, 文章, 文章, 連結, 官網, ...","[[(手機, 59), (螢幕, 31), (黑鯊, 29), (台灣, 20), (遊戲,..."


In [13]:
df2.freq[0]

[[('鍵盤', 64),
  ('輸出', 64),
  ('使用', 55),
  ('電源', 34),
  ('螢幕', 32),
  ('產品', 28),
  ('功能', 26),
  ('電競', 24),
  ('滑鼠', 23),
  ('設計', 21),
  ('時間', 20),
  ('鍵帽', 20),
  ('電壓', 20),
  ('燈效', 19),
  ('採用', 19),
  ('接頭', 19),
  ('測試', 18),
  ('外觀', 17),
  ('安裝', 16),
  ('配置', 16),
  ('機械', 16),
  ('負載', 16),
  ('海盜船', 15),
  ('品牌', 15),
  ('線路', 15),
  ('型號', 14),
  ('控制', 14),
  ('問題', 14),
  ('操作', 14),
  ('電流', 14),
  ('電容', 14),
  ('電路', 14),
  ('電腦', 13),
  ('規格', 13),
  ('更新', 13),
  ('輸入', 13),
  ('效率', 13),
  ('支援', 12),
  ('設定', 12),
  ('顯卡', 12),
  ('風扇', 12),
  ('系列', 11),
  ('銀軸', 11),
  ('滿載', 11),
  ('特色', 10),
  ('本體', 10),
  ('遊戲', 10),
  ('進行', 10),
  ('尺寸', 10),
  ('搭配', 10),
  ('包覆', 10),
  ('軸體', 10),
  ('差異', 10),
  ('習慣', 9),
  ('硬碟', 9),
  ('網站', 9),
  ('連結', 9),
  ('記憶體', 9),
  ('反應', 9),
  ('整體', 9),
  ('方式', 9),
  ('類型', 9),
  ('空白鍵', 9),
  ('認證', 9),
  ('商標', 9),
  ('諧振', 9),
  ('電感', 9),
  ('漣波', 9),
  ('系統', 8),
  ('顯示卡', 8),
  ('軟體', 8),
  ('處理器', 8),
  ('供應

In [14]:
df2.to_csv('baha_dataset_freq.csv', sep='|', index=None)

In [15]:
df3 = pd.read_csv('baha_dataset_freq.csv', sep='|')
df3

Unnamed: 0,category,all_contents,tokens,freq
0,電腦應用綜合討論,['大家好啊，想說今天開箱了鍵盤就順便把滑鼠也po一下是因為沒錢買G pro x super...,"[['開箱', '鍵盤', '滑鼠', '入手', '▼外盒', '面▼', '外盒', '...","[[('鍵盤', 64), ('輸出', 64), ('使用', 55), ('電源', 3..."
1,電視遊樂器綜合討論,['https://www.famitsu.com/news/202104/22218511...,"[['魔物', '獵人', '週銷', '版本', '魔物', '獵人', '瑪利歐', '...","[[('遊戲', 76), ('小屋', 44), ('板綜板', 41), ('任天堂',..."
2,智慧型手機,['大家好，最近想先刷這隻老機看能不能起死回生，微經驗(之前有刷過Arc S)但第一步驟居然...,"[['經驗', '步驟', '卡關', '教學', '網站', '找到', '版本', '文...","[[('手機', 59), ('螢幕', 31), ('黑鯊', 29), ('台灣', 2..."
