In [54]:
import os
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline

# Finding Giant Component

In [56]:
from pathlib import Path

path = Path('../data/pantip_edge_10_with_weight.csv').resolve();

weighted_edge = []
with open(path, 'r') as input_file:
    line = input_file.readline().rstrip()
    while True:
        line = input_file.readline().rstrip()

        # EOF
        if line == '':
            break

        splits = line.split(',')
        # prevent self-loop
        if splits[0] != splits[1]:
            weighted_edge.append((splits[1], splits[0], float(splits[2])))

di_graph = nx.DiGraph()
di_graph.add_weighted_edges_from(weighted_edge)

# Finding the Giant Component
undi_graph = di_graph.to_undirected()
graph_components = (undi_graph.subgraph(c) for c in nx.connected_components(undi_graph));
graph_components = sorted(graph_components, key=len, reverse=True)

giant_component =  di_graph.subgraph(graph_components[0].nodes())

edge_df = pd.DataFrame(columns=[ 'Source','Destination' ])
for index, edge in enumerate(giant_component.edges()):
    (src, dest) = edge
    edge_df.loc[index] = [ src, dest ]

edge_df.head()

Unnamed: 0,Source,Destination
0,30294077,31230458
1,35300259,35315126
2,37008715,30828545
3,37008715,36519810
4,35272819,34608059


# PageRank

In [57]:
pr = nx.pagerank(giant_component)
pr_tuple = []
for p in pr:
    pr_tuple.append((p, pr[p]))
pr_tuple = sorted(pr_tuple, key=lambda x: x[1], reverse=True)
pr_df = pd.DataFrame(columns=['TopicID', 'PageRank Value'])
for index, prt in enumerate(pr_tuple):
    pr_df.loc[index] = [prt[0], prt[1]]
pr_df.head(10)

Unnamed: 0,TopicID,PageRank Value
0,38176352,0.003179
1,38179329,0.003015
2,38178165,0.002945
3,35268526,0.002676
4,32447263,0.002498
5,34502095,0.002468
6,34222014,0.00238
7,34433699,0.002356
8,31170821,0.002195
9,36111851,0.002191


#### นำเข้าข้อมูล Tag ของ Topic

In [60]:
from pathlib import Path
import json
topic_tags = {}
tag_path = Path('../data/topic_tags.json').resolve();
with open(tag_path, 'r', encoding='utf-8') as tf:
    while True:
        line = tf.readline()
        if line == '':
            break
        cur_json = json.loads(line)
        topic_tags[cur_json['topic_id']] = cur_json['tags']

#### นำเข้าข้อมูลชื่อ Topic

In [61]:
from pathlib import Path
import json
topics_title = {}
path = Path('../data/topics.json').resolve();
with open(path, 'r', encoding='utf-8') as tf:
    while True:
        line = tf.readline()
        if line == '':
            break
        cur_json = json.loads(line)
        topics_title[cur_json['topic_id']] = cur_json['title']

# Result

#### ทำการแสดงผลกระทู้ยอดนิยม โดยมีวิธีการดังนี้
1. นำกระทู้ที่มี PageRank Score เรียงลำดับจากมากไปน้อย
2. ทำการเลือกกระทู้ทีละกระทู้ โดยมีวิธีการดังนี้
    1. ทำการสร้าง Set ที่ใช้ดูว่ากระทู้ที่ทำการเลือกไปแล้วมี Tag อะไรบ้าง
    2. ทำการเลือกกระทู้ทีละกระทู้ตามลำดับโดยทำการเลือกกระทู้ที่มี Tag ที่เวลาทำ Intersection กับเซ็ตในข้อ A.
    3. โดยเมื่อการทำ Intersection แล้ว
        1. ได้เซ็ตว่าง **ทำการเลือกกระทู้นั้น**
        2. ไม่ได้เซ็ตว่าง **ทำการข้ามกระทู้นั้น**

In [62]:
RANK_LIMIT = 10
COMMON_SET_THRESHOLD = 0.75
count = 0
recommend_set = set()
rank_df = pd.DataFrame(columns=['TopicID', 'Topic Title', 'Topic Tags', 'PageRank Value'])
for i in range(1000):
    if count >= RANK_LIMIT:
        break
    cur_set = set(topic_tags[pr_tuple[i][0]])
    common_set = recommend_set.intersection(cur_set)
    if len(common_set) <= len(recommend_set) * COMMON_SET_THRESHOLD or len(recommend_set) == 0:
        for x in cur_set:
            recommend_set.add(x)
        rank_df.loc[count] = [pr_tuple[i][0], topics_title[pr_tuple[i][0]], topic_tags[pr_tuple[i][0]], pr_tuple[i][1]]
        count += 1
rank_df.head(RANK_LIMIT)

Unnamed: 0,TopicID,Topic Title,Topic Tags,PageRank Value
0,38176352,TG971 ดีเลย์ 2 ชั่วโมงครึ่ง เหตุนักบินไม่ยอมเท...,"[สายการบิน, การบินไทย]",0.003179
1,38179329,กัปตันลั่น พร้อมปกป้องเกียรตินักบิน เล็งเรียกร...,"[ปัญหาสังคม, สายการบิน, หุ้น]",0.003015
2,38178165,จากข่าวการบินไทย ที่ไม่ยอมเอาเครื่องขึ้น เพราะ...,"[การบินไทย, งานสายการบิน, ศูนย์ควบคุมการจราจรท...",0.002945
3,35268526,สิงคโปร์ อะไรถูก อะไรแพง ไปแล้วซื้ออะไรดี รวมม...,"[เครื่องสำอาง, น้ำหอม, โรงแรมรีสอร์ท, เที่ยวต่...",0.002676
4,32447263,ฮิต!!! ที่เที่ยวเมืองพัทยา ที่ไปแล้วอย่าพลาด,"[เที่ยวไทย, พัทยา, เที่ยวทะเล, จังหวัดชลบุรี]",0.002498
5,34502095,[CR] ตะลุยกิน15ร้านเด็ด Osaka-Kyoto-Kobe-Nara ...,"[เที่ยวต่างประเทศ, อาหารญี่ปุ่น, ภาพถ่าย, คันไ...",0.002468
6,34222014,[CR] [OSAKA KYOTO KOBE ห้ามอิ่ม ห้ามพัก ห้ามทั...,"[อาหารญี่ปุ่น, ร้านอาหาร, อาหาร, เที่ยวต่างประ...",0.00238
7,34433699,[CR] *-*-*ReVieW*-*-* เคยไปกันยัง ? ที่พักริมน...,"[เที่ยวน้ำตก, เที่ยวไทย, โรงแรมรีสอร์ท, จังหวั...",0.002356
8,31170821,หนาวขนาดไหน แต่งตัวยังไงให้พอดี มีคำตอบ,"[เรียนต่อต่างประเทศ, แม่บ้านต่างแดน, ทำงานต่าง...",0.002195
9,36111851,[CR] ถล่มมุสตาฟา! ส่องของน่าซื้อ &amp; ของฝากย...,"[ประเทศสิงคโปร์, Backpack, บันทึกนักเดินทาง, เ...",0.002191


# 