In [2]:
import os
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
import pandas as pd

%matplotlib inline

# Import Graph Data

In [3]:
from pathlib import Path

path = Path('../data/processed_except/user_topic_filtered.csv').resolve();
di_graph = nx.DiGraph()
user_set = set()
with open(path, 'r') as input_file:
    # skip first line
    line = input_file.readline().rstrip()
    while True:
        line = input_file.readline().rstrip()

        # EOF
        if line == '':
            break

        splits = line.split(',')
        # prevent self-loop
        if splits[0] != splits[1]:
            user_set.add(splits[1])
            di_graph.add_edge(splits[1], splits[0])

#### จับคู่ User เพื่อทำการทดสอบค่า Jaccard Coefficient

In [4]:
user_pairs = []
user_list = list(user_set)
for x in range(len(user_list)):
    for y in range(x + 1, len(user_list)):
        user_pairs.append((user_list[x], user_list[y]))

# Jaccard's Coefficient

In [5]:
un_graph = di_graph.to_undirected()

jaccard_result = []
for pair in user_pairs:
    u = pair[0]
    v = pair[1]
    u_set = set(nx.all_neighbors(un_graph, u))
    v_set = set(nx.all_neighbors(un_graph, v))
    # common set
    uv_com_set = u_set.intersection(v_set)
    # union set
    uv_un_set = u_set.union(v_set)
    jaccard_coef = 0
    if len(uv_un_set) > 0:
        jaccard_coef = len(uv_com_set) / len(uv_un_set)
    if jaccard_coef > 0:
        jaccard_result.append((u, v, jaccard_coef))

#### ทำการเรียงค่า Jaccard Coefficient จากมากไปน้อย

In [6]:
jaccard_result = sorted(jaccard_result, key=lambda x: x[2], reverse=True)

# Prediction

#### ทำการกำหนดค่า Threshold เพื่อนำค่า Jaccard Coefficient มาใช้ในการ Prediction

In [7]:
# กำหนดค่า Threshold
JACCARD_COEFFICIENT_THRESHOLD = 0.5
flitered_jaccard_result = list(filter(lambda x: x [2] >= JACCARD_COEFFICIENT_THRESHOLD, jaccard_result))

#### ทำการ Prediction โดยมีวิธีการดังนี้
1. เริ่มต้นมีคู่ของผู้ใช้ u และ v
2. หาเซ็ตของ Neighbors ของ u และ v
3. นำเซ็ต Neighbors ของ u และ v มาทำการหา Intersection และ Union
4. โดยเราจะทำการหา Prediction Topic ได้ดังนี้
    1. กำหนดให้ U คือ Neighbors set ของ u
    2. กำหนดให้ V คือ Neighbors set ของ v
    3. กำหนดให้ (U intersection V) คือการทำ Intersection ระหว่างเซ็ต U และ V
    4. กำหนดให้ (U union V) คือการทำ Union ระหว่างเซ็ต U และ V
    5. กำหนดให้ (U - V) คือการทำ Difference ระหว่างเซ็ต U และ V
5. เราจะสามารถหา Prediction Set ของคู่ u, v ใดๆได้จาก
    1. Pred(U) = Pred(U) union ((U union V) - (U intersection V) - U) และ
    2. Pred(V) = Pred(V) union ((U union V) - (U intersection V) - V)  
    โดย Pred(U) คือ Prediction Set ของ u และ Pred(V) คือ Prediction Set ของ v

In [8]:
user_topics_result = {}
for data in flitered_jaccard_result:
    u = data[0]
    v = data[1]
    if u not in user_topics_result:
        user_topics_result[u] = set()
    if v not in user_topics_result:
        user_topics_result[v] = set()
        
    u_set = set(nx.all_neighbors(un_graph, u))
    v_set = set(nx.all_neighbors(un_graph, v))
    uv_com_set = u_set.intersection(v_set)
    uv_un_set = u_set.union(v_set)
    
    un_dif_com = uv_un_set.difference(uv_com_set)
    user_topics_result[u] = user_topics_result[u].union(un_dif_com.difference(u_set))
    user_topics_result[v] = user_topics_result[v].union(un_dif_com.difference(v_set))

# Result

In [31]:
result_df = pd.DataFrame(columns=[ 'User', 'Prediction Topic' ])
for index, utr in enumerate(user_topics_result):
    result_df.loc[index] = [ utr, list(user_topics_result[utr]) ]
result_df.head(20)

Unnamed: 0,User,Prediction Topic
0,olteszesbBJkh3g5q3j,[36894667]
1,oh2radjylBPW4Vduxt,[37700048]
2,oborxz90uMoIfuZQyvj,"[38180035, 38173898, 38181846, 38179746, 38180..."
3,pb8oxl3b5QQdNjSQD0D,"[38167459, 38180035, 38180612, 38179746, 38180..."
4,p363sjr6mdU7oi8LH8,"[31177339, 35108592, 30769364, 36245659]"
5,ozevb32vj5xsix6R3Ze,[36136603]
6,pgs5xc4l1w0koWc444Jv,"[31440005, 36366065, 36583753, 31879007]"
7,ozt5ze11ajWJAJYxtdfa,[30102456]
8,pfc1darm6XirR0T9NQw,"[38180017, 38175922, 38175811, 38179553, 38178..."
9,n5s9j7qbgrs23JMxpuK,"[38186031, 38180017, 38175922, 38155859, 38169..."


# View Prediction Infomation

#### นำเข้าข้อมูลชื่อ Topic

In [34]:
from pathlib import Path
import json
topics_title = {}
path = Path('../data/processed_except/topics.json').resolve();
with open(path, 'r', encoding='utf-8') as tf:
    while True:
        line = tf.readline()
        if line == '':
            break
        cur_json = json.loads(line)
        topics_title[cur_json['topic_id']] = cur_json['title']

#### ดูกลุ่มของกระทู้ที่ผู้ใช้เข้าใช้งาน

In [38]:
USER = 'nkjl6j972BZq5RO2LRp'
for x in set(nx.all_neighbors(un_graph, USER)):
    print("%s: %s" % (x, topics_title[x]))

32528975: [CR] พักผ่อนนอนชิลที่นี่ Lake Heaven เลคเฮฟเว่น - กาญจนบุรี
34194241: [CR] @@ รีวิวรวม 5 ที่พัก กาญจนบุรี @@
30856164: ^_^    ??? ใครเคยไปเที่ยว&quot;มัลดีฟเมืองไทย&quot;บ้างคะ ระหว่าง&quot;รักษ์น้ำ&quot;กับ&quot;เลค เฮฟเว่น&quot;ที่ไหนดี/เด่นกว่ากันตรงไหนอย่างไรคะ ???
36386170: [CR] รีวิว ที่พักน่านอน ณ กาญจนบุรี
33424402: [CR] ● มัลดีฟเมืองไทยกาญจนบุรี @ อนันตาริเวอร์ฮิลล์รีสอร์ท Ananta River Hills Resort (Chill Out อ้อ&amp;บอม)
36201520: [CR] รักษ์น้ำรีสอร์ท (Ruk Nam Resort) at กาญจนบุรี by Iphone 7 plus
38166121: เมียผมนั่งรถเข็นเที่ยวญี่ปุ่น ทำไมเด็กๆให้ความสนใจกันจัง?!?
33006488: [CR] รักน้ำรีสอร์ทกับประสบการณ์แย่ๆที่เจอ
34641122: [CR] Review---&gt;รักน้ำ รีสอร์ท@กาญนะจ้ะบุรี มัลดีฟของไทย&lt;---
36252438: [CR] Review &quot;ที่พัก@กาญจนบุรี...รักษ์น้ำ รีสอร์ท&quot;
38166177: Kbank คุณอาจทำให้ลูกค้าอย่างผมเลิกใช้  ก็เพราะเรื่องนี้แหล่ะ


#### ดูกลุ่มของกระทู้ที่ทำการ Prediction


In [39]:
for x in user_topics_result[USER]:
    print("%s: %s" % (x, topics_title[x]))

33329584: [CR] ไปครั้งแรกก็หลงรัก.......เดอะ ฟอร์ เรสท์ รีสอร์ท @กาญจนบุรี (รีวิว 2 วัน 1 คืน) รูปเยอะมากกกกก!!!
36531498: ช่วยแนะนำที่พักแพริมน้ำกาญจนบุรีให้หน่อยครับ
