In [1]:
# coding: utf-8
"""
ノード分割アルゴリズム部分のコードの書き換え
alpha = 全単語数に対する語彙の頻度数, beta = 頻度の割合
"""
from igraph import *
import csv
import collections
import pickle
import numpy as np
from openopt import QP
import copy
import re

# csvファイルの読み込み
def readcsv(path):
    f = open(path, "rb")
    dataReader = csv.reader(f)
    arr = [row for row in dataReader]
    return arr

def writecsv(arr, path):
    f = open(path, "ab")
    dataWriter = csv.writer(f)
    dataWriter.writerows(arr)
    f.close()

def readdump(path):
    f = open(path, "r")
    arr = pickle.load(f)
    f.close()
    return arr

# 有向エッジリストを入力して、重み付き無向ネットワークを出力する
def cal_edgelist_to_network(list_edge):
    # 有向エッジリストを無向エッジリストに変換する
    list_edge = [tuple(sorted(row)) for row in list_edge]
    # ノードリスト
    list_vertices = list(set([word for row in list_edge for word in row]))
    # エッジリストとそのweightを作成
    tuple_edge, tuple_weight = zip(*collections.Counter(list_edge).items())
    return {"vertex": list_vertices, "edge": list(tuple_edge), "weight": list(tuple_weight)}
    
    
# クラスタリング済みのネットワークを元にサブグラフのリストを作成
# vertexには全てのvertexを代入する（PageRankを計算するため）
def cal_cluster_to_network(dict_network):
    if dict_network.has_key("cluster") == False:
        print "クラスタリングができていません"
    
    # クラスタごとにwordをまとめる
    dict_cluster = collections.defaultdict(list)
    for word, cluster in zip(dict_network["vertex"], dict_network["cluster"]):
        dict_cluster[cluster].append(word)

    # リストに変換
    list_cluster_vertex = [row[1] for row in dict_cluster.items()]
    
    # 同様にエッジとウェイトのリストも作成する
    list_cluster_edge = []
    list_cluster_weight = []
    for cluster_vertex in list_cluster_vertex:
        list_cluster_edge_one = []
        list_cluster_weight_one = []
        # エッジリストの中に、一つでもノードが含まれていれば、そのクラスのノードに含める
        for row, weight in zip(dict_network["edge"], dict_network["weight"]):
            # and と or を切り替えることによって性能の比較
            if row[0] in cluster_vertex or row[1] in cluster_vertex:
                list_cluster_edge_one.append(row)
                list_cluster_weight_one.append(weight)
        list_cluster_edge.append(list_cluster_edge_one)
        list_cluster_weight.append(list_cluster_weight_one)
    
    # まとめる
    list_dict_network = [{"vertex": dict_network["vertex"],
                          "edge": cluster_edge,
                          "weight": cluster_weight}
                         for cluster_edge, cluster_weight
                         in zip(list_cluster_edge, list_cluster_weight)]
    
    return list_dict_network

# f_measureを計算する
def cal_f_measure(list_predict_measure):
    # 生成したクラスタ内のカウント
    dict_predict_cluster = collections.defaultdict(list)
    for row in list_predict_measure:
        dict_predict_cluster[row[0]].append(row[1])
        
    # もとあるクラス内のカウント
    dict_measure_cluster = collections.defaultdict(list)
    for row in list_predict_measure:
        dict_measure_cluster[row[1]].append(row[0])
    
    # local_purityの計算
    list_purity = []
    for row in dict_predict_cluster.items():
        major_class = sorted(collections.Counter(row[1]).items(), key=lambda x: x[1], reverse=True)[0][1]
        class_num = len(row[1])
        list_purity.append([major_class, class_num])
    purity = float(np.sum(zip(*list_purity)[0])) / np.sum(zip(*list_purity)[1])
    print "Purity: ", purity
    
    # inverse_purityの計算
    list_inverse_purity = []
    for row in dict_measure_cluster.items():
        major_class = sorted(collections.Counter(row[1]).items(), key=lambda x: x[1], reverse=True)[0][1]
        class_num = len(row[1])
        list_inverse_purity.append([major_class, class_num])
    inverse_purity = float(np.sum(zip(*list_inverse_purity)[0])) / np.sum(zip(*list_inverse_purity)[1])
    print "Inverse Purity: ", inverse_purity
    
    print "F-value: ", 2 / (1 / purity + 1 / inverse_purity)
    
# 凸２次計画問題を解いてp(topic)を求めるための関数
def cal_prob_topic(dict_network_master, list_dict_network_sub):
    prob_master = np.array([row[1] for row in sorted(zip(dict_network_master["vertex"], dict_network_master["page_rank"]), key=lambda x: x[0])])
    
    for i, dict_network_sub in enumerate(list_dict_network_sub):
        if i == 0:
            prob_sub = np.array([row[1] for row in sorted(zip(dict_network_sub["vertex"], dict_network_sub["page_rank"]), key=lambda x: x[0])])
        else:
            list_tmp = np.array([row[1] for row in sorted(zip(dict_network_sub["vertex"], dict_network_sub["page_rank"]), key=lambda x: x[0])])
            prob_sub = np.vstack((prob_sub, list_tmp))
    
    H = 2 * prob_sub.dot(prob_sub.T)
    f = -2 * prob_master.dot(prob_sub.T)
    Aeq = np.ones(len(list_dict_network_sub))
    beq = 1
    lb = np.zeros(len(list_dict_network_sub))
    
    p = QP(H, f, Aeq=Aeq, beq=beq, lb=lb)
    r = p.solve("cvxopt_qp")
    k_opt = r.xf
    return k_opt

In [2]:
# クラスタリング後に、ノードごとにどのクラスタにエッジを持っているのか計算
def cal_cluster_to_edge(dict_network, low_fleq=0.05, low_rate=0.8, flag=0):
    if dict_network.has_key("cluster") == False:
        print "クラスタリングができていません"
    
    # wordをclusterに変換するための辞書を作成する
    dict_word_to_cluster = {}
    for word, cluster in zip(dict_network["vertex"], dict_network["cluster"]):
        dict_word_to_cluster[word] = cluster
        
    # wordをidに変換するための辞書を作成する
    dict_word_to_id = {}
    for i, word in enumerate(dict_network["vertex"]):
        dict_word_to_id[word] = i
    
    # clusterの数
    num_cluster = len(set(dict_network["cluster"]))
    
    # id_to_clusterのマトリックス
    matrix_id_to_cluster = np.zeros((len(dict_word_to_id), num_cluster))
    for row, weight in zip(dict_network["edge"], dict_network["weight"]):
        matrix_id_to_cluster[dict_word_to_id[row[0]]][dict_word_to_cluster[row[1]]] += weight
        matrix_id_to_cluster[dict_word_to_id[row[1]]][dict_word_to_cluster[row[0]]] += weight
        
    #総単語数を求める
    total_voc = np.sum(matrix_id_to_cluster)
    
    # 指定したハイパーパラメータよりも高い値を記録した単語を所属クラスタとともに辞書に登録する
    dict_word_to_list_cluster = {}
    for cluster, word, row in zip(dict_network["cluster"], dict_network["vertex"], matrix_id_to_cluster):
        top_num = max(row)
        if float(np.sum(row))/total_voc>=low_fleq and len(np.where(row/top_num>=low_rate)[0])>=2:
            print word
            dict_word_to_list_cluster[word] = np.where(row/top_num>=low_rate)[0]
            
    # 分割する単語が存在するかしないかflagを立てる
    if len(dict_word_to_list_cluster) > 0:
        outflag = True
    else:
        outflag = False

    # 新しく分裂するノードクラスターを元のクラスターに記録
    for word, row in dict_word_to_list_cluster.items():
        for num in row:
            # dict_word_to_cluster[word+"_"+str(num)] = num
            dict_word_to_cluster[word+"_"+str(num)] = dict_word_to_cluster[word]
    
    # ここの計算が間違ってそう => diffsplitで確認したが大丈夫そう・・・
    for word in dict_word_to_list_cluster.keys():
        list_edge_new = []
        list_weight_new = []
        for row, weight in zip(dict_network["edge"], dict_network["weight"]):
            if row[0] == word:
                if dict_word_to_cluster[row[1]] in dict_word_to_list_cluster[word]:
                    list_edge_new.append([row[0]+"_"+str(dict_word_to_cluster[row[1]]), row[1]])
                    list_weight_new.append(weight)
                else:
                    for num in dict_word_to_list_cluster[word]:
                        # flagの値によって、weightの計算法を切り替え
                        if flag == 0:
                            weight_tmp = float(weight)/len(dict_word_to_list_cluster[word])
                            list_edge_new.append([row[0]+"_"+str(num), row[1]])
                            list_weight_new.append(weight_tmp)
                        else:
                            weight_tmp = weight/len(dict_word_to_list_cluster[word])
                            if weight_tmp > 0:
                                list_edge_new.append([row[0]+"_"+str(num), row[1]])
                                list_weight_new.append(weight_tmp)
                                
            elif row[1] == word:
                if dict_word_to_cluster[row[0]] in dict_word_to_list_cluster[word]:
                    list_edge_new.append([row[0], row[1]+"_"+str(dict_word_to_cluster[row[0]])])
                    list_weight_new.append(weight)
                else:
                    for num in dict_word_to_list_cluster[word]:
                        # flagの値によって、weightの計算法を切り替え
                        if flag == 0:
                            weight_tmp = float(weight)/len(dict_word_to_list_cluster[word])
                            list_edge_new.append([row[0], row[1]+"_"+str(num)])
                            list_weight_new.append(weight_tmp)
                        else:
                            weight_tmp = weight/len(dict_word_to_list_cluster[word])
                            if weight_tmp > 0:
                                list_edge_new.append([row[0], row[1]+"_"+str(num)])
                                list_weight_new.append(weight_tmp)
            else:
                list_edge_new.append([row[0], row[1]])
                list_weight_new.append(weight)
        else:
            dict_network["edge"] = copy.deepcopy(list_edge_new)
            dict_network["weight"] = copy.deepcopy(list_weight_new)
            list_vertices = list(set([word for row in dict_network["edge"] for word in row]))
            dict_network["vertex"] = list_vertices
    
    return dict_network, outflag

###メイン部分
1. 有向エッジリストから無向重み付きエッジリストを作成
2. louvain法によるクラスタリング
3. クラスタごとにpagerankを計算し、p(word|topic)とする
4. クラスタごとにp(word|topic)を出力する辞書を作成

In [105]:
# エッジリストの読み込み
list_edge = readcsv("./files/rakuten_corpus/rakuten_corpus_edgelist_co.csv")
# 元のネットワークを作成する（無向）
dict_network_master = cal_edgelist_to_network(list_edge)
# g = Graph(directed=True)
g_master = Graph()
g_master.add_vertices(dict_network_master["vertex"])
g_master.add_edges(dict_network_master["edge"])
# 元のネットワークのpagerankを求める
dict_network_master["page_rank"] = g_master.pagerank(directed=False, weights=dict_network_master["weight"])

flag=True
counter=0
while flag:
    # louvain法によるクラスタリング、vertexと同じ長さのクラスタ番号が書かれたリストがreturn
    dict_network_master["cluster"] = g_master.community_multilevel(weights=dict_network_master["weight"]).membership
    # クラスタリングの結果をもとに、どのノードから何本のエッジが出ているか計算する
    dict_network_master, flag = cal_cluster_to_edge(dict_network_master, low_fleq=0.002, low_rate=0.6, flag=0)
    counter +=1
    print counter, "回目"
    print len(dict_network_master["weight"])
    print len(dict_network_master["edge"])
    g_master = Graph()
    g_master.add_vertices(dict_network_master["vertex"])
    g_master.add_edges(dict_network_master["edge"])

#dict_network_master["cluster"] = g_master.community_multilevel(weights=dict_network_master["weight"], return_levels=True)[-3].membership
dict_network_master["cluster"] = g_master.community_multilevel(weights=dict_network_master["weight"]).membership
# 元のネットワークのpagerankを求める
dict_network_master["page_rank"] = g_master.pagerank(directed=False, weights=dict_network_master["weight"])
# クラスタ結果をもとにサブグラフのリストを作成
list_dict_network_sub = cal_cluster_to_network(dict_network_master)
# サブクラスタごとに中心性の計算
for i, dict_network_sub in enumerate(list_dict_network_sub):
    g_sub = Graph()
    g_sub.add_vertices(dict_network_sub["vertex"])
    g_sub.add_edges(dict_network_sub["edge"])
    list_dict_network_sub[i]["page_rank"] = g_sub.pagerank(directed=False, weights=dict_network_sub["weight"])
print "クラスタ数: ", len(list_dict_network_sub)

# トピックごとにwordを入力したらp(word|topic)が出るような辞書を作成
list_dict_prob = []
for i in range(len(list_dict_network_sub)):
    list_word_page = sorted(zip(list_dict_network_sub[i]["vertex"], list_dict_network_sub[i]["page_rank"]), key=lambda x: x[1], reverse=True)
    list_word_page_rev = []
    for row in list_word_page:
        pattern = "_[0-9]+"
        word = re.sub(pattern, "", row[0])
        list_word_page_rev.append([word, row[1]]) 
    list_dict_prob.append({row[0]: row[1] for row in list_word_page_rev})
    
# 凸２次計画問題を解いて、p(topic)を求める
list_prob_topic = cal_prob_topic(dict_network_master, list_dict_network_sub)

普通
温泉
条件
プラン
人
声
壁
駐車場
大浴場
なかった
ビジネスホテル
非常
静か
子供
いい
悪い
評価
安い
料金
よい
最高
充実
寒い
遅い
ない
大変
車
すごい
お願い
外
気持ちよい
用意
気
残念
掃除
無い
感じ
アメニティ
1 回目
24556
24556
他
2 回目
24667
24667
3 回目
24667
24667
クラスタ数:  9

------------------------- OpenOpt 0.5625 -------------------------
problem: unnamed   type: QP
solver: cvxopt_qp
     pcost       dcost       gap    pres   dres
 0: -2.1325e-03 -1.0039e+00  1e+00  1e-16  3e+00
 1: -2.1342e-03 -1.3903e-02  1e-02  1e-16  4e-02
 2: -2.2418e-03 -3.6634e-03  1e-03  1e-16  5e-03
 3: -2.4544e-03 -2.6648e-03  2e-04  5e-17  2e-18
 4: -2.4755e-03 -2.4889e-03  1e-05  5e-17  1e-18
 5: -2.4764e-03 -2.4769e-03  5e-07  7e-17  1e-18
 6: -2.4764e-03 -2.4764e-03  6e-09  6e-17  2e-18
Optimal solution found.
istop: 1000 (optimal)
Solver:   Time Elapsed = 0.0 	CPU Time Elapsed = 0.0
objFuncValue: -0.0024763653 (feasible, MaxResidual = 1.11022e-16)


In [114]:
num = 8
list_tmp =sorted(list_dict_prob[num].items(), key=lambda x: x[1], reverse=True)
for i in range(10):
    print list_tmp[i][0], list_tmp[i][1]

対応 0.0609159023211
フロント 0.0438759476186
スタッフ 0.0239971555915
チェックイン 0.023986567224
女性 0.0152126618896
従業員 0.0138442335601
親切 0.0130850301864
丁寧 0.0124230421189
チェックアウト 0.0108361451539
気持ち 0.00779861781644


In [83]:
list_all = []
for num in range(0,31):
    list_tmp =sorted(list_dict_prob[num].items(), key=lambda x: x[1], reverse=True)
    for i in range(10):
        list_all.append([list_tmp[i][0], list_tmp[i][1]])

In [84]:
writecsv(list_all, "./files/hieral_co.csv")

In [95]:
class_0 = [0]
class_1 = [3,9,12]
class_2 = [8,10,18]
class_3 = [11,17,20,23]
class_4 = [1,2,5,21,22]
class_5 = [4,16,24,26]
class_6 = [6,7,13,14,27,30]
class_7 = [15,19,28]
class_8 = [25,29]
dict_network_sub0 = []
dict_network_sub1 = []
dict_network_sub2 = []
dict_network_sub3 = []
dict_network_sub4 = []
dict_network_sub5 = []
dict_network_sub6 = []
dict_network_sub7 = []
dict_network_sub8 = []

In [104]:
for num in class_8:
    dict_network_sub8.append(list_dict_network[num])

In [115]:
list_dict_network = copy.deepcopy(list_dict_network_sub)

In [116]:
len(list_dict_network)

9

In [127]:
list_prob_topic = cal_prob_topic(list_dict_network[8], dict_network_sub8)
print list_prob_topic


------------------------- OpenOpt 0.5625 -------------------------
problem: unnamed   type: QP
solver: cvxopt_qp
     pcost       dcost       gap    pres   dres
 0: -6.9351e-03 -1.0128e+00  1e+00  0e+00  2e+00
 1: -7.0022e-03 -2.2697e-02  2e-02  2e-16  3e-02
 2: -8.8333e-03 -1.0907e-02  2e-03  3e-16  3e-03
 3: -9.6498e-03 -9.9899e-03  3e-04  1e-16  2e-18
 4: -9.7638e-03 -9.8080e-03  4e-05  1e-17  3e-18
 5: -9.7782e-03 -9.7843e-03  6e-06  2e-16  4e-19
 6: -9.7795e-03 -9.7801e-03  6e-07  4e-17  4e-19
 7: -9.7795e-03 -9.7795e-03  1e-08  1e-16  2e-18
 8: -9.7795e-03 -9.7795e-03  1e-10  1e-16  2e-18
Optimal solution found.
istop: 1000 (optimal)
Solver:   Time Elapsed = 0.0 	CPU Time Elapsed = 0.0
objFuncValue: -0.009779532 (feasible, MaxResidual = 0)
[ 0.98800562  0.01199438]


In [86]:
dict_network_master["cluster"] = g_master.community_multilevel(weights=dict_network_master["weight"], return_levels=True)

In [87]:
list_0 = dict_network_master["cluster"][-3].membership
list_1 = dict_network_master["cluster"][-1].membership
list_all = []
for num0, num1 in zip(list_0, list_1):
    list_all.append((num0, num1))
list_all = list(set(list_all))

In [88]:
writecsv(list_all, "hieral_num_co.csv")

In [77]:
list_tmp = g_master.community_multilevel(weights=dict_network_master["weight"], return_levels=True)

In [81]:
len(list_tmp[-3])

31

In [279]:
writecsv(list_all, "./files/hieral_num.csv")

### 定量評価部分
1. 形態素解析済みセンテンスを読み込み、確率を計算し、どのクラスに属するか計算
2. 予測クラスと実際クラスのリストを作成する

In [19]:
list_dict_words = dict_network_master["vertex"]
list_sep_words = readdump("./files/rakuten_corpus/annotation/all_sep.dump")
list_sep_words_rev = []
for row in list_sep_words:
    list_sep_words_rev.append([row[2], row[1]])
# 確率が最大になるクラスを予想する
# 実質ラベルがintじゃない場合は、エラーとして、記録しない
list_predict_measure = []
list_words_rev = []
error_count = 0
for row in list_sep_words_rev:
    try:
        class_tmp = 0
        prob_tmp = 0
        predict_class = []
        for num, dict_prob in enumerate(list_dict_prob):
            prob_tmp_tmp = 1
            for word in row[0]:
                prob_tmp_tmp *= float(dict_prob[word])
            prob_tmp_tmp *= list_prob_topic[num]
            if prob_tmp_tmp > prob_tmp:
                class_tmp = num
                prob_tmp = prob_tmp_tmp
        list_predict_measure.append([class_tmp, row[1]])
    except:
        error_count += 1
print "エラーデータ数: ", error_count

エラーデータ数:  2


###計算結果の表示

* Louvain法+divide+p(k)

In [162]:
cal_f_measure(list_predict_measure)

Purity:  0.625125125125
Inverse Purity:  0.694694694695
F-value:  0.658076354701


* Louvain法+fullコーパス

In [178]:
cal_f_measure(list_predict_measure)

Purity:  0.584231145935
Inverse Purity:  0.652301665034
F-value:  0.616392781296


* Louvain法のみ

In [211]:
cal_f_measure(list_predict_measure)

Purity:  0.606606606607
Inverse Purity:  0.61011011011
F-value:  0.608353314236


* Louvain法(一本コーパス)

In [20]:
cal_f_measure(list_predict_measure)

Purity:  0.617617617618
Inverse Purity:  0.657157157157
F-value:  0.636774190759


* 0.004, 0.6

In [24]:
cal_f_measure(list_predict_measure)

Purity:  0.592592592593
Inverse Purity:  0.666166166166
F-value:  0.627229217289


* 0.005, 0.6

In [28]:
cal_f_measure(list_predict_measure)

Purity:  0.594094094094
Inverse Purity:  0.666166166166
F-value:  0.628069292485


*

In [52]:
cal_f_measure(list_predict_measure)

Purity:  0.589089089089
Inverse Purity:  0.657157157157
F-value:  0.621264236124


* 100, 0.6

In [55]:
cal_f_measure(list_predict_measure)

Purity:  0.592592592593
Inverse Purity:  0.666166166166
F-value:  0.627229217289


* 50, 0.6

In [58]:
cal_f_measure(list_predict_measure)

Purity:  0.602102102102
Inverse Purity:  0.67017017017
F-value:  0.634315275149


* 100, 0.7, or、切り捨てで計算した場合

In [23]:
cal_f_measure(list_predict_measure)

Purity:  0.567091087169
Inverse Purity:  0.629285014691
F-value:  0.596571467059


* 100, 0.9, or, 切り捨てで計算した場合

In [215]:
cal_f_measure(list_predict_measure)

Purity:  0.487093835408
Inverse Purity:  0.623443668387
F-value:  0.546898356081


* 50, 0.8, or, 切り捨てで計算した結果

In [233]:
cal_f_measure(list_predict_measure)

Purity:  0.494078348011
Inverse Purity:  0.638931065897
F-value:  0.557245159054


* 50, 0.7, or, 切り捨てで計算した結果

In [237]:
cal_f_measure(list_predict_measure)

Purity:  0.486486486486
Inverse Purity:  0.649559672032
F-value:  0.556318949262


In [18]:
cal_f_measure(list_predict_measure)

Purity:  0.492256301245
Inverse Purity:  0.639234740358
F-value:  0.556199417134


In [73]:
list1 = g_master.community_fastgreedy(weights=dict_network_master["weight"]).as_clustering(n=6).subgraphs()

In [74]:
list2 = g_master.community_fastgreedy(weights=dict_network_master["weight"]).as_clustering(n=7).subgraphs()

In [92]:
for i in range(6):
    list1[1].vertex()

False
False
False
False
False
False


In [93]:
list1[1].vertex()

AttributeError: 'Graph' object has no attribute 'vertex'