# グラフ解析

この演習では，``data/graph``ディレクトリに格納されたJSONファイル``programming_language.json``を用いる．
このJSONファイルには，
* プログラミング言語名
* そのプログラミング言語のID（キー"id"でアクセス可）
* そのプログラミング言語が影響を受けたプログラミング言語（のID）（キー"influenced_by"でアクセス可）

に関する情報が格納されている．
以下，このJSONファイルを用いて，各設問に回答せよ．

※ プログラミング言語間の影響関係に関する情報は，日本語版Wikipediaより取得した．

### Q1: NetworkXを使った可視化

``netowkrx``ライブラリを用いて，プログラミング言語の影響関係を可視化せよ．なお，生成するグラフは有向グラフとし，「影響を与えたプログラミング言語」から「影響を受けたプログラミング言語」の向きでエッジを張るようにすること．

### Q2. 隣接行列
グラフにおけるノード間の隣接関係の有無を0と1で表現した行列は**隣接行列**と呼ばれる．Q1で生成したグラフGの隣接行列を``numpy``形式で得よ．

### Q3. 最短経路問題
Q1で生成したグラフGにおいて，ノード"BASIC"からノード"Julia"に至る最短経路を得る**幅優先探索**アルゴリズムを実装せよ．

### Q4. 次数中心性
グラフ上で，ノードに接続しているエッジの数は**次数**と呼ばれる．特に有向グラフの場合，他のノードから入ってくるエッジの数は**入次数**と呼ばれる．

Q1で生成したグラフG上では，入次数は「影響を受けたプログラミング言語の数」を意味する．Q1で生成したグラフGにおいて，最も入次数が大きいプログラミング言語を求めよ．また，グラフGの全ノードの入次数を計算しヒストグラムを描け．

なお，次数の計算には``networkx``の``in_degree``メソッドは使用しないこと．

### Q5. PageRank
**PageRank**アルゴリズムは「重要なノードから多くのリンクを張られたノードは重要なノードである」との仮定のもと，グラフにおけるノードの中心性を評価する手法である．

Q1で生成したグラフGにPageRankアルゴリズムを適用し，PageRankスコアが高い上位10件のプログラミング言語を表示せよ．

なお，PageRankスコアの計算には``networkx``ライブラリの``pagerank``メソッドは使用しないこと．また，PageRankのダンピングファクター$d$は0.85に設定すること．

### Q6. HITSアルゴリズム
**HITS**アルゴリズムは，グラフ中のノードの
* Hub値: Authority値の高いノードへの参照度
* Authority値: Hub値の高いページからの被参照度

を評価するアルゴリズムである．

Q1で生成したグラフGにHITSアルゴリズムを適用し，Authorityスコアが高い上位10件のプログラミング言語，Hubスコアが高い上位10件のプログラミング言語を表示せよ．

なお，Authority/Hubスコアの計算には``networkx``ライブラリの``hits``メソッドは使用しないこと．

### Q7. Biased PageRank（Topic-sensitive PageRank）
**Biased PageRank（Topic-sensitive PageRank）** は，PageRankアルゴリズムにおいてランダムジャンプ成分を一様分布としていたところを，特定ノードの重みの調整することで，が特定ノードにジャンプしやすいランダムサーファーを仮定してPageRankを適用するアルゴリズムである．

今，ユーザXはJavaScript，Perl，PHPを好んで利用しているが，新しいプログラミングを習得したいと考えているとする．Q1で生成したグラフGに対してBiased PageRank（Topic-sensitive PageRank）を適用することで，ユーザXに推薦するプログラミング言語の上位10件を求めよ．

なお，PageRankスコアの計算には``networkx``ライブラリの``pagerank``メソッドは使用しないこと．また，PageRankのダンピングファクター$d$は0.85に設定せよ．

### Q8. 媒介中心性

グラフ上で，あるノードが他のノード間の最短経路上に位置する度合いは**媒介中心性**と呼ばれる．
媒介中心性の高いノードは，グラフにおけるあるグループとあるグループをつなぐ（分ける）重要なノードと考えることができる．

Q1で生成したグラフG上の全ノードの媒介中心性を計算し，媒介中心性スコアが高い上位10件のプログラミング言語を表示せよ．

なお，この課題については，媒介中心性を計算するアルゴリズムを自力で実装する必要はない．

### Q9. コミュニティ発見 by Girvan-Newmanアルゴリズム
Q8で扱った媒介中心性はエッジに対しても定義することができる．すなわち，媒介中心性の高いエッジは，グラフにおけるあるグループとあるグループをつなぐ（分ける）重要なエッジと考えることができる．

Q1で生成したグラフGにおいて，媒介中心性が最大となるエッジを削除する操作を繰り返すことで，グラフGを10つのサブグラフに分割せよ．

なお，この課題では，グラフGは無向グラフとして扱うこと．また，グラフの分割過程でノード数が1のサブグラフが生成された場合は，そのノードを削除せよ．グラフGに含まれるノード数1のサブグラフを削除する際には，以下の``remove_small_components``関数を用いてもよい．

In [1]:
def remove_small_components(G, min_size=2):
    targets = []
    for component in nx.connected_components(G):
        if len(component) < min_size:
            for node in component:
                targets.append(node)
    else:
        for target in targets:
            G.remove_node(target)
        return G

### Q10. コミュニティ発見 by スペクトラルクラスタリング
グラフ上の各ノードは，
* 次数（ノードに接続するエッジの数）
* 他ノードとの接続関係の有無の情報

を用いることで，ベクトルとして表現することができる．グラフ上の各ノードの次数の情報を対角成分に格納した行列を**次数行列**，ノード間の関係性の有無を1もしくは0で表した行列を**隣接行列**と呼ばれる．グラフ解析では，グラフ上のノードのベクトルを表現する方法として，次数行列と隣接行列の差である**ラプラシアン行列**が用いられることがある．

例えば，下記のグラフであれば，次数行列$D$および隣接行列$A$は

$$
D =
        \left[\begin{array}{ccccc}
            % 横並びは&を挟む
            1 & 0 & 0 & 0 & 0 \\
            0 & 3 & 0 & 0 & 0 \\
            0 & 0 & 3 & 0 & 0 \\
            0 & 0 & 0 & 2 & 0 \\
            0 & 0 & 0 & 0 & 1 \\
        \end{array}\right] \quad
A =
        \left[\begin{array}{ccccc}
            % 横並びは&を挟む
            0 & 1 & 0 & 0 & 0 \\
            1 & 0 & 1 & 1 & 0 \\
            0 & 1 & 0 & 1 & 1 \\
            0 & 1 & 1 & 0 & 0 \\
            0 & 0 & 1 & 0 & 0 \\
        \end{array}\right] \quad        
$$

となり，ラプラシアン行列$L$は
$$
L = D - A =
        \left[\begin{array}{ccccc}
            % 横並びは&を挟む
            1 & -1 & 0 & 0 & 0 \\
            -1 & 3 & -1 & -1 & 0 \\
            0 & -1 & 3 & -1 & -1 \\
            0 & -1 & -1 & 2 & 0 \\
            0 & 0 & -1 & 0 & 1 \\
        \end{array}\right] \quad      
$$

となる（行列の各行，各列はグラフ中のノードに対応）．ラプラシアン行列$L$を用いれば，例えばノード1のベクトル$v_1$は$v_1=(-1,3,-1,-1,0)$として表現することができる．

さて，[スペクトラルクラスタリング解説](https://qiita.com/sakami/items/9b3d57d4be3ff1c70e1d)でも解説されているように，$L$の（ゼロを除く）小さい固有値に対応する固有ベクトルを用いてグラフのノードをクラスタリングする手法は**スペクトラルクラスタリング**と呼ばれる．

Q1で生成したグラフG上の各ノードをベクトル化するために，グラフGのラプラシアン行列を求め，その固有値および固有ベクトルを求めよ．さらに，小さい固有値に対応する（いくつかの）固有ベクトルに対して階層的クラスタリングを適用し，クラスタ併合過程をデンドログラムで可視化せよ．

なお，この課題ではグラフGを無向グラフとして扱うこと．固有値計算，階層的クラスタリングには外部ライブラリを用いてもよい．