<a href="https://colab.research.google.com/github/vitroid/PythonTutorials/blob/2020m0/2%20Advanced/090Graph.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# グラフ理論

2つの構造の近さや同一性は、幾何学的な形で(=座標で)直接比較するよりも、つながり方(=ネットワークトポロジー)で表現したほうがわかりやすい場合がある。化学の分子式はつながり方の表現方法であり、ネットワークでの表現に向いている。

また、幾何学情報が実数の情報であるのに対し、ネットワークの情報は整数である。整数であれば、同一か否かの判定が容易で、誤差を生じない。また計算機のアーキテクチャにも非常によくなじむ。

グラフ理論はEulerによる一筆描きの考察から生まれたと言われている。

![](https://upload.wikimedia.org/wikipedia/commons/5/5d/Konigsberg_bridges.png)
![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/91/7_bridges.svg/200px-7_bridges.svg.png)
![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/96/Königsberg_graph.svg/200px-Königsberg_graph.svg.png)

> Königsbergの7つの橋の問題「このプレーゲル川に架かっている7つの橋を2度通らずに、全て渡って、元の所に帰ってくることができるか。ただし、どこから出発してもよい。」(Wikipedia: Seven Bridges of Königsberg)

この問題は、橋の位置や川の流れ方といった、空間情報(幾何情報)がなくても、陸地と陸地の間の隣接関係(トポロジー情報)だけで答えをみつけることができる。

『「つながり方」に着目して抽象化された「点(頂点)とそれをむすぶ線(辺)」の概念がグラフであり、グラフが持つ様々な性質を探求するのがグラフ理論である。』(Wikipedia: グラフ理論)

ひと筆書き、あみだくじなど、グラフの性質(トポロジー)を使った遊びは多数ある。

## グラフ理論の基礎

辺$e$は必ず2つの頂点を結ぶ。以下 $e(i,j)$ あるいは $e(i\rightarrow j)$ と表記する。一方、1つの頂点$v$には0本以上の辺が連結する。1つの頂点に連結する辺の本数を、頂点の**次数**と呼び$d(v)$で表わす。有向グラフの場合には、**入次数**と**出次数**の区別がある。次数0の頂点を**孤立点**と呼ぶ。

1つの頂点につながる辺は互いに**隣接**しているという。1つの辺の両端の頂点は互いに**隣接**していると言う(?)

辺には矢印を描く場合と描かない場合がある。辺が矢印である(辺が方向性を持つ、有向辺)グラフを有向グラフ、すべての辺が矢印でない(無向辺)グラフを**無向グラフ**と呼ぶ。有向グラフは双六を想像すると良い。それぞれのコマから進める方向は決まっていて、逆行は許されない。通常、ひとつのグラフで有向辺と無向辺を混在して使うことはない。また、無向グラフの辺$e(i,j)$を2本の有向辺$e(i\rightarrow j)$と$e(j\rightarrow i)$に置きかえて、等価な有向グラフを作ることができる。 道路は一方通行があるので、有向グラフで表現される。日本の鉄道路線はほぼ無向グラフで表わせるが、わずかに例外がある。

それぞれの辺に**重み**(コスト)を付与することがある。重みが付いているグラフを**重み付きグラフ**と呼ぶ。重み付きグラフは、反応流束を計算したり、物資の輸送容量を計算する場合に多用する。頂点にも重みを与えることがある。

頂点iから頂点jまで 隣接する辺をつたって (有向グラフの場合は辺の向きに沿って) たどりつける場合、その頂点と辺の系列を**歩道**,walkと呼ぶ。
そのうち、すべての辺が異なるものを **路** , trailと呼ぶ。
さらに、すべての頂点が異なるものを **パス** ,path、
始点と終点が同じ頂点であるパスを **循環** cycle( **巡回路** 、**環路** )と呼ぶ。

2頂点間の最短経路における辺数を**距離** distanceと呼ぶ。 グラフの最大頂点間距離を**直径** diameterと呼ぶ。

頂点 $i$ と $i$ をつなぐ(つまり出発点に戻ってくる)辺を**ループ** *loop*と呼ぶ。

頂点 $i$ から $j$ への辺が複数ある場合、それらを**多重辺**と呼ぶ。

ループも多重辺も持たないグラフを**単純グラフ**と呼ぶ。

無向グラフが**連結**であるとは、グラフの任意の2つの頂点の間をつなぐ経路が存在することを言う。非連結なグラフは孤立した2つ以上の連結なグラフの集まりである。(有向グラフの場合には、連結であっても、任意の頂点から頂点に行けるとは限らない)

どの頂点も次数が同じグラフのことを**正則グラフ**と呼ぶ。また、すべての異なる頂点対の間に辺がある正則グラフのことを**完全グラフ**と呼ぶ。立方体グラフは3-正則グラフ(すべての頂点が次数3のグラフ)、四面体グラフは完全グラフ$K_4$である。

頂点のうち $n$ 個を白、残りの $m$ 個を黒で塗りわけた時に、白同士、黒同士を結ぶ辺を持たないグラフを**二部グラフ**と呼ぶ。すべての白と黒の組みあわせの間に辺を持つグラフを**完全二部グラフ** $K_{n,m}$と呼ぶ。

![K3,3](https://upload.wikimedia.org/wikipedia/commons/thumb/1/11/Complete_bipartite_graph_K3%2C3.svg/200px-Complete_bipartite_graph_K3%2C3.svg.png)
![K5](https://upload.wikimedia.org/wikipedia/commons/thumb/6/6a/Complete_Graph_K5_with_labels.svg/200px-Complete_Graph_K5_with_labels.svg.png)
![Cube graph](https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Graph_isomorphism_b.svg/200px-Graph_isomorphism_b.svg.png)
![Tetrahedral graph K4](https://upload.wikimedia.org/wikipedia/commons/1/1f/Graphe_complet_K4.png)

> 典型的なグラフの例: 左から完全2部グラフ$K_{3,3}$、完全グラフ$K_5$, 立方体グラフ、四面体グラフ$K_4$。なお、グラフを平面に描く時には、辺を自由に曲げても構わない。

**部分グラフ**：グラフ$G$から、頂点と辺を抜きだして作ったグラフ

**真部分グラフ**: 部分グラフのうち、$G$そのもの以外。

**n連結グラフ**: $n$個の頂点をうまく選んで取り除くと分割されてしまう($n$頂点切断)ようなグラフ。

2つのグラフ$G$と$G’$が同じ個数の頂点を持ち、同一の辺のつながりかたをしている(グラフ$G$の頂点のラベルを書き換えることで、グラフ$G’$に完全に重ねることができる)時、それらは**同型** *isomorphic*であるという。

![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/9a/Graph_isomorphism_a.svg/200px-Graph_isomorphism_a.svg.png)
![](https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Graph_isomorphism_b.svg/200px-Graph_isomorphism_b.svg.png)

> 同型グラフの例。

## NetworkX

ネットワークをPythonで扱うのは、他の言語を使う場合に比べてかなり容易だが、グラフ理論のライブラリNetworkXを利用すると、さらに簡単になる。(ほかにSage http://doc.sagemath.org/html/en/index.html というのもあるらしい)

NetworkXで、以下のグラフを扱ってみよう。

![](https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Graph_isomorphism_b.svg/200px-Graph_isomorphism_b.svg.png)

`Graph()`は無向グラフを生成する。

In [0]:
import networkx as nx

g = nx.Graph([[1,2],[2,3],[3,4],[4,1],[1,5],[5,6],[6,2],[6,7],[7,3],[7,8],[8,4],[8,5]])
nx.draw_networkx(g, with_labels=True)

もう一方のグラフも作ってみよう。

![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/9a/Graph_isomorphism_a.svg/200px-Graph_isomorphism_a.svg.png)

In [0]:
import networkx as nx

h = nx.Graph([["a","g"],["b","h"],["c","i"],["d","j"],["a","h"],["a","i"],
              ["b","g"],["b","j"],["c","g"],["c","j"],["d","h"],["d","i"]])
nx.draw_networkx(h, with_labels=True)

これらは同型グラフですよね?

In [0]:
nx.is_isomorphic(g,h)

同型性をチェックするプログラムは自分で書けないこともないが、かなり面倒で、慎重なチェックが必要なので、NetworkXを使ったほうが良い。なお、厳密な同型性チェックに要する時間は、頂点の数の指数に比例するため、グラフが大きくなるとかなり難しくなる。NetworkXには、近似的かつ高速に同型性をチェックするいくつかのアルゴリズムもある。

## 平面性
平面グラフとは、平面上に描いた時に、辺が交わらないようにできるグラフのこと。上のabcdghijグラフ

![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/9a/Graph_isomorphism_a.svg/200px-Graph_isomorphism_a.svg.png)

は一見すると辺が交わりまくっているが、

![](https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Graph_isomorphism_b.svg/200px-Graph_isomorphism_b.svg.png)

のように変形することで交わりなく平面に描けるので、これらは平面グラフと言える。

一般に、多面体グラフはすべて平面的である。フラーレンも、ひとつのリングを大きくひろげれば平面に射影できる。ちなみに、化学物質の命名法は、立体分子は平面化したあとで環を数えることになっている(らしい)ので、例えば立方体分子cubaneの正式名はPentacyclo[4.2.0.0<sup>2,5</sup>.0<sup>3,8</sup>.0<sup>4,7</sup>]octaneとなり、5個の環を持つオクタンと呼ぶ。

平面グラフに関しては、非常に重要な定理がある。

### Kuratowskiの定理
グラフGが平面的グラフであるための必要十分条件は、Gが$K_5$と$K_{3,3}$のどちらの細分も含まないことである。

![K_5](https://upload.wikimedia.org/wikipedia/commons/thumb/2/2d/4-simplex_graph.svg/231px-4-simplex_graph.svg.png)

$K_5$

![K_3,3](https://upload.wikimedia.org/wikipedia/commons/thumb/1/11/Complete_bipartite_graph_K3%2C3.svg/317px-Complete_bipartite_graph_K3%2C3.svg.png)

$K_{3,3}$

与えられたグラフが平面的かどうかを自力で判定するのはかなり大変だが、もちろんNetworkXには判定関数がある。

In [0]:
nx.algorithms.planarity.check_planarity(g)

### 距離

立方体グラフは整いすぎて面白くないので、もう少し複雑なグラフを準備してみる。ここでは、球を格子に切ったようなグラフを作る。

In [0]:
# 球内に含まれる格子点を列挙する。
vertices = []
for x in range(-2, 3):
    for y in range(-2, 3):
        for z in range(-2, 3):
            if x**2 + y**2 + z**2 < 7:
                vertices.append([x,y,z])

# 格子点の総数
N = len(vertices)
print(N)
# numpyにしておく。(距離計算が楽)
import numpy as np
vertices = np.array(vertices)

# 隣接点同士をつなぐ。
import networkx as nx
G = nx.Graph()
for i in range(N):
    for j in range(i+1, N):
        v1 = vertices[i]
        v2 = vertices[j]
        d = v1-v2
        L = d@d  # 内積
        # 隣接しているなら内積は1
        if L == 1:
            G.add_edge(i,j)

nx.draw_networkx(G, with_labels=True)

グラフ`h`の頂点1と頂点80の最短経路は

In [0]:
nx.shortest_path(G,1,80)

In [0]:
nx.shortest_path_length(G,1,80)

In [0]:
nx.has_path(G,1,80)

直径とは、グラフのなかの最長路の長さのこと。

In [0]:
nx.diameter(G)

ルービックキューブのとりうる面の状態(43252003274489856000通り、4325京通り)それぞれをグラフの頂点とし、一回の操作でたどりつける状態を辺で結んだグラフを考える。任意の状態から、完全状態(すべての面がそろった状態)に戻すのに最低何回操作する必要があるか、という問題は、このグラフの直径を求める問題である。Googleは2010年に直径が20であることを証明した。 https://www.cube20.org

ほかにも、半径や中心や離心率や周といった指標もある。

ある頂点vの離心率とは、vからほかの頂点までの最大距離のこと。

In [0]:
nx.eccentricity(G, 1)

半径とは、グラフの離心率の最小値。

In [0]:
nx.radius(G)

中心とは、離心率が半径に一致するような頂点のこと。(一点とは限らない)

In [0]:
nx.center(G)

In [0]:
vertices[40]

確かに中心だ。

もっと複雑なグラフを考える。例えば、20個の頂点の間に、ランダムに辺を30本つないだグラフ。

In [0]:
import random

H = nx.Graph()
for i in range(20):
    H.add_node(i)

for i in range(30):
    j = random.randint(0,19)
    k = random.randint(0,19)
    if j != k:
        H.add_edge(j,k)

nx.draw_networkx(H, with_labels=True)

辺の数が少ないと、ひとつながりのグラフにならない場合もある。つながっていないかたまりの個数を成分(component)と呼ぶ。連結なグラフとは、成分が1つしかないグラフのことである。

In [0]:
nx.is_connected(H)

それぞれの成分に含まれる頂点は?

In [0]:
for x in nx.connected_components(H):
    print(x)

それぞれの成分に対して、簡単な分析をしてみよう。

In [0]:
from matplotlib import pyplot as plt

for members in nx.connected_components(H):
    subg = H.subgraph(members)
    nx.draw_networkx(subg, with_labels=True)
    plt.show()
    # check_planarityは2つの値を返す。
    isplanar, e = nx.algorithms.planarity.check_planarity(subg)
    if isplanar:
        print("平面グラフ")
    else:
        print("非平面グラフ")
    print("直径", nx.diameter(subg))

## 練習問題

JRの路線は、(今のところ)連結で、JRのどの駅へも、JRの列車だけで行ける。

しかし、私鉄は連結でないところも多い。例えば、名鉄には瀬戸線のように、名鉄本線と全くつながっていない支線がある。

日本最大の私鉄である近鉄もまた、歴史的経緯によりとても複雑な路線を持つ。近鉄の路線を、グラフ理論を使ってざっと分析してみよう。(http://travelstation.tokyo/station/kinki/kintetsu/)

近鉄の駅名はkintetsu.txtに以下のような形で入っている。連続している駅名は、隣接していることを意味し、空行は隣接していないことを意味する。

```
道明寺
柏原南口
柏原

古市
喜志
富田林
富田林西口
川西
滝谷不動
汐ノ宮
河内長野

尺土
近鉄新庄
忍海
近鉄御所
```


とりあえず読んでみる。

In [0]:
# ファイルをcolabにとりこむ。
! wget https://raw.githubusercontent.com/vitroid/PythonTutorials/2020m0/2%20Advanced/kintetsu.txt

file = open("kintetsu.txt")

stations = [station for station in file.readlines()]
stations

行末の最後の文字(`\n`)を除きたいので、`strip()`関数を追加する。


In [0]:
file = open("kintetsu.txt")
stations = [station.strip() for station in file.readlines()]
stations

隣りあう駅をedgeでつなぐ。

グラフに日本語表示ができないので、辞書を使って、駅名に通し番号を振る。

In [0]:
import networkx as nx
from   matplotlib import pyplot as plt
import japanize_matplotlib

code = dict()
for station in stations:
    if station not in code:
        code[station] = len(code)
        print(code[station], station)

K = nx.Graph()
for i in range(len(stations)-1):
    s1, s2 = stations[i:i+2]
    if s1 != "" and s2 != "":
        K.add_edge(code[s1], code[s2])
nx.draw_networkx(K, with_labels=True, font_size=10)


さっきのコードをそのまま使って、分析。

In [0]:
for members in nx.connected_components(K):
    subg = K.subgraph(members)
    plt.figure(3,figsize=(12,12)) 
    nx.draw_networkx(subg, with_labels=True, font_size=10,font_family='MS Mincho')
    plt.show()
    # check_planarityは2つの値を返す。
    isplanar, e = nx.algorithms.planarity.check_planarity(subg)
    if isplanar:
        print("平面グラフ")
    else:
        print("非平面グラフ")
    print("直径", nx.diameter(subg))

3つの成分があり、主成分の直径(一番遠い駅の間)は68駅離れているようです。でも、どこからどこが一番遠いのかを一発で調べるfunctionは見つけられませんでした。どのグラフも平面グラフです。(平面グラフでない路線図を持つ鉄道は日本にあるでしょうか?)

生駒山上へ行く路線はロープウェイのようですね。

## 宿題
正多面体グラフは、上ででてきた立方体グラフ以外に4つあります。この4つを作成し、上と同じように表示・分析して下さい。
