## 実践的なグラフデータの解析### データの準備

In [None]:
import pandas as pd

titles = pd.read_csv("./data/titles.csv", index_col="id")
print(titles.shape)
titles.head()

In [None]:
titles = titles.query("type == 'MOVIE' and 1990 < release_year < 2000")
titles.shape

In [None]:
actors = pd.read_csv("./data/credits.csv")
print(actors.shape)
actors.head()

In [None]:
actors_gr = actors.query("role == 'ACTOR'").groupby("id")

In [None]:
import itertools

# 2つの映画のIDとそれらに共通して出演している俳優の数を保持する
movie_a_b_list = []

# actors_grにあるすべての映画のタイトル
all_movies = set(actors_gr.groups.keys())

for movie_a, movie_b in itertools.combinations(titles.index, 2):
    # グループ化したキーにmovie_aとmovie_bが両方存在した場合
    if movie_a in all_movies and movie_b in all_movies:
        # movie_aとmovie_bの出演者をsetにする
        set_a = set(actors_gr["person_id"].get_group(movie_a))
        set_b = set(actors_gr["person_id"].get_group(movie_b))
        # 共通して出演している俳優の数
        n = len(set_a & set_b)
        if n > 0:
            movie_a_b_list.append([movie_a, movie_b, n])

# できあがったリストの最初の5行
movie_a_b_list[:5]

In [None]:
actor_overlaps = pd.DataFrame(
    movie_a_b_list,
    columns=[
        "movie_A",
        "movie_B",
        "weight",
    ],
)

actor_overlaps.head()

### グラフの構築

In [None]:
import networkx as nx

all_movie_graph = nx.from_pandas_edgelist(
    actor_overlaps,
    source="movie_A",
    target="movie_B",
    edge_attr="weight",
)

In [None]:
# ノードのラベルを非表示にしています
nx.draw_networkx(all_movie_graph, with_labels=False)

In [None]:
largest_component = max(
    nx.connected_components(all_movie_graph),
    key=len,
)
movie_graph = all_movie_graph.subgraph(largest_component)

In [None]:
from pyvis.network import Network

nt = Network("800px", "800px", notebook=True)
nt.from_nx(movie_graph)
nt.show("movie_graph.html")

In [None]:
titles["production_countries"].value_counts().head()

In [None]:
for node in movie_graph:
    # nodeはタイトルのIDになっているのでDataFrameの行を取得
    row = titles.loc[node]
    # ノードのtitle属性に、映画のタイトルと制作した国を追加
    movie_graph.nodes[node][
        "title"
    ] = f"{row['title']} {row['production_countries']}"
    # 文字列からeval関数でリストを生成
    countries = eval(row["production_countries"])
    # 国ごとに色分け
    if len(countries) == 1:
        if countries[0] == "US":
            movie_graph.nodes[node]["color"] = "#636EFA"
        if countries[0] == "IN":
            movie_graph.nodes[node]["color"] = "#EF553B"
    else:
        movie_graph.nodes[node]["color"] = "#00CC96"

In [None]:
nt = Network("800px", "800px", notebook=True)
nt.from_nx(movie_graph)
nt.show("colored_movie_graph.html")

### ノードの特徴を定量化する

In [None]:
# ノードのリストを作成
node_list = list(movie_graph.nodes())
# グラフに含まれるタイトルだけのDataFrame
titles_in_graph = titles.loc[node_list, :]
# 次数中心性の計算
deg_cent = nx.degree_centrality(movie_graph)
# degree centralityの列を追加
titles_in_graph = titles_in_graph.assign(
    degree_centrality=[deg_cent[node] for node in node_list]
)

# 出力列を限定
cols = [
    "title",
    "production_countries",
    "degree_centrality",
]

# 次数中心性で降順にソート
titles_in_graph.sort_values("degree_centrality", ascending=False)[cols]

In [None]:
# 媒介中心性を計算します。
bet_cent = nx.betweenness_centrality(movie_graph)

# 媒介中心性のデータを追加
titles_in_graph = titles_in_graph.assign(
    betweenness_centrality=[bet_cent[node] for node in node_list]
)

# 出力列を限定
cols = [
    "title",
    "production_countries",
    "betweenness_centrality",
]

# 降順で並べ変えて表示
titles_in_graph.sort_values(
    "betweenness_centrality",
    ascending=False,
)[cols]