# 大きなデータセットの扱い（図３と図７）

数十万項目を含む大きなデータセットの散布図を作成する実習です。大きなファイルを扱うときには、データセットの読み込み、その処理、そして描画には大きな計算資源が必要になります。描画方式が不適切な場合には計算資源が枯渇するために、閲覧が困難な場合もしばしばあります。

この実習では大きなデータセットを扱うときに注意すべき点について学びます。

In [None]:
%pip install -q pandas nbformat plotly

import pandas as pd
pd.set_option('display.max_rows', 10)    # 大きな表の表示領域を上下5行分のみに制限する設定

import plotly.express as px

## データセットの読み込み

Clauset, Newman, Morgan が 2004 年に提案した CNM 法における、合併比率の変化を観察するために、合併比率の散布図 (Scatter plot) を描画します。

合併比率のデータは `data/cnm/ratio-join.data` に保存されているので、それを実習１と同様の方法で読み込みます。このデータセットには合併順を表す合併順番号 (#Joins) と、合併比率 (consolidation ratio) が記録されています。それぞれに `joins` と `ratio` という属性名を与えます。

In [None]:
cnm = pd.read_csv('data/cnm/ratio-join.data', sep=' ', names=['joins', 'ratio'])

Plotly は散布図を描くための `px.scatter(データセット, x='横軸の属性名', y='縦軸の属性名', ...)` という機能を提供しています。

以下のコードセルを実行することで、散布図を描くことができます。

このデータセットは非常に43万個と非常に多くのデータ項目を含んでおり、デフォルトの設定で描画するとグラフの右端が塗り潰されてしまいます。このため、個々の点の大きさを 1 に設定することで見易くしています。このための設定が以下です。

~~~
fig_cnm.update_traces(marker_size=1)
~~~

In [None]:
fig_cnm = px.scatter(cnm,
                x='joins', y='ratio',
                render_mode='webgl',
                width=800, height=600)
fig_cnm.update_traces(marker_size=1)
fig_cnm.show()

縦軸の合併比率の偏差が激しいため、#Joins が 300K 周辺の様子しか観察することができません。そこで、縦軸を対数表示にして描画しましょう。

In [None]:
fig_cnm = px.scatter(cnm,
                x='joins', y='ratio',
                log_y=True,
                render_mode='webgl',
                width=800, height=600,
                template='simple_white')
fig_cnm.update_traces(marker_size=1)
fig_cnm.show()


## 注意

図の作成方法について、いくつか注意すべき点があります。

- このデータセットは約43万個のデータ項目を含みます。これらをすべてベクトル画像として描くと、大変な計算資源を消費します。上のコードセルでは、グラフィックプロセッサ (GPU) を用いた描画を高速描画機能を指定 (`rendering_mode='webgl'`)しました。

    この機能を指定しないとウェブブラウザが固まる恐れがあります。この場合、なにが起きるのか、教員のデモを眺めてみましょう。

- Plotly が散布図を描くときは普通は各点はもっと大きく描かれます。データ項目数が少ない場合は見易いのですが、今回のデータセットのようにデータ項目数が多くなるとデータ項目を表す点の重なり合いが激しくなるために困ります。

    そこで、上のコードセルでは `fig_cnm.update_traces(marker_size=1)` という指示により、データ点を1ピクセルで描かせることで、この問題を回避しています。このような手法でも図が見難い場合は、[二次元ヒストグラム](https://plotly.com/python/2D-Histogram/)、[コンター図](https://plotly.com/python/contour-plots/)などの利用を検討しましょう。

---

# 課題：図７

図３の実習内容にならって図７を完成し、`images/fig7-hn-ratio-joins.png` という名前で出力しなさい。

1. 入力データとして、どのファイルを扱えばよいか考えよう。

1. データを描画し、ブラウザの上で観察し、問題がないか確認しよう。

1. 出力ファイル名を指定するにはスクリプトのどの部分を変更すべきか考えよう。

1. 出力できたと思ったら、Jupyter のファイルブラウザで確かにファイルが出力されたか確認しよう。

1. 出力された画像を開いて適切な出力が得られたか確認しよう。

## 手順1: 図7を作成するのに必要なデータを探そう

配布されたデータについての説明を読み図7を作成するのに用いられたデータを探しなさい。データが見つかったら、以下のコードセルの `data/ここを埋める` の部分を適宜修正して、そのパスを指定しなさい。

In [None]:
hn = pd.read_csv('data/ここを埋める', sep=' ', names=['joins', 'ratio'])

hn

## 手順2-3: グラフの描画

読み込んだデータを使ってグラフを描画します。

以下のコードセルは未完成です。このまま実行してもグラフは生成されますが、お手本とすこし異なった点があります。お手本と見比べながら、完成して下さい。

- まず、`ここを埋める`を適宜埋めましょう。

- まだ、足りない設定があります。適宜、追加しましょう。課題１のコードセルを参考にして下さい。

- `'` や、`,` の使い方に注意して下さい。小さな間違いでもびっくりするような大きなエラーが出力されます。

- お手本と見比べながら、図３を出力したときの操作を参考に、お手本に忠実な出力が得られるように調整しましょう。

In [None]:
fig_hn = px.scatter(hn,
                x='ここを埋める', y='ここを埋める',
                log_y=True,
                render_mode='webgl',
                width=800, height=600)

fig_hn.update_traces(ここを埋める)

fig_hn.show()

## 手順4: 画像ファイルの保存

課題１−４と同様にグラフを PNG 形式で保存します。保存するファイル名は `images/fig7-hn-ratio-join-500K.png` とします。

以下のコードセルの `ここを埋める` を適宜修正しなさい。

In [None]:
# 回答例（画像ファイルの出力）

fig_hn.write_image('ここを埋める')

!ls images

## 手順5: 確認と調整

出力された画像を開いて適切な出力が得られたか確認しましょう。必要ならばスクリプトを調整しましょう。