# 折れ線グラフ

複数の実験データを読み込み、それらをまとめた片対数折れ線グラフを作成する実習と課題をとおして学びます。

この実習では、データの処理に Pandas、データの描画に Plotly Express と呼ばれる Python の拡張機能を用います。

次のコードセルは Pandas と Plotly Express を利用可能にする設定です。これらの機能はそれぞれ `pd`, `px` という名称で利用できるようになります。

In [None]:
%pip install -q pandas nbformat plotly

import pandas as pd
pd.set_option('display.max_rows', 10)    # 大きな表の表示領域を上下5行分のみに制限する設定

import plotly.express as px
import plotly.io as pio
pio.templates.default = 'plotly_white'   # 図の背景色を白に設定

Jupyter のファイルブラウザで以下を確認しよう。

1. `data.zip` がダウンロードされたこと

1. `data.zip` が展開されて `data/` フォルダが作成され、そのなかに各種データが保存されていること

## 実習 1 (図5)：４手法の実行時間の比較

- スライドに描画されている図を読み取り、どのようなデータが描画されたのかを理解しなさい。

- スライドの説明を振り返って、それぞれのデータがどのフォルダのどのファイルに保存されているのか考えてみよう。

## 実習１−１：データの読み込みと表示

実験で扱うデータセットには、テキストファイル形式のものと Excel 形式のものがよく利用されます。本実習で扱うデータセットはすべてテキストファイル形式です。

テキストファイル形式のデータセットは、採用されている区切り文字によって、CSV ファイル、TSV ファイルなどと微妙に様式が異なるものがあります。CSV ファイルは Comma-separeted values （カンマで区切られた値）で、TSV ファイルは Tab-separated values （タブ符号で区切られた値）です。区切り文字には、コンマやタブのほか、空白、セミコロンなどが用いられることも多いです。本実習で扱うデータセットは以下のように、空白区切りの形式です。

~~~
50000 77.689
100000 423.707
150000 1198.823
200000 2525.566
250000 3979.562
300000 6508.614
350000 9091.961
400000 11823.245
450000 16017.558
500000 21379.217
~~~

標準的な CSV ファイルの場合、テキストファイルの第一行は表の項目名を書き並べたものとなっています。本実習で扱うデータセットは、上の例のようにデータのみが列挙されており、項目名は保存されていません。

CSV 形式のデータセットは基本的には `pd.read_csv(ファイル名)` で読み込めるようです。TSV 形式やその他の区切り文字が使われている場合は `pd.read_csv(ファイル名, sep='区切り文字')` のように、ファイルのなかで用いられている区切り文字を指定すれば読み込むことができます。

また、本実習で扱うデータセットのように、項目名が指定されていない場合は、以下の要領で `names=['項目1', '項目2']` のように項目名を適切なものに指定することができます。

In [None]:
cnm = pd.read_csv('data/cnm/etime-size.data',
                  sep=' ',
                  names=['size', 'etime'])

上のコードセルは `data/cnm/etime-size.data` というファイルに記録されたデータを読み込み、そのデータに `cnm` という名前を与えています。

以下のコードセルは、`cnm` と命名されたデータの内容を確認しています。

In [None]:
cnm

`data/cnm/etime-size.data` は、ソーシャルネットワークの大きさを 50,000, 100,000, ..., 500,000 と変化させたときの処理時間を記録したデータです。このデータは、実験対象のソーシャルネットワークの大きさ (`size`) と、その処理時間 (`etime`) からなります。

ソーシャルネットワークが大きくなるにつれて、処理時間が急激に長くなる点が気になります。たとえば、ソーシャルネットワークの大きさが 250,000 のときの処理時間は約 4,000 秒ですが、大きさが倍の 500,000 になると処理時間は5倍以上の 21,400 秒になります。データの大きさが倍になるごとに処理時間が5倍になったら、100万人規模のソーシャルネットワークの分析は難しいかもしれません。

## データの折れ線表示での確認

上のように読み込んだデータセットを折れ線グラフを作成するには `px.line(データセット, ...)` によって作ることができます。

~~~
px.line(データセット,
        x='横軸に該当する属性',
        y='縦軸に該当する属性',
        [color='色で区別する属性',]
        [linedash='破線で区別する属性',])
~~~

- `x=...` と `y=...` には、データセットの属性のうち、折れ線グラフの横軸と縦軸に用いるものを指定します。

- `color=...` を指定すると、データ列の着色方法を指定できます。`color=...` の利用方法については、のちほど扱います。

- `linedash=...` を指定すると、データ列を描画する先取を指定できます。`linedash=...` の利用方法については、のちほど扱います。

では、さきほど読み込んだ `cmd` データセットの折れ線グラフを描画してみましょう。

In [None]:
px.line(cnm, x='size', y='etime')

同様の方法で HE1, HE2, HN 手法を用いた分析に要した時間の折れ線グラフを順次描きます。

In [None]:
# HE1 手法の分析に要した時間の折れ線グラフ

he1 = pd.read_csv('data/he1/etime-size.data', sep=' ', names=['size', 'etime'])

px.line(he1, x='size', y='etime')

In [None]:
# HE2 手法の分析に要した時間の折れ線グラフ

he2 = pd.read_csv('data/he2/etime-size.data', sep=' ', names=['size', 'etime'])

px.line(he2, x='size', y='etime')

In [None]:
# HN 手法の分析に要した時間の折れ線グラフ

hn  = pd.read_csv('data/hn/etime-size.data',  sep=' ', names=['size', 'etime'])

px.line(hn, x='size', y='etime')

## 複数のデータセットを重ねあわせた折れ線グラフの作成

Plotly で複数の4種類のデータセットを重ねあわせた図を生成するには、いくつかの方法があります。ここでは、4種類のデータセットをひとつにまとめあげてから、それを描画する方法を紹介します。以降の作業手順は以下のとおりです。

- 4種類のデータセットをひとつに統合する。

- 統合するときにデータセット源を示す印 (Heuristics) を付加することで、データセットが混合しないようにする。

- 図を調整をする。

- 図を画像ファイルとして保存する。

## データ源を示す印を付加

すべての既存のデータに同じ値を設定するには `データ.assign(項目名=...)` を利用することができます。

以下のコードセルでは、すでに読み込んで `he1` と命名されたデータに `Heuristics` というデータの出自を表す欄を追加し、その値を `he1` としています。この設定によって、`he1` に含まれるデータの出自を `Heuristics` 欄で確認することができます。

In [None]:
he1.assign(Heuristics='he1')

## 複数のデータの統合

`cnm`, `he1`, `he2`, `hn` のデータにそれぞれ出自を設定したものを `pd.concat([データ1, データ2, ...])` によって統合し、統合したデータに `size_etime_all` と命名します。

In [None]:
size_etime_all = pd.concat([cnm.assign(Heuristics='cnm'),
                            he1.assign(Heuristics='he1'),
                            he2.assign(Heuristics='he2'),
                            hn.assign(Heuristics='hn')])

では、４つのデータを統合して、何が得られたか見てましょう。`Heuristics` 欄に各データの出自が区別できることがわかりますか。

In [None]:
size_etime_all

## 複数のデータ源を含むデータの描画

４つのデータが `size_etime_all` に統合されたので、さっそくグラフを描画してみましょう。

単独のデータから方法したときと同様に、描いてみましょう。

In [None]:
px.line(size_etime_all,
        x='size', y='etime',
        )

あれあれ、おかしなものが出てきましたよ。

本当は、４つのグラフを重ねあわせたものを描画したかったのに。

**考えてみよう**

- なんで、こんな出力になってしまったんだろう。もしかしてデータが破損している？

- 想定どおりの出力を得るには、どうすればいいだろうか？

以下のコードセルは統合されたデータのなかから `size_etime_all` `Heuristics` 欄が `cnm` になっているデータだけを抽出して描画しています。この画像を以前、CNM データを表示した図を見比べてみましょう。特に問題なさそうですね。

つまり、データは破損していないようです。

In [None]:
px.line(size_etime_all.query('Heuristics=="cnm"'),
        x='size', y='etime',
        )

上のコードでは、4種のデータを含む統合データセットの内容をひとつの折れ線グラフとして出力してしまっています。

目的とする出力を得るためには、データセットの内容を `Heuristics` 欄で区別して、それぞれを個別の折れ線グラフとして出力する必要があります。

このように欄の値ごとに個別の線を描き分けるためには `px.line` にパラメタを追加することで「どの欄のデータを用いて描きわけるか」を伝えます。

以下のコードセルは `Heuristics` 欄にしたがって、**異なる色** (`color`) を利用して線を描きわけることを指示しています。

In [None]:
px.line(size_etime_all,
        x='size', y='etime',
        color='Heuristics',
        )

`px.line(...)` は、線を色で描き分けるかわりに、**異なる線種**を用いて描きわけることもできます。その場合は `line_dash='欄の名前',` で指定します。

In [None]:
px.line(size_etime_all,
        x='size', y='etime',
        line_dash='Heuristics',
        )

# 図の調整

## 対数スケール

与えられたデータセットにおけるデータの値の振れ幅が大きい場合は、しばしばその値を対数 ($\log$ 関数)でスケーリングしたものを利用することがあります。普通の場合は、軸の値の目盛の値は $1, 2, 3, 4, 5, \ldots$ というように線型に並びます。一方、対数スケールを採用した場合は $1, 10, 100, 1000, \ldots$ のように、隣あった目盛は対数の底倍の値をとります。

Plotly Express で対数スケーリングを利用するには、軸名に `log_` を指定できます。以下では `px.line(...)` に `log_x=True,` という設定を施すことで横軸方法に対数スケーリングを適用しています。なお目盛のラベルの 100k, 1M という記号に用いられている k は千、Mは百万を表します。つまり、100k, 1M はそれぞれ10万、100万を意味します。対数スケーリングでは普通の対数の底を 10 にしますけれども、10万の次の目盛が10倍の100万となっていることがわかります。

In [None]:
px.line(size_etime_all,
        x='size', y='etime',
        line_dash='Heuristics',
        log_x=True,
        )

## 軸のラベル

まだ見本の図と異なる点があります。両軸のラベルです。見本では横軸のラベルは `Size of Social Network`、縦軸のラベルは `Elapsed Time [sec]` となっています。

軸のラベルの設定はすこしややこしいですが、`px.line(...)` のなかで以下のように設定します。

~~~
px.line(...,
        ...
        labels={ '横軸に指定したデータの欄': '横軸のラベル',
                '縦軸に指定されたデータの欄': '縦軸のラベル' },
        )
~~~

In [None]:
px.line(size_etime_all,
        x='size', y='etime',
        line_dash='Heuristics',
        log_x=True,
        labels={ 'size': 'Size of Social Network',
                'etime': 'Elapsed Time [sec]' },
        )

# 画像ファイルの生成

ようやくグラフの描画が完成しました。

ところで、ここでブラウザに出力されたグラフは、論文やプレゼンテーション資料のなかで利用したいですよね。そのための画像ファイルを生成しましょう。描画した図を画像ファイルに保存するには、`図.write_image('画像ファイルのパス')` を用います。

以下のコードセルは、統合された折れ線グラフから PDF ファイルと PNG ファイルを生成し、それぞれ `images` フォルダのなかの `fig5.pdf` と `fig5.png` というファイル名で保存しています。

**※ 注意:** JupyterLite 環境では画像ファイルを生成することはできません。以下のセルを実行してもエラーになります。

In [None]:
pio.kaleido.scope.mathjax = None

figure = px.line(size_etime_all,
            x='size', y='etime',
            line_dash='Heuristics',
            log_x=True,
            labels={ 'size': 'Size of Social Network',
                     'etime': 'Elapsed Time [sec]' },
        )

figure.write_image('images/fig5-all-etime-size.pdf')
figure.write_image('images/fig5-all-etime-size.png')

**注意**

出力された PDF の左下の灰色の枠内に "Loading [MathJax]/extensions/MathMenu.js" というメッセージが含まれることがあります。

画像をファイルに出力するときに、MathJax というパッケージを読み込むのですが、このメッセージは「MathJax を読み込んでいる途中です」と報せています。本来、このメッセージが画像ファイルに含まれてしまうのは、システムのバグなんですが、はいってしまうのは仕方がありません。

このような場合は、上のコードセルを再実行してみて下さい。二度目に実行するときはすでにパッケージの初期化は完了しているので、このメッセージは表示されないと思います。


---

# 課題１：図６

課題１（図３）にならって、図６を `images/fig3.pdf` として作成しなさい。

図３とは異なり、図６は CNM 手法のデータを含まない点に注意すること。

## 手順1: 図６を作成するのに必要なデータを探そう

配布されたデータについての説明を読み図６を作成するのに用いられたデータを探しなさい。データが見つかったら、以下のコードセルの `data/ここを埋める` の部分を適宜修正して、そのパスを指定しなさい。`data/ここを埋める` という箇所は３箇所あることに注意しなさい。

In [None]:
he1 = pd.read_csv('data/ここを埋める', sep=' ', names=['size', 'etime'])
he2 = pd.read_csv('data/ここを埋める', sep=' ', names=['size', 'etime'])
hn  = pd.read_csv('data/ここを埋める', sep=' ', names=['size', 'etime'])

## 手順２：３つのデータを統合しよう

課題１と同様に３つのデータを `pd.concat([..., ])` によって統合します。手順１ができていれば、以下のコードセルの修正は必要ありません。

In [None]:
# このコードセルは修正しなくて大丈夫

size_etime_all = pd.concat([he1.assign(Heuristics='he1'),
                            he2.assign(Heuristics='he2'),
                            hn.assign(Heuristics='hn')])

## 手順３：グラフの描画

課題１と同様に統合したデータを使ってグラフを描画します。

以下のコードセルは未完成です。このまま実行するとエラーになります。

- まず、`ここを埋める`を適宜埋めましょう。

- まだ、足りない設定があります。適宜、追加しましょう。課題１のコードセルを参考にして下さい。

- `'` や、`,` の使い方に注意して下さい。小さな間違いでもびっくりするような大きなエラーが出力されます。

- お手本と見比べながら、図５を出力したときの操作を参考に、お手本に忠実な出力が得られるに調整しましょう。

In [None]:
figure6 = px.line(size_etime_all,
            x='size', y='etime',
            line_dash='Heuristics',
            labels={ 'size': 'ここを埋める',
                     'etime': 'ここを埋める' },
        )

figure6.show()

## 図４：画像ファイルの保存

課題１−４と同様にグラフを PDF 形式で保存します。保存するファイル名は `images/fig6-tw-etime-size-M.pdf` とします。

以下のコードセルの `ここを埋める` を適宜修正しなさい。

In [None]:
figure6.write_image('ここを埋める')

!ls images

## 手順5: 確認と調整

出力された画像を開いて適切な出力が得られたか確認しましょう。必要ならばスクリプトを調整しましょう。