# 第13回 データの可視化

___
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tsuboshun/begin-python/blob/gh-pages/_sources/workbook/lecture13.ipynb)

___

## この授業で学ぶこと

準備中

## matplotlib入門

Pythonでグラフを描画するのに**matplotlib**というライブラリがよく用いられる。この節ではmatplotlibの使い方の基本を説明する。

matplotlibを使うには、その中のpyplotというモジュールをimportする。
またグラフのラベルに日本語を使えるようにするためにjapanize_matplotlibというモジュールをimportする。japanize_matplotlibはpipによるインストールが必要である[^f1]。

[^f1]: matplotlibも標準ライブラリではないため本来はpipによるインストールが必要であるが、Google Colabの環境では初めからインストールされている。

In [None]:
pip install japanize_matplotlib

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib
plt.rcParams.update({'font.size': 14})  # 文字サイズを14pxとする

まずは描画用のサンプルデータを用意しよう。matplotlibではリストまたは[第6回で紹介](label:numpy)したNumPyの配列（`ndarray`）を扱うことができる。ここでは配列のデータを用意する。

In [None]:
import numpy as np

# 0から10までの0.1刻みの配列
sample_x = np.arange(0, 10, 0.1)

# y = 2x + eps　（epsはノイズ）
eps = np.random.normal(loc=0, scale=1, size=len(sample_x))
sample_y = sample_x * 2 + eps

`np.arange()` 関数は、`np.arange(start, stop, step)` と呼び出すと `start` から `stop` までの `step` 刻みの配列を生成する。

In [None]:
sample_x

In [None]:
len(sample_x)

`np.random.normal()` 関数は上のように呼び出すと、平均が0で標準偏差が1の正規分布に従う乱数の配列（長さ `len(sample_x)`）を生成する。代入先の `eps` はデータに加えるノイズとして使用する。

In [None]:
eps

配列の特徴の1つは、要素ごとの演算を一括で行えることである。`sample_x * 2 + eps` により、インデックスごとに `sample_x` の要素を2倍し、`eps` の要素を足している。

ここで生成した `sample_x` と `sample_y` は $\varepsilon$ をノイズとして $y = 2x + \varepsilon$ の関係を満たす2次元データ $(x, y)$ を100個生成したものと見ることができる。
1つ1つのデータは(`sample_x[0]`, `sample_y[0]`), (`sample_x[1]`, `sample_y[1]`), ..., (`sample_x[99]`, `sample_y[99]`)である。

### 散布図

サンプルデータを**散布図**として可視化してみよう。横軸に $x$、縦軸に $y$ の値をとって各データを点として打って描画する。このことをデータを散布図として**プロット**するという。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# 散布図のプロット
ax.scatter(sample_x, sample_y)

# 表示
plt.show()

1行目では `plt.subplots()` 関数によりFigureオブジェクトとAxesオブジェクトを生成して、変数 `fig` と `ax` に代入している[^f2][^f3]。

matplotlibによる描画はFigureオブジェクトとAxesオブジェクト、Axisオブジェクトの3つの要素で構成される。Axisオブジェクトは1つの軸を管理し、Axesオブジェクトは1つのグラフを管理し、Figureオブジェクトは描画全体を管理する。それぞれの関係を次の図に示す。

[^f2]: 一見すると戻り値が2つあるように見えるが、`plt.subplots()` はFigureオブジェクトとAxesオブジェクトのタプルを返しており（つまり戻り値は1つ）、タプルの各要素を `fig` と `ax` に割り当てている。戻り値のタプルを `,` 区切りの変数で受け取ることを**アンパック**という。
[^f3]: matplotlibの描画方法にはexplicit（明示的）な方法とimplicit（非明示的）な方法の2種類があるが、このテキストではexplicitな方法を説明する。implicitな方法というのは、`fig` や `ax` を用意することなく、いきなり `plt.plot()` などとプロットする方法のことである。implicitな方法は手軽にプロットできるというメリットがあるが、グラフの細かい調整ができないというデメリットもある。そのため、はじめからexplicitな方法を覚えるのがお勧めである。

```{figure} ./pic/fig_map.png
---
width: 400px
name: fig_map
---
グラフの構成要素
```

`plt.subplots()` 関数は `plt.subplots(n, m, figsize=(w, h))` と呼び出すと、横幅 `w`、高さ `h` （単位はインチ）のFigureオブジェクトと、その中に `n` 行 `m` 列の`n * m` 個のAxesオブジェクトを作成する。`n = m = 1` のときAxesオブジェクトは1つであり、このときに限り戻り値の `ax` はAxesオブジェクトそのものになる。それ以外のときは、Axesオブジェクトの配列となる。

散布図のプロットは `ax.scatter()` メソッドにより行う。第一引数に横軸の値の配列、第二引数に縦軸の値の配列を指定する。
最後に `plt.show()` 関数を呼び出すことで、グラフが表示される。

### グラフの調整

次にグラフの見た目を細かく調整してみよう。

まずは1枚のグラフに複数の散布図をプロットする。
先ほどのプロットに $y = 3x + \varepsilon$ の関係を満たすデータの散布図を追加する。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# データの用意
sample_y2 = sample_x * 3 + np.random.normal(loc=0, scale=1, size=len(sample_x))

# 散布図のプロット
ax.scatter(sample_x, sample_y)
ax.scatter(sample_x, sample_y2)

# 表示
plt.show()

このように同一のAxesオブジェクトの `scatter()` メソッドを複数回呼び出すことで、1つのグラフに複数の散布図をプロットすることができる。

プロットの色は自動的に設定されるが、自分で指定することもできる。
凡例や軸ラベル、タイトル、マーカーの種類の設定方法とともに紹介する。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# 散布図のプロット
ax.scatter(sample_x, sample_y, color='royalblue', marker='v', label='y=2x+e')
ax.scatter(sample_x, sample_y2, color='forestgreen', marker='x', label='y=3x+e')

# 軸ラベル・タイトルの設定
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_title('xとyの関係')

# 表示
plt.legend() # 凡例の表示
plt.show()

`ax.scatter()` メソッドのキーワード引数を使って、`color` を設定すると色を変更できる（`color` で指定できる色の名前の一覧は[こちら](https://matplotlib.org/stable/gallery/color/named_colors.html)）。`marker` を設定するとマーカーの種類を変更できる（`marker` で指定できる値の一覧は[こちら](https://matplotlib.org/stable/api/markers_api.html)）。`label` を設定すると凡例の表示名を設定できる。凡例を表示するには、最後に `plt.legend()` を呼び出す。

軸ラベルは `ax.set_xlabel()`、`ax.set_ylabel()` により設定する。同様にタイトルは `ax.set_title()` により設定する。

### 折れ線グラフ

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

sample_y2 = sample_x * 2

# 散布図、折れ線グラフのプロット
ax.scatter(sample_x, sample_y)
ax.plot(sample_x, sample_y2, color="orange")

# 表示
plt.show()

## pandas入門

In [None]:
import pandas as pd
import seaborn as sns
df = sns.load_dataset('diamonds')

In [None]:
df.head()

## ヒストグラム

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots()

# データの用意
x = df["price"].values

# ヒストグラムのプロット
ax.hist(x)

# 表示
plt.show()

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots()

# データの用意
x = np.log(df["carat"].values)
y = np.log(df["price"].values)

# 2次元ヒストグラムのプロット
hb = ax.hexbin(x, y, gridsize=10)

# カラーバーのプロット
cb = fig.colorbar(hb, ax=ax)
cb.set_label('カウント')

# 表示
plt.show()