# 第13回 データの可視化

___
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/tsuboshun/begin-python/blob/gh-pages/_sources/workbook/lecture13.ipynb)

___

## この授業で学ぶこと

準備中

## matplotlib入門

Pythonでグラフを描画するのに**matplotlib**というライブラリがよく用いられる。この節ではmatplotlibの使い方の基本を説明する。

matplotlibを使うには、その中のpyplotというモジュールをimportする。
またグラフのラベルに日本語を使えるようにするためにjapanize_matplotlibというモジュールをimportする。こちらはpipによるインストールが必要である[^f1]。

[^f1]: matplotlibも標準ライブラリではないため本来はpipによるインストールが必要であるが、Google Colabの環境では初めからインストールされている。

In [None]:
pip install japanize_matplotlib

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib
plt.rcParams.update({'font.size': 14})  # 文字サイズを14pxとする

まずは描画用のサンプルデータを用意しよう。matplotlibではリストまたは[第6回で紹介](label:numpy)したNumPyの配列（`ndarray`）を扱うことができる。ここでは配列のデータを用意する。

In [None]:
import numpy as np

# 0から10までの0.1刻みの配列
sample_x = np.arange(0, 10, 0.1)

# y = 2x + eps　（epsはノイズ）
eps = np.random.normal(loc=0, scale=1, size=len(sample_x))
sample_y = sample_x * 2 + eps

`np.arange()` 関数は、`np.arange(start, stop, step)` と呼び出すと `start` から `stop` までの `step` 刻みの配列を生成する。

In [None]:
sample_x

In [None]:
len(sample_x)

`np.random.normal()` 関数は上のように呼び出すと、平均が0で標準偏差が1の正規分布に従う乱数の配列（長さ `len(sample_x)`）を生成する。代入先の `eps` はデータに加えるノイズとして使用する。

In [None]:
eps

配列の特徴の1つは、要素ごとの演算を一括で行えることである。`sample_x * 2 + eps` により、インデックスごとに `sample_x` の要素を2倍し、`eps` の要素を足している。

ここで生成した `sample_x` と `sample_y` は $\varepsilon$ をノイズとして $y = 2x + \varepsilon$ の関係を満たす2次元データ $(x, y)$ を100個生成したものと見ることができる。
1つ1つのデータは(`sample_x[0]`, `sample_y[0]`), (`sample_x[1]`, `sample_y[1]`), ..., (`sample_x[99]`, `sample_y[99]`)である。

### 散布図

サンプルデータを**散布図**として可視化してみよう。横軸に $x$、縦軸に $y$ の値をとって各データを点として打って描画する。このことをデータを散布図として**プロット**するという。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# 散布図のプロット
ax.scatter(sample_x, sample_y)

# 表示
plt.show()

1行目では `plt.subplots()` 関数によりFigureオブジェクトとAxesオブジェクトを生成して、変数 `fig` と `ax` に代入している[^f2][^f3]。

matplotlibによる描画はFigureオブジェクトとAxesオブジェクト、Axisオブジェクトの3つの要素で構成される。それぞれの関係を次の図に示す。

[^f2]: 一見すると戻り値が2つあるように見えるが、`plt.subplots()` はFigureオブジェクトとAxesオブジェクトのタプルを返しており（つまり戻り値は1つ）、タプルの各要素を `fig` と `ax` に割り当てている。戻り値のタプルを `,` 区切りの変数で受け取ることを**アンパック**という。
[^f3]: matplotlibの描画方法にはexplicit（明示的）な方法とimplicit（非明示的）な方法の2種類があるが、このテキストではexplicitな方法を説明する。implicitな方法というのは、`fig` や `ax` を用意することなく、いきなり `plt.plot()` などとプロットする方法のことである。implicitな方法は手軽にプロットできるというメリットがあるが、細かい調整ができないというデメリットもある。そのため、はじめからexplicitな方法を覚えるのがお勧めである。

```{figure} ./pic/fig_map.png
---
width: 400px
name: fig_map
---
グラフの構成要素
```

Axisオブジェクトは1つの軸を管理し、Axesオブジェクトは1つのグラフを管理し、Figureオブジェクトは描画全体を管理する。
これから予想できるようにAxisオブジェクトはAxesオブジェクトの属性、AxesオブジェクトはFigureオブジェクトの属性となっている。

コードの説明に戻ると、`plt.subplots()` 関数は `plt.subplots(n, m, figsize=(w, h))` と呼び出すと、横幅 `w`、高さ `h` （単位はインチ）のFigureオブジェクトと、その中に `n` 行 `m` 列の`n * m` 個のAxesオブジェクトを作成する。`n = m = 1` のときAxesオブジェクトは1つであり、このときに限り戻り値の `ax` はAxesオブジェクトそのものになる。それ以外のときは、Axesオブジェクトの配列となる。

散布図のプロットは `ax.scatter()` メソッドにより行う。第一引数に横軸の値の配列、第二引数に縦軸の値の配列を指定する。
最後に `plt.show()` 関数を呼び出すことで、グラフが表示される。

### 複数のプロット

複数のプロットを描画する方法を説明する。

まずは1枚のグラフに複数の散布図をプロットしてみよう。
先ほどのプロットに $y = 3x + \varepsilon$ の関係を満たすデータの散布図を追加する。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# データの用意
sample_y2 = sample_x * 3 + np.random.normal(loc=0, scale=1, size=len(sample_x))

# 散布図のプロット
ax.scatter(sample_x, sample_y)
ax.scatter(sample_x, sample_y2)

# 表示
plt.show()

このように同一のAxesオブジェクトの `scatter()` メソッドを複数回呼び出すことで、1つのグラフに複数の散布図をプロットすることができる。

プロットの色は自動的に設定されるが、自分で指定することもできる。
凡例や軸ラベル、タイトル、マーカーの種類の設定方法とともに紹介する。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# 散布図のプロット
ax.scatter(sample_x, sample_y, color='royalblue', marker='v', label='y=2x+e')
ax.scatter(sample_x, sample_y2, color='forestgreen', marker='x', label='y=3x+e')

# 軸ラベル・タイトルの設定
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_title('xとyの関係')

# 表示
plt.legend() # 凡例の表示
plt.show()

`ax.scatter()` メソッドのキーワード引数を使って、`color` を設定すると色を変更できる（`color` で指定できる色の名前の一覧は[こちら](https://matplotlib.org/stable/gallery/color/named_colors.html)）。色の名前を指定する以外の方法としてRGB値を直接指定することもできる（[こちら](https://matplotlib.org/stable/tutorials/colors/colors.html)を参照）。`marker` を設定するとマーカーの種類を変更できる（`marker` で指定できる値の一覧は[こちら](https://matplotlib.org/stable/api/markers_api.html)）。`label` を設定すると凡例の表示名を設定できる。凡例を表示するには、最後に `plt.legend()` を呼び出す。

軸ラベルは `ax.set_xlabel()`、`ax.set_ylabel()` により設定する。同様にタイトルは `ax.set_title()` により設定する。

次に複数のグラフを同時に描画する方法を紹介しよう。例えば、グラフを2枚横並びに作成するには `plt.subplots()` の第一引数に `1`、第二引数に `2` を指定する（1行2列という意味になる）。その際、`figsize` の値も合わせて大きくする。

In [None]:
# プロットの入れ物の用意
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

# データの用意
sample_y2 = sample_x * 2 + np.random.normal(loc=0, scale=2, size=len(sample_x))

# 散布図のプロット
axes[0].scatter(sample_x, sample_y)
axes[1].scatter(sample_x, sample_y2)

# タイトルの設定
axes[0].set_title('ノイズの標準偏差1')
axes[1].set_title('ノイズの標準偏差2')

# 表示
plt.show()

上のコード例では、ノイズの大きさを変えた2つのデータをプロットしている。
先ほど説明したように複数列の場合 `plt.subplots()` の戻り値の2つ目の要素はAxesの配列となるので、慣例により変数名も合わせて複数形の `axes` にしている。左のAxesは `axes[0]` により、右のAxesは `axes[1]` によりアクセスできる。

今回は1行のみなので `axes` は1次元配列となっているが、複数行・複数列のとき `axes` は2次元配列となる。
その場合は `axes[i, j]` という形でAxesにアクセスする。

### 折れ線グラフ

サンプルデータに対して線形回帰を行い、その結果を**折れ線グラフ**として可視化してみよう。

まずは線形回帰について概要を説明する。係数の求め方など詳しい解説はしないので、詳しくは他のテキストを当たってほしい。
今 `sample_x` と `sample_y` は実験により得られたデータであるとし、$x$ と $y$ の関係について詳しくはわからないという状況を考える（$y = 2x + \varepsilon$ という式により生成したことは忘れる）。
このとき $x$ と $y$ について例えば $y = ax + b + \varepsilon$ という一次関数にノイズが乗った関係を仮定して、データだけから尤もらしい係数 $a$、切片 $b$ を推定するのが線形回帰である。もちろん $a = 2$、$b = 0$ が正解であるが、データだけから推定するので多少の誤差が生じる。仮定した式 $y = ax + b + \varepsilon$ のことを**モデル**、$x$ のことを**説明変数**、$y$ のことを**目的変数**という。

係数 $a$、切片 $b$ の求め方はさておき、Pythonで線形回帰を行ってみよう。`sklearn` というライブラリの `linear_model` というモジュールから `LinearRegression` クラスをインポートする。

In [None]:
from sklearn.linear_model import LinearRegression

`sklearn` では、説明変数のデータ型は2次元配列であることが仮定されている。行方向は1つ1つのデータ、列方向は説明変数を表す。今回はデータ数100個、説明変数1個なので、`reshape()` メソッドにより1次元配列の `sample_x` を100行1列の2次元配列 `sample_x_reshape` に変換する。 `reshape()` メソッドはタプル `(n, m)` を渡すと、そのデータを `n` 行 `m` 列の2次元配列に変換する。

In [None]:
# データの用意
sample_x_reshape = sample_x.reshape((100, 1))

# 線形回帰モデルの用意
lr = LinearRegression()

# モデルのパラメータのフィッティング
lr.fit(sample_x_reshape, sample_y)

# モデルによる予測
y_pred = lr.predict(sample_x_reshape)

線形回帰モデルを表すオブジェクトを `LinearRegression()` により生成する。そして `fit()` メソッドにより係数と切片を求めている。`predict()` メソッドを使用すると、求めた係数と切片を使って `sample_x_reshape` の各データに対して予測値を求めて、1次元配列の戻り値として返してくれる。予測値は $ax + b$ を計算することにより求めている。

得られた係数と切片は `coef_` 属性、`intercept_` 属性から確認できる。それぞれ $2$、$0$ から少しズレるが、概ね正しい値が得られている。

In [None]:
lr.coef_

In [None]:
lr.intercept_

以上の結果をグラフに可視化しよう。線形回帰の予測値を折れ線グラフとしてプロットする。折れ線グラフは `ax.plot()` メソッドによりプロットすることができる。

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots(1, 1, figsize=(5, 4))

# 散布図、折れ線グラフのプロット
ax.scatter(sample_x, sample_y)
ax.plot(sample_x_reshape, y_pred, color="orange")

# 表示
plt.show()

## pandas入門

In [1]:
import pandas as pd
import seaborn as sns
df = sns.load_dataset('diamonds')

In [2]:
df.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


## ヒストグラム

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots()

# データの用意
x = df["price"].values

# ヒストグラムのプロット
ax.hist(x)

# 表示
plt.show()

In [None]:
# プロットの入れ物の用意
fig, ax = plt.subplots()

# データの用意
x = np.log(df["carat"].values)
y = np.log(df["price"].values)

# 2次元ヒストグラムのプロット
hb = ax.hexbin(x, y, gridsize=10)

# カラーバーのプロット
cb = fig.colorbar(hb, ax=ax)
cb.set_label('カウント')

# 表示
plt.show()