# Matplotlibとは

## Matplotlibの機能

Matplotlibは数値データを可視化するライブラリです。可視化とは、データをグラフにしたり、色分けして人間が見やすく、わかりやすくする方法のことです。

Matplotlibは様々なデータの可視化に対応しており、細かなカスタマイズができることからも広く使われています。

例えば、次のようなグラフを簡単に描くことができます。ここでは、正規分布という分布に基づいた模擬データでヒストグラムと、密度関数の線をプロットしています。

In [None]:
import matplotlib
import numpy as np
import matplotlib.pyplot as plt


mu = 100
sigma = 15
x = mu + sigma * np.random.randn(437)

num_bins = 50

fig, ax = plt.subplots()
n, bins, patches = ax.hist(x, num_bins, density=1)

y = ((1 / (np.sqrt(2 * np.pi) * sigma)) *
     np.exp(-0.5 * (1 / sigma * (bins - mu))**2))
ax.plot(bins, y, '--')
ax.set_xlabel('Smarts')
ax.set_ylabel('Probability density')
ax.set_title(r'Histogram of IQ: $\mu=100$, $\sigma=15$')

fig.tight_layout()

3次元のグラフを描くこともできます。

In [None]:
import matplotlib.pyplot as plt
from matplotlib import cm
from matplotlib.ticker import LinearLocator, FormatStrFormatter
import numpy as np


fig = plt.figure()
ax = fig.gca(projection='3d')

X = np.arange(-5, 5, 0.25)
Y = np.arange(-5, 5, 0.25)
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X**2 + Y**2)
Z = np.sin(R)

surf = ax.plot_surface(X, Y, Z, cmap=cm.coolwarm,
                       linewidth=0, antialiased=False)

ax.set_zlim(-1.01, 1.01)
ax.zaxis.set_major_locator(LinearLocator(10))
ax.zaxis.set_major_formatter(FormatStrFormatter('%.02f'))

fig.colorbar(surf, shrink=0.5, aspect=5)

データの分布を確認するときによく用いる散布図も作成できます。

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cbook as cbook

with cbook.get_sample_data('goog.npz') as datafile:
    price_data = np.load(datafile)['price_data'].view(np.recarray)
price_data = price_data[-250:]

delta1 = np.diff(price_data.adj_close) / price_data.adj_close[:-1]

volume = (15 * price_data.volume[:-2] / price_data.volume[0])**2
close = 0.003 * price_data.close[:-2] / 0.003 * price_data.open[:-2]

fig, ax = plt.subplots()
ax.scatter(delta1[:-1], delta1[1:], c=close, s=volume, alpha=0.5)

ax.set_xlabel(r'$\Delta_i$', fontsize=15)
ax.set_ylabel(r'$\Delta_{i+1}$', fontsize=15)
ax.set_title('Volume and percent change')

ax.grid(True)
fig.tight_layout()

## MatplotlibとSeaborn

Matplotlibと似たデータの可視化を行うライブラリにSeabornがあります。Matplotlibが数値データ全般、数学的なデータなども可視化の対象とし、昨日が幅広いのに対し、Seabornは統計データや観測データにより強く作られています。


例えば次のプログラムでは、線形回帰のデータを表示しています。これまでに見てきたMatplotlibで描いた場合よりプログラムの量が少ないにもかかわらずグラフを描けていることがわかります。

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

tips = sns.load_dataset("tips")
sns.regplot(x="total_bill", y="tip", data=tips);

このほかにも、データを分析するために必要な可視化を一気に行う機能も充実しています。

次のプログラムでは、データごとの組み合わせを自動で散布図にまとめています。

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

iris = sns.load_dataset("iris")
g = sns.PairGrid(iris, hue="species")
g.map(plt.scatter);

# いろいろな可視化

## 折れ線グラフ

折れ線グラフは、matplotlibの最も基本的な機能である。`plt.plot()`関数の1つ目の引数に横軸の値を、2つ目の引数に1つ目の引数で指定した値のときの縦軸の値をそれぞれ渡す。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.plot([1, 2, 3, 4], [1, 4, 2, 3])

色を変えることができる。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 1000)
plt.plot(x, np.sin(x), color='green')

線の種類を変えられる。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 1000)
plt.plot(x, np.cos(x), linestyle='-.')

より詳しいスタイルの変更は、ドキュメントを参照。

https://matplotlib.org/3.2.2/api/_as_gen/matplotlib.pyplot.plot.html

## 散布図

散布図も折れ線グラフと同様に`plt.plot()`関数を用いて描ける。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 40)
plt.plot(x, np.cos(x), marker='o', linestyle='')

折れ線グラフでの指定と組み合わせることで、プロット付きの折れ線グラフを描ける。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(0, 10, 40)
plt.plot(x, np.cos(x), marker='o', linestyle='-')

より高機能な散布図を描く方法として、`plt.scatter()`関数がある。こちらでは、各値ごとに色やサイズを変えたりすることができる。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.scatter(
    np.random.randn(100),
    np.random.randn(100),
    c=np.random.randn(100),
    s=np.random.randn(100) * 200,
    alpha=0.5
)

散布図の詳細は公式ドキュメントを参照。

https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html

## 密度

3次元のデータを表現するのに便利なのが、`plt.contour`関数です。この関数は地形図のように等高線図を描くことができます。

次のプログラムは、ダミーデータを基に等高線を描いたものです。`np.meshgrid()`関数は2次元のグリッド(格子状の目盛)を作成するものです。

これを用いて準備したグリッドを別に定義した値を生成する関数に渡し、ダミーデータを生成しています。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def f(x, y):
  return np.cos(x) ** 10 + np.sin(10 + y * x) * np.sin(x)


x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 40)

X, Y = np.meshgrid(x, y)
plt.contour(X, Y, f(X, Y))

`plt.contour()`関数の代わりに、`plt.contourf`関数を用いると、等高線では無く、色分けで値の高低を示すことができます。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def f(x, y):
  return np.cos(x) ** 10 + np.sin(10 + y * x) * np.sin(x)


x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 40)

X, Y = np.meshgrid(x, y)
plt.contourf(X, Y, f(X, Y), 20, cmap='RdGy')

密度分布図の詳細は公式ドキュメントを参照。

https://matplotlib.org/api/_as_gen/matplotlib.pyplot.contour.html


https://matplotlib.org/api/_as_gen/matplotlib.pyplot.contourf.html

## ヒストグラム

ヒストグラムはデータの分布を確認するときによく用います。

次のプログラムは、正規分布の模擬データをヒストグラムとして表示しています。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

plt.hist(np.random.randn(1000))

なにも指定しないと、10個のグループにデータを分けますが、`bins`を用いると分割数を変更できます。

In [None]:
import numpy as np
import matplotlib.pyplot as plt

plt.hist(np.random.randn(1000), bins=50)

ヒストグラムのより詳しい使い方は、公式ドキュメントを参照。

https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.hist.html

# 見た目の変更(カスタマイズ)

視覚化したものを見やすくわかりやすくするために、さまざまなカスタマイズが行える。ここでは、代表的なカスタマイズとして、目盛の変更や凡例の設定を行う。

ここまでは、簡単にグラフを描く方法を用いて描画してきたが、ここからはより細かなカスタマイズを行える方法でグラフを描画していく。

## 目盛

カスタマイズを細かく行える書き方では、下記のようなプログラムでグラフを描画する。

`plt.figure()`関数は空白のグラフ用紙を作るイメージ。そこに自分が描画したいグラフを追加していく。

In [None]:
import matplotlib.pyplot as plt
import numpy as np


x = np.linspace(0, 10, 1000)

fig = plt.figure()
ax = fig.add_subplot()

ax.plot(x, np.sin(x))

## 凡例

この方法を用いると、複数のグラフを1つのグラフに含めることができる。複数のグラフを1つのグラフに配置したときは、どのグラフが何を意味するのか表示するために、凡例を配置すると良い。凡例は`legend()`関数を用いて
表示できる。

In [None]:
import matplotlib.pyplot as plt
import numpy as np


x = np.linspace(0, 10, 1000)

fig = plt.figure()
ax = fig.add_subplot()

ax.plot(x, np.sin(x), label='sin(x)')
ax.plot(x, np.cos(x), label='cos(x)')
fig.legend()

## グラフのデザイン

Matplotlibにはいろいろなグラフのデザインが用意されている。

次のプログラムでは、`'seaborn-bright'`というテーマを使ってグラフを描画している。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.style.use('seaborn-bright')


x = np.linspace(0, 10, 1000)

fig = plt.figure()
ax = fig.add_subplot()

ax.plot(x, np.sin(x), label='sin(x)')

ax.plot(x, np.cos(x), label='cos(x)')
fig.legend()

こちらのグラフでは、`'dark_background'`を用いている。

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.style.use('dark_background')


x = np.linspace(0, 10, 1000)

fig = plt.figure()
ax = fig.add_subplot()

ax.plot(x, np.sin(x), label='sin(x)')
ax.plot(x, np.cos(x), label='cos(x)')
fig.legend()

グラフのデザインで用いることができるものは、`plt.style.available`で調べることができる。

In [None]:
plt.style.available

グラフを使いたい場所のイメージに合わせたテーマを選ぶと効果的に表現できる。


# Seaborn

Matplotlibと同じように、データを可視化するライブラリとしてSeabornを紹介する。

Seabornは統計データや観測データなどをより簡単に美しく可視化するライブラリとして作られています。

Seabornで描画するグラフなどはMatplotlibでも描画できることがよくありますが、MatplotlibではSeabornより多くのコードを必要とする場合が多いです。

## ペアプロット

ペアプロットはSeabornの特徴的な機能です。ペアプロットでは、多次元データの相関関係を一気に可視化できます。

この機能で、複数次元のデータがどのように関係があるのかをおよそ掴むことができ、分析の手掛かりを得られます。

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')


iris = sns.load_dataset("iris")
g = sns.PairGrid(iris, hue="species")
g.map(plt.scatter);

Seabornは可視化を行うときにmatplotlibを使っています。そのため、Seabornで描く図はMatplotlibのスタイルを適用することができます。

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('dark_background')


iris = sns.load_dataset("iris")
g = sns.PairGrid(iris, hue="species")
g.map(plt.scatter);

## 実際のデータによる使用例

ここでは、ボストン住宅価格データセット(データ分析を勉強するときの有名なデータセット)を用いて、実際の分析を体験します。

次のプログラムで、データセットを読み込みます。

In [None]:
import pandas as pd
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('seaborn')


dataset = load_boston()
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df['MEDV'] = dataset.target

In [None]:
df

データセットの中身がどのようなものなのか、pandasの`describe()`関数を用いて調べます。

データセットには、いくつかの情報が含まれています

*   CRIM	犯罪発生率
*   ZN	25,000平方フィート以上の住宅区画の割合
*   INDUS	小売業以外の商業が占める土地面積の割合
*   CHAS	チャールズ川沿いかどうか (1: 川沿い、 0: それ以外)
*   NOX	窒素酸化物の濃度
*   RM	平均部屋数
*   AGE	1940年よりも前に建てられた物件の割合
*   DIS	ボストンにある5つの雇用施設までの重み付きの距離
*   RAD	環状高速道路へのアクセス指数
*   TAX	10,000ドルあたりの固定資産税の割合
*   PTRATIO	町ごとの生徒と教師の比率
*   B	1000(Bk – 0.63)^2 の値。BKは町ごとの黒人の割合。
*   LSTAT	低所得者の割合(%)
*   MEDV	住宅価格の中央値(単位 1000ドル)



In [None]:
df.describe()

PandasのDataframeにある`coor()`メソッドは、各値の相関を調べられる。作成した相関の情報をもとに、matplotlibの`heatmap`を用いると、可視化できる。

この図では、値の間にどの程度の関係があるかが分かる。

In [None]:
sns.heatmap(df.corr())

ペアプロットを用いても、値間の関係を調べることができます。ここでは、RM、LSTAT、MEDEVの3つに絞ってプロットを見てみます。

In [None]:
sns.pairplot(df[['RM', 'LSTAT', 'MEDV']])

Seabornの`distplot()`関数を用いると、ヒストグラムと密度関数を得られる。これで、特定のデータの分布を詳しく確認できる。

In [None]:
sns.distplot(df['MEDV'])

Seabornの`jointplot()`関数を用いて、MEDVとLSTATの2つの値の分布について相関を調べる。

In [None]:
x, y = df['MEDV'], df['LSTAT']
sns.jointplot(x, y, alpha=0.5)

`jointplot()`には別の種類の表示形式もある。

In [None]:
sns.jointplot(df['MEDV'], df['LSTAT'], kind='kde')

このように、様々な視覚化をデータに対して施してみることで、データ間の関係がどのようになっているかを探る。