# 第3章 プロッティングによるグラフ描画
## 3.1 データを可視化する理由
平均値や標準偏差、共分散が等しいのにデータのばらつき具合が異なる「アンスコムのデータ」を描画して、可視化の重要性を確認する。
## 3.2 matplotlibの基本

### データを読み込む

In [None]:
import seaborn as sns

# データを読み込む
anscombe = sns.load_dataset("anscombe")
display(anscombe)

# データセット別に層別する
dataset_1 = anscombe[ anscombe["dataset"] == "I" ]
dataset_2 = anscombe[ anscombe["dataset"] == "II" ]
dataset_3 = anscombe[ anscombe["dataset"] == "III" ]
dataset_4 = anscombe[ anscombe["dataset"] == "IV" ]

In [None]:
# 各データセットの基本統計量を比較する
print(dataset_1["x"].mean(), dataset_1["x"].std(), dataset_1["y"].mean(), dataset_1["y"].std())
print(dataset_2["x"].mean(), dataset_2["x"].std(), dataset_2["y"].mean(), dataset_2["y"].std())
print(dataset_3["x"].mean(), dataset_3["x"].std(), dataset_3["y"].mean(), dataset_3["y"].std())
print(dataset_4["x"].mean(), dataset_4["x"].std(), dataset_4["y"].mean(), dataset_4["y"].std())

In [None]:
# 各データセットの共分散を計算する
print(dataset_1[["x", "y"]].cov())
print(dataset_2[["x", "y"]].cov())
print(dataset_3[["x", "y"]].cov())
print(dataset_4[["x", "y"]].cov())

### 各データセットを可視化する

In [None]:
import matplotlib.pyplot as plt

# キャンバス
fig = plt.figure()

# キャンバスにsubplotを追加する
axes1 = fig.add_subplot(2, 2, 1)
axes2 = fig.add_subplot(2, 2, 2)
axes3 = fig.add_subplot(2, 2, 3)
axes4 = fig.add_subplot(2, 2, 4)

# 各サブプロットに散布図を描画する
axes1.plot(dataset_1["x"], dataset_1["y"], "o")
axes2.plot(dataset_2["x"], dataset_2["y"], "o")
axes3.plot(dataset_3["x"], dataset_3["y"], "o")
axes4.plot(dataset_4["x"], dataset_4["y"], "o")

# 個々のサブプロットに小さ目のタイトルを付ける
axes1.set_title("dataset_1")
axes2.set_title("dataset_2")
axes3.set_title("dataset_3")
axes4.set_title("dataset_4")

# 図の全体にタイトルを追加する
fig.suptitle("Anscombe Data")

# レイアウトを調整する
fig.set_tight_layout(True)

plt.show()