# 入力データの可視化

## データの読み込み

In [None]:
import numpy as np
from sklearn.datasets import load_boston
import pandas as pd

loader = load_boston()
X, y = loader.data, loader.target

data = np.concatenate((X, y[:, np.newaxis]), axis=1)
columns = np.append(loader.feature_names, ['PRICE'])
df = pd.DataFrame(data=data, columns=columns)
df.tail()

## 統計データ表示

In [None]:
df.describe()

## 相関行列表示

散布図行列を表示すると、特徴同士の関係がわかりやすい。

全ての特徴を表示すると見づらいので、以下では特徴2個と正解ラベルのみ表示。

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

features = ['RM', 'LSTAT', 'PRICE']
sns.pairplot(df[features], size=2)
plt.show()

特徴が多い場合は、相関係数を計算してヒートマップにする。

In [None]:
corrcoef = np.corrcoef(df.T)
labels = df.columns.values
sns.heatmap(corrcoef, cbar=True, annot=True, square=True, fmt='.2f',
            annot_kws={'size': 8}, xticklabels=labels, yticklabels=labels)

plt.show()