#2-1 ヒストグラム

## 簡単なヒストグラム

ヒストグラムは、データセットを理解するための重要なステップの1つとなります。

In [0]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('seaborn-white')
data = np.random.randn(1000) #乱数の生成

In [0]:
plt.hist(data);

hist() 関数には、計算と表示の両方を調整するためのオプションが数多く用意されています。
よりカスタマイズされたヒストグラムの例を次に示します。

In [0]:
plt.hist(data, bins=30, density=True, alpha=0.5, histtype='stepfilled', color='steelblue', edgecolor='none');

plt.hist のdocstringには、その他のカスタマイズオプションが数多く解説されています。異なる分布のヒストグラムを比較する際には、histtype='stepfilled' オプションを使い、透過度alpha を設定すると見やすいグラフになります。

In [0]:
x1 = np.random.normal(0, 0.8, 1000)
x2 = np.random.normal(-2, 1, 1000)
x3 = np.random.normal(3, 2, 1000)
kwargs = dict(histtype='stepfilled', alpha=0.3, density=True, bins=40)
plt.hist(x1, **kwargs)
plt.hist(x2, **kwargs)
plt.hist(x3, **kwargs)

単にヒストグラムの計算だけを行い（つまり、指定されたビン(棒)内のポイントの数を数えて）、それを表示しないのであれば、np.histogram() 関数が利用できます。

In [0]:
counts, bin_edges = np.histogram(data, bins=5)
print(counts)

## 2次元のヒストグラムとビニング

データ列をビンに分割して1 次元のヒストグラムを作成するのと同様に、2 次元のビンにデータを分割して2次元ヒストグラムを作成することもできます。ここでは、いくつかの方法を簡単に見てみましょう。まず、多変量ガウス分布から得られたx およびy配列のデータを定義します。

In [0]:
mean = [0, 0]
cov = [[1, 1], [1, 2]]
x, y = np.random.multivariate_normal(mean, cov, 10000).T

Matplotlibのplt.hist2d関数を使用するのが、2 次元のヒストグラムをプロットするための簡単な方法です。

In [0]:
plt.hist2d(x, y, bins=30, cmap='Blues')
cb = plt.colorbar()
cb.set_label('counts in bin')

plt.hist と同様に、plt.hist2dには、プロットとビニングを微調整するためのオプションが多数あります。これらは、関数のdocstringで解説されています。さらに、plt.hist に対してnp.histogram が対応しているように、plt.hist2dにはnp.histogram2dがあります。

In [0]:
counts, xedges, yedges = np.histogram2d(x, y, bins=30)

2 より大きい次元で一般化したビニングを行うには、np.histogramdd 関数を使います。

2 次元ヒストグラムは、軸に直行する四角形の小片で構成されます。正六角形で構成された2 次
元ヒストグラムも存在します。plt.hexbin は2 次元データセットを、六角形のグリッド内にビニン
グします。

In [0]:
plt.hexbin(x, y, gridsize=30, cmap='Blues')
cb = plt.colorbar(label='count in bin')

## 米国大統領の平均身長

歴代米国大統領の身長を考えてみましょう。president_heights.csv ファイルとして利用できます。これはカンマで区切られた簡単なラベルと値のリストです。

osのwgetコマンドでcsvファイルを入手します

In [0]:
!wget -P /content 'https://raw.githubusercontent.com/t-date/DataScience/master/data/president_heights.csv'
!head -4 ./president_heights.csv

pandas パッケージを使用して、ファイルを読み込み、情報を取り出します（高さの単位はセンチメートルです）。

In [0]:
import pandas as pd
data = pd.read_csv('./president_heights.csv')
heights = np.array(data['height(cm)'])
print(heights)

このデータ配列から、さまざまな要約統計量を計算できます。

In [0]:
print("Mean height: ", heights.mean())
print("Standard deviation:", heights.std())
print("Minimum height: ", heights.min())
print("Maximum height: ", heights.max())

いずれの場合も、集約によって配列全体が1 つの値に集約され、値の分布に関する情報が得られました。分位数も計算できます。

In [0]:
print("25th percentile: ", np.percentile(heights, 25))
print("Median: ", np.median(heights))
print("75th percentile: ", np.percentile(heights, 75))

米国大統領の平均身長は182 センチメートルであることがわかります。
このデータを可視化するとさらにわかりやすくなります。これはMatplotlibのツールを使用すれば可能となります。

In [0]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set() # プロットスタイルのセット

In [0]:
plt.hist(heights)
plt.title('Height Distribution of US Presidents')
plt.xlabel('height (cm)')
plt.ylabel('number');