# データ分布の可視化

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="darkgrid")

データを分析またはモデル化する取り組みの初期段階は、変数がどのように分布しているかを理解することです。  
分布を可視化する技法は，多くの重要な質問に対する迅速な答えを提供できます、  

データはどの範囲をカバーしているのか？その中心傾向は? 一方向に大きく偏っているか？二峰性の証拠はあるか？有意な外れ値はあるか？  
更に、これらの質問に対する答えは、他の変数によって定義された群ごとで異なるか？  

分布モジュールには、このような質問に答えるために設計された関数がいくつかあります。  
軸レベルの関数は、`histplot()`、`kdeplot()`、`ecdfplot()`、`rugplot()`です。  

これらは図レベルの`displot()`、`jointplot()`、`pairplot()`関数にまとめられています。  

分布を可視化するにはいくつかの異なるアプローチがあり、それぞれに相対的な利点と欠点があります。特定の目的に最適なアプローチを選択できるように、これらの要素を理解することが重要です。

## 単変量ヒストグラムのプロット

分布を可視化する最も一般的なアプローチは、おそらくヒストグラムです。  

これは、`histplot()`と同じ基本コードを使用する`displot()`のデフォルトのアプローチです。  
ヒストグラムは、データ変数を表す軸が離散的なビンの集合に分割され、各ビン内に入るデータのカウントが対応するバーの高さを用いて表示される棒グラフです。

In [None]:
penguins = pd.read_csv("penguins.csv")

sns.displot(penguins, x="flipper_length_mm")

plt.show()

このプロットを見ると、flipper_length_mm変数についていくつかの洞察が得られます。  

例えば、最も一般的なフリッパーの長さは約195mmであることがわかるが、分布は二峰性であるため、この1つの数値はデータをうまく表していません。

## ビンサイズの選択

ビンのサイズは重要なパラメータであり、間違ったビンのサイズを使用すると、データの重要な特徴を不明瞭にしたり、ランダムな変動から見かけ上の特徴を作り出したりして、誤解を招く可能性があります。  
デフォルトでは、`displot()`, `histplot()`は、データの分散とオブザベーションの数に基づいてデフォルトのビン・サイズを選択します。  

しかし、このような自動的なアプローチは、データの構造に関する特定の仮定に依存するので、頼りすぎてはいけません。  
分布の印象が異なるビン・サイズ間で一貫していることを常にチェックすることをお勧めします。サイズを直接選択するには、`binwidth`パラメータを設定します。

In [None]:
sns.displot(penguins, x="flipper_length_mm", binwidth=3)

plt.show()

ビンのサイズではなくビンの数を指定する方が合理的である場合があります。

In [None]:
sns.displot(penguins, x="flipper_length_mm", bins=20)

plt.show()

デフォルトが失敗する状況の 1 つの例は、変数が比較的少数の整数値を取る場合です。その場合、デフォルトのビン幅が小さすぎる可能性があり、分布に厄介なギャップが生じます。

In [None]:
tips = pd.read_csv("tips.csv")

sns.displot(tips, x="size")

plt.show()

1つの正解は、配列を`bins`に渡すことで正確なビン ブレークを指定することです。

In [None]:
sns.displot(tips, x="size", bins=[1, 2, 3, 4, 5, 6, 7])

plt.show()

これは、データセット内の固有の値を対応する値の中心にあるバーで表すビン ブレークを選択する`discrete=True`を設定することによっても実現できます。

In [None]:
sns.displot(tips, x="size", discrete=True)

plt.show()

ヒストグラムのロジックを使用して、カテゴリ変数の分布を視覚化することもできます。  
ビンはカテゴリ変数に対して自動的に設定されますが、軸のカテゴリ特性を強調するためにバーをわずかに「縮小」することも役立つ場合があります。

In [None]:
sns.displot(tips, x="day", shrink=.8)

plt.show()

## 他の変数での条件付け

ある変数の分布を理解したら、次のステップは、その分布の特徴がデータセット内の他の変数で異なるかどうかを尋ねることです。  
例えば、上で見たフリッパーの長さの二峰性分布は何によって説明されるのでしょうか？  

`displot()`と`histplot()`は、色相セマンティックによって条件付きサブセットをサポートしています。  
変数を`hue`に代入すると、その変数のユニークな値のそれぞれについて別々のヒストグラムが描画され、色で区別されます。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species")

plt.show()

デフォルトでは、さまざまなヒストグラムが互いに "重なり"、場合によっては見分けがつかなくなります。  
1つのオプションは、ヒストグラムの視覚表現を棒グラフから「ステップ」プロットに変更することです。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", element="step")

plt.show()

あるいは、各バーを重ねる代わりに、"積み重ね"、つまり縦に移動させることもできます。  
このプロットでは、フル・ヒストグラムのアウトラインは、単一の変数のみのプロットと一致します。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", multiple="stack")

plt.show()

積み重ねヒストグラムは、変数間の部分～全体の関係を強調するが、他の特徴を不明瞭にすることがあります（例えば、アデリー分布の最頻値を決定するのは難しい）。  
もう1つのオプションは、バーを "かわす"ことで、バーを水平に動かして幅を小さくすることができます。  

これは、重なりがなく、棒グラフの高さが同等であることを保証します。  
しかし、これはカテゴリカル変数がレベルの数が少ないときにのみうまく機能します。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="sex", multiple="dodge")

plt.show()

`displot()`は図レベルの関数であり、FacetGrid上に描画されるため、2番目の変数を`hue`ではなく（あるいは`hue`に加えて）`col`または`row`に代入することで、個別のサブプロットに個々の分布を描画することも可能です。  
これは、各サブセットの分布をよく表しますが、直接比較を描くことがより難しくなります。

In [None]:
sns.displot(penguins, x="flipper_length_mm", col="sex")

plt.show()

### 正規化ヒストグラム統計量

注意すべきもう1つのポイントは、サブセットがオブザベーションの数が不均等である場合、それらの分布をカウントで比較することは理想的でないかもしれないということです。  
1つの解決策は、 statパラメータを用いてカウントを正規化することです。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", stat="density")

plt.show()

しかしデフォルトでは、正規化は分布全体に適用されるので、これは単に棒グラフの高さを再スケーリングします。  
`common_norm=False` を設定すると、各サブセットが独立して正規化されます。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", stat="density", common_norm=False)

plt.show()

密度の正規化は、棒グラフの面積の合計が1になるようにスケーリングします。  
その結果、密度軸は直接解釈できなくなります。  

もう1つのオプションは、バーの高さの合計が1になるように正規化することです。  
これは変数が離散的であるときに最も意味があります。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", stat="probability")

plt.show()

### カーネル密度推定

ヒストグラムは、オブザベーションをビン化してカウントすることで、データを生成した基本的な確率密度関数を近似することを目的としています。  
カーネル密度推定（KDE）は、同じ問題に対する異なるソリューションを提示します。   

KDEプロットは、離散ビンを使用するのではなく、ガウス・カーネルでオブザベーションを平滑化し、連続密度推定を生成します。

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="kde")

plt.show()

ヒストグラムのビンサイズと同様に、KDEがデータを正確に表現できるかどうかは、平滑化帯域幅の選択に依存します。  
過剰に平滑化された推定値は、意味のある特徴を消してしまうかもしれませんが、過小に平滑化された推定値は、ランダムなノイズの中にある真の形状を不明瞭にしてしまうかもしれません。  

推定値のロバスト性を確認する最も簡単な方法は、デフォルトの帯域幅を調整することです。

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="kde", bw_adjust=.25)

plt.show()

帯域幅が狭いと二峰性はよりはっきしますが、カーブの滑らかさはかなり失われます。  
対照的に、帯域幅が広いと二峰性はほとんど完全に見えなくなります。

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="kde", bw_adjust=2)

plt.show()

### 他の変数の条件付け

ヒストグラムと同様、`hue`引数を代入すると、その変数のレベルごとに個別の密度推定が計算されます。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="kde")

plt.show()

多くの場合、レイヤーKDEはレイヤーヒストグラムよりも解釈しやすいので、比較のタスクにはしばしば良い選択となります。  
しかし、複数の分布を解決するための同じオプションの多くは、KDEにも当てはまります。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="kde", multiple="stack")

plt.show()

積み重ねプロットでは、デフォルトで各曲線間の領域が塗りつぶされていることに注意してください。  
デフォルトのアルファ値（不透明度）は異なるが、単一密度または層状密度の曲線を塗りつぶすことも可能です。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="kde", fill=True)

plt.show()

### カーネル密度推定の落とし穴

KDEプロットには多くの利点があります。  
データの重要な特徴（中心傾向、二峰性、スキュー）が見分けやすく、部分集合間の比較が容易です。  

しかし、KDEが基礎となるデータをうまく表現できない状況もあります。  
これは、KDEのロジックが、基礎となる分布が滑らかで、境界がないと仮定しているからです。  

この仮定が失敗する1つの方法は，変数が自然に境界を持つ量を反映するときです。  
境界の近くにオブザベーションがある場合（たとえば、負になりえない変数の小さな値など）、KDE曲線は非現実的な値まで伸びるかもしれません。

In [None]:
sns.displot(tips, x="total_bill", kind="kde")

plt.show()

これは、曲線が極端なデータポイントからどこまで伸びるかを指定するカットパラメータで部分的に回避することができます。  
しかし、これは曲線が描かれる場所にしか影響しません。密度推定値は、データが存在し得ない範囲でも平滑化され、分布の極端な部分で人為的に低くなります。

In [None]:
sns.displot(tips, x="total_bill", kind="kde", cut=0)

plt.show()

KDEのアプローチは、離散的なデータ、またはデータが本来連続的であるにもかかわらず特定の値が過剰に表現されている場合にも失敗します。  
心に留めておくべき重要なことは、データ自体が滑らかでなくても、KDEは常に滑らかな曲線を示すということです。  

例えば、ダイヤモンドの重さの分布を考えてみましょう

In [None]:
diamonds = pd.read_csv("diamonds.csv")

sns.displot(diamonds, x="carat", kind="kde")

plt.show()

KDEは特定の値の周辺にピークがあることを示唆しているが、ヒストグラムはもっとギザギザの分布を示しています。

In [None]:
sns.displot(diamonds, x="carat")

plt.show()

妥協案として、これら2つのアプローチを組み合わせることが可能です。  
ヒストグラム・モードでは、`displot()`は（`histplot()`と同様に）平滑化されたKDE曲線を含めるオプションがあります。  

（kde=Trueであり、kind="kde "ではないことに注意）

In [None]:
sns.displot(diamonds, x="carat", kde=True)

plt.show()

### 経験的累積分布

分布を可視化する3番目のオプションは，"経験的累積分布関数" (ECDF) を計算します。  
このプロットは，曲線の高さがより小さい値を持つオブザベーションの比率を反映するように、各データポイントを通して単調増加する曲線を描きます。

In [None]:
sns.displot(penguins, x="flipper_length_mm", kind="ecdf")

plt.show()

ECDFプロットには2つの重要な利点があります。  
ヒストグラムやKDEと異なり、各データポイントを直接表現します。  

つまり，ビン・サイズやスムージング・パラメータを考慮する必要がなく、曲線は単調増加なので、複数の分布を比較するのに適しています。

In [None]:
sns.displot(penguins, x="flipper_length_mm", hue="species", kind="ecdf")

plt.show()

ECDFプロットの主な欠点は、ヒストグラムや密度曲線よりも直感的に分布の形状を表せないことです。  
ヒストグラムではフリッパーの長さの二峰性がすぐにわかりますが、ECDFプロットでそれを見るには、変化する傾きを探す必要があります。  

それでも、練習すれば、ECDFを調べることで、分布に関するすべての重要な質問に答えることができるようになります。

## 二変量分布の可視化

ここまでのすべての例は、一変量分布を考えてきました。  
単一の変数の分布で、`hue`に割り当てられた2番目の変数が条件です。  

しかし、2番目の変数をyに代入すると、2変量分布がプロットされます。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm")

plt.show()

2変量ヒストグラムは、プロットをタイル状に並べる矩形内でデータを分割し、各矩形内のオブザベーションのカウントを塗りつぶしの色で表示します（`ヒートマップ`に似ています）。  
同様に、2変量KDEプロットは、(x, y)オブザベーションを2Dガウシアンで平滑化します。  

デフォルトの表現は、2D密度の輪郭を表示します。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", kind="kde")

plt.show()

`hue`変数を代入すると、複数のヒートマップまたは等高線集合が異なる色を使ってプロットされます。  
2変量ヒストグラムの場合、これは条件分布間の重なりが最小の場合にのみうまく機能します。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="species")

plt.show()

2変量KDEプロットの等高線アプローチは、オーバーラップを評価するのに適していますが、等高線が多すぎるとプロットが煩雑になります。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", hue="species", kind="kde")

plt.show()

一変量プロットと同様、ビン・サイズまたはスムージング帯域幅の選択は、プロットが基礎となる二変量分布をどれだけよく表現するかを決定します。  
値のペアを渡すことで各変数ごとにチューニングできます。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", binwidth=(2, .5))

plt.show()

ヒートマップの解釈を助けるために、カウントと色の強さの対応を示すカラーバーを追加できます。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", binwidth=(2, .5), cbar=True)

plt.show()

2変量密度の等値線の意味は、それほど単純ではありません。  
密度は直接解釈できないので、等値線は密度の等比率で描かれ、各曲線は密度のある割合pがその下にあるような水準集合を示すことを意味します。  

pの値は等間隔に配置され、最低レベルは閾値パラメータによって制御され、その数はレベルによって制御されます。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", kind="kde", thresh=.2, levels=4)

plt.show()

`levels`引数は、よりコントロールしやすいように、値のリストも受け付けます。

In [None]:
sns.displot(penguins, x="bill_length_mm", y="bill_depth_mm", kind="kde", levels=[.01, .05, .1, .8])

plt.show()

2変量ヒストグラムは、1つまたは両方の変数を離散にすることができます。  

1つの離散変数と1つの連続変数をプロットすることは、条件付き一変量分布を比較するもう1つの方法を提供します。

In [None]:
sns.displot(diamonds, x="price", y="clarity", log_scale=(True, False))

plt.show()

対照的に、2つの離散変数をプロットすることは、オブザベーションのクロス集計を示す簡単な方法です。

In [None]:
sns.displot(diamonds, x="color", y="clarity")

plt.show()

## 他の設定における分布の可視化

### 結合分布と周辺分布のプロット

1つ目の`jointplot()`は、2変量の相対分布または分布プロットを2変数の周辺分布で補強します。  
デフォルトでは、`jointplot()`は`scatterplot()`を用いて2変量分布を表現し、histplot()を用いて周辺分布を表現します。

In [None]:
sns.jointplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")

plt.show()

`displot()`と同様に、`jointplot()`で異なるkind="kde "を設定すると、`kdeplot()`を使用したジョイントプロットとマージナルプロットの両方が変更されます。

In [None]:
sns.jointplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="species",
    kind="kde"
)

plt.show()

`jointplot()`は、JointGridクラスの便利なインターフェイスで、直接使うとより柔軟性があります。

In [None]:
g = sns.JointGrid(data=penguins, x="bill_length_mm", y="bill_depth_mm")

g.plot_joint(sns.histplot)

g.plot_marginals(sns.boxplot)

plt.show()

より控えめな方法で限界分布を表示するには、"ラグ "プロットを使用します。  
これは、個々のオブザベーションを表すためにプロットの端に小さな目盛りを追加します。

In [None]:
sns.displot(
    penguins, x="bill_length_mm", y="bill_depth_mm",
    kind="kde", rug=True
)

plt.show()

また、axes-level `rugplot()`関数を使用すると、他のあらゆる種類のプロットの横にラグを追加することができます。

In [None]:
sns.relplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")
sns.rugplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")

plt.show()

## 多数の分布のプロット

`pairplot()`関数は、ジョイント分布とマージナル分布の類似したブレンドを提供します。  
しかし、単一の関係に注目するのではなく、`pairplot()`は、データセット内のすべての変数の単変量分布を、それらのすべての対関係とともに可視化します。

In [None]:
sns.pairplot(penguins)

plt.show()

`jointplot()`, `JointGrid`と同様に、基礎となるPairGridを直接使用すると、タイピングが少し増えるだけで、より柔軟性が増します。

In [None]:
g = sns.PairGrid(penguins)
g.map_upper(sns.histplot)
g.map_lower(sns.kdeplot, fill=True)
g.map_diag(sns.histplot, kde=True)

plt.show()