# カテゴリデータの可視化

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="darkgrid")

「統計的関係の可視化」では、データセット中の複数の変数間の関係を示すために、さまざまな視覚的表現を使用する方法を見ました。  
例題では、主な関係が2つの数値変数の間にある場合に焦点を当てました。  
もし主変数の1つが "カテゴリカル"（離散的なグループに分けられる）であれば、より専門的な視覚化のアプローチを使うことが役に立つかもしれません。

seabornでは、カテゴリデータを含む関係を可視化するいくつかの異なる方法があります。  
`relplot()`と`scatterplot()`または`lineplot()`の関係と同様に、これらのプロットを作成するには2つの方法があります。  
カテゴリカルデータをさまざまな方法でプロットするための軸レベルの関数と、それらに統一的にアクセスするための図レベルのインターフェースである`catplot()`があります。

異なるカテゴリカルプロットの種類を3つの異なるファミリーに属すると考えると便利です。

**カテゴリ散布図**

- `stripplot()` (kind="strip" デフォルト)
- `swarmplot()` (kind="swarm")

**カテゴリ分布プロット**

- `boxplot()` (kind="box")
- `violinplot()` (kind="violin")
- `boxenplot()` (kind="boxen")

**カテゴリー推定プロット**

- `pointplot()` (kind="point")
- `barplot()` (kind="bar")
- `countplot()` (kind="count")

これらのファミリーは、さまざまなレベルの粒度を使用してデータを表します。  
どれを使うかを決める際には、答えたい質問について考える必要があります。  
統一されたAPIを使えば、異なる種類を簡単に切り替えて、複数の視点からデータを見ることができます。

本項では、主に図レベルのインターフェースである`catplot()`に焦点を当てます。  
この関数は、上記の各関数の上位インターフェイスであることを覚えておいてください。  

したがって、各プロットを表示する際には、より冗長な種類固有のAPIドキュメントを手元に置きながら、それらを参照することになります。

## カテゴリー散布図

`catplot()`のデフォルトのデータ表現は散布図です。  
seabornには2つの異なるカテゴリ散布図があります。  
これらは、カテゴリデータを散布図で表現する際の主な課題である、1つのカテゴリに属するすべての点がカテゴリ変数に対応する軸に沿って同じ位置にあるという問題を解決するために、異なるアプローチを取っています。  

`catplot()`のデフォルトである`stripplot()`が使用するアプローチは、カテゴリ軸上の点の位置を少量のランダムな "ジッター"で調整することです。

In [None]:
tips = pd.read_csv("tips.csv")

sns.catplot(data=tips, x="day", y="total_bill")

plt.show()

ジッターパラメーターは、ジッターの大きさを制御したり、完全に無効にしたりします。

In [None]:
sns.catplot(data=tips, x="day", y="total_bill", jitter=False)

plt.show()

2番目のアプローチは，カテゴリー軸に沿ったポイントが重ならないようにするアルゴリズムを用いて調整します。  
比較的小さなデータセットに対してのみうまく機能しますが、オブザベーションの分布をよりよく表現することができます。  

この種のプロットは "蜜蜂群 "と呼ばれることがあり、seabornでは`swarmplot()`によって描画されます。

In [None]:
sns.catplot(data=tips, x="day", y="total_bill", kind="swarm")

plt.show()

関係プロットと同様に、色相セマンティックを使用することで、カテゴリプロットに別の次元を追加することができます。  
※ `catplot()`は、現在のところサイズやスタイルのセマンティクスをサポートしていません

各カテゴリカルプロット関数は、色相セマンティックの扱いが異なります。  
散布図では、点の色を変更するだけです。

In [None]:
sns.catplot(data=tips, x="day", y="total_bill", hue="sex", kind="swarm")

plt.show()

数値データとは異なり、カテゴリ変数のレベルを軸に沿ってどのように順序付けるかは必ずしも明らかではありません。  
一般的に、seabornのカテゴリプロット関数はデータからカテゴリの順序を推測しようとします。  

データがpandas Categoricalデータ型を持っている場合、カテゴリのデフォルトの順序をそこで設定することができます。  
カテゴリ軸に渡された変数が数値に見える場合、レベルはソートされます。  

しかし、ラベル付けに数値が使用されている場合でも、データはカテゴリとして扱われ、カテゴリ軸の順序の位置（具体的には、0、1、...）に描画されます。

In [None]:
sns.catplot(data=tips.query("size != 3"), x="size", y="total_bill")

plt.show()

デフォルトの順序を選択するもう1つのオプションは、データセットに現れるようにカテゴリのレベルを取ることです。  
順序は、orderパラメータを使用してプロットごとに制御することもできます。  

これは、同じ図に複数のカテゴリプロットを描くときに重要です。

In [None]:
sns.catplot(data=tips, x="smoker", y="tip", order=["No", "Yes"])

plt.show()

私たちは「カテゴリー軸」という考え方に言及してきました。  
これらの例では、それは常に横軸に対応します。  

しかし、カテゴリ変数を縦軸に置くと便利なことがよくあります（特にカテゴリ名が比較的長い場合やカテゴリが多い場合）。  
これを行うには、変数の軸への割り当てを入れ替えます。

In [None]:
sns.catplot(data=tips, x="total_bill", y="day", hue="time", kind="swarm")

plt.show()

## 分布の比較
データセットのサイズが大きくなるにつれて、カテゴリ散布図が各カテゴリ内の値の分布について提供できる情報は限られてきます。  
このような場合、カテゴリレベル間の比較を容易にする方法で分布情報を要約するためのいくつかのアプローチがあります。

### 箱ひげ図
1つ目は、おなじみの`boxplot()`です。この種のプロットは、極値とともに分布の3つの四分位値を表示します。  
ひげ "は、下位および上位の四分位値の**1.5IQR**以内にあるポイントまで拡張され、そして、この範囲外にあるオブザベーションが独立に表示されます。  

これは、箱ひげ図中の各値がデータ中の実際のオブザベーションに対応することを意味します。

In [None]:
sns.catplot(data=tips, x="day", y="total_bill", kind="box")

plt.show()

色相のセマンティックを追加するとき、`hue`変数の各レベルのボックスは、それらが重ならないようにカテゴリー軸に沿って移動されます。

In [None]:
sns.catplot(data=tips, x="day", y="total_bill", hue="smoker", kind="box")

plt.show()

この動作は「ドッジング」と呼ばれ、意味変数がメインのカテゴリー変数にネストされていると仮定されるため、デフォルトでオンになっています。  
そうでない場合は、ドッジを無効にすることができます。

In [None]:
tips["weekend"] = tips["day"].isin(["Sat", "Sun"])

sns.catplot(
    data=tips, x="day", y="total_bill", hue="weekend",
    kind="box", dodge=False,
)

plt.show()

関連する関数である `boxenplot()` は、箱ひげ図に似たプロットを描画しますが、分布の形状に関するより多くの情報を表示するように最適化されています。  
より大きなデータセットに最適です。

In [None]:
diamonds = pd.read_csv("diamonds.csv")

sns.catplot(
    data=diamonds.sort_values("color"),
    x="color", y="price", kind="boxen",
)

plt.show()

### バイオリンプロット

異なるアプローチは、「分布の可視化」で説明されたカーネル密度推定手順とボックスプロットを組み合わせた`violinplot()`です。

In [None]:
sns.catplot(
    data=tips, x="total_bill", y="day", hue="sex", kind="violin",
)

plt.show()

このアプローチは、値の分布のより豊かな説明を提供するためにカーネル密度推定を使用します。  
さらに、ボックスプロットからの四分位値とひげ値がバイオリン内に表示されます。  

欠点は、violinplotはKDEを使うので、微調整が必要なパラメータがいくつかあり、単純なboxplotに比べて複雑さが増すことです。

In [None]:
sns.catplot(
    data=tips, x="total_bill", y="day", hue="sex",
    kind="violin", bw=.15, cut=0,
)

plt.show()

また、`hue`パラメーターが2段階しかない場合、ヴァイオリンを「分割」することも可能で、スペースをより効率的に使うことができます。

In [None]:
sns.catplot(
    data=tips, x="day", y="total_bill", hue="sex",
    kind="violin", split=True,
)

plt.show()

最後に、バイオリンの内側に描画されるプロットには、要約ボックスプロット値の代わりに個々のオブザベーションを表示する方法など、いくつかのオプションがあります。

In [None]:
sns.catplot(
    data=tips, x="day", y="total_bill", hue="sex",
    kind="violin", inner="stick", split=True, palette="pastel",
)

plt.show()

また、`swarmplot()` や `stripplot()` を箱ひげ図やバイオリンプロットと組み合わせて、各観測値を分布の要約と一緒に表示するのも便利です。

In [None]:
g = sns.catplot(data=tips, x="day", y="total_bill", kind="violin", inner=None)
sns.swarmplot(data=tips, x="day", y="total_bill", color="k", size=3, ax=g.ax)

plt.show()

## 中心傾向の推定
各カテゴリ内の分布を表示するのではなく、値の中心傾向の推定値を表示したい場合があります。  
seaborn には、この情報を表示する2つの主な方法があります。  
重要なことは、これらの関数の基本APIは、上で説明したものと同じであるということです。

### 棒グラフ
この目的を達成する身近なプロットのスタイルは棒グラフです。  
seabornでは、`barplot()`関数は完全なデータ集合を操作し、推定値を得るために関数を適用します（デフォルトでは平均を取る）。  
各カテゴリーに複数のオブザベーションがある場合、ブートストラップを使って推定値の信頼区間を計算し、エラーバーを使ってプロットします。

In [None]:
titanic = pd.read_csv("titanic.csv")

sns.catplot(data=titanic, x="sex", y="survived", hue="class", kind="bar")

plt.show()

デフォルトのエラーバーは95%信頼区間を示していますが、（v0.12から）他の表示も選択できるようになりました。

In [None]:
sns.catplot(data=titanic, x="age", y="deck", errorbar=("pi", 95), kind="bar")

plt.show()

棒グラフの特別なケースは、2番目の変数の統計量を計算するのではなく、各カテゴリのオブザベーションの数を表示したい場合です。  
これは、量的変数ではなくカテゴリー変数に対するヒストグラムに似ています。  

seabornでは、`countplot()`関数で簡単にできます：

In [None]:
sns.catplot(data=titanic, x="deck", kind="count", palette="ch:.25")

plt.show()

`barplot()`と`countplot()`の両方は、上で説明したすべてのオプションと、各関数の詳細なドキュメントで説明されているその他のオプションで呼び出すことができます。

In [None]:
sns.catplot(
    data=titanic, y="deck", hue="class", kind="count",
    palette="pastel", edgecolor=".6",
)

plt.show()

### 点プロット
同じ情報を視覚化する別のスタイルとして、`pointplot()`関数があります。  
この関数も推定値をもう一方の軸の高さでエンコードするが、完全なバーを表示するのではなく、ポイント推定値と信頼区間をプロットします。  

さらに、`pointplot()`は、同じ色相カテゴリからのポイントを接続します。これは、主な関係が色相セマンティックの関数としてどのように変化しているかを簡単に見ることができます。

In [None]:
sns.catplot(data=titanic, x="sex", y="survived", hue="class", kind="point")

plt.show()

カテゴリカル関数にはリレーショナル関数のようなスタイル・セマンティックはないですが、色相とともにマーカーや線種を変化させるのは良いアイデアかもしれません。

In [None]:
sns.catplot(
    data=titanic, x="class", y="survived", hue="sex",
    palette={"male": "g", "female": "m"},
    markers=["^", "o"], linestyles=["-", "--"],
    kind="point"
)

plt.show()

## 追加次元の表示
`relplot()`と同様に、`catplot()`がFacetGrid上に構築されているということは、高次元の関係を視覚化するためにファセット変数を追加することが容易であることを意味します。

In [None]:
sns.catplot(
    data=tips, x="day", y="total_bill", hue="smoker",
    kind="swarm", col="time", aspect=.7,
)

plt.show()

プロットのさらなるカスタマイズのために、それが返すFacetGridオブジェクトのメソッドを使用することができます。

In [None]:
g = sns.catplot(
    data=titanic,
    x="fare", y="embark_town", row="class",
    kind="box", orient="h",
    sharex=False, margin_titles=True,
    height=1.5, aspect=4,
)

g.set(xlabel="Fare", ylabel="")
g.set_titles(row_template="{row_name} class")

for ax in g.axes.flat:
    ax.xaxis.set_major_formatter('${x:.0f}')