# Seabornライブラリ
Seabornライブラリについて説明します。

参考

- https://seaborn.pydata.org/index.html

**Seaborn**ライブラリは、 `matplotlib` に基づくPythonデータ可視化ライブラリです。  
`matplotlib` よりも魅力的で有益な統計グラフを描画するための高レベルのインターフェイスを提供してくれます。  

Seabornライブラリを使用するには、まず `seaborn` のモジュールをインポートします。慣例として、同モジュールを `sns` と別名をつけてコードの中で使用します。  
より高度な操作のために、matplotlibライブラリの関数を使用することがあるので、同様にインポートします。

In [None]:
# Import seaborn
import seaborn as sns
import matplotlib.pyplot as plt

Seabornによる可視化は、データの探索と理解に役立ちます。  
そのプロット関数は、データフレーム等のデータセット全体を含む配列に対して動作し、必要なセマンティック マッピングと統計的集計を内部で実行して、いい感じのプロットを生成します。  

以下に例を示します。

In [None]:
import pandas as pd

# デフォルトのテーマを設定
sns.set_theme()

# データセットを読み込み
tips = pd.read_csv("tips.csv")

# 関係を可視化
sns.relplot(
    data=tips,
    x="total_bill", y="tip", col="time",
    hue="smoker", style="smoker", size="size",
)

# 表示
plt.show()

Seabornは動作裏でmatplotlibを使用してプロットを描画します。  
`sns.set_theme()` 関数を使用することで、使用した以降の全てのmatplotlibプロットの外観を変更します。  
デフォルトのテーマ以外にも、いくつかのオプションがある事を確認してください。  

https://seaborn.pydata.org/tutorial/aesthetics.html  
  
基本的には、seabornのインポートと同時に一度だけ実行することをお勧めします。

In [None]:
# デフォルトのテーマを設定
sns.set_theme()

例で使用した`relplot()`関数は、seaborn関数を1回のみ使用したにもかかわらず、tipsデータセット内の5つの変数間の関係を示しています。  
関数内で変数の名前とその役割のみを指定していることに注目してください。  

https://seaborn.pydata.org/generated/seaborn.relplot.html#seaborn.relplot

matplotlib を直接使用する場合とは異なり、色の値やマーカー、コードに関してプロット要素の属性を指定する必要はありません。  
Seaborn は動作裏で、データフレーム内の値から matplotlib が理解できる引数への変換を処理しました。  
この宣言的アプローチにより、matplotlib の制御方法の詳細ではなく、表現したい図に対して集中し続けることができます。

## 統計グラフィックス用の高レベルAPI

データを視覚化する普遍的に最適な方法というのは存在しません。  
探索したいデータに対する様々な質問には、様々なプロットによって答えられます。  
Seabornでは、一貫したデータセット指向のAPIを使用して、視覚表現を簡単に切り替えることが出来ます。
  
`relplot()`関数は、様々な統計的関係を視覚化出来るように接敵されているため、このような名前が付けられています。  
散布図は多くの場合において効果的ですが、一つの変数が時間の尺度を表す場合は線で表す方が適切です。  
この関数には、次の代替表現に簡単に切り替えることが出来る `kind` という便利なパラメータがあります。

In [None]:
# データセットの読み込み
dots = pd.read_csv("dots.csv")

sns.relplot(
    data=dots, kind="line",
    x="time", y="firing_rate", col="align",
    hue="choice", size="coherence", style="choice",
    facet_kws=dict(sharex=False),
)

plt.show()

`size`及び`style`パラメータが散布図と折れ線グラフの両方でどのように使用されているかに注目してください。  
散布図ではマーカー領域とシンボルが変更され、折れ線グラフでは線幅と破線が変更されます。  

そういった詳細な定義を念頭に置いてコードを書く必要はなかったので、プロットの全体的な構造と、それによって伝えたい情報に集中することが出来ました。

## 統計的推定

多くの場合、私たちは一つの変数の平均値をほかの変数の関数として求めることがあります。  
Seaborn関数の多くは、このような質問に答える為に必要な統計的推定を自動的に実行します。

In [None]:
fmri = pd.read_csv("fmri.csv")

sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", col="region",
    hue="event", style="event",
)

plt.show()

統計値が推定される場合、seaborn はブートストラップを使用して信頼区間を計算し、推定の不確実性を表すエラーバーを描画します。

seaborn の統計的推定は、記述的な統計を超えています。  
たとえば、`lmplot()`を使用して線形回帰モデル (およびその不確実性) を含めることで散布図を強化することができます。  

https://seaborn.pydata.org/generated/seaborn.lmplot.html#seaborn.lmplot

In [None]:
sns.lmplot(data=tips, x="total_bill", y="tip", col="time", hue="smoker")

plt.show()

## 分布表現

統計分析には、データセット内の変数の分布に関する知識が必要です。  
seaborn関数は、`displot()`関数のような分布を視覚化するためのいくつかのアプローチをサポートしています。  
これらには、ヒストグラムなどの古典的な手法や、カーネル密度推定などの計算集約型のアプローチが含まれます。  

https://seaborn.pydata.org/generated/seaborn.displot.html#seaborn.displot

In [None]:
sns.displot(data=tips, x="total_bill", col="time", kde=True)

plt.show()

データの累積分布関数を計算してプロットするなど、強力ではあるもののあまり知られていない手法についても同様です。

In [None]:
sns.displot(data=tips, kind="ecdf", x="total_bill", col="time", hue="smoker", rug=True)

plt.show()

## カテゴリデータのプロット

seaborn のいくつかの特殊なプロット タイプは、カテゴリ データの視覚化を目的としています。  
これらには、 `catplot()`関数からアクセスできます。  

https://seaborn.pydata.org/generated/seaborn.catplot.html#seaborn.catplot

これらのプロットは、さまざまなレベルの粒度を提供します。  
最も詳細なレベルでは「群」プロット、つまり、点が重ならないようにカテゴリ軸に沿って点の位置を調整する散布図を描画して、すべての観測値を確認したい場合等に有効です。

In [None]:
sns.catplot(data=tips, kind="swarm", x="day", y="total_bill", hue="smoker")

plt.show()

また、カーネル密度推定を使用して、ポイントのサンプリング元となる基礎分布を表すこともできます。

In [None]:
sns.catplot(data=tips, kind="violin", x="day", y="total_bill", hue="smoker", split=True)

plt.show()

または、各カテゴリ内の平均値とその信頼区間のみを表示することもできます。

In [None]:
sns.catplot(data=tips, kind="bar", x="day", y="total_bill", hue="smoker")

plt.show()

## 多変量ビュー

一部の Seaborn 関数は、複数の種類のプロットを組み合わせて、データセットの複雑な関係を一度に可視化します。  
`jointplot()`関数は、単一の関係に焦点を当てたものです。2変数間の結合分布と各変数の周辺分布をプロットします。　　

https://seaborn.pydata.org/generated/seaborn.jointplot.html#seaborn.jointplot

In [None]:
penguins = pd.read_csv("penguins.csv")

sns.jointplot(data=penguins, x="flipper_length_mm", y="bill_length_mm", hue="species")

plt.show()

`pairplot()`関数は、より広い視野を持ち、すべての変数のペア関係と各変数の結合分布と周辺分布をそれぞれ示すことが出来ます。  

https://seaborn.pydata.org/generated/seaborn.pairplot.html#seaborn.pairplot

In [None]:
sns.pairplot(data=penguins, hue="species")

plt.show()

## 独自のデフォルトと柔軟なカスタマイズ

Seabornは、単一の関数呼び出しで良い感じのプロットを作成します。  
可能な場合、その関数はデータセットに基づいて軸ラベルと凡例を自動的に追加します。

多くの場合、Seaborn はデータの特性に基づいてパラメータのデフォルト値も選択します。  
たとえば、これまで見てきたカラー マッピングでは、異なる色相 (青、オレンジ、場合によっては緑) を使用して、`hue`変数に割り当てられたカテゴリカル変数のさまざまなレベルを表していました。  
数値変数をマッピングする場合、一部の関数は連続勾配に切り替わります。

In [None]:
sns.relplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="body_mass_g"
)

plt.show()

一度プロットを共有、または公開する準備が出来たら、デフォルトで達成できる出来栄え以上に図をカスタマイズしたいと思うでしょう。  
Seabonでは、いくつかのレベルのカスタマイズが可能です。　　

すべての Figure に適用される複数の組み込みテーマが定義されており、その関数には各プロットのセマンティック マッピングを変更できる標準化されたパラメーターがあり、追加のキーワード引数が基礎となる matplotlib アーティストに渡されるため、さらに詳細な制御が可能になります。  

プロットを作成したら、seaborn API を使用して、または matplotlib レイヤーにドロップダウンして詳細な調整を行うことによって、そのプロパティを変更できます。

In [None]:
# デフォルトのテーマを変更
sns.set_theme(style="ticks", font_scale=1.25)

# seabornで描画し、FacetGridオブジェクトを受け取る
g = sns.relplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="body_mass_g",
    palette="crest", marker="x", s=100,
)

# 受け取ったFacetGridオブジェクトに対して、プロパティを変更する
g.set_axis_labels("Bill length (mm)", "Bill depth (mm)", labelpad=10)
g.legend.set_title("Body mass (g)")
g.figure.set_size_inches(6.5, 4.5)
g.ax.margins(.15)
g.despine(trim=True)

plt.show()

## matplotlib との関係
Seaborn と matplotlib の統合により、ノートブックでの探索的分析、GUI アプリケーションでのリアルタイム操作、多数のラスターおよびベクター形式でのアーカイブ出力など、matplotlib がサポートする多くの環境で Seaborn を使用できるようになります。

seaborn 関数のみを使用して生産性を高めることはできますが、グラフィックスを完全にカスタマイズするには、matplotlib の概念と API についての知識が必要になります。  
seaborn の新規ユーザーの第一歩は、特定のカスタマイズを実現するために matplotlib 層にドロップダウンする必要があるかどうかを知ることです。  
一方、matplotlib から来たユーザーは、知識の多くがそのまま適用できることに気づくでしょう。

Matplotlib には包括的で強力な API があります。プロットのほぼすべての属性を好みに合わせて変更できます。  
seaborn の高レベル インターフェイスと matplotlib の高度なカスタマイズ機能を組み合わせることで、データを迅速に探索したり、出版品質の最終製品に合わせて調整できるグラフィックを作成したりすることができます。