# 統計的関係の可視化

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="darkgrid")

統計分析は、データセット内の変数が互いにどのように関係しているのか、またそれらの関係が他の変数にどのように依存しているのかを理解するプロセスです。  
データが適切に視覚化されると、人間の視覚システムは関係を示す傾向やパターンを認識できるため、視覚化はこのプロセスの中核的な存在となり得ます。  

このフェーズでは、3つの seaborn 関数について説明します。  
最もよく使用するのは `relplot()`です。  
これは、散布図と折れ線グラフという 2つの一般的なアプローチを使用して統計的関係を視覚化するための図レベルの関数です。  

`relplot()`はFacetGridと、以下の2つの軸レベル関数のうちの1つを組み合わせます。  

- `scatterplot()` (kind="scatter" [defalut])
- `lineplot()` (kind="line")

後で説明するように、これらの関数は、複雑なデータセット構造を表現できるシンプルで理解しやすい図に落とし込むので、非常にわかりやすくなります。  
これが可能な理由は、色相、サイズ、スタイルのセマンティクスを使用して最大3つの追加変数をマッピングすることで多様なプロットを作成できるからです。

## 散布図

散布図は統計的可視化の主力です。  
これは、点群を使用して 2つの変数の結合分布を表しており、各点はデータセット内の観測値を表します。  
この描写により、目はそれらの間に意味のある関係があるかどうかについて、かなりの量の情報を推測することができます。  

seaborn で散布図を描く方法はいくつかあります。  
最も基本的なものは、両方の変数が数値である場合に使用する必要がある`scatterplot()`関数です。  

`replot()`関数において、`kind`がデフォルトで "scatter" となっているので、これで代用することもできます。

In [None]:
tips = pd.read_csv('tips.csv')

sns.relplot(data=tips, x="total_bill", y="tip")

plt.show()

点は2次元でプロットされますが、3番目の変数に従って点を色付けすることで、別の次元をプロットに追加できます。  
Seaborn ではポイントの色が意味を持つようになるため、これを「色相セマンティクス」の使用と呼びます。

In [None]:
sns.relplot(data=tips, x="total_bill", y="tip", hue="smoker")

plt.show()

クラス間の違いを強調し、可視性を向上させるために、クラスごとに異なるマーカー スタイルを使用できます。

In [None]:
sns.relplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", style="smoker"
)

plt.show()

各ポイントの色相とスタイルを個別に変更することで 4つの変数を表すこともできます。  
ただし、目は色よりも形に対してはるかに敏感であるため、これは慎重に行う必要があります。

In [None]:
sns.relplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", style="time",
)

plt.show()

上記の例では、色相のセマンティクスがカテゴリ変数であるため、デフォルトの定性パレットが適用されました。  
色相セマンティクスが数値の場合 (特に、float型にキャストできる場合)、デフォルトの色付けは連続パレットに切り替わります。

In [None]:
sns.relplot(
    data=tips, x="total_bill", y="tip", hue="size",
)

plt.show()

どちらの場合も、カラー パレットをカスタマイズできます。  
ここでは、文字列を使用して色パレットを次のようにカスタマイズします。  

参考[cubehelixパレット] : https://seaborn.pydata.org/generated/seaborn.cubehelix_palette.html#seaborn.cubehelix_palette

In [None]:
sns.relplot(
    data=tips,
    x="total_bill", y="tip",
    hue="size", palette="ch:r=-.5,l=.75"
)

plt.show()

3種類目のセマンティック変数は、各ポイントのサイズを変更します。

In [None]:
sns.relplot(data=tips, x="total_bill", y="tip", size="size")

plt.show()

さまざまなセマンティクスを使用して統計的関係を表示する方法をカスタマイズするためのその他の例については、`scatterplot()`API を参照してください。  

https://seaborn.pydata.org/generated/seaborn.scatterplot.html#seaborn.scatterplot

## 折れ線グラフ

散布図は非常に効果的ですが、普遍的ではありません。  
可視化表現は、データセットの詳細と、プロットで答えようとしている質問に合わせて調整する必要があります。
  
データセットによっては、1つの変数の変化を時間の関数として、または同様の連続変数として理解したい場合があります。  
この状況では、折れ線グラフを描くのが良い選択です。  

seaborn では、`lineplot()`によって、または`relplot()`の`kind="line"`の設定によって実現できます。

In [None]:
dowjones = pd.read_csv("dowjones.csv")
dowjones['Date'] = pd.to_datetime(dowjones['Date'])

sns.relplot(data=dowjones, x="Date", y="Price", kind="line")

plt.show()

より複雑なデータセットには、変数の同じ値に対して複数の測定値が含まれます。  
seaborn のデフォルトの動作では、平均値とその平均値の周囲の 95% 信頼区間をプロットすることで、各値における複数の測定値を集計します。  

In [None]:
fmri = pd.read_csv("fmri.csv")

sns.relplot(data=fmri, x="timepoint", y="signal", kind="line")

plt.show()

信頼区間はブートストラップを使用して計算されますが、大規模なデータセットでは時間がかかる可能性があります。  
したがって、それらを無効にすることが可能です。

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", errorbar=None,
)

plt.show()

もう 1 つの良いオプションは、特に大規模なデータの場合、信頼区間の代わりに標準偏差をプロットすることで、各時点での分布の広がりを表すことです。

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", errorbar="sd",
)

plt.show()

### セマンティックマッピングを使用したデータのサブセットのプロット

`lineplot()`関数には`scatterplot()`と同じ柔軟性があり、プロット要素の色相、サイズ、スタイルを変更することで、最大 3 つの追加変数を表示できます。  
これは`scatterplot()`と同じ API を使用して行われます。つまり、matplotlib で線と点の外観を制御するパラメーターについて立ち止まって考える必要はありません。

セマンティクスの使用により、`lineplot()`データがどのように集約されるかも決まります。  
たとえば、2つのレベルの色相セマンティクスを追加すると、プロットが 2つの線とエラー バンドに分割され、それぞれがデータのどのサブセットに対応するかを示すために色付けされます。

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", hue="event",
)

plt.show()

ライン プロットにスタイル セマンティクスを追加すると、デフォルトでライン内の破線のパターンが変更されます。

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal",
    hue="region", style="event",
)

plt.show()

ダッシュと一緒に、またはダッシュの代わりに、各観測で使用されるマーカーによってサブセットを識別できます。

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", hue="region", style="event",
    dashes=False, markers=True,
)

plt.show()

散布図と同様、複数のセマンティクスを使用して折れ線グラフを作成する場合には注意してください。  
これらは有益な場合もありますが、解析や解釈が難しくなる場合もあります。  

繰り返し測定データを扱う場合 (つまり、複数回サンプリングされた単位がある場合)、セマンティクスによって区別せずに、各サンプリング単位を個別にプロットすることもできます。  
これにより、凡例が乱雑になるのを避けることができます。

In [None]:
sns.relplot(
    data=fmri.query("event == 'stim'"), kind="line",
    x="timepoint", y="signal", hue="region",
    units="subject", estimator=None,
)

plt.show()

デフォルトのカラーマップと凡例の処理は、色相のセマンティクスがカテゴリカルであるか数値であるかによっても異なります。

In [None]:
dots = pd.read_csv("dots.csv").query("align == 'dots'")

sns.relplot(
    data=dots, kind="line",
    x="time", y="firing_rate",
    hue="coherence", style="choice",
)

plt.show()

`hue`引数が数値であっても、線形カラー スケールでは適切に表現されない場合があります。  
これは、`hue`変数のレベルが対数的にスケールされる場合に当てはまります。  

リストまたは辞書を渡すことで、各行に特定の色の値を指定できます。

In [None]:
palette = sns.cubehelix_palette(light=.8, n_colors=6)

sns.relplot(
    data=dots, kind="line",
    x="time", y="firing_rate",
    hue="coherence", style="choice", palette=palette,
)

plt.show()

3番目のセマンティクスであるサイズは、線の幅を変更します。

In [None]:
sns.relplot(
    data=dots, kind="line",
    x="time", y="firing_rate",
    size="coherence", style="choice",
)

plt.show()

通常、`size`変数は数値ですが、カテゴリ変数を線の幅にマッピングすることも可能です。  
「太い」線と「細い」線以上の区別が困難になるため、その際は注意してください。  

ただし、線に高周波の変動がある場合、ダッシュは認識しにくい場合があるため、その場合は異なる幅を使用する方が効果的である可能性があります。

In [None]:
sns.relplot(
    data=dots, kind="line",
    x="time", y="firing_rate",
    hue="coherence", size="choice", palette=palette,
)

plt.show()

### 並べ替えと方向の制御

`lineplot()`は、ほとんどの場合xとyの関数として描画しようとしていると想定しているため、デフォルトの動作では、プロットする前に値でデータを並べ替えます。  
ただし、これは無効にすることができます。

In [None]:
healthexp = pd.read_csv("healthexp.csv").sort_values("Year")

sns.relplot(
    data=healthexp, kind="line",
    x="Spending_USD", y="Life_Expectancy", hue="Country",
    sort=False
)

plt.show()

Y 軸に沿って並べ替え (および集計) することもできます。

In [None]:
sns.relplot(
    data=fmri, kind="line",
     x="signal", y="timepoint", hue="event",
    orient="y",
)

plt.show()

### ファセットとの複数の関係の表示

本項では、これらの関数は一度に複数のセマンティック変数を表示することができますが、そうすることが常に効果的であるとは限らないことを強調してきました。  
しかし、2つの変数の間の関係が、1つ以上の他の変数にどのように依存するかを理解したい場合はどうでしょうか？

最良の方法は、複数のプロットを作成することです。  
`relplot()`はFacetGridに基づいているので、これは簡単に実現できます。  

追加変数の影響を表示するには、プロットのセマンティック・ロールの1つに割り当てるのではなく、可視化の "ファセット"に使用します。  
これは、複数の軸を作り、それぞれの軸にデータのサブセットをプロットすることを意味します

In [None]:
sns.relplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", col="time",
)

plt.show()

この方法で2つの変数の影響を示すこともできます。  
1つは列のファセットで、もう1つは行のファセットです。  

グリッドにより多くの変数を追加し始めると、図のサイズを小さくしたくなるかもしれません。  
FacetGridのサイズは、各ファセットの高さと縦横比によってパラメータ化されることを覚えておいてください。

In [None]:
sns.relplot(
    data=fmri, kind="line",
    x="timepoint", y="signal", hue="subject",
    col="region", row="event", height=3,
    estimator=None
)

plt.show()

ある変数の多くのレベルにわたる効果を調べたい場合、その変数を列でファセットし、そのファセットを行に "ラップ"するのは良いアイデアです。  
特定の列数で折り返すことが出来、高レベルな可視化を実現できます。

In [None]:
sns.relplot(
    data=fmri.query("region == 'frontal'"), kind="line",
    x="timepoint", y="signal", hue="event", style="event",
    col="subject", col_wrap=5,
    height=3, aspect=.75, linewidth=2.5,
)

plt.show()

格子プロットと呼ばれることもあるこれらの可視化は、全体的なパターンとそのパターンからの乖離の両方を目で簡単に検出できる形式でデータを表示するため、非常に効果的です。  
`scatterplot()`や`relplot()`関数が提供する柔軟性を利用すべきですが、通常は1つの複雑なプロットよりも複数の単純なプロットの方が効果的であることを常に念頭に置くようにしてください。