# 視覚化(matplotlib, seaborn) 資料1

# 1. matplotlibを用いた作図

まず、matplotlibライブラリーに含まれるpyplotモジュールをインポートする。  
書籍やWebサイトで「%matplotlib inlineが必要」と書かれる場合がある、比較的新しいjupyter notebookではデフォルト設定となっているため不要。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 1.1. matplotlib の基本操作

# 1.1.1. Figureクラス、Axesクラス
matplotlibでは「キャンバス上にここのパーツを置いていく」イメージで作図していく。  
はじめに、図のキャンバスとなるFigureクラスオブジェクト、その上に個々のグラフ領域であるAxesクラスオブジェクトをインスタンス化してみる。

補足：「command」 + 「/」 でコメントをつけ外しできる。

In [None]:
# 描画領域を定義 (figsizeはデフォルトでは6.4vs4.8インチ)
fig = plt.figure(figsize=(4, 3), facecolor='yellow')
ax = fig.add_subplot()

# subplots関数はfigureオブジェクト、axesオブジェクトを同時に作成
# fig, ax = plt.subplots(figsize=(4, 3), facecolor='yellow')

Axesクラスのメソッドを呼び出すことで、グラフの構成要素(Artist)を作成する。  
* .plotメソッド：線グラフを表示する
* .set_x(y)labelメソッド：軸のラベルを追加する

※ %matplotlib inlineがデフォルトで指定されているため、fig.show()は不要。

In [None]:
# データを作成
x = [1.0, 2.0, 3.0, 4.0, 5.0]
y = [1.2, 2.5, 3.4, 3.3, 2.8]

# 描画領域を定義
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()

# グラフの描画
ax.plot(x,y)
ax.set_xlabel('X_axis')
ax.set_ylabel('Y_axis')

## 1.1.2. matplotlibの２つの記述方法（インターフェース）
matplotlibには以下の２通りの記述方法が用意されている。  
* object-orientedインターフェース：Figureクラス、Axesクラスのオブジェクトを作成し、それらのメソッドで実行  
* state-basedインターフェース：すべての操作をpyplotの関数で実行
  
後者の方が記述量が少なくすむが、本講義ではグラフ上のオブジェクトがイメージしやすい前者を扱う。

参照：Matplotlibの公式サイト「Quick start guide - Coding styles」 https://matplotlib.org/stable/users/explain/quick_start.html

In [None]:
# 一つ前の操作をstate-basedインターフェースで行う例
plt.figure(figsize=(4, 3))
plt.plot(x, y)
plt.xlabel('X_axis')
plt.ylabel('Y_axis')

## 1.1.3. グラフにさまざまな構成要素（Artist）を追加する
Axesクラスに用意されているメソッドを使って、グラフにさまざまなArtistを追加してみる。  
グラフの保存にはsavefig()メソッドを用いる。ファイル名で、保存先のディレクトリやファイル形式を指定できる。

===　参照　===  
Artistリスト
https://matplotlib.org/stable/users/explain/quick_start.html  
ポイントの種類リスト
https://matplotlib.org/stable/api/markers_api.html  
色のさまざまな指定方法 ー 名前('blue')、省略形('b')、RGB表記('#0000ff')など https://matplotlib.org/stable/users/explain/colors/colors.html#sphx-glr-users-explain-colors-colors-py

In [None]:
# データを作成
x = [1.0, 2.0, 3.0, 4.0, 5.0]
y1 = [1.2, 2.5, 3.4, 3.3, 2.8]
y2 = [2.0, 1.5, 1.4, 1.3, 3.2]

# 描画領域を定義
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()

# グラフの描画。複数のグラフを表示したいときはそのまま書けばOK
ax.plot(x, y1, marker='o', color='blue')
ax.plot(x, y2, marker='^', color='red')

# 軸ラベルの追加
ax.set_xlabel('X_axis')
ax.set_ylabel('Y_axis')

# 凡例を追加　（labelの指定が必要）
# ax.legend(loc='upper left')

# グリッドを追加
# ax.grid(True)

# 軸範囲を設定
# ax.set_ylim(0, 4)

# 図を保存。dpiは解像度。
# fig.savefig('./output/LinePlots.png', dpi=100)

## 1.1.4. 複数のグラフを並べる
add_subplot(行数, 列数, 順序)でグラフを表示する位置を指定する。  
figureクラスのtight_layout()メソッドを指定することで、グラフが重ならないように自動で調整してくれる。

※より複雑な配置を扱うためにmatplotlibにはgridspecモジュールが用意されている。

In [None]:
fig = plt.figure(facecolor='yellow', figsize=(4, 3))

ax1 = fig.add_subplot(2,2,1)
ax1.text(0.5, 0.5, 'ax1', fontsize=18, ha='center')
ax1.set_ylabel('y_label')

ax2 = fig.add_subplot(2,2,2)
ax2.text(0.5, 0.5, 'ax2', fontsize=18, ha='center')
ax2.set_ylabel('y_label')

ax3 = fig.add_subplot(2,2,3)
ax3.text(0.5, 0.5, 'ax3', fontsize=18, ha='center')
ax3.set_ylabel('y_label')

ax4 = fig.add_subplot(2,2,4)
ax4.text(0.5, 0.5, 'ax4', fontsize=18, ha='center')
ax4.set_ylabel('y_label')

# fig.tight_layout()

# 1.2. matplotlibを用いたグラフの作成
次に、matplotlibで以下の4種類のグラフを作成する。  
* ヒストグラム
* 散布図
* 棒グラフ
* 箱髭図（jitterプロット）

ここでは、irisデータセットを可視化してみよう。

In [None]:
# load_dataset()関数を使用するためにseabornをインポートする。
import seaborn as sns
iris = sns.load_dataset('iris')

irisデータセットは、３種のあやめ（setosa, versicolor, virginica）各50サンプルについて、以下の4項目のデータを含む。
* Sepal Length: がく片の長さ（cm）  
* Sepal Width: がく片の幅（cm）  
* Petal Length: 花びらの長さ（cm）  
* Petal Width: 花びらの幅（cm）

<img src="sources/iris.png" alt="iris" width="700">

In [None]:
# データの中身を確認する
iris

## 1.2.1. ヒストグラム「ax.hist()」
ヒストグラムは量的データの分布を可視化する有力なグラフである。まず、がく片の長さ(sepal_length)の分布を見てみよう。  
bin数の指定には、統計量(スタージェスの公式など)を用いる方法や数を直接指定する方法がある。(デフォルトではbins = 10)



In [None]:
fig = plt.figure(figsize=(4,3))
ax = fig.add_subplot()

# ヒストグラムを描画
ax.hist(iris.sepal_length, bins='sturges')

# X軸ラベルを記述
ax.set_xlabel('sepal length [cm]')

３種それぞれでヒストグラムを作成して重ねてみよう。  
alphaは透明度の設定で、0（透明）から１（不透明）の範囲をとる。

In [None]:
# speciesごとにデータを分割
setosa = iris[iris.species == 'setosa']
versicolor = iris[iris.species == 'versicolor']
virginica = iris[iris.species == 'virginica']

# ヒストグラムを描画
fig = plt.figure(figsize=(4,3))
ax = fig.add_subplot()
ax.hist(setosa.sepal_length, bins='sturges', alpha=0.3, label='setosa', color='blue')
ax.hist(versicolor.sepal_length, bins='sturges', alpha=0.3, label='versicolor', color='green')
ax.hist(virginica.sepal_length, bins='sturges', alpha=0.3, label='virginica', color='red')

# ラベルとタイトルを設定
ax.set_xlabel('sepal length [cm]')
ax.legend()

次に、ヒストグラムを正規化して表示する。  
上のデータは各種50サンプルで揃っていましたが、総数が異なるデータについて比較する際にはヒストグラムを正規化すると比較しやすくなる。  
ここでは、versicolorのがく片の長さ（50サンプル）と３種すべてのがく片の長さ（150サンプル）を重ねてヒストグラムを作成する。

In [None]:
# 対象データを変数に代入
x1 = versicolor.sepal_length
x2 = iris.sepal_length

# ヒストグラムを描画
fig = plt.figure(figsize=(9,3))

# 正規化なし
ax1 = fig.add_subplot(1,3,1)
ax1.hist(x1, bins='sturges', alpha=0.3, label='versicolor')
ax1.hist(x2, bins='sturges', alpha=0.3, label='All')
ax1.set_title('Un-normalized')

# density=Trueを指定すると、ヒストグラムの合計面積が１になるように正規化される。
ax2 = fig.add_subplot(1,3,2)
ax2.hist(x1, bins='sturges', alpha=0.3, density=True)
ax2.hist(x2, bins='sturges', alpha=0.3, density=True)
ax2.set_title('density')

# 高さの合計を１にするには、weightsオプションを指定する。[1/データ数]をデータ数個分並べたリストを指定することで、すべてのデータの重みをデータ数で割る。
ax3 = fig.add_subplot(1,3,3)
ax3.hist(x1, bins=7, alpha=0.3, weights=[1/len(x1)] * len(x1))
ax3.hist(x2, bins=9, alpha=0.3, weights=[1/len(x2)] * len(x２))
ax3.set_title('hight')

# 凡例を追加（figureオブジェクトのメソッドを使用）
fig.legend(bbox_to_anchor=(1.15, 0.3))
fig.tight_layout()

## 1.2.2. 散布図　「ax.scatter()」
散布図は２つのパラメーターの相関関係を見る有力なグラフである。  
ここでは、irisデータセットでがく片の長さとがく片の太さの関係を見てみる。

In [None]:
fig = plt.figure(figsize=(4,3))
ax = fig.add_subplot()

# 散布図を描画
ax.scatter(iris.sepal_length, iris.sepal_width)
ax.set_xlabel('sepal length [cm]')
ax.set_ylabel('petal length [cm]')

上の散布図は３種が混ざった状態である。種ごとに色分けして作図してみよう。  
ヒストグラムの際は、同じような行を3回繰り返し記述したが、ここではforループを使ってみる。

In [None]:
# 種のリストを作成(set関数で重複がない集合として取り出す)
species_list = list(set(iris.species))
species_list

In [None]:
# 描画領域の作成
fig = plt.figure(figsize=(4,3))
ax = fig.add_subplot()

# データフレームから、species列が各種に一致した行のみを抽出して作図する作業を繰り返す。
for i in species_list:
    data = iris[iris.species == i]
    ax.scatter(data.sepal_length, data.sepal_width, label = i)
    
ax.set_xlabel('sepal length [cm]')
ax.set_ylabel('sepal width [cm]')
ax.legend()

散布図に近似線を追加する。  
numpyのpolyfit()関数で近似式を計算し、ax.plot()関数で直線を追加する。  

In [None]:
# 詳細は巻末に記載 -> 3.1.
fig = plt.figure(figsize=(4,3))
ax = fig.add_subplot()

# species_list['versicolor', 'virginica', 'setosa']を一つずつ作図
for i in [0, 1, 2]:
    data = iris[iris.species == species_list[i]]
    x = data.sepal_length
    y = data.sepal_width
    ax.scatter(x, y, label = species_list[i])
    
    # 近似式を計算して作図。傾きa, 切片bとして一次関数でフィッティングする。　
    a, b = np.polyfit(x, y, 1)
    ax.plot(x, a * x + b)
    equation = f"{species_list[i]}: y = {a:.2f}x + {b:.2f}"
    ax.text(8.5, 4.5-i, equation, fontsize=12)

ax.set_xlabel('sepal length [cm]')
ax.set_ylabel('sepal width [cm]')
ax.legend(loc = 'upper center', bbox_to_anchor=(0.5, 1.2), ncol=3)

## 1.2.3. 棒グラフ 「ax.bar()」
棒グラフは、異なるグループ間でパラメーターを比較する際に基本的な手法である。  
ここでは、がく片の長さ、がく片の太さ、花びらの長さ、花びらの太さについて棒グラフで視覚化してみる。  

棒グラフは一般的に、群の平均値と標準偏差を用いて作図する。はじめにpandasのメソッドを用いて統計量を計算しておく。

In [None]:
# 数値の列を抽出し、aggregateメソッドを使って列ごとの統計量を取得する。
stats = iris.iloc[:, 0:4].aggregate(['mean', 'std']).T
stats

In [None]:
# 対象データを変数に代入。
x = stats.index
y = stats['mean']
err = stats['std']

# エラーバーの表示に関するオプションを定義（lw=縦線の太さ、capthick=キャップの線の太さ、capsize=キャップの幅）
error_bar_set = dict(lw=1, capthick=1, capsize=10)

# 棒グラフを描画
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()
ax.bar(x, y, yerr=err, error_kw=error_bar_set)

# x軸ラベルを回転させてみやすく (１行目で軸ラベルの位置を指定しておく)
# ax.set_xticks([0, 1, 2, 3])
# ax.set_xticklabels(x, rotation=15)

上の棒グラフは３種が混ざった状態である。種ごとに分けて表示してみよう。  
まず、種ごとに統計値（平均値、標準偏差）を計算する。

In [None]:
# 詳細は巻末に記載 -> 3.2.
stats = pd.DataFrame(index=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
for i in species_list:
    species_data = iris[iris['species'] == i]
    species_mean = species_data.iloc[:,0:4].mean()
    species_std = species_data.iloc[:,0:4].std()
    stats[f'{i}_mean'] = species_mean
    stats[f'{i}_std'] = species_std
stats

次は３種のデータを積み上げグラフで表示する。  
積み上げにするには、bottomオプションにすでに表示しているデータの上端を指定する。

In [None]:
# 対象データを変数に代入。
x = stats.index
y1 = stats.setosa_mean
y2 = stats.versicolor_mean
y3 = stats.virginica_mean
err1 = stats.setosa_std
err2 = stats.versicolor_std
err3 = stats.virginica_std
# エラーバーの表示に関するオプションを定義
error_bar_set = dict(lw = 1, capthick = 1, capsize = 5)

# 棒グラフを描画
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()

ax.bar(x, y1, yerr=err1, error_kw=error_bar_set, label = 'setosa')
ax.bar(x, y2, yerr=err2, error_kw=error_bar_set, label = 'versicolor', bottom=y1)
ax.bar(x, y3, yerr=err3, error_kw=error_bar_set, label = 'virginica', bottom=y1 + y2)

# x軸ラベルを回転させてみやすく
ax.set_xticks([0, 1, 2, 3])
ax.set_xticklabels(stats.index, rotation=15)
ax.legend()

種を横並びにして、４つのパラメーターを棒グラフにする。  
横並びにするためには、棒の幅を狭くしつつ、適度に横ずらししながら描画する。

In [None]:
# 対象データを変数に代入。（x軸はずれの計算のために数値で指定しておく）
x = np.array([1, 2, 3, 4])
y1 = stats.setosa_mean
y2 = stats.versicolor_mean
y3 = stats.virginica_mean
err1 = stats.setosa_std
err2 = stats.versicolor_std
err3 = stats.virginica_std
error_bar_set = dict(lw = 1, capthick = 1, capsize = 2)

# 棒グラフを描画
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()

ax.bar(x - 0.2, y1, width = 0.2, yerr=err1, error_kw=error_bar_set, label = 'setosa')
ax.bar(x + 0.0, y2, width = 0.2, yerr=err2, error_kw=error_bar_set, label = 'versicolor')
ax.bar(x + 0.2, y3, width = 0.2, yerr=err3, error_kw=error_bar_set, label = 'virginica')

# x軸ラベルを回転させてみやすく
ax.set_xticks([1, 2, 3, 4])
ax.set_xticklabels(stats.index, rotation=15)
ax.legend(loc = 'upper center', bbox_to_anchor=(0.5, 1.2), ncol=3)

## 1.2.4. 箱髭図「ax.boxplot()」 (&ジッタープロット)
3種それぞれのがく片の長さ（sepal_length）を箱髭図で視覚化する。  
boxplot()メソッドでは、横軸は指定せず縦軸で示したい数値データをリストで渡す。

In [None]:
# 3種のsepal_lengthを配列（pandas series）として取り出す
y1 = iris[iris.species == 'setosa'].sepal_length
y2 = iris[iris.species == 'versicolor'].sepal_length
y3 = iris[iris.species == 'virginica'].sepal_length

# 箱髭図を作図
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()
ax.boxplot([y1, y2, y3], labels=['setosa', 'versicolor', 'virginica'])

# 軸ラベルを追加
ax.set_xlabel('species')
ax.set_ylabel('sepal length [cm]')

箱髭図ではデータの概要を比較するのに適している。一方で元のデータの全体像は見えなくしてしまう。生データをそのまま見せるジッタープロットも作成してみよう。  
matplotlibにはジッタープロット用のメソッドはないため、x軸を手動でずらしながらscatter plotを作成する。

In [None]:
# 3種のsepal_lengthを配列（pandas series）として取り出す
y1 = iris[iris.species == 'setosa'].sepal_length
y2 = iris[iris.species == 'versicolor'].sepal_length
y3 = iris[iris.species == 'virginica'].sepal_length

# x軸の座標 (1, 2, 3) に±0.2の間で連続一様分布の乱数を加える
x1 = 1 + np.random.uniform(-0.2, 0.2, len(y1))
x2 = 2 + np.random.uniform(-0.2, 0.2, len(y2))
x3 = 3 + np.random.uniform(-0.2, 0.2, len(y3))

# jitter plot風の散布図を描画
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()
ax.scatter(x1, y1)
ax.scatter(x2, y2)
ax.scatter(x3, y3)

# 軸ラベルを追加
ax.set_xticks([1,2,3])
ax.set_xticklabels(['setosa', 'versicolor', 'virginica'])

箱髭図にジッタープロットを重ねて表示。異なる種類のプロットもそのまま重ねられる。

In [None]:
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()

# 箱髭図。　外れ値を表示させないためにshowfliers=Falseを指定。
ax.boxplot([y1, y2, y3], labels=['leaf', 'stem', 'root'], showfliers=False)

# jitter plot風の散布図　（ポイントのサイズを見やすく調整）
ax.scatter(x1, y1, s=10)
ax.scatter(x2, y2, s=10)
ax.scatter(x3, y3, s=10)

# 軸ラベルを追加
ax.set_xticks([1,2,3])
ax.set_xticklabels(['setosa', 'versicolor', 'virginica'])

# 2. Seabornを用いた作図
Seabornは簡単なコマンドでmatplotlibを内部的にコードして複雑なグラフを実現してくれる、matplotlibのラッパーライブラリである。  
Seabornの利点は大きく以下の３点。
* seabornのスタイルを利用することで綺麗な図を簡単に作れる。
* seabornに用意された関数を利用することでシンプルなコードで複雑な図が作れる。
* matplotlibでは作れないような複雑なグラフを作る関数が用意されている。

## 2.1. seabornのスタイルを利用してmatplotlibの図を綺麗にする
sns.set()関数を指定するだけで、matplotlibで作ったグラフのデザインを変えられる。

In [None]:
# seabornをsnsとしてインポート（すでにやったが練習として）
import seaborn as sns

In [None]:
# sns.set() 
# データを作成
x = [1.0, 2.0, 3.0, 4.0, 5.0]
y = [1.2, 2.5, 3.4, 3.3, 2.8]

# 描画領域を定義
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()
ax.plot(x,y)

seabornのスタイルには darkgrid, dark, whitegrid, white, ticksの５種類があります。一度実行すると、上書きされない限りずっと（他のセルにも）適用されます。

In [None]:
# 描画領域を定義
fig = plt.figure(figsize=(12, 2))

sns.set_style('darkgrid')
ax1 = fig.add_subplot(1,5,1)
ax1.plot(x,y)

sns.set_style('dark')
ax2 = fig.add_subplot(1,5,2)
ax2.plot(x,y)

sns.set_style('whitegrid')
ax3 = fig.add_subplot(1,5,3)
ax3.plot(x,y)

sns.set_style('white')
ax4 = fig.add_subplot(1,5,4)
ax4.plot(x,y)

sns.set_style('ticks')
ax5 = fig.add_subplot(1,5,5)
ax5.plot(x,y)

seabornには綺麗なカラーパレットが複数用意されている。

In [None]:
# 現在の(matplotlibの)パレット
sns.palplot(sns.color_palette(), size=0.5)
# カラフルなセット
sns.palplot(sns.color_palette("Set1", 10), size=0.5)
sns.palplot(sns.color_palette("Set2", 10), size=0.5)
# グラデーション
sns.palplot(sns.color_palette("viridis", 10), size=0.5)

In [None]:
# スタイルとカラーパレットの設定
sns.set_style('whitegrid') 
sns.set_palette('Set1')

# データの用意
x = np.array([1.0,2.0,3.0,4.0,5.0])
y = np.array([1.2,2.5,3.4,3.3,2.8])

# 作図
fig=plt.figure(figsize=(4, 3)) 
ax=fig.add_subplot(1,1,1)
ax.plot(x,y)
ax.plot(x,y+1)
ax.plot(x,y+2)
ax.plot(x,y+3)
ax.plot(x,y+4)

## Seabornに用意された関数で作図
Seabornを使うと、複雑なグラフも簡単なコードで作図できることが多い。  
例として、棒グラフをSeabornの関数で作成してみよう。

In [None]:
# データを再確認
iris

まずは、matplotlibで横並び棒グラフを作ってみる（先ほどと同じ）  
matplotlibは事前に平均と標準偏差を計算する必要があった。

In [None]:
# matplotlib用にデータを変換
species_list = list(set(iris.species))
stats = pd.DataFrame(index=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
for i in species_list:
    species_data = iris[iris['species'] == i]
    species_mean = species_data.iloc[:,0:4].mean()
    species_std = species_data.iloc[:,0:4].std()
    stats[f'{i}_mean'] = species_mean
    stats[f'{i}_std'] = species_std
stats

In [None]:
# matplotlibで棒グラフ（上で行ったものと同じ）
# 対象データを変数に代入。
x = np.array([1, 2, 3, 4])
y1 = stats.setosa_mean
y2 = stats.versicolor_mean
y3 = stats.virginica_mean
err1 = stats.setosa_std
err2 = stats.versicolor_std
err3 = stats.virginica_std
error_bar_set = dict(lw = 1, capthick = 1, capsize = 2)

# 棒グラフを描画
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()
ax.bar(x - 0.2, y1, width = 0.2, yerr=err1, error_kw=error_bar_set, label = 'setosa')
ax.bar(x + 0.0, y2, width = 0.2, yerr=err2, error_kw=error_bar_set, label = 'versicolor')
ax.bar(x + 0.2, y3, width = 0.2, yerr=err3, error_kw=error_bar_set, label = 'virginica')

# x軸ラベルを回転させてみやすく
ax.set_xticks([1, 2, 3, 4])
ax.set_xticklabels(stats.index, rotation=15)
ax.legend(loc = 'upper center', bbox_to_anchor=(0.5, 1.2), ncol=3)

次に、Searbonのsns.barplot()関数を使って同様のグラフを書いてみる。  
sns.barplot()関数は平均値と標準偏差を自動で算出してくれる。  
変換にあたっては、グループ（Species)を一つの列として作ってあげる必要がある。

In [None]:
# seaborn用にデータを変換。詳細は巻末に記載 -> 3.3.
iris_stacked = iris.drop('species', axis=1).stack().reset_index(level=1)
iris_stacked.columns = ['variable', 'value']
iris_stacked['species'] = iris['species']
iris_stacked

In [None]:
# 棒グラフの指定・描画
fig = plt.figure(figsize=(4, 3))
ax = fig.add_subplot()
sns.barplot(x="variable", y="value", hue="species", data=iris_stacked, palette='Set1')

# x軸ラベルを回転させてみやすく
ax.set_xticks([0, 1, 2, 3])
ax.set_xticklabels(stats.index, rotation=15)
ax.legend(loc = 'upper center', bbox_to_anchor=(0.5, 1.2), ncol=3)

上の例で見たように、
* Seabornの関数を使用すると複雑なグラフがシンプルなコードで作成できる。
* Seabornの関数では入力で必要なデータの形式がmatplotlibとは異なる。

これら違いを生み出す大きな要因は**Seabornはテーブル形式のデータを入力として受け取る**こと。  
これにより、どの値がグループなのかを指定するだけで、いいようにグラフを作ってくれる。

Seabornでは、それ以外にも複数のグラフを組み合わせたより高度なグラフをシンプルなコードで作成する関数が用意されている。  
次の資料では、遺伝子発現データを扱ってSeabornの便利な機能を見ていこう。

# extended: 説明を省いた箇所の説明

## 3.1. 散布図に近似線を追加する

In [None]:
# 描画領域の定義
fig = plt.figure(figsize=(4,3))
ax = fig.add_subplot()

# species_list['versicolor', 'virginica', 'setosa']を一つずつ作図
for i in [0, 1, 2]:

    # 種ごとのデータを抽出して散布図を作成。次のブロックで使うためにxとyの値を別途代入しておく
    data = iris[iris.species == species_list[i]]
    x = data.sepal_length
    y = data.sepal_width
    ax.scatter(x, y, label = species_list[i])
    
    # 近似式を計算して作図。
    ## polyfitで、一次関数でフィッティングし、傾きaと切片bを受け取る。（polyfitの３つ目の引数が次数の指定）
    a, b = np.polyfit(x, y, 1)
    ## 線グラフを描画（xは実データ、yはフィッティング式で計算）
    ax.plot(x, a * x + b)
    ## f-stringsを使って、表示すべき数式をequationに代入する。{a:.2f}はaの値を小数点第２位まで表示するという意味。
    equation = f"{species_list[i]}: y = {a:.2f}x + {b:.2f}"
    ## textメソッドで数式を表示する。第１引数はtextを表示数する開始点（左端）、第２引数はtextの高さ。高さを4.5+[0,1,2]とずらしている。
    ax.text(8.5, 4.5-i, equation, fontsize=12)

ax.set_xlabel('sepal length [cm]')
ax.set_ylabel('petal length [cm]')
ax.legend(loc = 'upper center', bbox_to_anchor=(0.5, 1.2), ncol=3)

# 3.2. データフレームの集計

In [None]:
# あとでデータを追加していくために、あらかじめ行名だけの空データフレームを作っておく。
stats = pd.DataFrame(index=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])

# speciesごとに、各変数の平均値と標準偏差を取得しデータフレームに追加。
for i in species_list:
    species_data = iris[iris['species'] == i]
    ## 各列ごとに平均値と標準偏差を計算する。
    species_mean = species_data.iloc[:,0:4].mean()
    species_std = species_data.iloc[:,0:4].std()
    ## 最初に作った空データフレームに、新しい列として上の計算結果を追加する。その際、f-stringsで列名に種名を入れておく。
    stats[f'{i}_mean'] = species_mean
    stats[f'{i}_std'] = species_std
stats

# 3.3. データフレームの変換

In [None]:
# seaborn用にデータを変換。

# 横並びだったデータを縦に重ねる
## dropを使って、species列を取り除く
## stack関数は、元の行名を(level_0)index、元の列名を(level_1)index、全データを１列に並べたマルチインデックスpandas.seriesを作成する。
## reset_indexはindex(行名)をデータに戻す関数。ここでは、level_1 index(sepal_length等)をデータフレームのデータとして扱うようにする。
iris_stacked = iris.drop('species', axis=1).stack().reset_index(level=1)

# 列名を修正
iris_stacked.columns = ['variable', 'value']

# 新しく'species'列を追加する。この際、元々のindexに対応した箇所にデータが追加される。
iris_stacked['species'] = iris['species']
iris_stacked