# seaborn 初級チュートリアル

このチュートリアルでは、統計的データ可視化ライブラリ **seaborn** の基本を学びます。seaborn は matplotlib をベースにした、美しく情報量の多いグラフを簡単に作成できるライブラリです。

## 学習内容
1. seaborn の特徴と設定
2. 分布の可視化
3. カテゴリカルデータの可視化
4. 関係性の可視化
5. 回帰の可視化
6. スタイルとカラーパレット

## 環境設定

In [None]:
# JupyterLite 環境でのパッケージインストール
import sys
if 'pyodide' in sys.modules:
    import piplite
    await piplite.install(['numpy', 'pandas', 'matplotlib', 'seaborn'])

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

print(f'seaborn version: {sns.__version__}')

# 日本語フォントの設定（JupyterLite環境用）
try:
    import japanize_matplotlib_jlite
except:
    pass

---
## 1. seaborn の特徴と設定

### 1.1 seaborn の特徴

- **美しいデフォルトスタイル**: matplotlib より洗練されたデザイン
- **統計的グラフ**: ヒストグラム、箱ひげ図、回帰線などを簡単に作成
- **pandas との連携**: DataFrame を直接渡せる
- **カテゴリカルデータ対応**: カテゴリ変数の可視化が得意

In [None]:
# サンプルデータセットの読み込み
tips = sns.load_dataset('tips')
print('tips データセット:')
print(tips.head())
print(f'\n形状: {tips.shape}')

In [None]:
# iris データセット
iris = sns.load_dataset('iris')
print('iris データセット:')
print(iris.head())

In [None]:
# titanic データセット
titanic = sns.load_dataset('titanic')
print('titanic データセット:')
print(titanic.head())

### 1.2 スタイルの設定

In [None]:
# スタイルの比較
styles = ['darkgrid', 'whitegrid', 'dark', 'white', 'ticks']

fig, axes = plt.subplots(1, 5, figsize=(15, 3))

np.random.seed(42)
data = np.random.randn(100)

for ax, style in zip(axes, styles):
    with sns.axes_style(style):
        ax.hist(data, bins=20)
        ax.set_title(style)

plt.tight_layout()
plt.show()

In [None]:
# デフォルトスタイルの設定
sns.set_style('whitegrid')
sns.set_palette('husl')

---
## 2. 分布の可視化

### 2.1 ヒストグラム（histplot）

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(12, 4))

# 基本的なヒストグラム
sns.histplot(tips['total_bill'], ax=axes[0])
axes[0].set_title('Basic Histogram')

# ビン数を指定
sns.histplot(tips['total_bill'], bins=30, ax=axes[1])
axes[1].set_title('30 bins')

# KDE（カーネル密度推定）を追加
sns.histplot(tips['total_bill'], kde=True, ax=axes[2])
axes[2].set_title('With KDE')

plt.tight_layout()
plt.show()

In [None]:
# カテゴリごとのヒストグラム
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# hue でカテゴリ分け
sns.histplot(data=tips, x='total_bill', hue='time', ax=axes[0])
axes[0].set_title('By Time')

# 積み上げヒストグラム
sns.histplot(data=tips, x='total_bill', hue='time', multiple='stack', ax=axes[1])
axes[1].set_title('Stacked')

plt.tight_layout()
plt.show()

### 2.2 カーネル密度推定（kdeplot）

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(12, 4))

# 基本的なKDE
sns.kdeplot(tips['total_bill'], ax=axes[0])
axes[0].set_title('Basic KDE')

# 塗りつぶし
sns.kdeplot(tips['total_bill'], fill=True, ax=axes[1])
axes[1].set_title('Filled KDE')

# カテゴリごと
sns.kdeplot(data=tips, x='total_bill', hue='time', fill=True, ax=axes[2])
axes[2].set_title('By Category')

plt.tight_layout()
plt.show()

### 2.3 2次元分布

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(12, 4))

# 2次元ヒストグラム
sns.histplot(data=tips, x='total_bill', y='tip', ax=axes[0])
axes[0].set_title('2D Histogram')

# 2次元KDE
sns.kdeplot(data=tips, x='total_bill', y='tip', ax=axes[1])
axes[1].set_title('2D KDE')

# 塗りつぶしKDE
sns.kdeplot(data=tips, x='total_bill', y='tip', fill=True, ax=axes[2])
axes[2].set_title('Filled 2D KDE')

plt.tight_layout()
plt.show()

### 2.4 分布の比較（displot）

In [None]:
# FacetGrid を使った複数パネル
g = sns.displot(data=tips, x='total_bill', col='time', row='sex', kde=True)
plt.show()

### 練習問題 2

iris データセットを使って以下を実行してください。

1. sepal_length のヒストグラム（KDE付き）を作成
2. species ごとに色分けした petal_length のKDEを作成

In [None]:
# 練習問題 2 の解答をここに書いてください


---
## 3. カテゴリカルデータの可視化

### 3.1 棒グラフ（barplot）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 基本的な棒グラフ（平均値と信頼区間）
sns.barplot(data=tips, x='day', y='total_bill', ax=axes[0])
axes[0].set_title('Mean Total Bill by Day')

# hue でカテゴリ分け
sns.barplot(data=tips, x='day', y='total_bill', hue='sex', ax=axes[1])
axes[1].set_title('By Day and Sex')

plt.tight_layout()
plt.show()

### 3.2 カウントプロット（countplot）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# カテゴリごとのカウント
sns.countplot(data=tips, x='day', ax=axes[0])
axes[0].set_title('Count by Day')

# hue でカテゴリ分け
sns.countplot(data=tips, x='day', hue='time', ax=axes[1])
axes[1].set_title('Count by Day and Time')

plt.tight_layout()
plt.show()

### 3.3 箱ひげ図（boxplot）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 基本的な箱ひげ図
sns.boxplot(data=tips, x='day', y='total_bill', ax=axes[0])
axes[0].set_title('Box Plot by Day')

# hue でカテゴリ分け
sns.boxplot(data=tips, x='day', y='total_bill', hue='smoker', ax=axes[1])
axes[1].set_title('By Day and Smoker')

plt.tight_layout()
plt.show()

### 3.4 バイオリンプロット（violinplot）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 基本的なバイオリンプロット
sns.violinplot(data=tips, x='day', y='total_bill', ax=axes[0])
axes[0].set_title('Violin Plot by Day')

# split で左右に分割
sns.violinplot(data=tips, x='day', y='total_bill', hue='sex', split=True, ax=axes[1])
axes[1].set_title('Split by Sex')

plt.tight_layout()
plt.show()

### 3.5 スウォームプロット（swarmplot）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 個々のデータポイントを表示
sns.swarmplot(data=tips, x='day', y='total_bill', ax=axes[0])
axes[0].set_title('Swarm Plot')

# 箱ひげ図と組み合わせ
sns.boxplot(data=tips, x='day', y='total_bill', ax=axes[1])
sns.swarmplot(data=tips, x='day', y='total_bill', color='black', size=3, ax=axes[1])
axes[1].set_title('Box + Swarm')

plt.tight_layout()
plt.show()

### 3.6 ストリッププロット（stripplot）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 基本的なストリッププロット
sns.stripplot(data=tips, x='day', y='total_bill', ax=axes[0])
axes[0].set_title('Strip Plot')

# ジッター量を調整
sns.stripplot(data=tips, x='day', y='total_bill', jitter=0.3, ax=axes[1])
axes[1].set_title('With More Jitter')

plt.tight_layout()
plt.show()

### 3.7 catplot（FacetGrid 対応）

In [None]:
# 複数パネルのカテゴリカルプロット
g = sns.catplot(data=tips, x='day', y='total_bill', 
                hue='sex', col='time',
                kind='box', height=4, aspect=1.2)
plt.show()

---
## 4. 関係性の可視化

### 4.1 散布図（scatterplot）

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# 基本的な散布図
sns.scatterplot(data=tips, x='total_bill', y='tip', ax=axes[0])
axes[0].set_title('Basic Scatter')

# hue でカテゴリ分け
sns.scatterplot(data=tips, x='total_bill', y='tip', hue='time', ax=axes[1])
axes[1].set_title('By Time')

# サイズと色でマッピング
sns.scatterplot(data=tips, x='total_bill', y='tip', 
                hue='size', size='size', sizes=(20, 200), ax=axes[2])
axes[2].set_title('Size and Color by Party Size')

plt.tight_layout()
plt.show()

### 4.2 折れ線グラフ（lineplot）

In [None]:
# 時系列風のデータを作成
np.random.seed(42)
n = 50
time_data = pd.DataFrame({
    'time': list(range(n)) * 2,
    'value': list(np.cumsum(np.random.randn(n))) + list(np.cumsum(np.random.randn(n))),
    'group': ['A'] * n + ['B'] * n
})

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 基本的な折れ線グラフ
sns.lineplot(data=time_data[time_data['group'] == 'A'], x='time', y='value', ax=axes[0])
axes[0].set_title('Single Line')

# グループ別
sns.lineplot(data=time_data, x='time', y='value', hue='group', ax=axes[1])
axes[1].set_title('Multiple Lines')

plt.tight_layout()
plt.show()

### 4.3 ペアプロット（pairplot）

In [None]:
# すべての数値変数の組み合わせをプロット
g = sns.pairplot(iris, hue='species')
plt.show()

In [None]:
# 対角線のプロット種類を変更
g = sns.pairplot(iris, hue='species', diag_kind='kde')
plt.show()

### 4.4 相関行列のヒートマップ

In [None]:
# 数値データの相関行列
numeric_tips = tips.select_dtypes(include=[np.number])
corr = numeric_tips.corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr, annot=True, cmap='coolwarm', center=0,
            square=True, linewidths=0.5)
plt.title('Correlation Matrix')
plt.show()

### 4.5 jointplot

In [None]:
# 散布図と周辺分布
g = sns.jointplot(data=tips, x='total_bill', y='tip', kind='scatter')
plt.show()

In [None]:
# KDE版
g = sns.jointplot(data=tips, x='total_bill', y='tip', kind='kde', fill=True)
plt.show()

In [None]:
# 回帰線付き
g = sns.jointplot(data=tips, x='total_bill', y='tip', kind='reg')
plt.show()

---
## 5. 回帰の可視化

### 5.1 regplot（回帰プロット）

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# 線形回帰
sns.regplot(data=tips, x='total_bill', y='tip', ax=axes[0])
axes[0].set_title('Linear Regression')

# 多項式回帰
sns.regplot(data=tips, x='total_bill', y='tip', order=2, ax=axes[1])
axes[1].set_title('Polynomial (order=2)')

# ロバスト回帰
sns.regplot(data=tips, x='total_bill', y='tip', robust=True, ax=axes[2])
axes[2].set_title('Robust Regression')

plt.tight_layout()
plt.show()

### 5.2 lmplot（FacetGrid 対応）

In [None]:
# カテゴリごとの回帰線
g = sns.lmplot(data=tips, x='total_bill', y='tip', hue='smoker')
plt.show()

In [None]:
# 複数パネル
g = sns.lmplot(data=tips, x='total_bill', y='tip', 
               col='time', row='smoker', height=3)
plt.show()

### 5.3 residplot（残差プロット）

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 回帰プロット
sns.regplot(data=tips, x='total_bill', y='tip', ax=axes[0])
axes[0].set_title('Regression')

# 残差プロット
sns.residplot(data=tips, x='total_bill', y='tip', ax=axes[1])
axes[1].set_title('Residuals')

plt.tight_layout()
plt.show()

---
## 6. スタイルとカラーパレット

### 6.1 カラーパレット

In [None]:
# 利用可能なパレット例
palettes = ['deep', 'muted', 'pastel', 'bright', 'dark', 'colorblind']

fig, axes = plt.subplots(2, 3, figsize=(12, 6))

for ax, palette in zip(axes.flat, palettes):
    sns.barplot(data=tips, x='day', y='total_bill', hue='sex', 
                palette=palette, ax=ax)
    ax.set_title(palette)
    ax.legend([], frameon=False)  # 凡例を非表示

plt.tight_layout()
plt.show()

In [None]:
# パレットの表示
fig, axes = plt.subplots(3, 1, figsize=(10, 4))

# カテゴリカルパレット
sns.palplot(sns.color_palette('husl', 8))
plt.title('husl (8 colors)')
plt.show()

# シーケンシャルパレット
sns.palplot(sns.color_palette('Blues', 8))
plt.title('Blues (Sequential)')
plt.show()

# ダイバージングパレット
sns.palplot(sns.color_palette('coolwarm', 8))
plt.title('coolwarm (Diverging)')
plt.show()

### 6.2 コンテキストの設定

In [None]:
# コンテキストによるサイズ変更
contexts = ['paper', 'notebook', 'talk', 'poster']

fig, axes = plt.subplots(1, 4, figsize=(16, 4))

for ax, context in zip(axes, contexts):
    with sns.plotting_context(context):
        ax.plot([0, 1, 2], [0, 1, 0])
        ax.set_title(context)

plt.tight_layout()
plt.show()

### 6.3 図のスタイルカスタマイズ

In [None]:
# カスタムスタイル
custom_style = {
    'axes.facecolor': '#f0f0f0',
    'axes.edgecolor': '#333333',
    'axes.grid': True,
    'grid.color': 'white',
    'grid.linewidth': 2,
}

with sns.axes_style('darkgrid', rc=custom_style):
    plt.figure(figsize=(8, 5))
    sns.barplot(data=tips, x='day', y='total_bill')
    plt.title('Custom Style')
    plt.show()

### 練習問題 6

tips データセットを使って以下を実行してください。

1. `coolwarm` パレットを使って day ごとの total_bill の箱ひげ図を作成
2. `talk` コンテキストを使ってプレゼンテーション用のサイズで散布図を作成

In [None]:
# 練習問題 6 の解答をここに書いてください


---
## まとめ

このチュートリアルで学んだ内容：

| カテゴリ | 主な関数 | 用途 |
|---------|---------|------|
| 分布 | `histplot()`, `kdeplot()`, `displot()` | 1変数・2変数の分布可視化 |
| カテゴリカル | `barplot()`, `boxplot()`, `violinplot()` | カテゴリごとの比較 |
| 関係性 | `scatterplot()`, `lineplot()`, `pairplot()` | 変数間の関係 |
| 回帰 | `regplot()`, `lmplot()`, `residplot()` | 回帰分析の可視化 |
| スタイル | `set_style()`, `set_palette()`, `set_context()` | グラフの見た目設定 |

---
## 練習問題の解答例

In [None]:
# 練習問題 2 の解答例
print('--- 練習問題 2 ---')

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# 1. sepal_length のヒストグラム（KDE付き）
sns.histplot(iris['sepal_length'], kde=True, ax=axes[0])
axes[0].set_title('Sepal Length Distribution')

# 2. species ごとに色分けした petal_length のKDE
sns.kdeplot(data=iris, x='petal_length', hue='species', fill=True, ax=axes[1])
axes[1].set_title('Petal Length by Species')

plt.tight_layout()
plt.show()

In [None]:
# 練習問題 6 の解答例
print('--- 練習問題 6 ---')

# 1. coolwarm パレットの箱ひげ図
plt.figure(figsize=(8, 5))
sns.boxplot(data=tips, x='day', y='total_bill', palette='coolwarm')
plt.title('Total Bill by Day (coolwarm palette)')
plt.show()

# 2. talk コンテキストの散布図
with sns.plotting_context('talk'):
    plt.figure(figsize=(10, 6))
    sns.scatterplot(data=tips, x='total_bill', y='tip', hue='time')
    plt.title('Tips vs Total Bill (talk context)')
    plt.show()