<a id=0></a>
# 5.Distribution & Relational Plot

---
### [1.SearbornのデータセットからDataFrameを作成 ](#1)
### [2.Distribution Plot ](#2)
### [3.Relational Plot](#3)
### [4. Pandas Supplement : DatetimeIndex & map](#4)
---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

---
<a id=1></a>
[Topへ](#0)

---
## 1. SearbornのデータセットからDataFrameを作成

* データセット(penguins)を読み込む
* データセットの整理
---

データセット('penguins')を読み込む

In [None]:
# sns.get_dataset_names()

In [None]:
df = sns.load_dataset('penguins')
df.head()

データセットの整理

<p>
    <a href="https://www.kaggle.com/datasets/larsen0966/penguins?sort=votes" target="_blank" rel="noreferrer noopener">
        Kaggle Dataset Penguins のページへ
    </a>
</p>

    bill        : くちばし  
    flipper     : 翼
    body_mass_g : 体重    

In [None]:
df.shape

In [None]:
df.info()

In [None]:
# nullを持つレコードを全て削除
df.dropna(axis=0, inplace=True)

In [None]:
df.shape

In [None]:
df['species'].unique()

In [None]:
df['island'].unique()

---
<a id=2></a>
[Topへ](#0)

---
## 2. Distribution Plot

* Seabornテーマの設定
* ヒストプロット : 度数分布を表す。横軸に階級、縦軸に度数
    * **sns.histplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.histplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.histplot のページへ
        </a>
    </p>


* KDEプロット : カーネル密度推定による分布を表す。横軸に階級
    * KDE(カーネル密度推定) : 有限のサンプルから全体の分布を推定
    * **sns.kdeplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.kdeplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.kdeplot のページへ
        </a>
    </p>
---

Seabornテーマの設定

In [None]:
sns.set_theme(context='talk', style='darkgrid', font='MS Mincho')

ヒストプロット

In [None]:
sns.histplot(data=df, x='body_mass_g')
plt.show()

In [None]:
# binsの変更
sns.histplot(data=df, x='body_mass_g', bins=18)
plt.show()

In [None]:
# hueの使用
sns.histplot(data=df, x='body_mass_g', hue='species')
plt.show()

In [None]:
# multiple='dodge', shrink=0.8, kde=True
plt.figure(figsize=(8, 5))
sns.histplot(data=df, x='body_mass_g', hue='species', multiple='dodge', shrink=0.8, kde=True)
plt.show()

In [None]:
# 'layer', 'dodge, 'stack', 'fill'
plt.figure(figsize=(8, 5))
sns.histplot(data=df, x='body_mass_g', hue='species', multiple='fill')
plt.show()

In [None]:
# count, density, probability
plt.figure(figsize=(8, 5))
sns.histplot(data=df, x='body_mass_g', hue='species', multiple='dodge', shrink=0.8, stat='probability')
plt.show()

KDEプロット

In [None]:
# sns.histplot(data=df, x='body_mass_g', hue='species', multiple='fill')のなだらかな表現
plt.figure(figsize=(8, 5))
sns.kdeplot(data=df, x='body_mass_g', hue='species', shade=True, palette='viridis', multiple='fill')
plt.show()

---
<a id=3></a>
[Topへ](#0)

---
## 3. Relational Plot

* ジョイントプロット : 2変数の関係をスキャッタープロットとKEDプロットで表示（デフォルト設定）
    * **sns.jointplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.jointplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.jointplot のページへ
        </a>
    </p>
    

* スキャッタープロット : 散布図。2変数の関係を点の分布により表す
    * **sns.scatterplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.scatterplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.scatterplot のページへ
        </a>
    </p>


* RELプロット : スキャッタープロットをさらにクラス分けして行・列で表す
    * **sns.relplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.relplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.relplot のページへ
        </a>
    </p>


* REGプロット : スキャッタープロットと線形回帰直線を表す
    * **sns.regplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.regplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.regplot のページへ
        </a>
    </p>


* LMプロット : REGプロットをさらにクラス分けして行・列で表す
    * **sns.lmplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.lmplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.lmplot のページへ
        </a>
    </p>


* ペアプロット : すべての数値データの組み合わせを行い、グリッドで2変数の関係を表す
    * **sns.pairplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.pairplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.pairplot のページへ
        </a>
    </p>
    
    
* ラインプロット : 折れ線グラフ。点をつなぎ、主に連続的変化の推移を表す
    * **sns.lineplot()**
    <p>
        <a href="https://seaborn.pydata.org/generated/seaborn.lineplot.html" target="_blank" rel="noreferrer noopener">
            Seaborn.lineplot のページへ
        </a>
    </p>
    
   

---

ジョイントプロット

In [None]:
# 二種類のプロットで表現
# kindを使うこの種のプロットは表示設定に融通が利かないことがあり、シンプルにscatterplotを使うことをお勧めします
sns.jointplot(data=df, x='body_mass_g', y ='bill_length_mm', hue='species', height=5, kind='kde')
plt.show()
# kind : ked, hist, scatter(default)

In [None]:
sns.jointplot(data=df, x='body_mass_g', y ='bill_length_mm', hue='species', height=6, kind='scatter')
plt.show()
# kind : ked, hist, scatter(default)

スキャッタープロット

In [None]:
# リレーショナルプロットと言えばスキャッタープロット
plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='species')
plt.show()

In [None]:
# alpha, size, sizes(min, max)
plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='species', alpha=0.7, size='body_mass_g', sizes=(10, 200))
plt.show()

In [None]:
# legendを図（axes）の外に出すには
plt.figure(figsize=(8, 6))
sns.scatterplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='species', style='sex', markers=['o', 'X'], alpha=0.7)
plt.legend(bbox_to_anchor=(1, 1))
# 数値と実際の配置の関係が曖昧だが、微調整して使う
plt.show()

RELプロット

In [None]:
# scatterplotと同じ
sns.relplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='sex', palette='cividis')
plt.show()

In [None]:
# col, rowを追加
sns.relplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='sex', palette='cividis', col='island', row='species', height=3, aspect=2)
plt.show()

In [None]:
# size
sns.relplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='sex', palette='cividis', col='island', row='species', size='body_mass_g', sizes=(10, 200), height=3, aspect=2)
plt.show()
# 文字が重なる場合はheight, aspectで調整する

In [None]:
# g = sns.relplot(***)としてメソッドなどを使う場合もあるが、複雑にせずSeabornの設定で十分
g = sns.relplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='sex', palette='cividis', col='island', row='species', size='body_mass_g', sizes=(10, 200), height=3, aspect=2)

plt.show()

REGプロット

In [None]:
adelie = df.groupby('species').get_group('Adelie')
chinstrap = df.groupby('species').get_group('Chinstrap')
gentoo = df.groupby('species').get_group('Gentoo')
# adelie = df[df['species'] == 'Adelie']と同じこと。←こちらの方がよい選択

In [None]:
# 回帰直線を付加したスキャッタープロット
plt.figure(figsize=(6, 4))
sns.regplot(data=adelie, x='bill_length_mm', y='bill_depth_mm')
plt.show()

In [None]:
# scatter=False, truncate=False, scatter_kws
# あまり複雑にして深みにはまらないように
plt.figure(figsize=(6, 4))
sns.regplot(data=adelie, x='bill_length_mm', y='bill_depth_mm', scatter=False)
sns.regplot(data=chinstrap, x='bill_length_mm', y='bill_depth_mm', truncate=False)
sns.regplot(data=gentoo, x='bill_length_mm', y='bill_depth_mm', scatter_kws={'alpha':0.3})
plt.show()

LMプロット

In [None]:
sns.lmplot(data=df, x='bill_length_mm', y='bill_depth_mm', hue='species')
plt.show()

In [None]:
sns.lmplot(data=df, x='bill_length_mm', y='bill_depth_mm', col='species', truncate=False)
plt.show()

In [None]:
sns.lmplot(data=df, x='bill_length_mm', y='bill_depth_mm', col='species',row='island', truncate=False, height=3, aspect=2)
plt.show()

ペアプロット

In [None]:
# すべての数値データをペアにする
sns.pairplot(data=df, height=3, aspect=1.5)
plt.show()

In [None]:
# 対角線上のプロットを指定する
sns.pairplot(data=df, hue='species', palette='magma', diag_kind='hist', height=3, aspect=1.5, diag_kws={'multiple':'fill'})
plt.show()
# diag_kind : auto, hist, kde, None

In [None]:
# kindを指定する
sns.pairplot(data=df, hue='species', palette='magma', kind='kde', diag_kind='hist', height=3, aspect=1.5, diag_kws={'multiple':'fill'})
plt.show()
# kind : scatter, kde, hist, reg

ラインプロット

In [None]:
flights = sns.load_dataset('flights')
flights.head()

In [None]:
flights.shape

In [None]:
flights.info()

In [None]:
sns.lineplot(data=flights, x=flights.index, y='passengers')
plt.show()

In [None]:
# x label
sns.lineplot(data=flights, x=flights.index, y='passengers', marker='.', linewidth=1)
plt.xlabel('Year')
plt.show()

In [None]:
idx = np.arange(0, 144, 12)
years = np.arange(1949, 1961)

In [None]:
# xticks label
# 詳細な表示設定
plt.figure(figsize=(12, 6))
sns.lineplot(data=flights, x=flights.index, y='passengers', marker='.', markersize=8, linewidth=1, markerfacecolor='yellow', markeredgecolor='red', color='black', linestyle='--')
# '-', '--', ':'
plt.xlabel('Year')
plt.xticks(idx, years)
plt.show()

オブジェクト指向型のプロット作成

In [None]:
# plt.subplots(2,2)だけで確認すると構造が分かる
# tight_layout=Trueはいつも設定するように
# figureは全体、axesはその中のラベルや軸を含んだプロットを行うステージ
fig, axes = plt.subplots(1, 2, figsize=(8, 5), tight_layout=True)
sns.lineplot(data=flights, x=flights.index, y='passengers', marker='.', linewidth=1, ax=axes[0])
axes[0].set_xlabel('Year')
axes[0].set_xticks(idx)
axes[0].set_xticklabels(years, rotation=45, fontsize=12)

sns.lineplot(data=flights, x=flights.index, y='passengers', marker='X', markerfacecolor='red', linewidth=0, ax=axes[1])
axes[1].set_xlabel('Year')
axes[1].set_xticks(idx)
axes[1].set_xticklabels(years, rotation=45, fontsize=12)   # size=12でもOK
plt.show()

In [None]:
# ひとつの場合
fig, axes = plt.subplots()
sns.lineplot(data=flights, x=flights.index, y='passengers', marker='.', linewidth=1, ax=axes)
plt.xlabel('Year')
plt.show()

Categoty型とは

In [None]:
flights_jj = flights[flights['month'].isin(['Jan', 'Jul'])].reset_index()
flights_jj.head()

In [None]:
plt.figure(figsize=(9, 4))
sns.lineplot(data=flights_jj, x=flights_jj.index, y='passengers', hue='month', style='month', markers=True)
plt.xlabel('Year')
plt.xticks(np.arange(0, 24, 2), np.arange(1949, 1961), rotation=45)
plt.show()
# なぜJanuary, July以外があるのか？

In [None]:
flights_jj.info()
# category?
# メモリ消費が低く、処理速度が上がるようです
# 自分で大きなデータセットを作ることがなければ自ら設定する必要はなく、今回のような扱い方ができれば十分だと思います

In [None]:
# object型に変更
flights_jj['month'] = flights_jj['month'].astype(object)

In [None]:
flights_jj.dtypes

In [None]:
plt.figure(figsize=(9, 4))
sns.lineplot(data=flights_jj, x=flights_jj.index, y='passengers', hue='month', style='month', markers=True)
plt.xlabel('Year')
plt.xticks(np.arange(0, 24, 2), np.arange(1949, 1961), rotation=45)
plt.show()

---
<a id=4></a>
[Topへ](#0)

---
## 4. Pandas Supplement : DatetimeIndex & map

* Series.map()を使いJanを1に、Febを2に
* 文字列を結合して新しいカラムを作る
* to_datetimeでDatetime型に変更
* Datetimeの機能で情報を取得する
* ある時点からの差を取得する
* DatetimeIndexにしてresamplingを行う
* shiftを使って変化量を算出
---

Series.map()を使いJanを1に、Febを2に  

※ Seriesの各要素にはmapもしくはapply、DataFrameの行列にはapply、DataFrameの各要素に対してはapplymap  
※ for文を使うよりはずっと早い  
※ loc, ilocでの書き換えで対応しづらいような場合、簡潔に記述したい場合に使用する  
    

In [None]:
flights.head(12)

In [None]:
month_dict ={'Jan':1, 'Feb':2, 'Mar':3, 'Apr':4, 'May':5, 'Jun':6, 'Jul':7, 'Aug':8, 'Sep':9, 'Oct':10, 'Nov':11, 'Dec':12}

In [None]:
# series.map(dictionary)  値を置換する
flights['month'].map(month_dict)

In [None]:
s = flights['month'].map(month_dict).astype(int)[:12]
s

In [None]:
# lambda function
s.map(lambda x: x * 2)

In [None]:
flights['month_n'] = flights['month'].map(month_dict)
flights.head()

文字列を結合して新しいカラムを作る

In [None]:
# string型にして結合
flights['year'].map(lambda x: str(x) + '/')

In [None]:
# flights['year'].map(lambda x: str(x) + '/') + flights['month_n']
# TypeError: Object with dtype category cannot perform the numpy op add
# category型はaddできない

In [None]:
flights['month_n'].dtype

In [None]:
flights['year_n_month'] = flights['year'].map(lambda x: str(x) + '/') + flights['month_n'].astype(str)
# object型にすると、object型ではintも含んでしまうため、string+intができないというエラーが発生する。.astype(str)とする。
flights.head()

to_datetimeでDatetime型に変更

In [None]:
flights['date'] = pd.to_datetime(flights['year_n_month'])
flights.head()

Datetimeの機能で情報を取得する

In [None]:
flights['date'].dt.day_name()
# year / month / day / date / day_name() / weekday (0:Monday) / time / hour

ある時点からの差を取得する

In [None]:
# datetime型のシンプルな形式。年月日時間のある変数を作成
one_day = pd.Timestamp('19940705')
one_day

In [None]:
# 差も求められる
# timedeltaというものも他にある
flights['days_left'] = flights['date'].map(lambda x:one_day - x)
flights.head()

DatetimeIndexにしてresamplingを行う

In [None]:
# indexをDatetime型の'date'にする
flights.set_index('date', inplace=True)
flights.head()

In [None]:
flights.index

In [None]:
# DatetimeIndexでは柔軟な指定での抽出ができる
flights.loc['1949': '1950-07']

In [None]:
# resampleでは年、月、日、時間、曜日などを単位にまとめてくれる
# 単純な数列ではないため、月ごとの日数の違いなどがあるが、それを気にせずに使える
flights.resample('Y')

In [None]:
# groupbyオブジェクトではあるが、リサンプリングによって年月日の正しい範囲を対象に取得できる
flights.resample('Y')['passengers']

In [None]:
flights.resample('Y')['passengers'].mean()

shiftを使って変化量を算出

In [None]:
# 1行ずらす
ser_prev_month = flights['passengers'].shift(1)
ser_prev_month

In [None]:
flights['prev_month_passengers'] = flights['passengers'].shift(1)
flights.head()

In [None]:
# 前月との比較
flights['difference'] = flights['passengers'] - flights['prev_month_passengers']
flights.head()

---
[Topへ](#0)

---
## 以上
    
---