## 10.2 ヒストグラムと二次元ヒストグラム

In [1]:
import json
import pandas as pd
import seaborn as sns

from plotly import graph_objects as go
from plotly import express as px
from plotly.graph_objs.layout import Template

# PenguinsデータセットのDataFrameを読み込み
df = sns.load_dataset('penguins')

df

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,Male
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,Female
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,Female
3,Adelie,Torgersen,,,,,
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,Female
...,...,...,...,...,...,...,...
339,Gentoo,Biscoe,,,,,
340,Gentoo,Biscoe,46.8,14.3,215.0,4850.0,Female
341,Gentoo,Biscoe,50.4,15.7,222.0,5750.0,Male
342,Gentoo,Biscoe,45.2,14.8,212.0,5200.0,Female


In [2]:
# Traceを作成
trace = go.Histogram(
    x=df['bill_length_mm'],     # 分布を表現する変数
    nbinsx=50                   # ビンの個数（50）
)   # くちばしの長さのヒストグラム

# 独自テンプレートを読み込み
with open('custom_white.json') as f:
    custom_white_dict = json.load(f)
    template = Template(custom_white_dict)

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Penguins dataset',
    xaxis={'title': 'Part size [mm]'}
)

# Figureを作成
figure = go.Figure(trace, layout)

figure

In [3]:
# Traceを作成
trace = go.Histogram(
    x=df['bill_length_mm'],
    xbins={
        'start': 0.,    # 開始位置
        'end': 60.,     # 終了位置
        'size': 0.5     # ビン幅
    },  # ビンの設定
    histnorm='probability'  # 正規化設定（確率表示）
)   # くちばしの長さのヒストグラム

# Figureを作成
figure = go.Figure(trace, layout)

figure

In [4]:
# 使用する変数
columns = {
    'Bill length': 'bill_length_mm',
    'Bill depth': 'bill_depth_mm',
    'Flipper length': 'flipper_length_mm'
}

# Traceのlistを作成
traces = []
for key, value in columns.items():
    trace = go.Histogram(
        x=df[value],
        nbinsx=50,
        name=key
    )
    traces.append(trace)

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Penguins dataset',
    xaxis={'title': 'Part size [mm]'}
)

# Figureを作成
figure = go.Figure(traces, layout)

figure

In [5]:
# ビン個数のlist
nbinsx_list = [15, 30, 60, 120]

frames = []
steps = []
for nbinsx in nbinsx_list:
    # Traceのlistを作成
    traces = []
    for key, value in columns.items():
        trace = go.Histogram(
            x=df[value],
            nbinsx=nbinsx,
            name=key
        )
        traces.append(trace)

    # Frameを作成
    frame = go.Frame(
        data=traces,
        name=nbinsx
    )
    frames.append(frame)

    # ステップを作成
    step = {
        'args': [
            [nbinsx],
        ],
        'label': f'nbins {nbinsx}',
        'method': 'animate'
    }
    steps.append(step)

# スライダーを作成
sliders = [{
    'len': 1.,      # スライダー長さ
    'x': 0.,        # スライダー左位置
    'y': -0.1,      # スライダー縦位置
    'steps': steps
}]

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Penguin dataset',
    xaxis={'title': 'Part size [mm]'},
    sliders=sliders,    # スライダー
)

# Figureを作成
figure = go.Figure(
    data=frames[0]['data'],     # 最初に表示するグラフ
    layout=layout,
    frames=frames
)

figure

In [6]:
# Plotly ExpressからヒストグラムのFigureを作成
figure = px.histogram(
    df,                         # DataFrame
    x='body_mass_g',            # 分布を表現する変数
    template=template,          # 書式テンプレート
    title='Penguin dataset'     # グラフタイトル
)   # 体重のヒストグラム

# 以下のようにDataFrameから作成することも可能
# pd.options.plotting.backend = 'plotly'
# figure = df.plot.hist(
#     x='body_mass_g',
#     template=template,
#     title='Penguin dataset'
# )

figure

In [7]:
print(df['bill_length_mm'].min(), df['bill_length_mm'].max())

print(df['bill_depth_mm'].min(), df['bill_depth_mm'].max())

32.1 59.6
13.1 21.5


In [8]:
bin_size = 2.   # ビンのサイズ

# Traceを作成
trace = go.Histogram2d(
    x=df['bill_length_mm'],     # x軸に使用する変数
    y=df['bill_depth_mm'],      # y軸に使用する変数
    xbins={
        'start': 32.,
        'end': 60.,
        'size': bin_size
    },  # x軸のビン設定
    ybins={
        'start': 12.,
        'end': 22.,
        'size': bin_size
    },  # y軸のビン設定
    colorscale='Blues'          # カラースケール
)   # くちばしの長さと幅の二次元ヒストグラム

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Penguins dataset',
    xaxis={
        'title': 'Bill length [mm]',
        'range': [32, 60],
        'constrain': 'domain',
        'showline': False
    },
    yaxis={
        'title': 'Bill depth [mm]',
        'range': [12, 22],
        'scaleanchor': 'x',
        'scaleratio': 1
    }
)

# Figureを作成
figure = go.Figure(trace, layout)

figure

In [9]:
# Traceを作成
trace = go.Histogram2dContour(
    x=df['bill_length_mm'], # x軸に使用する変数
    y=df['bill_depth_mm'],  # y軸に使用する変数
    xbins={
        'start': 32.,
        'end': 60.,
        'size': bin_size
    },  # x軸のビンの設定
    ybins={
        'start': 12.,
        'end': 22.,
        'size': bin_size
    },  # y軸のビンの設定
    colorscale='Greens',    # カラースケール
)   # くちばしの長さと広さの密度等高線図

# Figureを作成
figure = go.Figure(trace, layout)

figure

In [10]:
# Traceを作成
trace = go.Histogram2dContour(
    x=df['bill_length_mm'],
    y=df['bill_depth_mm'],
    xbins={
        'start': 32. - bin_size/2,
        'end': 60. + bin_size/2,
        'size': bin_size
    },
    ybins={
        'start': 12. - bin_size/2,
        'end': 22. + bin_size/2,
        'size': bin_size
    },
    colorscale='Greens',
)   # くちばしの長さと広さの密度等高線図

# Figureを作成
figure = go.Figure(trace, layout)

figure

In [11]:
# Traceのlistを作成
traces = [
    trace,  # 密度投稿線図のTrace
    go.Scatter(
        x=df['bill_length_mm'],
        y=df['bill_depth_mm'],
        mode='markers',
        marker={'color': 'green', 'symbol': 'circle-open'},
        opacity=0.5
    )   # くちばしの長さと幅の散布図
]

# Figureを作成
figure = go.Figure(traces, layout)

figure