# データの可視化とPlotly

- [Matplotlib](https://matplotlib.org/)
- [seaborn](https://seaborn.pydata.org/)
- [Bokeh](https://bokeh.org/)
- [Plotly.py](https://plotly.com/python/)
- [Plotly Express](https://plotly.com/python/plotly-express/)

## Plotly.pyとPlotly Express


In [3]:
import pandas as pd
plot_df = pd.DataFrame(
    data=[[4, 2], [1, 3]], 
    index=pd.Index(["前期", "当期"], name="期間"), 
    columns=pd.Index(["東京", "大阪"], name="地域")
)
plot_df

地域,東京,大阪
期間,Unnamed: 1_level_1,Unnamed: 2_level_1
前期,4,2
当期,1,3


In [5]:
import plotly.graph_objects as go

# 1. 「東京」のデータを持つ棒グラフのパーツ（トレース）を作成
trace1 = go.Bar(x=plot_df.index, y=plot_df["東京"], name="東京")

# 2. 「大阪」のデータを持つ棒グラフのパーツを作成
trace2 = go.Bar(x=plot_df.index, y=plot_df["大阪"], name="大阪")

# 3. 複数のパーツを1つの図（Figure）にまとめ、レイアウトを設定
# layout=go.Layout(barmode="stack") で積上げ棒グラフに設定
# 【サイズ指定をする場合】ここ（Layout内）に width と height を追加します
go_fig = go.Figure(
    data=[trace1, trace2], 
    layout=go.Layout(
        barmode="stack",
        width=800,   # 幅をピクセル単位で指定
        height=500   # 高さをピクセル単位で指定
    )
)

# 4. グラフを表示
go_fig.show()

In [6]:
# 作成した後に後付けでサイズを変更する場合
go_fig.update_layout(width=1000, height=600)
go_fig.show()

In [7]:
tidy_df = pd.melt(
    plot_df.reset_index(), 
    id_vars=["期間"], 
    value_vars=["東京", "大阪"], 
    value_name="金額"
)
tidy_df

Unnamed: 0,期間,地域,金額
0,前期,東京,4
1,当期,東京,1
2,前期,大阪,2
3,当期,大阪,3


In [8]:
import plotly.express as px

# 1. px.bar を使って棒グラフ（積上げ）を作成
# tidy_df: 集計済みのデータフレーム
# x="期間": 横軸に期間
# y="金額": 縦軸に数値
# color="地域": 地域ごとに色分け（これにより自動的に積上げ棒グラフになります）
# 【サイズ指定をする場合】引数に width と height を直接追加できます
ex_fig = px.bar(
    tidy_df, 
    x="期間", 
    y="金額", 
    color="地域",
    width=800,  # 幅をピクセル指定
    height=500  # 高さをピクセル指定
)

# 2. グラフを表示
ex_fig.show()

In [9]:
ex_fig.write_html("bar_graph.html")

In [None]:
# pip install kaleido

Note: you may need to restart the kernel to use updated packages.


In [10]:
ex_fig.write_image("bar_graph.png")

## 構成割合の可視化


In [12]:
composition_df = pd.DataFrame(
    [
        ["必要生活費", "衣類", 20],
        ["必要生活費", "食費", 30],
        ["必要生活費", "住居費", 40],
        ["教養娯楽費", "教養", 15],
        ["教養娯楽費", "趣味娯楽", 20],
    ],
    columns=["大分類", "中分類", "金額"]
)

composition_df

Unnamed: 0,大分類,中分類,金額
0,必要生活費,衣類,20
1,必要生活費,食費,30
2,必要生活費,住居費,40
3,教養娯楽費,教養,15
4,教養娯楽費,趣味娯楽,20


### 円グラフとサンバーストグラフ


In [18]:
# 1. px.pie の引数で直接サイズを指定する場合
pie_fig = px.pie(
    composition_df, 
    names="中分類", 
    values="金額",
    width=600,  # 幅を指定
    height=600  # 円グラフなので正方形に近いサイズが綺麗です
)

# 2. トレース（円の表示形式）の更新
pie_fig.update_traces(
    textinfo="label+percent", # 項目名とパーセントを表示
    textfont_size=20,         # 文字サイズ
    showlegend=False,         # 凡例を非表示
)

# 【別解】作成した後にサイズを指定（上書き）したい場合は、こちら
# pie_fig.update_layout(width=500, height=500)

# 3. グラフを表示
pie_fig.show()

In [20]:
# 1. px.sunburst の引数で直接サイズを指定する場合
sunburst_fig = px.sunburst(
    composition_df, 
    path=["大分類", "中分類"], 
    values="金額",
    width=700,  # 幅を指定
    height=700  # サンバースト図も円形なので、縦横を揃えると綺麗です
)

# 2. トレース（ラベルの表示形式）の更新
# textinfo="label+value" で項目名と金額を表示
sunburst_fig.update_traces(textinfo="label+value", textfont_size=20)

# 【別解】後からサイズを変更する場合
# sunburst_fig.update_layout(width=800, height=800)

# 3. グラフを表示
sunburst_fig.show()

### ツリーマップ


In [22]:
# 1. px.treemap の引数で直接サイズを指定する場合
# トレemapは横長（16:9 や 4:3 など）にすると、ラベルが読みやすくなることが多いです
treemap_fig = px.treemap(
    composition_df, 
    path=["大分類", "中分類"], 
    values="金額",
    width=900,   # 幅を広めに指定
    height=600   # 高さを指定
)

# 2. トレース（ラベルの表示形式）の更新
treemap_fig.update_traces(textinfo="label+value", textfont_size=20)

# 【別解】後からサイズを変更する場合
# treemap_fig.update_layout(width=1000, height=500)

# 3. グラフを表示
treemap_fig.show()

## 量の比較と推移の可視化


In [23]:
ts_df = pd.DataFrame(
    [
        [2020, "必要生活費", "衣類", 20],
        [2020, "必要生活費", "食費", 30],
        [2020, "必要生活費", "住居費", 35],
        [2020, "教養娯楽費", "教養", 15],
        [2020, "教養娯楽費", "趣味娯楽", 15],
        [2021, "必要生活費", "衣類", 20],
        [2021, "必要生活費", "食費", 40],
        [2021, "必要生活費", "住居費", 35],
        [2021, "教養娯楽費", "教養", 10],
        [2021, "教養娯楽費", "趣味娯楽", 25],
        [2022, "必要生活費", "衣類", 15],
        [2022, "必要生活費", "食費", 25],
        [2022, "必要生活費", "住居費", 40],
        [2022, "教養娯楽費", "教養", 15],
        [2022, "教養娯楽費", "趣味娯楽", 30],
    ],
    columns=["年", "大分類", "中分類", "金額"]
).assign(**{"日付": lambda df: pd.to_datetime(df["年"], format="%Y")})

### 棒グラフ


In [27]:
# 1. px.bar の引数で直接サイズを指定する場合
bar_fig = px.bar(
    ts_df, 
    x="年", 
    y="金額", 
    color="中分類",
    width=800,  # 幅を指定（時系列なので少し横長が見やすいです）
    height=500  # 高さを指定
)

# 2. レイアウトの更新
# xaxis={"dtick": 1}: X軸（年）の目盛りを1刻みに設定
# 【注意】update_layout を使う場合、サイズ指定もここで行えます
bar_fig.update_layout(
    xaxis={"dtick": 1}
    # width=900,  # ここで指定することも可能です
    # height=500
)

# 3. グラフを表示
bar_fig.show()

In [39]:
groupbar_fig = px.bar(
    ts_df,
    x="日付",
    y="金額",
    color="大分類",
    barmode="group",
    width=800,
    height=600
)

groupbar_fig.update_layout(
    xaxis={"dtick": "M12",
           "tickformat": "%Y",
           "ticksuffix": "年"
    }
)

groupbar_fig.show()

### 折れ線グラフ


In [41]:
line_fig = px.line(
    ts_df,
    x="日付",
    y="金額",
    color="中分類",
    markers=True,
    width=800,
    height=600,
    title="金額の推移",
)

# タイトルを中央に配置する設定
line_fig.update_layout(
    title_x=0.5, # 0(左) 〜 1(右) の中間である 0.5 を指定
)

line_fig.show()

## 構成割合の推移の可視化

### エリアチャート


In [44]:
area_fig = px.area(
    ts_df,
    x="日付",
    y="金額",
    color="中分類",
    width=600,
    height=400,
)
area_fig.show()

### その他の構成割合の推移の可視化

## レイアウトとグラフの組み合わせ

### Plotly Expressのカラースケール


In [53]:
px.colors.qualitative.Plotly

['#636EFA',
 '#EF553B',
 '#00CC96',
 '#AB63FA',
 '#FFA15A',
 '#19D3F3',
 '#FF6692',
 '#B6E880',
 '#FF97FF',
 '#FECB52']

In [54]:
color_fig = px.colors.qualitative.swatches()
color_fig.update_layout(
    width=800,
    height=600,
    title="Plotly Color Palettes",
    xaxis_title="Color",
    yaxis_title="Color",
    showlegend=False,
)
color_fig.show()

In [55]:
px.colors.qualitative.Alphabet

['#AA0DFE',
 '#3283FE',
 '#85660D',
 '#782AB6',
 '#565656',
 '#1C8356',
 '#16FF32',
 '#F7E1A0',
 '#E2E2E2',
 '#1CBE4F',
 '#C4451C',
 '#DEA0FD',
 '#FE00FA',
 '#325A9B',
 '#FEAF16',
 '#F8A19F',
 '#90AD1C',
 '#F6222E',
 '#1CFFCE',
 '#2ED9FF',
 '#B10DA1',
 '#C075A6',
 '#FC1CBF',
 '#B00068',
 '#FBE426',
 '#FA0087']

### グラフの組み合わせ


In [56]:
fig2 = go.Figure()
for cat in ts_df["大分類"].unique():    # ts_df["大分類"].unique() は、データの中にある「大分類」の名前を重複なく取り出したリストであり、項目数だけ繰り返され、catに代入される
    tmp_df = ts_df.loc[
        ts_df["大分類"]==cat, ["日付", "金額"]
    ].groupby("日付").sum().reset_index()
    # add_traceメソッドで各大分類ごとに描画領域に折れ線グラフを追加
    fig2.add_trace(go.Scatter(
        x=tmp_df["日付"], 
        y=tmp_df["金額"], 
        name=cat, 
        mode="lines+markers",  # 折れ線グラフにマーカー(点)を表示
        line={"width": 4, "dash": "dash"},  # 線の幅と形状を設定
        marker={"size": 15, "symbol": "diamond"},  # マーカーのサイズと形状を設定
        yaxis="y1",  # y軸(縦軸)の1軸目を使用
    ))
total_df = ts_df[["日付", "金額"]].groupby("日付").sum().reset_index()
# 各年の総計を棒グラフとして追加
fig2.add_trace(go.Bar(
    x=total_df["日付"], 
    y=total_df["金額"], 
    name="総計", 
    yaxis="y2",  # y軸(縦軸)の2軸目を使用
    opacity=0.6,  # 不透明度を0.6に設定
))
# レイアウトを更新
fig2.update_layout(
    width=1000,  # 描画領域の横幅を設定
    height=500,  # 描画領域の縦幅を設定
    font={"size": 14},  # フォントサイズを設定
    xaxis={
        "dtick": "M12",  # x軸(横軸)の目盛り間隔を12ヶ月に設定
        "tickformat": "%Y",  # x軸(横軸)の目盛りの表示形式を設定
        "ticksuffix": "年",  # x軸(横軸)の目盛りに単位を追加
        "title": None,  # x軸(横軸)のタイトルを非表示
    },
    yaxis={
        "title": "大分類の金額", 
        "side": "left",  # y軸(縦軸)の1軸目を左側に設定
    },
    yaxis2={
        "ticksuffix": "円",  # y軸(縦軸)の2軸目の目盛りに単位を追加
        "title": "総計の金額", 
        "side": "right",  # y軸(縦軸)の2軸目を右側に設定
        "overlaying": "y",  # y軸(縦軸)の2軸目をy軸(縦軸)の1軸目に重ねて表示  
    }, 
    legend={"x": 1.1},  # 凡例の位置を右寄りに設定
    legend_title_text="支出",  # 凡例のタイトルを設定
    title={
        "text": "年ごとの支出", 
        "x": 0.5,  # タイトルの位置を中央に設定
    },
) 
fig2.show()

### 上記コードの説明
---
#### 1周目：cat が 「必要生活費」 のとき
まず、ts_df["大分類"].unique() の1つ目である「必要生活費」から処理が始まります。

1. データの絞り込み (loc): 「衣類・食費・住居費」といった「必要生活費」に属するデータだけが抽出されます。

2. 集計 (groupby().sum()): 中分類（衣類など）の違いを無視して、年（日付）ごとに合計されます。
- 2020年：20 + 30 + 35 = 85
- 2021年：20 + 40 + 35 = 95
- 2022年：15 + 25 + 40 = 80
3. グラフへの追加: この「85 → 95 → 80」という推移が、「必要生活費」という名前の1本目の折れ線としてキャンバスに描かれます。
---
#### 2周目：cat が 「教養娯楽費」 のとき
次に、残りの「教養娯楽費」の処理に移ります。

1. データの絞り込み (loc): 「教養・趣味娯楽」といった「教養娯楽費」に属するデータだけが抽出されます。
2. 集計 (groupby().sum()):
- 2020年：15 + 15 = 30
- 2021年：10 + 25 = 35
- 2022年：15 + 30 = 45
3. グラフへの追加: この「30 → 35 → 45」という推移が、「教養娯楽費」という名前の2本目の折れ線として、先ほどのキャンバスに上書き（描き足し）されます。
---
#### ループが終わった後のキャンバスの状態
この時点で、画面には以下の2本の線が表示されています。

- 線1（必要生活費）: (2020, 85), (2021, 95), (2022, 80)
- 線2（教養娯楽費）: (2020, 30), (2021, 35), (2022, 45)

#### おまけ：その後の total_df の処理
ループの外にある total_df の処理では、大分類すら無視してすべてを合計します。
- 2020年：85 + 30 = 115
- 2021年：95 + 35 = 130
- 2022年：80 + 45 = 125 この 「115 → 130 → 125」 という数字が、背景の大きな棒グラフ（総計）として描かれることになります。

#### まとめ
このループを使うことで、「中分類（細かい項目）」に分かれてバラバラになっていたデータを、「大分類（グループ）」というまとまりごとに再集計して、1本ずつの綺麗な線に変換しているのです。

### サブプロット


In [58]:
from plotly.subplots import make_subplots
# 1行2列の描画領域を用意
subplot_fig = make_subplots(rows=1, cols=2, subplot_titles=("棒グラフ", "折れ線グラフ"))
# 棒グラフに設定するカラーと模様を用意
colors_pattern = px.colors.qualitative.Pastel1
shape_pattern = "/.+x\\"
# 棒グラフの追加
bar_data = ts_df.loc[ts_df["年"] == 2022, ["中分類", "金額"]]
for n, cat in enumerate(bar_data["中分類"]):
    tmp_df = bar_data[bar_data["中分類"]==cat]
    # add_traceメソッドで中分類ごとに色や模様の異なる棒グラフを追加
    subplot_fig.add_trace(
        go.Bar(
            x=tmp_df["中分類"], 
            y=tmp_df["金額"], 
            name=cat, 
            texttemplate="%{y}万円",  # texttemplateでy軸の金額を棒グラフ中に表示
            textfont_size=15,  # フォントサイズを設定
            textposition="inside",  # 棒グラフの内側に表示
            marker_color=colors_pattern[n],  # 棒グラフの色を設定
            marker_pattern_shape=shape_pattern[n],  # 棒グラフの模様を設定
        ), 
        row=1,  # 1行目の描画領域に表示
        col=1,  # 1列目の描画領域に表示
    )
# 折れ線グラフの追加
line_data = ts_df.pivot_table(index="日付", columns="大分類", values="金額", aggfunc="sum")
for col in line_data:
    # add_traceメソッドで大分類ごとに折れ線グラフを追加
    subplot_fig.add_trace(
        go.Scatter(
            x=line_data.index,
            y=line_data[col], 
            name=col,
            mode="lines+markers",  # 折れ線グラフにマーカー(点)を表示
        ),
        row=1,  # 1行目の描画領域に表示 
        col=2,  # 2列目の描画領域に表示
    )
# グラフのレイアウトを更新
subplot_fig.update_layout(
    width=1000, 
    height=400,
    legend={
        "orientation": "h",  # "h" は水平（horizontal）を意味し、凡例の項目が水平方向に並ぶ
        "x": 0.5,  # 0.5 はグラフの水平方向の中央
        "y": -0.5,  # -0.5 は、グラフ領域外の下部（グラフの下端からさらに10%下）に凡例を配置
        "xanchor": "center",  # 凡例の中央が x で指定された位置に配置
        "yanchor": "top",  # 凡例の上端が y で指定された位置に配置
    },
)
# x軸(横軸)の設定
subplot_fig.update_xaxes(
    tickformat="%Y/%m",  # x軸(横軸)の目盛りの表示形式を設定
    tickangle=45,  # x軸(横軸)の目盛りを45度傾けて表示
)
subplot_fig.show()

このコードは「2軸グラフ（重ね合わせ）」ではなく、**「サブプロット（並列）」**という機能を使って、**左側に棒グラフ、右側に折れ線グラフを並べて表示するバージョン**です。

前のコード（2軸グラフ）との違いをポイントを絞って解説します。

1. 「並べるための枠組み」を作っている
```python
from plotly.subplots import make_subplots
# 1行2列（横に2つ並べる）のエリアを作成
subplot_fig = make_subplots(rows=1, cols=2, subplot_titles=("棒グラフ", "折れ線グラフ"))
```
- `make_subplots`: これを使うことで、1つの図の中に複数の独立したグラフエリアを作れます。
- `rows=1`, `cols=2` で「横に2つ並べる」ことを指定しています。

2. 「どこに描くか」を指定している
それぞれの add_trace の最後を見てください。ここが一番のポイントです。

- 棒グラフを追加するとき:
```python
subplot_fig.add_trace(go.Bar(...), row=1, col=1) # 1列目（左側）に描く
```

- 折れ線グラフを追加するとき:
```python
subplot_fig.add_trace(go.Scatter(...), row=1, col=2) # 2列目（右側）に描く
```

前の2軸グラフでは yaxis="y2" のように「どっちの目盛りを使うか」を指定していましたが、今回は 「どっちの部屋に描くか」 を指定しています。

3. 特徴：全く別の軸・目盛りを持てる
この「並べる」方式の最大のメリットは、**「左と右で、X軸の種類が違ってもOK」**という点です。

- 左（棒グラフ）: 2022年のデータだけで「中分類」が横軸に並ぶ。
- 右（折れ線グラフ）: 日付順に「年ごとの推移」が横軸に並ぶ。
もしこれを無理やり1つのグラフに重ねようとすると、横軸がぐちゃぐちゃになってしまいますが、並列（サブプロット）にすることで、全く異なる切り口の分析を同時に見せることができています。

4. レイアウトの工夫
```python
subplot_fig.update_layout(
    legend={"orientation": "h", "x": 0.5, "y": -0.5, ...}
)
```

グラフが横に2つ並んでいるため、左右に凡例があると邪魔になります。そのため、このコードでは orientation: "h" を使って、凡例をグラフの下に横並びで配置するように調整されています。

#### まとめ
- 前のコード（2軸）: 同じ期間、同じX軸の上で「大きさの違う数値」を比較したいとき（例：支出内訳 vs 合計）。
- 今回のコード（並列）: 異なるデータ、異なるX軸を持つグラフを「並べて一覧」したいとき（例：最新年の内訳 vs 数年分の推移）。
このように使い分けています！

## 分布の可視化


In [59]:
df = pd.DataFrame([
    ["いちごストア株式会社", "A4491", "上場", "小売業", 50, 250],
    ["メガハード株式会社", "A3547", "上場", "製造業", 50, 300],
    ["百聞半導体株式会社", "A2704", "上場", "製造業", 20, 180],
    ["五十音サーチ株式会社", "A8008", "上場", "小売業", 30, 200],
    ["利根川通販株式会社", "A4342", "上場", "小売業", 100, 240],
    ["超手本株式会社", "A3674", "上場", "サービス業", 20, 150],
    ["源内自動車株式会社", "A7514", "非上場", "製造業", 10, 100],
    ["クローズサピエンス合同会社", "A0941", "非上場", "サービス業", None, 120],
    ["富価自動車株式会社", "J7203", "上場", "製造業", 60, 120],
    ["ハード通信株式会社", "J9984", "上場", "サービス業", 15, 50],
    ["株式会社財前", "J3994", "非上場", "サービス業", None, 30]
    ], columns=["会社名", "会社コード", "上場区分", "業種", "従業員数", "資本金"]
)

### ヒストグラム


In [None]:
hist_fig = px.histogram(
    df,
    x="資本金",
    width=800,
    height=600
)
hist_fig.show()

### 箱ひげ図とバイオリン図


In [None]:
box_fig = px.box(
    df,
    x="上場区分",
    y="資本金",
    title="資本金の分布",
    width=800,
    height=600,
)

box_fig.update_layout(
    title_x=0.5
)

box_fig.show()

In [67]:
violin_fig = px.violin(
    df,
    x="上場区分",
    y="資本金",
    box=True,
    points="all",
    width=800,
    height=600)
violin_fig.show()

## 関係性の可視化

### 散布図


In [75]:
scatter_fig = px.scatter(
    df,
    x="資本金",
    y="従業員数",
    color="上場区分",
    title="資本金と従業員数の関係",
    width=600,
    height=600,
)

scatter_fig.update_layout(
    title_x=0.5
)
scatter_fig.show()

### ヒートマップ


In [76]:
# 等間隔離散化で区分を用意
df = df.assign(**{
    "従業員数区分": pd.cut(df["従業員数"], bins=3),
    "資本金区分": pd.cut(df["資本金"], bins=3)
})
# 各区分の件数をクロス集計でカウント
cols = ["従業員数区分", "資本金区分"]
crosstab = df[cols].pivot_table(
    index="従業員数区分", 
    columns="資本金区分", 
    aggfunc="size", 
    observed=False
).sort_index(ascending=False)
crosstab

資本金区分,"(29.73, 120.0]","(120.0, 210.0]","(210.0, 300.0]"
従業員数区分,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"(70.0, 100.0]",0,0,1
"(40.0, 70.0]",1,0,2
"(9.91, 40.0]",2,3,0


In [81]:
im_fig = px.imshow(
    crosstab.values,
    x=[str(i) for i in crosstab.columns],  # 従業員数区分を文字列型に変換
    y=[str(i) for i in crosstab.index],  # 資本金区分を文字列型に変換
    labels={"x": crosstab.columns.name, "y": crosstab.index.name},
    text_auto=True  # 区分ごと件数の表示
)
im_fig.update_layout(
    width=800,
    height=600,
    title="資本金と従業員数のクロス集計",
    title_x=0.5
)
im_fig.show()

### バブルチャート


In [82]:
gapminder_data = px.data.gapminder()
gapminder_df = gapminder_data[gapminder_data["year"]==2007]
gapminder_df.head()

Unnamed: 0,country,continent,year,lifeExp,pop,gdpPercap,iso_alpha,iso_num
11,Afghanistan,Asia,2007,43.828,31889923,974.580338,AFG,4
23,Albania,Europe,2007,76.423,3600523,5937.029526,ALB,8
35,Algeria,Africa,2007,72.301,33333216,6223.367465,DZA,12
47,Angola,Africa,2007,42.731,12420476,4797.231267,AGO,24
59,Argentina,Americas,2007,75.32,40301927,12779.37964,ARG,32


In [85]:
bubble_fig = px.scatter(gapminder_df,
    x="gdpPercap",
    y="lifeExp",
    size="pop",
    color="continent",
    log_x=True,
    size_max=60,
    width=800,
    height=800,
)
bubble_fig.show()

## 地図・金融等の特定分野の可視化
