# 第9章　変数間の関係を表現するグラフ

## 9.1 散布図とバブルチャート

In [1]:
import pandas as pd
import json
from sklearn import datasets

from plotly import graph_objects as go
from plotly import express as px
from plotly.graph_objs.layout import Template
from plotly.express import colors as pcolors

# WineデータセットのDataFrameを読み込み
df_X, df_y = datasets.load_wine(return_X_y=True, as_frame=True)
df = pd.concat([df_X, df_y], axis=1)

df

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,target
0,14.23,1.71,2.43,15.6,127.0,2.80,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.20,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.40,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.80,3.24,0.30,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.50,16.8,113.0,3.85,3.49,0.24,2.18,7.80,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.80,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
173,13.71,5.65,2.45,20.5,95.0,1.68,0.61,0.52,1.06,7.70,0.64,1.74,740.0,2
174,13.40,3.91,2.48,23.0,102.0,1.80,0.75,0.43,1.41,7.30,0.70,1.56,750.0,2
175,13.27,4.28,2.26,20.0,120.0,1.59,0.69,0.43,1.35,10.20,0.59,1.56,835.0,2
176,13.17,2.59,2.37,20.0,120.0,1.65,0.68,0.53,1.46,9.30,0.60,1.62,840.0,2


In [2]:
# DataFrameの情報を確認
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   alcohol                       178 non-null    float64
 1   malic_acid                    178 non-null    float64
 2   ash                           178 non-null    float64
 3   alcalinity_of_ash             178 non-null    float64
 4   magnesium                     178 non-null    float64
 5   total_phenols                 178 non-null    float64
 6   flavanoids                    178 non-null    float64
 7   nonflavanoid_phenols          178 non-null    float64
 8   proanthocyanins               178 non-null    float64
 9   color_intensity               178 non-null    float64
 10  hue                           178 non-null    float64
 11  od280/od315_of_diluted_wines  178 non-null    float64
 12  proline                       178 non-null    float64
 13  targe

In [3]:
# Traceを作成
trace = go.Scatter(
    x=df['alcohol'],    # x軸に使用する変数
    y=df['proline'],    # y軸に使用する変数
    mode='markers'      # グラフモード（散布図）
)   # アルコールとプロリンの散布図

# 独自テンプレートを読み込み
with open('custom_white.json') as f:
    custom_white_dict = json.load(f)
    template = Template(custom_white_dict)

# Layoutを作成
layout=go.Layout(
    template=template,
    title='Wine dataset',
    xaxis={'title': 'Alcohol'},
    yaxis={'title': 'Proline'}
)

# Figureを作成
figure = go.Figure(trace, layout)

# figure.write_image('./figure/out_9_1_1.png', width=900, height=450, scale=2)
figure

In [4]:
# Traceを作成
trace = go.Scatter(
    x=df['alcohol'],
    y=df['proline'],
    mode='markers',
    marker={
        'color': df['target'],  # マーカー色に使用する変数
        'showscale': True       # カラーバーの表示
    },
    hovertext=df['target'],     # ホバー表示に使用する変数
    hoverinfo='x+y+text'        # ホバー表示（x座標、y座標、ホバーテキスト）
)   # アルコールとプロリンの散布図（色分け、ホバー表示）

# Figureを作成
figure = go.Figure(trace, layout)

# figure.write_image('./figure/out_9_1_2.png', width=900, height=450, scale=2)
figure

In [5]:
# 「target」の一意な値の個数でカラースケールを作成
colorscale = pcolors.qualitative.Pastel[:len(df['target'].unique())] 

colorscale

['rgb(102, 197, 204)', 'rgb(246, 207, 113)', 'rgb(248, 156, 116)']

In [6]:
# Traceを作成
trace = go.Scatter(
    x=df['ash'],
    y=df['flavanoids'],
    mode='markers',
    marker={
        'color': df['target'],
        'colorscale': colorscale    # カラースケールの指定
    },
    hovertext=df['target'],
    hoverinfo='x+y+text'
)   # 灰分（かいぶん）とフラボノイドの散布図（色分け、ホバー表示）

# Layoutを作成
layout=go.Layout(
    template=template,
    title='Wine dataset',
    xaxis={'title': 'Ash'},
    yaxis={'title': 'Flavanoids'}
)

# Figureを作成
figure = go.Figure(trace, layout)

# figure.write_image('./figure/out_9_1_3.png', width=900, height=450, scale=2)
figure

In [7]:
# 「target」でグループ分け
gb = df.groupby('target')

# Traceのlistを作成
traces = []
for group, df_subset in gb:
    trace = go.Scatter(
        x=df_subset['ash'],
        y=df_subset['flavanoids'],
        mode='markers',
        name=f'class {group}',
        marker={'color': pcolors.qualitative.Bold[group]}   # マーカーを指定
    )   # 灰分とフラボノイドの散布図
    traces.append(trace)

# Figureを作成
figure = go.Figure(traces, layout)

# figure.write_image('./figure/out_9_1_4.png', width=900, height=450, scale=2)
figure

In [8]:
pd.options.plotting.backend = 'plotly'  # pandasのグラフをPlotlyに設定

# DataFrameから散布図のFigureを作成
figure = df.plot.scatter(
    x='color_intensity',    # x軸に使用する変数
    y='hue',                # y軸に使用する変数
    template=template,      # 書式テンプレート
    title='Wine dataset'    # グラフタイトル
)   # ワインの色合いと色相の散布図

# figure.write_image('./figure/out_9_1_5.png', width=900, height=450, scale=2)
figure

In [9]:
# Plotly Expressから散布図のFigureを作成
figure = px.scatter(
    df,                     # DataFrame
    x='magnesium',          # x軸に使用する変数
    y='proanthocyanins',    # y軸に使用する変数
    color='target',         # マーカー色に使用する変数
    template=template,      # 書式テンプレート
    title='Wine dataset'    # グラフタイトル
)   # マグネシウムとプロアントシアニジンの散布図

# figure.write_image('./figure/out_9_1_6.png', width=900, height=450, scale=2)
figure

In [10]:
# 列「target」のデータ型をカテゴリー型に変更
df['target'] = df['target'].astype('category')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178 entries, 0 to 177
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype   
---  ------                        --------------  -----   
 0   alcohol                       178 non-null    float64 
 1   malic_acid                    178 non-null    float64 
 2   ash                           178 non-null    float64 
 3   alcalinity_of_ash             178 non-null    float64 
 4   magnesium                     178 non-null    float64 
 5   total_phenols                 178 non-null    float64 
 6   flavanoids                    178 non-null    float64 
 7   nonflavanoid_phenols          178 non-null    float64 
 8   proanthocyanins               178 non-null    float64 
 9   color_intensity               178 non-null    float64 
 10  hue                           178 non-null    float64 
 11  od280/od315_of_diluted_wines  178 non-null    float64 
 12  proline                       178 non-null    floa

In [11]:
# Plotly Expressから散布図のFigureを作成
figure = px.scatter(
    df,
    x='magnesium',
    y='proanthocyanins',
    color='target',         # 指定列は変わっていないが、データ型は変更
    template=template,
    title='Wine dataset'
)   # マグネシウムとプロアントシアニジンの散布図

# figure.write_image('./figure/out_9_1_7.png', width=900, height=450, scale=2)
figure

In [12]:
max_size = 32                                   # マーカーの最大サイズ
size_coeff = max_size / df['flavanoids'].max()  # フラボノイド最大でマーカーサイズがmax_sizeになる係数

# Traceを作成
trace = go.Scatter(
    x=df['alcohol'],
    y=df['magnesium'],
    mode='markers',
    marker={
        'size': df['flavanoids'] * size_coeff,  # マーカーサイズ
        'sizemode': 'diameter',                 # サイズモード（直径で表現。面積で表現は'area'）
        'opacity': 0.5                          # マーカー透過率
    },
    hovertext=df['flavanoids'],
    hoverinfo='x+y+text'
)   # アルコールとマグネシウムのバブルチャート

# Layoutを作成
layout=go.Layout(
    template=template,
    title='Wine dataset',
    xaxis={'title': 'Alcohol'},
    yaxis={'title': 'Magnesium'}
)

# Figureを作成
figure = go.Figure(trace, layout)

# figure.write_image('./figure/out_9_1_8.png', width=900, height=450, scale=2)
figure

In [13]:
# Traceを作成
trace = go.Splom(
    dimensions=[
        {
            'label': 'Alcohol',
            'values': df['alcohol']
        },
        {
            'label': 'Ash',
            'values': df['ash']
        },
        {
            'label': 'Magnesium',
            'values': df['magnesium']
        },
        {
            'label': 'Flavanoids',
            'values': df['flavanoids']
        },
        {
            'label': 'Proline',
            'values': df['proline']
        }
    ],  # 使用する変数
    marker={
        'color': df['target'],
        'colorscale': colorscale,
        'opacity': 0.5
    },
    diagonal_visible=False, # 散布図行列中の、対角成分（非表示）
    showupperhalf=False     # 散布図行列中の、上三角行列（非表示）
)   # アルコール、灰分、マグネシウム、フラボノイド、プロリンの散布図行列

# Layoutを作成
layout=go.Layout(
    template=template,
    title='Wine dataset'
)

# Figureを作成
figure = go.Figure(trace, layout)

# figure.write_image('./figure/out_9_1_9.png', width=900, height=450, scale=2)
figure