# 第11章　変数の傾向や構成を表現するグラフ

## 11.1 折れ線グラフ

In [1]:
import json
import pandas as pd
import seaborn as sns

from plotly import graph_objects as go
from plotly import express as px
from plotly.graph_objs.layout import Template

# CarsデータセットからDataFrameを作成
df = sns.load_dataset('mpg')

df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino
...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger


In [2]:
# 変数「origin」「model_year」でグループ化
gb = df.groupby(['origin', 'model_year'], as_index=False)

# 各グループ内で平均をとる
df_origin_year = gb.agg({
    'mpg': 'mean',
    'displacement': 'mean',
    'horsepower': 'mean',
    'weight': 'mean',
    'acceleration': 'mean'
})

df_origin_year.head()

Unnamed: 0,origin,model_year,mpg,displacement,horsepower,weight,acceleration
0,europe,70,25.2,107.8,86.2,2309.2,16.5
1,europe,71,28.75,95.0,74.0,2024.0,16.75
2,europe,72,22.0,111.0,79.6,2573.2,18.7
3,europe,73,24.0,105.0,81.857143,2335.714286,16.428571
4,europe,74,27.0,93.166667,74.166667,2139.333333,15.333333


In [3]:
df_origin_year.tail()

Unnamed: 0,origin,model_year,mpg,displacement,horsepower,weight,acceleration
34,usa,78,21.772727,217.545455,107.272727,3141.136364,15.545455
35,usa,79,23.478261,231.26087,109.434783,3210.217391,15.243478
36,usa,80,25.914286,151.571429,88.833333,2822.428571,16.8
37,usa,81,27.530769,164.846154,84.538462,2695.0,16.053846
38,usa,82,29.45,142.95,86.947368,2637.75,16.67


In [4]:
# 再度「origin」でグループ化
gb = df_origin_year.groupby('origin')

# Traceのlistを作成
traces = []
for group, df_subset in gb:
    trace = go.Scatter(
        x=df_subset['model_year'],  # x軸に使用する変数
        y=df_subset['mpg'],         # y軸に使用する変数
        mode='lines',               # グラフモード（折れ線グラフ）
        name=group                  # Traceの名前
    )   # 製造年に対するMPGの折れ線グラフ
    traces.append(trace)

# 独自テンプレートを読み込み
with open('custom_white.json') as f:
    custom_white_dict = json.load(f)
    template = Template(custom_white_dict)

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Cars dataset',
    xaxis={'title': 'Year'},
    yaxis={'title': 'MPG'}
)

# Figureを作成
figure = go.Figure(traces, layout)

# figure.write_image('./figure/out_11_1_1.png', width=900, height=450, scale=2)
figure

In [5]:
# Traceのlistを作成
traces = []
for group, df_subset in gb:
    trace = go.Scatter(
        x=df_subset['model_year'],
        y=df_subset['horsepower'],
        mode='lines+markers',   # グラフモード（マーカー付き折れ線グラフ）
        name=group
    )   # 製造年に対する馬力の折れ線グラフ
    traces.append(trace)

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Cars dataset',
    xaxis={'title': 'Year'},
    yaxis={'title': 'Horsepower'}
)

# Figureを作成
figure = go.Figure(traces, layout)

# figure.write_image('./figure/out_11_1_2.png', width=900, height=450, scale=2)
figure

In [6]:
# Plotly Expressから折れ線グラフのFigureを作成
figure = px.line(
    df_origin_year,         # DataFrame
    x='model_year',         # x軸に使用する変数
    y='displacement',       # y軸に使用する変数
    color='origin',         # 色に使用する変数
    template=template,      # 書式テンプレート
    title='Cars dataset'    # グラフタイトル
)   # 製造年に対する排気量の折れ線グラフ

# figure.write_image('./figure/out_11_1_3.png', width=900, height=450, scale=2)
figure

In [7]:
pd.options.plotting.backend = 'plotly'

# DataFrameから折れ線グラフのFigureを作成
figure = df_origin_year.plot.line(
    x='model_year',         # x軸に使用する変数
    y='weight',             # y軸に使用する変数
    color='origin',         # 色に使用する変数
    markers=True,           # マーカー表示（表示あり）
    template=template,      # 書式テンプレート
    title='Cars dataset'    # グラフタイトル
)   # 製造年に対する車体重量の折れ線グラフ

# figure.write_image('./figure/out_11_1_4.png', width=900, height=450, scale=2)
figure

In [8]:
# 「name」を空白で分割した最初の文字列を「company」とする
df['company'] = [name[0] for name in df['name'].str.split(' ')]

df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,company
0,18.0,8,307.0,130.0,3504,12.0,70,usa,chevrolet chevelle malibu,chevrolet
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,buick
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,plymouth
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,amc
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,ford
...,...,...,...,...,...,...,...,...,...,...
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl,ford
394,44.0,4,97.0,52.0,2130,24.6,82,europe,vw pickup,vw
395,32.0,4,135.0,84.0,2295,11.6,82,usa,dodge rampage,dodge
396,28.0,4,120.0,79.0,2625,18.6,82,usa,ford ranger,ford


In [9]:
# 自動車メーカーで絞り込んだDataFrame
df_select = df[df['company'].isin([
    'amc', 'buick', 'ford', 'plymouth',     # 米国の自動車メーカー
    'peugeot', 'audi', 'fiat', 'volvo',     # ヨーロッパの自動車メーカー
    'toyota', 'honda', 'mazda', 'subaru'    # 日本の自動車メーカー
])]

df_select

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin,name,company
1,15.0,8,350.0,165.0,3693,11.5,70,usa,buick skylark 320,buick
2,18.0,8,318.0,150.0,3436,11.0,70,usa,plymouth satellite,plymouth
3,16.0,8,304.0,150.0,3433,12.0,70,usa,amc rebel sst,amc
4,17.0,8,302.0,140.0,3449,10.5,70,usa,ford torino,ford
5,15.0,8,429.0,198.0,4341,10.0,70,usa,ford galaxie 500,ford
...,...,...,...,...,...,...,...,...,...,...
386,25.0,6,181.0,110.0,2945,16.4,82,usa,buick century limited,buick
389,22.0,6,232.0,112.0,2835,14.7,82,usa,ford granada l,ford
390,32.0,4,144.0,96.0,2665,13.9,82,japan,toyota celica gt,toyota
393,27.0,4,140.0,86.0,2790,15.6,82,usa,ford mustang gl,ford


In [10]:
# 変数「company」「model_year」でグループ化
gb = df_select.groupby(['company', 'model_year'], as_index=False)

# 各グループ内で平均をとる
df_company = gb.agg({
    'mpg': 'mean',
    'horsepower': 'mean',
    'acceleration': 'mean'
})

df_company

Unnamed: 0,company,model_year,mpg,horsepower,acceleration
0,amc,70,17.500000,131.750000,12.750
1,amc,71,18.333333,103.333333,14.000
2,amc,72,16.000000,150.000000,12.000
3,amc,73,15.750000,131.250000,13.375
4,amc,74,16.333333,120.000000,16.500
...,...,...,...,...,...
96,volvo,73,19.000000,112.000000,15.500
97,volvo,75,22.000000,98.000000,14.500
98,volvo,76,20.000000,102.000000,15.700
99,volvo,78,17.000000,125.000000,13.600


In [11]:
# 再度「company」でグループ化
gb = df_company.groupby('company')

# Traceのlistを作成
traces = []
for group, df_subset in gb:
    trace = go.Scatter(
        x=df_subset['model_year'],
        y=df_subset['acceleration'],
        mode='lines+markers',
        name=group
    )   # 製造線に対する加速度の折れ線グラフ
    traces.append(trace)

# Layoutを作成
layout = go.Layout(
    template=template,
    title='Cars dataset',
    xaxis={'title': 'Year'},
    yaxis={'title': 'Acceleration'}
)

# Figureを作成
figure = go.Figure(traces, layout)

# figure.write_image('./figure/out_11_1_5.png', width=900, height=450, scale=2)
figure