# Altairで「マンガ雑誌のデータ」の図を作り直す

今回は、文化庁の[メディア芸術データベース・ラボ（MADB Lab）](https://mediag.bunka.go.jp/madb_lab/)で公開されている四大少年誌（週刊少年サンデー、週刊少年ジャンプ、週刊少年チャンピオン、週刊少年マガジン）のデータを使って、量的データと質的データの可視化を練習します。

まず、「四大少年誌それぞれの掲載作品のジャンルと著者にはどのような特徴があるのか？」という大きな問いを立て、可視化手法を学びながらデータを見て、具体的な問いを決めていきましょう。

[マンガと学ぶデータビジュアライゼーション](https://kakeami.github.io/viz-madb/index.html)の内容を全面的に参考にし、一部改変しています。

[Plotlyで作られた図](./visualizing-quantitative-and-qualitative-data.ipynb)の中から、好きな図を3つ選んで、Altairで再現しましょう。

再現する時には、変数の性質（名義、順序、間隔、比例）に注意して、どのタイプの図がどの変数をうまく扱えるかを考えてみましょう。

複雑な図を再現したい時は、[Altair Example Gallery](https://altair-viz.github.io/gallery/index.html)を参考にしてみてください。

## ライブラリの読み込み

In [1]:
# ライブラリのインストール。必要に応じてコメントアウトする。
!pip install altair



In [2]:
import pandas as pd

import altair as alt

In [3]:
import itertools
import warnings
warnings.filterwarnings('ignore')

In [4]:
# 5000行の制限をはずす
alt.data_transformers.disable_max_rows()

DataTransformerRegistry.enable('default')

## 準備関数

In [5]:
# weekdayを曜日に変換
WD2STR = {
    0: 'Mon.',
    1: 'Tue.',
    2: 'Wed.',
    3: 'Thu.',
    4: 'Fri.',
    5: 'Sat.',
    6: 'Sun.',}

In [6]:
def add_years_to_df(df, unit_years=10):
    """unit_years単位で区切ったyears列を追加"""
    df_new = df.copy()
    df_new['years'] = \
        pd.to_datetime(df['datePublished']).dt.year \
        // unit_years * unit_years
    df_new['years'] = df_new['years'].astype(str)
    return df_new

In [7]:
def add_weekday_to_df(df):
    """曜日情報をdfに追加"""
    df_new = df.copy()
    df_new['weekday'] = \
        pd.to_datetime(df_new['datePublished']).dt.weekday
    df_new['weekday_str'] = df_new['weekday'].apply(
        lambda x: WD2STR[x])
    return df_new

In [8]:
def add_mcid_to_df(df):
    """mcnameのindexをdfに追加"""
    df_new = df.copy()
    mcname2mcid = {
        x: i for i, x in enumerate(df['mcname'].unique())}
    df_new['mcid'] = df_new['mcname'].apply(
        lambda x: mcname2mcid[x])
    return df_new

In [9]:
def resample_df_by_cname_and_years(df):
    """cnameとyearsのすべての組み合わせが存在するように0埋め
    この処理を実施しないと作図時にX軸方向の順序が変わってしまう"""
    df_new = df.copy()
    yearss = df['years'].unique()
    cnames = df['cname'].unique()
    for cname, years in itertools.product(cnames, yearss):
        df_tmp = df_new[
            (df_new['cname'] == cname)&\
            (df_new['years'] == years)]
        if df_tmp.shape[0] == 0:
            s = pd.DataFrame(
                {'cname': cname,
                 'years': years,
                 'weeks': 0,},
                index=df_tmp.columns)
            df_new = pd.concat(
                [df_new, s], ignore_index=True)
    return df_new

In [10]:
def resample_df_by_creator_and_years(df):
    """creatorとyearsのすべての組み合わせが存在するように0埋め
    この処理を実施しないと作図時にX軸方向の順序が変わってしまう"""
    df_new = df.copy()
    yearss = df['years'].unique()
    creators = df['creator'].unique()
    for creator, years in itertools.product(creators, yearss):
        df_tmp = df_new[
            (df_new['creator'] == creator)&\
            (df_new['years'] == years)]
        if df_tmp.shape[0] == 0:
            s = pd.Series(
                {'creator': creator,
                 'years': years,
                 'weeks': 0,},
                index=df_tmp.columns)
            df_new = pd.concat(
                [df_new, s], ignore_index=True)
    return df_new

## データの用意

四大少年誌の`1970-07-27`から`2017-07-06`までの全ての掲載作品のデータを使います。

すでに前処理がされているデータがあるので、そちらを使います。

In [11]:
file = "./data/episodes.csv"

In [12]:
df = pd.read_csv(file)

In [13]:
df.shape

(179931, 17)

各週の掲載作品を一行ずつ格納しているため、合計で約18万行程度になります。

In [14]:
df.columns

Index(['mcname', 'miid', 'miname', 'cid', 'cname', 'epname', 'creator',
       'pageStart', 'pageEnd', 'numberOfPages', 'datePublished', 'price',
       'publisher', 'editor', 'pages', 'pageEndMax', 'pageStartPosition'],
      dtype='object')

- `mcname`: 雑誌名（**M**gazine **C**ollection **NAME**）
- `miid`：雑誌巻号ID（**M**agazine **I**tem **ID**）
- `miname`: 雑誌巻号名（**M**agazine **I**tem **NAME**）
- `cid`: マンガ作品ID（**C**omic **ID**）
- `cname`: マンガ作品名（**C**omic **NAME**）
- `epname`: 各話タイトル（**EP**isode **NAME**）
- `creator`: 作者名
- `pageStart`: 開始ページ
- `pageEnd`: 終了ページ
- `numberOfPages`: 雑誌の合計ページ数
- `datePublished`: 雑誌の発行日
- `price`: 雑誌の価格
- `publisher`: 雑誌の出版社
- `editor`: 雑誌の編集者（編集長）
- `pages`: 各話のページ数（`pageEnd` - `pageStart` + 1）
- `pageEndMax`: 雑誌に掲載されているマンガ作品のうち，`pageEnd`の最大値
- `pageStartPosition`: 各話の`pageStart`の相対的な位置（`pageStart` / `pageEndMax`）

In [15]:
df.head()

Unnamed: 0,mcname,miid,miname,cid,cname,epname,creator,pageStart,pageEnd,numberOfPages,datePublished,price,publisher,editor,pages,pageEndMax,pageStartPosition
0,週刊少年ジャンプ,M616363,週刊少年ジャンプ 1970年 表示号数31,C88180,男一匹ガキ大将,土佐の源蔵の巻,本宮ひろ志,7.0,37.0,280.0,1970-07-27,80.0,集英社,長野規,31.0,275.0,0.025455
1,週刊少年チャンピオン,M558279,週刊少年チャンピオン 1970年 表示号数14,C94272,朝日の恋人,,かざま鋭二,15.0,43.0,292.0,1970-07-27,80.0,秋田書店　∥　アキタショテン,成田清美,29.0,290.0,0.051724
2,週刊少年ジャンプ,M616363,週刊少年ジャンプ 1970年 表示号数31,C87448,ど根性ガエル,男はつらいよの巻,吉沢やすみ,39.0,53.0,280.0,1970-07-27,80.0,集英社,長野規,15.0,275.0,0.141818
3,週刊少年チャンピオン,M558279,週刊少年チャンピオン 1970年 表示号数14,C94289,あばしり一家,アバシリ吉三の美人地獄編,永井豪,48.0,66.0,292.0,1970-07-27,80.0,秋田書店　∥　アキタショテン,成田清美,19.0,290.0,0.165517
4,週刊少年ジャンプ,M616363,週刊少年ジャンプ 1970年 表示号数31,C88021,あらし!三匹,ミヒル登場の巻,池沢さとし,56.0,70.0,280.0,1970-07-27,80.0,集英社,長野規,15.0,275.0,0.203636


In [16]:
df.describe()

Unnamed: 0,pageStart,pageEnd,numberOfPages,price,pages,pageEndMax,pageStartPosition
count,179931.0,179931.0,179624.0,179893.0,179931.0,179931.0,179931.0
mean,210.845105,228.37124,417.376325,203.87174,18.526135,408.249379,0.514837
std,123.860878,122.038708,67.418723,41.955489,7.71273,69.804101,0.283146
min,1.0,1.0,36.0,80.0,1.0,200.0,0.002045
25%,107.0,126.0,356.0,180.0,17.0,346.0,0.27484
50%,205.0,222.0,437.0,210.0,19.0,433.0,0.520588
75%,305.0,322.0,464.0,236.0,20.0,457.0,0.759626
max,581.0,600.0,600.0,371.0,487.0,600.0,1.0


欠損値を確認してみます。

特に`epname`と`publisher`の欠測が多いことがわかります．

In [17]:
df.isna().sum().reset_index()

Unnamed: 0,index,0
0,mcname,0
1,miid,0
2,miname,0
3,cid,9
4,cname,9
5,epname,26807
6,creator,441
7,pageStart,0
8,pageEnd,0
9,numberOfPages,307


## （例）Altairで再現1：作品別の掲載週数（上位20作品）

In [18]:
# 作品ごとの週数を数える
df_plot = df.value_counts("cname").reset_index(name="weeks").head(20)

In [19]:
alt.Chart(df_plot).mark_bar().encode(
    alt.X("cname:N", sort="-y", title="作品名"),
    alt.Y("weeks:Q", title="掲載週数"),
    alt.Tooltip(["weeks"])
).properties(
    title="作品ごとの掲載週数"
).configure_axis(
    labelFontSize=14,
    titleFontSize=16
).configure_title(
    fontSize=16
)

## （例）Altairで再現2：長期連載作品の掲載位置の分布

In [20]:
df_tmp = \
    df.groupby('cname')['pageStartPosition']\
    .agg(['count', 'mean']).reset_index()
df_tmp = \
    df_tmp.sort_values('count', ascending=False, ignore_index=True)\
    .head(10)
cname2position = df_tmp.groupby('cname')['mean'].first().to_dict()

In [21]:
df_plot = df[df['cname'].isin(list(cname2position.keys()))]\
    .reset_index(drop=True)
df_plot['position'] = df_plot['cname'].apply(
    lambda x: cname2position[x])
df_plot = df_plot.sort_values('position', ignore_index=True)

In [22]:
alt.Chart(df_plot).transform_density(
    'pageStartPosition',
    as_=['pageStartPosition', 'density'],
    extent=[0, 1],
    groupby=['cname']
).mark_area(orient='horizontal').encode(
    alt.Y('pageStartPosition:Q'),
    alt.X(
        'density:Q',
        stack='center',
        impute=None,
        title=None,
        axis=alt.Axis(labels=False, values=[0], grid=False, ticks=True)
    ),
    alt.Column(
        'cname:N'
    ),
    alt.Tooltip(['pageStartPosition:Q'])
).properties(
    width=100
).configure_facet(
    spacing=0
).configure_view(
    stroke=None
)

---

## Altairで再現1：[図のタイトル]

In [29]:
# your code goes here
# dfに10年区切りの年代情報を追加
df = add_years_to_df(df)
# プロット用に集計
df_plot = df.groupby('cname')['years'].value_counts().\
    reset_index(name='weeks')
# 連載週数上位10作品を抽出
cnames = list(df.value_counts('cname').head(20).index)
df_plot = df_plot[df_plot['cname'].isin(cnames)].\
    reset_index(drop=True)
# cname，yearsでアップサンプリング
df_plot = resample_df_by_cname_and_years(df_plot)
# 合計連載週数で降順ソート
df_plot['order'] = df_plot['cname'].apply(
    lambda x: cnames.index(x))
df_plot = df_plot.sort_values(
    ['order', 'years'], ignore_index=True)

In [None]:
alt.Chart(df_plot).mark_bar().encode(
    x=alt.X('cname:N', title='作品名', sort=alt.SortField(field='weeks', order='descending')), 
    y=alt.Y('weeks:Q', title='合計連載週数', 
             axis=alt.Axis(
                tickCount=5,  # 目盛りの数を5に設定
                labelAngle=0,  # 目盛りラベルの角度を調整
            )
    ),
    color=alt.Color('years:N', title='年代', scale=alt.Scale(scheme='redblue')), 
).properties(
    title='作品別・年代別の合計連載週数（積上げ棒グラフ）',
    width=1000,  
    height=400
).configure_axis(
    labelAngle=45  # X軸ラベルが重ならないように傾ける
)


## Altairで再現2：[図のタイトル]

In [42]:
df = add_years_to_df(df, 1)
df_plot = df.groupby(["years", "mcname"])["cname"].count().reset_index(name="count")

In [53]:
# your code goes here
alt.Chart(df_plot).mark_line().encode(
    x=alt.X('years:O', title='年'),  # 'years'列は順序尺度（Ordinal）として指定
    y=alt.Y('count:Q', title='エピソード数'),  # 'count'列は量的データ（Quantitative）
    color=alt.Color('mcname:N', title='雑誌名'),  # 'mcname'列はカテゴリカルデータ（Nominal）
    tooltip=['mcname', 'years', 'count']
).properties(
    title='エピソード数の推移'  # グラフのタイトルを設定
).interactive()

## Altairで再現3：[図のタイトル]

In [59]:
# 平均掲載位置を算出する際の最小連載数
MIN_WEEKS = 5
df_plot = \
    df.groupby(['mcname', 'cname'])['pageStartPosition'].\
    agg(['count', 'mean']).reset_index()
df_plot.columns = ['mcname', 'cname', 'weeks', 'position']
df_plot = \
    df_plot[df_plot['weeks'] >= MIN_WEEKS].reset_index(drop=True)

In [68]:
# your code goes here
alt.Chart(df_plot).mark_point(
    filled=True  # 点を塗りつぶし
).encode(
    x=alt.X('position:Q', title='平均掲載位置',
            scale=alt.Scale(domain=[0, 1.00], nice=True),  # x軸の範囲を0から1.00に設定
            axis=alt.Axis(
                tickCount=5  # x軸の目盛りの数を5に設定
            )), 
    y=alt.Y('weeks:Q', title='連載週数',
            axis=alt.Axis(
                tickCount=5  # y軸の目盛りの数を5に設定
            )), 
    color=alt.Color('mcname:N', title='雑誌名', scale=alt.Scale(scheme='redblue')), 
    opacity=alt.OpacityValue(0.9),  # 散布図の透明度
    tooltip=['cname:N', 'position:Q', 'weeks:Q', 'mcname:N']  # ホバー時に表示するデータ
).properties(
    title='雑誌別・作品別の平均掲載位置と連載週数',  # タイトル
    width=800,  # グラフの幅（任意で調整）
    height=400  # グラフの高さ（任意で調整）
).configure_mark(
    size=500,  # マーカーのサイズ
    strokeWidth=10  # マーカーの枠線の幅
).interactive()

---

この演習は以上です。