# そもそもどんなデータを扱うの？

ここでは，本サイトで分析対象とするデータについて簡単に紹介し，基礎分析を実施します．

なお，[MADB Labでv1.0として公開されているデータ](https://github.com/mediaarts-db/dataset/tree/1.0)を[こちら](https://kakeami.github.io/viz-madb/appendix/preprocess.html)の手順で前処理したものを利用しています．ご興味のある方はAppendixをご参照ください．

## 環境構築

In [66]:
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

In [67]:
# 前処理の結果，以下に分析対象ファイルが格納されていることを想定
PATH_DATA = '../../data/preprocess/out/magazines.csv'

In [68]:
df = pd.read_csv(PATH_DATA)

## 概要

`df`は

- 週刊少年ジャンプ
- 週刊少年サンデー
- 週刊少年マガジン
- 週刊少年チャンピオン

の`1970-08-02`から`2017-07-06`までのすべての掲載作品のデータを格納した`DataFrame`です．
まずはサイズを見てみましょう．

In [69]:
df.shape

(179866, 12)

各週の掲載作品を一行ずつ格納しているため，合計で約18万行程度の規模になります．
以下に，各列の構成を示します．

In [70]:
df.columns

Index(['mcname', 'miname', 'cname', 'epname', 'creator', 'pageStart',
       'pageEnd', 'numberOfPages', 'datePublished', 'price', 'publisher',
       'editor'],
      dtype='object')

- `mcname`: 雑誌名
- `miname`: 雑誌巻号名
- `cname`: マンガ作品名
- `epname`: 各話タイトル
- `creator`: 作者名
- `pageStart`: 開始ページ
- `pageEnd`: 終了ページ
- `numberOfPages`: 雑誌の合計ページ数
- `datePublished`: 雑誌の発行日
- `price`: 雑誌の価格
- `publisher`: 雑誌の発行元
- `editor`: 雑誌の編集者（編集長）

冒頭数行を見て，データのイメージを掴んでみましょう．

In [71]:
df.head(3).T

Unnamed: 0,0,1,2
mcname,週刊少年サンデー,週刊少年マガジン,週刊少年サンデー
miname,週刊少年サンデー 1970年 表示号数32,週刊少年マガジン 1970年 表示号数32,週刊少年サンデー 1970年 表示号数32
cname,ぶッかれ*ダン,アシュラ,男どアホウ甲子園
epname,,,
creator,赤塚不二夫,ジョージ秋山,水島新司と水島プロ
pageStart,3.0,19.0,33.0
pageEnd,32.0,66.0,50.0
numberOfPages,288.0,282.0,288.0
datePublished,1970-08-02,1970-08-02,1970-08-02
price,80.0,80.0,80.0


`pandas`の`describe()`コマンドでざっくり集計してみます．

In [72]:
df.describe()

Unnamed: 0,pageStart,pageEnd,numberOfPages,price
count,179866.0,179860.0,179559.0,179828.0
mean,210.90933,228.364308,417.366002,203.870732
std,126.082707,122.080065,67.403584,41.928839
min,1.0,0.0,36.0,80.0
25%,107.0,126.0,356.0,180.0
50%,205.0,222.0,437.0,210.0
75%,305.0,322.0,464.0,236.0
max,9999.0,1578.0,600.0,371.0


- `pageStart`はすべての行でデータがありますが，それ以外は`NaN`（数値なし）が結構ありそうです
- `numberOfPages`の最小値，最大値が想定外に広がっていたので，あとで深堀りします
- `price`も同様です．後で深堀りします

次に，`NaN`の数を列ごとに集計します．

In [74]:
df.isna().sum()

mcname               0
miname               0
cname                9
epname           26814
creator            441
pageStart            0
pageEnd              6
numberOfPages      307
datePublished        0
price               38
publisher        24588
editor            2092
dtype: int64

特に`epname`と`publisher`の欠損が多いことがわかります．

## 列ごとの基礎分析

### `mcname`（雑誌名）

In [75]:
df['mcname'].value_counts()

週刊少年サンデー      46153
週刊少年チャンピオン    45410
週刊少年マガジン      45293
週刊少年ジャンプ      43010
Name: mcname, dtype: int64

上記は`mcname`ごとの行数を表します．それぞれ同一期間で集計しましたが，掲載作品数の違いが生じています．

### `miname`（雑誌巻号名）

ユニークな`miname`数を集計します．

In [76]:
df['miname'].nunique()

9215

`mcname`（雑誌）ごとに集計した`miname`（雑誌巻号）は：

In [77]:
df.groupby('mcname')['miname'].nunique()

mcname
週刊少年サンデー      2303
週刊少年ジャンプ      2299
週刊少年チャンピオン    2313
週刊少年マガジン      2300
Name: miname, dtype: int64

ほぼ同数ですが，雑誌によって微妙に巻号数が異なることがわかります．

次は，`miname`（雑誌巻号）ごとに`mcname`（マンガ作品）数を集計してみます．

In [78]:
df.groupby('miname')['cname'].nunique().sort_values().reset_index()

Unnamed: 0,miname,cname
0,週刊少年マガジン 1975年 表示号数1,8
1,週刊少年マガジン 1971年 表示号数1,8
2,週刊少年マガジン 1974年 表示号数45,9
3,週刊少年サンデー 1973年 表示号数5,9
4,週刊少年サンデー 1974年 表示号数33,9
...,...,...
9210,週刊少年マガジン 2010年 表示号数7,35
9211,週刊少年ジャンプ 2014年 表示号数4,37
9212,週刊少年チャンピオン 2004年 表示号数1,37
9213,週刊少年ジャンプ 2003年 表示号数37,40


1970年付近の黎明期は掲載数が少なめだったようです．また，雑誌によってタイミングはバラバラですが，非常に沢山のマンガを掲載する**外れ値**が存在することもわかります．

### `cname`（マンガ作品名）

ユニークな`cname`（マンガ作品）数を集計します．

In [79]:
df['cname'].nunique()

6830

`mcname`（雑誌）ごとに`cname`（マンガ作品）数を集計します．

In [80]:
df.groupby('mcname')['cname'].nunique()

mcname
週刊少年サンデー      1485
週刊少年ジャンプ      2105
週刊少年チャンピオン    1713
週刊少年マガジン      1558
Name: cname, dtype: int64

ジャンプが圧倒的に多いですね…．試しに`cname`（マンガ作品）ごとに掲載数を集計してみます．

In [81]:
df_tmp = df[['mcname', 'cname']].value_counts().reset_index()
df_tmp.columns = ['mcname', 'cname', 'counts']
df_tmp

Unnamed: 0,mcname,cname,counts
0,週刊少年ジャンプ,こちら葛飾区亀有公園前派出所,1968
1,週刊少年マガジン,はじめの一歩,1184
2,週刊少年サンデー,名探偵コナン,1008
3,週刊少年ジャンプ,ONE PIECE,890
4,週刊少年サンデー,MAJOR,748
...,...,...,...
6856,週刊少年ジャンプ,大衆娯楽漫画きくらげ劇場,1
6857,週刊少年ジャンプ,大攻防戦,1
6858,週刊少年ジャンプ,大山岳,1
6859,週刊少年ジャンプ,大宮ジェット,1


```{margin} あれ，あの長編作品は…？
シーズンごとに作品名が変わっているシリーズ作品（刃牙，ジョジョ等）は，それぞれ別作品として集計されていることにご注意ください．
```

連載期間が長いものを見てみましょう．こち亀，はじめの一歩，名探偵コナン，ONEPIECE，MAJORと各雑誌のレジェンドが連なります．
一方で，連載期間が短いものの中には，企画ものや読み切りが存在するようです．

雑誌ごとに，マンガ作品の連載期間に関して基礎集計します．

In [82]:
df_tmp.groupby('mcname')['counts'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
mcname,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
週刊少年サンデー,1485.0,31.077441,73.995156,1.0,1.0,2.0,27.0,1008.0
週刊少年ジャンプ,2105.0,20.431829,75.075635,1.0,1.0,1.0,11.0,1968.0
週刊少年チャンピオン,1713.0,26.508465,60.133614,1.0,1.0,3.0,24.0,635.0
週刊少年マガジン,1558.0,29.068678,75.465729,1.0,1.0,2.0,21.0,1184.0


やはりジャンプの平均掲載期間が，他誌と比べて短いことがわかります．

### `epname`（各話タイトル）

### `creator`（作者）

### `pageStart`（開始ページ数）

### `pageEnd`（終了ページ数）

### `numberOfPages`（各号の合計ページ数）

### `datePublished`（発行日）

### `publisher`（発行者）

### `editor`（編集者）