# 青空文庫のアクセスランキング

2009年〜2022年間の青空文庫のアクセスランキングが以下で公開されている．

https://www.aozora.gr.jp/access_ranking/

この年度毎のデータを使用して，全年度の作品ランキングと作者ランキングを取得する．

In [1]:
import pandas as pd

## 2022年度のランキング

In [2]:
# 2022年のデータを取得
df_2022 = pd.read_html('https://www.aozora.gr.jp/access_ranking/2022_txt.html', 
                      header=0)
df_2022[0].head()

Unnamed: 0,ランキング,作品名副題,著者名,アクセス数
0,1,こころ,夏目 漱石,54648
1,2,人間失格,太宰 治,40892
2,3,吾輩は猫である,夏目 漱石,32765
3,4,ドグラ・マグラ,夢野 久作,26779
4,5,羅生門,芥川 竜之介,26174


In [4]:
# 作品のランキングを取得
df_2022_novel = df_2022[0].iloc[:,-3:].groupby(['作品名副題', '著者名']).sum()
df_2022_novel.sort_values(['アクセス数'], ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,アクセス数
作品名副題,著者名,Unnamed: 2_level_1
こころ,夏目 漱石,54648
銀河鉄道の夜,宮沢 賢治,47717
人間失格,太宰 治,40892
羅生門,芥川 竜之介,39928
吾輩は猫である,夏目 漱石,32765
ドグラ・マグラ,夢野 久作,26779
檸檬,梶井 基次郎,20925
山月記,中島 敦,20040
注文の多い料理店,宮沢 賢治,19832
走れメロス,太宰 治,19746


In [5]:
# 作者のランキングを取得
df_2022_author = df_2022[0].iloc[:,-2:].groupby('著者名').sum()
df_2022_author.sort_values(['アクセス数'], ascending=False).head(10)

Unnamed: 0_level_0,アクセス数
著者名,Unnamed: 1_level_1
江戸川 乱歩,231473
夏目 漱石,209532
芥川 竜之介,194486
太宰 治,194144
山本 周五郎,171570
宮沢 賢治,130567
吉川 英治,98277
夢野 久作,54691
谷崎 潤一郎,48771
森 鴎外,42927


## 全期間のランキング

In [6]:
# 単年度のデータ取得用関数を定義
def get_ranking(year):
    df = pd.read_html(f'https://www.aozora.gr.jp/access_ranking/{year}_txt.html', 
                      header=0)[0]
    # 先頭列に年を追加
    df_year = pd.DataFrame(
        [year for _ in range(df.shape[0])]
        ).rename(columns={0:'年'})
    df = pd.concat([df_year, df], axis=1)
    return df

In [7]:
# お試し(2021)
df_2021 = get_ranking(2021)
df_2021.head()

Unnamed: 0,年,ランキング,作品名副題,著者名,アクセス数
0,2021,1,こころ,夏目 漱石,61671
1,2021,2,人間失格,太宰 治,50420
2,2021,3,吾輩は猫である,夏目 漱石,42077
3,2021,4,羅生門,芥川 竜之介,40360
4,2021,5,ドグラ・マグラ,夢野 久作,35287


In [8]:
# 2009〜2022までのデータを取得して辞書に登録
dic_ranking = {}
for year in [i for i in range(2009, 2023)]:
    dic_ranking[year] = get_ranking(year)

In [9]:
# 全データを結合
df_ranking = pd.concat([dic_ranking[year] for year in range(2009, 2023)])

In [24]:
# csv形式で保存する
# df_ranking.to_csv('ranking.csv')

In [10]:
# ランキング1位の推移
df_ranking[df_ranking['ランキング']==1]

Unnamed: 0,年,ランキング,作品名副題,著者名,アクセス数
0,2009,1,ドグラ・マグラ,夢野 久作,34031
0,2010,1,坊っちゃん,夏目 漱石,65872
0,2011,1,人間失格,太宰 治,73829
0,2012,1,こころ,夏目 漱石,115193
0,2013,1,こころ,夏目 漱石,111640
0,2014,1,こころ,夏目 漱石,82358
0,2015,1,こころ,夏目 漱石,66294
0,2016,1,吾輩は猫である,夏目 漱石,62110
0,2017,1,こころ,夏目 漱石,54540
0,2018,1,こころ,夏目 漱石,52808


- 全期間を通した作品別のアクセスランキングを取得
  - ドグラ・マグラ（夢野久作）は有名なんだ．知らなかった．

In [12]:
# 作品のランキング
df_ranking_novel = df_ranking.loc[:,'作品名副題':].groupby(['作品名副題', '著者名']).sum()
df_ranking_novel.sort_values('アクセス数', ascending=False).head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,アクセス数
作品名副題,著者名,Unnamed: 2_level_1
こころ,夏目 漱石,889871
銀河鉄道の夜,宮沢 賢治,868045
人間失格,太宰 治,749090
吾輩は猫である,夏目 漱石,688435
羅生門,芥川 竜之介,605019
坊っちゃん,夏目 漱石,578332
ドグラ・マグラ,夢野 久作,535213
蟹工船,小林 多喜二,401827
注文の多い料理店,宮沢 賢治,381431
〔雨ニモマケズ〕,宮沢 賢治,344373


* 全期間を通した作者別のランキング
  * 「ドグラ・マグラ」の作者「夢野久作」はここでも上位に入っている．

In [13]:
# 作者のランキング
df_ranking_author = df_ranking.loc[:,'著者名':].groupby('著者名').sum()
df_ranking_author.sort_values('アクセス数', ascending=False).head(20)

Unnamed: 0_level_0,アクセス数
著者名,Unnamed: 1_level_1
夏目 漱石,4540201
芥川 竜之介,4197379
太宰 治,3349644
吉川 英治,2759818
宮沢 賢治,2649221
紫式部,1871742
江戸川 乱歩,1866878
夢野 久作,984943
ドイル アーサー・コナン,784793
ポー エドガー・アラン,714386


In [16]:
# ドグラマグラの推移を確認してみる．2009年には1位になっている．
df_ranking[df_ranking['作品名副題']=='ドグラ・マグラ']

Unnamed: 0,年,ランキング,作品名副題,著者名,アクセス数
0,2009,1,ドグラ・マグラ,夢野 久作,34031
6,2010,7,ドグラ・マグラ,夢野 久作,39604
3,2011,4,ドグラ・マグラ,夢野 久作,57274
4,2012,5,ドグラ・マグラ,夢野 久作,64178
6,2013,7,ドグラ・マグラ,夢野 久作,53452
3,2014,4,ドグラ・マグラ,夢野 久作,42723
3,2015,4,ドグラ・マグラ,夢野 久作,38772
6,2016,7,ドグラ・マグラ,夢野 久作,35760
6,2017,7,ドグラ・マグラ,夢野 久作,27279
6,2018,7,ドグラ・マグラ,夢野 久作,25719


In [18]:
# 2009年の上位10作品を見てみる．
dic_ranking[2009].head(10)

Unnamed: 0,年,ランキング,作品名副題,著者名,アクセス数
0,2009,1,ドグラ・マグラ,夢野 久作,34031
1,2009,2,蟹工船,小林 多喜二,27798
2,2009,3,人間失格,太宰 治,25472
3,2009,4,こころ,夏目 漱石,23651
4,2009,5,吾輩は猫である,夏目 漱石,22672
5,2009,6,坊っちゃん,夏目 漱石,15845
6,2009,7,〔雨ニモマケズ〕,宮沢 賢治,12346
7,2009,8,銀河鉄道の夜,宮沢 賢治,11990
8,2009,9,羅生門,芥川 竜之介,11698
9,2009,10,走れメロス,太宰 治,10721
