# 青空文庫のランキング表を取得する

取得元: [青空文庫 アクセスランキング](https://www.aozora.gr.jp/access_ranking/)

## 目標

- ランキング表を取得する（pandasのデータフレームに入れる）
    - このノートブックで主に行う
- 最新の項目（本）について、XHTMLとテキスト形式を取得する

In [62]:
from selenium import webdriver

In [63]:
browser = webdriver.Chrome()
browser.get('https://www.aozora.gr.jp/access_ranking/')

In [64]:
tables = browser.find_elements_by_tag_name('table')

# 2番目のtableに最新のランキング項目が入っている
table_index = 1
table = tables[1]

In [65]:
# 出力に改行を反映させたいので print 関数を用いる
print(table.get_attribute('outerHTML'))

<table width="350">
<tbody>

<tr>
<td width="40%" bgcolor="#FFFFCC"><b>　2021年6月　</b></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_06_xhtml.html">XHTML版</a></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_06_txt.html">テキスト版</a></td>
</tr>
<tr>
<td width="40%" bgcolor="#FFFFCC"><b>　2021年5月　</b></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_05_xhtml.html">XHTML版</a></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_05_txt.html">テキスト版</a></td>
</tr>
<tr>
<td width="40%" bgcolor="#FFFFCC"><b>　2021年4月　</b></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_04_xhtml.html">XHTML版</a></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_04_txt.html">テキスト版</a></td>
</tr>
<tr>
<td width="40%" bgcolor="#FFFFCC"><b>　2021年3月　</b></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_03_xhtml.html">XHTML版</a></td>
<td width="30%" bgcolor="#F0F8FF">　<a href="2021_03_txt.html">テキスト版</a></td>
</tr>
<tr>
<td width="40%" bgcolor="#FFFFCC"><b>　2021年2月　</b></td>
<td width="30%

## 1件だけ抽出する

In [66]:
trs = table.find_elements_by_tag_name('tr')
len(trs)

6

In [67]:
tds = trs[0].find_elements_by_tag_name('td')

In [68]:
str_date = tds[0].text
str_date

'2021年6月'

In [69]:
str_url_xhtml = tds[1].find_element_by_tag_name('a').get_attribute('href')
str_url_xhtml

'https://www.aozora.gr.jp/access_ranking/2021_06_xhtml.html'

In [70]:
str_url_txt = tds[2].find_element_by_tag_name('a').get_attribute('href')
str_url_txt

'https://www.aozora.gr.jp/access_ranking/2021_06_txt.html'

## 表全体を取得する

In [71]:
# ランキング表
rank_list = []

for tr in trs:    
    tds = tr.find_elements_by_tag_name('td')
    str_date = tds[0].text
    str_url_xhtml = tds[1].find_element_by_tag_name('a').get_attribute('href')
    str_url_txt = tds[2].find_element_by_tag_name('a').get_attribute('href')
    
    rank_list.append([str_date, str_url_xhtml, str_url_txt])

rank_list

[['2021年6月',
  'https://www.aozora.gr.jp/access_ranking/2021_06_xhtml.html',
  'https://www.aozora.gr.jp/access_ranking/2021_06_txt.html'],
 ['2021年5月',
  'https://www.aozora.gr.jp/access_ranking/2021_05_xhtml.html',
  'https://www.aozora.gr.jp/access_ranking/2021_05_txt.html'],
 ['2021年4月',
  'https://www.aozora.gr.jp/access_ranking/2021_04_xhtml.html',
  'https://www.aozora.gr.jp/access_ranking/2021_04_txt.html'],
 ['2021年3月',
  'https://www.aozora.gr.jp/access_ranking/2021_03_xhtml.html',
  'https://www.aozora.gr.jp/access_ranking/2021_03_txt.html'],
 ['2021年2月',
  'https://www.aozora.gr.jp/access_ranking/2021_02_xhtml.html',
  'https://www.aozora.gr.jp/access_ranking/2021_02_txt.html'],
 ['2021年1月',
  'https://www.aozora.gr.jp/access_ranking/2021_01_xhtml.html',
  'https://www.aozora.gr.jp/access_ranking/2021_01_txt.html']]

In [72]:
import pandas as pd

In [73]:
df = pd.DataFrame(rank_list, columns=['年月', 'URL (XHTML版)', 'URL (テキスト版)'])
df

Unnamed: 0,年月,URL (XHTML版),URL (テキスト版)
0,2021年6月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...
1,2021年5月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...
2,2021年4月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...
3,2021年3月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...
4,2021年2月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...
5,2021年1月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...


## タイムスタンプ順にソートする

In [74]:
df['タイムスタンプ'] = pd.to_datetime(df['年月'], format='%Y年%m月')
df

Unnamed: 0,年月,URL (XHTML版),URL (テキスト版),タイムスタンプ
0,2021年6月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-06-01
1,2021年5月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-05-01
2,2021年4月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-04-01
3,2021年3月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-03-01
4,2021年2月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-02-01
5,2021年1月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-01-01


In [75]:
# 新しい方を上にする
df_sorted = df.sort_values(by='タイムスタンプ', ascending=False) 
df_sorted

Unnamed: 0,年月,URL (XHTML版),URL (テキスト版),タイムスタンプ
0,2021年6月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-06-01
1,2021年5月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-05-01
2,2021年4月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-04-01
3,2021年3月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-03-01
4,2021年2月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-02-01
5,2021年1月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-01-01


In [76]:
# おまけ：古い方を上にする
df.sort_values(by='タイムスタンプ', ascending=True) 

Unnamed: 0,年月,URL (XHTML版),URL (テキスト版),タイムスタンプ
5,2021年1月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-01-01
4,2021年2月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-02-01
3,2021年3月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-03-01
2,2021年4月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-04-01
1,2021年5月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-05-01
0,2021年6月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-06-01


## 最新の項目についてリンクだけを取り出す

In [77]:
row = df_sorted.head(1)
row

Unnamed: 0,年月,URL (XHTML版),URL (テキスト版),タイムスタンプ
0,2021年6月,https://www.aozora.gr.jp/access_ranking/2021_0...,https://www.aozora.gr.jp/access_ranking/2021_0...,2021-06-01


In [78]:
url_xhtml = row.at[0,'URL (XHTML版)']
url_xhtml

'https://www.aozora.gr.jp/access_ranking/2021_06_xhtml.html'

In [79]:
url_txt = row.at[0,'URL (テキスト版)']
url_txt

'https://www.aozora.gr.jp/access_ranking/2021_06_txt.html'

In [81]:
browser.quit()