# 青空文庫の分析対象

- 日本文学（分類番号：NDC 913含む）
- 文字遣い種別：新字新仮名
- 作品著作権：なし


In [2]:
import pandas as pd
import numpy as np

## データ取得

[「公開中　作家リスト：全て」のページ](https://www.aozora.gr.jp/index_pages/person_all.html)」で共有されているリストを取得

https://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip


In [3]:
!wget https://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip

--2023-05-23 00:04:34--  https://www.aozora.gr.jp/index_pages/list_person_all_extended_utf8.zip
Resolving www.aozora.gr.jp (www.aozora.gr.jp)... 59.106.13.115
Connecting to www.aozora.gr.jp (www.aozora.gr.jp)|59.106.13.115|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2001614 (1.9M) [application/zip]
Saving to: ‘list_person_all_extended_utf8.zip.1’


2023-05-23 00:04:35 (8.44 MB/s) - ‘list_person_all_extended_utf8.zip.1’ saved [2001614/2001614]



ダウンロードしたZIPファイルを解凍する．

In [4]:
!unzip list_person_all_extended_utf8.zip

Archive:  list_person_all_extended_utf8.zip
replace list_person_all_extended_utf8.csv? [y]es, [n]o, [A]ll, [N]one, [r]ename: ^C


In [5]:
# pandasで読み取る
df_all = pd.read_csv('list_person_all_extended_utf8.csv')
df_all.head()

Unnamed: 0,作品ID,作品名,作品名読み,ソート用読み,副題,副題読み,原題,初出,分類番号,文字遣い種別,...,テキストファイルURL,テキストファイル最終更新日,テキストファイル符号化方式,テキストファイル文字集合,テキストファイル修正回数,XHTML/HTMLファイルURL,XHTML/HTMLファイル最終更新日,XHTML/HTMLファイル符号化方式,XHTML/HTMLファイル文字集合,XHTML/HTMLファイル修正回数
0,59898,ウェストミンスター寺院,ウェストミンスターじいん,うえすとみんすたあしいん,,,,,NDC 933,新字新仮名,...,https://www.aozora.gr.jp/cards/001257/files/59...,2020-03-28,ShiftJIS,JIS X 0208,0.0,https://www.aozora.gr.jp/cards/001257/files/59...,2020-03-28,ShiftJIS,JIS X 0208,0.0
1,56078,駅伝馬車,えきでんばしゃ,えきてんはしや,,,,,NDC 933,旧字旧仮名,...,https://www.aozora.gr.jp/cards/001257/files/56...,2013-09-03,ShiftJIS,JIS X 0208,0.0,https://www.aozora.gr.jp/cards/001257/files/56...,2013-09-03,ShiftJIS,JIS X 0208,0.0
2,60224,駅馬車,えきばしゃ,えきはしや,,,,,NDC 933,新字新仮名,...,https://www.aozora.gr.jp/cards/001257/files/60...,2021-04-27,ShiftJIS,JIS X 0208,0.0,https://www.aozora.gr.jp/cards/001257/files/60...,2021-04-27,ShiftJIS,JIS X 0208,0.0
3,60225,寡婦とその子,かふとそのこ,かふとそのこ,,,,,NDC 933,新字新仮名,...,https://www.aozora.gr.jp/cards/001257/files/60...,2021-09-27,ShiftJIS,JIS X 0208,0.0,https://www.aozora.gr.jp/cards/001257/files/60...,2021-09-27,ShiftJIS,JIS X 0208,0.0
4,60231,クリスマス,クリスマス,くりすます,,,,,NDC 933,新字新仮名,...,https://www.aozora.gr.jp/cards/001257/files/60...,2021-11-27,ShiftJIS,JIS X 0208,0.0,https://www.aozora.gr.jp/cards/001257/files/60...,2021-11-27,ShiftJIS,JIS X 0208,0.0


In [6]:
# 作品数確認
df_all.shape

(18798, 55)

In [7]:
# 列名作成 -> 最後に必要なもののみ残す
df_all.columns

Index(['作品ID', '作品名', '作品名読み', 'ソート用読み', '副題', '副題読み', '原題', '初出', '分類番号',
       '文字遣い種別', '作品著作権フラグ', '公開日', '最終更新日', '図書カードURL', '人物ID', '姓', '名',
       '姓読み', '名読み', '姓読みソート用', '名読みソート用', '姓ローマ字', '名ローマ字', '役割フラグ', '生年月日',
       '没年月日', '人物著作権フラグ', '底本名1', '底本出版社名1', '底本初版発行年1', '入力に使用した版1',
       '校正に使用した版1', '底本の親本名1', '底本の親本出版社名1', '底本の親本初版発行年1', '底本名2', '底本出版社名2',
       '底本初版発行年2', '入力に使用した版2', '校正に使用した版2', '底本の親本名2', '底本の親本出版社名2',
       '底本の親本初版発行年2', '入力者', '校正者', 'テキストファイルURL', 'テキストファイル最終更新日',
       'テキストファイル符号化方式', 'テキストファイル文字集合', 'テキストファイル修正回数', 'XHTML/HTMLファイルURL',
       'XHTML/HTMLファイル最終更新日', 'XHTML/HTMLファイル符号化方式', 'XHTML/HTMLファイル文字集合',
       'XHTML/HTMLファイル修正回数'],
      dtype='object')

## 絞り込み

In [8]:
# 日本文学のみ
df_jp = df_all[df_all['分類番号'].str.contains('NDC 913', na=False)]
df_jp.shape

(5181, 55)

In [9]:
# 翻訳者は除外
df_jp = df_jp[df_jp['役割フラグ']=='著者']
df_jp.shape

(5111, 55)

In [10]:
# 新カナのみを対象とする
df_jp_new = df_jp[df_jp['文字遣い種別']=='新字新仮名']
df_jp_new.shape

(3576, 55)

In [11]:
# 作品著作権切れ
df_jp_new_free = df_jp_new[df_jp_new['作品著作権フラグ']=='なし']
df_jp_new_free.shape

(3507, 55)

In [12]:
# 作者著作権切れ
df_jp_new_free = df_jp_new_free[df_jp_new_free['人物著作権フラグ']=='なし']
df_jp_new_free.shape

(3507, 55)

In [13]:
# 作者名が空白は除外
df_jp_new_free_name = df_jp_new_free[~ df_jp_new_free.loc[:,'名'].isnull()]
df_jp_new_free_name.shape

(3442, 55)

In [14]:
# ここまでの結果を別変数にコピー
df_target = df_jp_new_free_name.copy()
df_target.shape

(3442, 55)

## 列の絞り込み

### 氏名，かな

In [15]:
df_kanji = df_target['姓'] + ' ' + df_target['名']
df_kana = df_target['姓読み'] + ' ' + df_target['名読み']

In [16]:
df_name = pd.concat([df_target['人物ID'], df_kanji, df_kana], axis=1).rename(columns={0: '氏名', 1: '読み'})
df_name.head()

Unnamed: 0,人物ID,氏名,読み
33,374,饗庭 篁村,あえば こうそん
68,879,芥川 竜之介,あくたがわ りゅうのすけ
71,879,芥川 竜之介,あくたがわ りゅうのすけ
72,879,芥川 竜之介,あくたがわ りゅうのすけ
79,879,芥川 竜之介,あくたがわ りゅうのすけ


### 作品名

In [17]:
df_work = df_target.loc[:, ['作品ID', '作品名', '副題', '作品名読み']]
df_work.head()

Unnamed: 0,作品ID,作品名,副題,作品名読み
33,45754,良夜,,りょうや
68,73,或敵打の話,,あるかたきうちのはなし
71,122,或日の大石内蔵助,,あるひのおおいしくらのすけ
72,129,或恋愛小説,,あるれんあいしょうせつ
79,57,一夕話,,いっせきわ


### URL

In [18]:
df_url = df_target.loc[:, ['図書カードURL', 'テキストファイルURL']]
df_url.head()

Unnamed: 0,図書カードURL,テキストファイルURL
33,https://www.aozora.gr.jp/cards/000374/card4575...,https://www.aozora.gr.jp/cards/000374/files/45...
68,https://www.aozora.gr.jp/cards/000879/card73.html,https://www.aozora.gr.jp/cards/000879/files/73...
71,https://www.aozora.gr.jp/cards/000879/card122....,https://www.aozora.gr.jp/cards/000879/files/12...
72,https://www.aozora.gr.jp/cards/000879/card129....,https://www.aozora.gr.jp/cards/000879/files/12...
79,https://www.aozora.gr.jp/cards/000879/card57.html,https://www.aozora.gr.jp/cards/000879/files/57...


### 結合

名前，作品，URLを結合する

In [19]:
df = pd.concat([df_name, df_work, df_url], axis=1)
df = df.reset_index().drop(['index'], axis=1) # index振り直し
df.head()

Unnamed: 0,人物ID,氏名,読み,作品ID,作品名,副題,作品名読み,図書カードURL,テキストファイルURL
0,374,饗庭 篁村,あえば こうそん,45754,良夜,,りょうや,https://www.aozora.gr.jp/cards/000374/card4575...,https://www.aozora.gr.jp/cards/000374/files/45...
1,879,芥川 竜之介,あくたがわ りゅうのすけ,73,或敵打の話,,あるかたきうちのはなし,https://www.aozora.gr.jp/cards/000879/card73.html,https://www.aozora.gr.jp/cards/000879/files/73...
2,879,芥川 竜之介,あくたがわ りゅうのすけ,122,或日の大石内蔵助,,あるひのおおいしくらのすけ,https://www.aozora.gr.jp/cards/000879/card122....,https://www.aozora.gr.jp/cards/000879/files/12...
3,879,芥川 竜之介,あくたがわ りゅうのすけ,129,或恋愛小説,,あるれんあいしょうせつ,https://www.aozora.gr.jp/cards/000879/card129....,https://www.aozora.gr.jp/cards/000879/files/12...
4,879,芥川 竜之介,あくたがわ りゅうのすけ,57,一夕話,,いっせきわ,https://www.aozora.gr.jp/cards/000879/card57.html,https://www.aozora.gr.jp/cards/000879/files/57...


In [20]:
df.insert(0, '対象', True) # 対象列の追加
df['テキストファイルパス'] = '' # 保存場所
df['備考'] = ''

In [21]:
df.head()

Unnamed: 0,対象,人物ID,氏名,読み,作品ID,作品名,副題,作品名読み,図書カードURL,テキストファイルURL,テキストファイルパス,備考
0,True,374,饗庭 篁村,あえば こうそん,45754,良夜,,りょうや,https://www.aozora.gr.jp/cards/000374/card4575...,https://www.aozora.gr.jp/cards/000374/files/45...,,
1,True,879,芥川 竜之介,あくたがわ りゅうのすけ,73,或敵打の話,,あるかたきうちのはなし,https://www.aozora.gr.jp/cards/000879/card73.html,https://www.aozora.gr.jp/cards/000879/files/73...,,
2,True,879,芥川 竜之介,あくたがわ りゅうのすけ,122,或日の大石内蔵助,,あるひのおおいしくらのすけ,https://www.aozora.gr.jp/cards/000879/card122....,https://www.aozora.gr.jp/cards/000879/files/12...,,
3,True,879,芥川 竜之介,あくたがわ りゅうのすけ,129,或恋愛小説,,あるれんあいしょうせつ,https://www.aozora.gr.jp/cards/000879/card129....,https://www.aozora.gr.jp/cards/000879/files/12...,,
4,True,879,芥川 竜之介,あくたがわ りゅうのすけ,57,一夕話,,いっせきわ,https://www.aozora.gr.jp/cards/000879/card57.html,https://www.aozora.gr.jp/cards/000879/files/57...,,


In [22]:
df.shape

(3442, 12)

In [23]:
# csvに出力
df.to_csv('target.csv', index=False)

In [24]:
# 行単位で扱う場合は以下
for i, d in df.iterrows():
    print(f'idx: {i}')
    print('--------')
    print(d)
    break

idx: 0
--------
対象                                                          True
人物ID                                                         374
氏名                                                         饗庭 篁村
読み                                                      あえば こうそん
作品ID                                                       45754
作品名                                                           良夜
副題                                                           NaN
作品名読み                                                       りょうや
図書カードURL       https://www.aozora.gr.jp/cards/000374/card4575...
テキストファイルURL    https://www.aozora.gr.jp/cards/000374/files/45...
テキストファイルパス                                                      
備考                                                              
Name: 0, dtype: object


## データ読み込み例

In [25]:
sample = df.loc[0]['テキストファイルURL']
sample

'https://www.aozora.gr.jp/cards/000374/files/45754_ruby_23695.zip'

In [26]:
pd.read_csv(sample, encoding='cp932', names=['text'])

Unnamed: 0,text
0,良夜
1,饗庭篁村
2,----------------------------------------------...
3,【テキスト中に現れる記号について】
4,《》：ルビ
5,（例）手習《てならい》
6,｜：ルビの付く文字列の始まりを特定する記号
7,（例）末｜覚束《おぼつか》なき
8,［＃］：入力者注　主に外字の説明や、傍点の位置の指定
9,（数字は、JIS X 0213の面区点番号、または底本のページと行数）
