# 青空文庫の本文から文豪の言及を抽出する

In [44]:
from bs4 import BeautifulSoup
import re
import codecs

# 対象のファイルの全文データとメタデータをハッシュで返す
def get_text(path):
    pattern = r'.+\/cards\/([0-9]+)\/files\/(.+)\.html'
    m = re.match(pattern, path)
    author_id = m.group(1)
    doc_id = m.group(2)
    
    try:
      with codecs.open(path, 'r', 'shift-jis', 'ignore') as f:
          text = f.read()
          soup = BeautifulSoup(text, 'html.parser')
        
          title = soup.find('h1').text
          author_name = soup.find('h2').text
          main_text_block = soup.find('div', class_='main_text')
        
          # ルビを除去して本文を取得
          [ rb.decompose() for rb in main_text_block.findAll('rp') ]
          [ rb.decompose() for rb in main_text_block.findAll('rt') ]
          main_text = main_text_block.text.replace(r'\n|\r', '').replace('\u3000', ' ')
        
          main_text
    except:
      print("【ERROR】{0}".format(path))
      raise 
    
    return {
        '_id': doc_id,
        'title': title,
        'author': {
            'id': author_id,
            'name': author_name,
        },
        'path': path,
        'text': main_text
    }

get_text("./aozora/cards/000035/files/2257_15061.html")

{'_id': '2257_15061',
 'title': '黄金風景',
 'author': {'id': '000035', 'name': '太宰治'},
 'path': './aozora/cards/000035/files/2257_15061.html',
 'text': '\n\n\n\n\n海の岸辺に緑なす樫の木、その樫の木に黄金の細き鎖のむすばれて   ―プウシキン―\n\n\n 私は子供のときには、余り質のいい方ではなかった。女中をいじめた。私は、のろくさいことは嫌いで、それゆえ、のろくさい女中を殊にもいじめた。お慶は、のろくさい女中である。林檎の皮をむかせても、むきながら何を考えているのか、二度も三度も手を休めて、おい、とその度毎にきびしく声を掛けてやらないと、片手に林檎、片手にナイフを持ったまま、いつまでも、ぼんやりしているのだ。足りないのではないか、と思われた。台所で、何もせずに、ただのっそりつっ立っている姿を、私はよく見かけたものであるが、子供心にも、うすみっともなく、妙に疳にさわって、おい、お慶、日は短いのだぞ、などと大人びた、いま思っても脊筋の寒くなるような非道の言葉を投げつけて、それで足りずに一度はお慶をよびつけ、私の絵本の観兵式の何百人となくうようよしている兵隊、馬に乗っている者もあり、旗持っている者もあり、銃担っている者もあり、そのひとりひとりの兵隊の形を鋏でもって切り抜かせ、不器用なお慶は、朝から昼飯も食わず日暮頃までかかって、やっと三十人くらい、それも大将の鬚を片方切り落したり、銃持つ兵隊の手を、熊の手みたいに恐ろしく大きく切り抜いたり、そうしていちいち私に怒鳴られ、夏のころであった、お慶は汗かきなので、切り抜かれた兵隊たちはみんな、お慶の手の汗で、びしょびしょ濡れて、私は遂に癇癪をおこし、お慶を蹴った。たしかに肩を蹴った筈なのに、お慶は右の頬をおさえ、がばと泣き伏し、泣き泣きいった。「親にさえ顔を踏まれたことはない。一生おぼえております」うめくような口調で、とぎれ、とぎれそういったので、私は、流石にいやな気がした。そのほかにも、私はほとんどそれが天命でもあるかのように、お慶をいびった。いまでも、多少はそうであるが、私には無智な魯鈍の者は、とても堪忍できぬのだ。\n 一昨年、私は家を追われ、一夜のうちに窮迫し、巷

## 文豪リストを読み込む

メンバーが作成した文豪のリストを読み込む

In [2]:
import pandas as pd

bungo = pd.read_csv('bungo-list.tsv', delimiter='\t')
bungo

Unnamed: 0,著者名,NDL肖像ID,NDLA,NDL正規化名,JPS,青空,近代肖像URL,NDLサムネイル
0,芥川龍之介,224,1509,"芥川, 竜之介, 1892-1927",,https://www.aozora.gr.jp/index_pages/person879...,https://www.ndl.go.jp/portrait/datas/224.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
1,有島武郎,228,3269,"有島, 武郎, 1878-1923",,https://www.aozora.gr.jp/index_pages/person25....,https://www.ndl.go.jp/portrait/datas/228.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
2,泉鏡花,230,24402,"泉, 鏡花, 1873-1939",,https://www.aozora.gr.jp/index_pages/person50....,https://www.ndl.go.jp/portrait/datas/230.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
3,尾崎紅葉,249,64081,"尾崎, 紅葉, 1867-1903",,https://www.aozora.gr.jp/index_pages/person91....,https://www.ndl.go.jp/portrait/datas/249.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
4,国木田独歩,262,37399,"国木田, 独歩, 1871-1908",,https://www.aozora.gr.jp/index_pages/person38....,https://www.ndl.go.jp/portrait/datas/262.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
5,黒岩涙香,264,38263,"黒岩, 涙香, 1862-1920",,https://www.aozora.gr.jp/index_pages/person179...,https://www.ndl.go.jp/portrait/datas/264.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
6,佐佐木信綱,272,67453,"佐佐木, 信綱, 1872-1963",,https://www.aozora.gr.jp/index_pages/person169...,https://www.ndl.go.jp/portrait/datas/272.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
7,志賀直哉,273,70621,"志賀, 直哉, 1883-1971",,,https://www.ndl.go.jp/portrait/datas/273.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
8,島崎藤村,276,71373,"島崎, 藤村, 1872-1943",,https://www.aozora.gr.jp/index_pages/person158...,https://www.ndl.go.jp/portrait/datas/276.html,https://www.ndl.go.jp/portrait/130_130_thumbna...
9,末松謙澄,556,73853,"末松, 謙澄, 1855-1920",,https://www.aozora.gr.jp/index_pages/person266...,https://www.ndl.go.jp/portrait/datas/556.html,https://www.ndl.go.jp/portrait/130_130_thumbna...


In [36]:
import glob
import re

def get_author_id(author_url):
  pattern = r'person([0-9]+)'
  m = re.search(pattern, str(author_url))
  if m:
    author_id = "{0:06d}".format(int(m.group(1)))
  else:
    author_id = None

  return author_id

def get_text_paths_by_author(author_id):
  pattern = "./aozora/cards/{0}/files/*_*.html".format(author_id)
  return list(glob.glob(pattern))

def get_author_textpaths(author_url):
  author_id = get_author_id(author_url)
  if author_id:
    textpaths = get_text_paths_by_author(author_id)
  else:
    textpaths = None
  
  return textpaths

for idx, row in bungo.head(1).iterrows():
  author_url = row["青空"]
  author_texts = [ get_text(textpath) for textpath in get_author_textpaths(author_url) ]
  data = {
    "author": dict(row),
    "author_url": author_url,
    "texts": author_texts
  }
  print(data["author"])
  print(len(data["texts"]))

{'著者名': '芥川龍之介', 'NDL肖像ID': 224, 'NDLA': 1509, 'NDL正規化名': '芥川, 竜之介, 1892-1927', 'JPS': nan, '青空': 'https://www.aozora.gr.jp/index_pages/person879.html', '近代肖像URL': 'https://www.ndl.go.jp/portrait/datas/224.html', 'NDLサムネイル': 'https://www.ndl.go.jp/portrait/130_130_thumbnails/568-133/s0149_t.png'}
371


## MongoDBを導入

In [4]:
!pip install pymongo



In [5]:
import pymongo

client = pymongo.MongoClient('mongodb://mongodb:27017/')
db = client.testdb
result = db.test.insert_one({"message_id":"100", "message":"helo world!"})
print(result)
for data in db.test.find():
  print(data)

<pymongo.results.InsertOneResult object at 0x7f5f19462b48>
{'_id': ObjectId('5d7c94d6f1d4dec15d6b1c6d'), 'message_id': '100', 'message': 'helo world!'}
{'_id': ObjectId('5d7cc39c2c422f0d9757c74e'), 'message_id': '100', 'message': 'helo world!'}


## 青空文庫の本文データをMongoDBに登録

In [69]:
aozora_db = client.aozoratext

for idx, row in bungo.iterrows():
  author_url = row["青空"]
  print(author_url)
  author_textpaths = get_author_textpaths(author_url)

  if author_textpaths:
    print("{0}の登録開始".format(row["著者名"]))

    texts = [ get_text(textpath) for textpath in author_textpaths ]
    result = aozora_db.text.insert_many(texts)
    
    print("{0}の登録完了: {1} 件".format(row["著者名"], len(texts)))
    
  else:
    print("no texts")

https://www.aozora.gr.jp/index_pages/person879.html
芥川龍之介の登録開始
芥川龍之介の登録完了: 371 件
https://www.aozora.gr.jp/index_pages/person25.html
有島武郎の登録開始
有島武郎の登録完了: 43 件
https://www.aozora.gr.jp/index_pages/person50.html
泉鏡花の登録開始
泉鏡花の登録完了: 208 件
https://www.aozora.gr.jp/index_pages/person91.html
尾崎紅葉の登録開始
尾崎紅葉の登録完了: 4 件
https://www.aozora.gr.jp/index_pages/person38.html
国木田独歩の登録開始
国木田独歩の登録完了: 45 件
https://www.aozora.gr.jp/index_pages/person179.html
黒岩涙香の登録開始
黒岩涙香の登録完了: 4 件
https://www.aozora.gr.jp/index_pages/person1691.html
佐佐木信綱の登録開始
佐佐木信綱の登録完了: 1 件
nan
no texts
https://www.aozora.gr.jp/index_pages/person158.html
島崎藤村の登録開始
島崎藤村の登録完了: 47 件
https://www.aozora.gr.jp/index_pages/person266.html
no texts
nan
no texts
https://www.aozora.gr.jp/index_pages/person271.html
高山樗牛の登録開始
高山樗牛の登録完了: 5 件
https://www.aozora.gr.jp/index_pages/person141.html
坪内逍遥の登録開始
坪内逍遥の登録完了: 4 件
nan
no texts
https://www.aozora.gr.jp/index_pages/person280.html
徳冨蘆花の登録開始
徳冨蘆花の登録完了: 10 件
nan
no texts
https://www.aozora.gr.jp/index_

AttributeError: 'NoneType' object has no attribute 'findAll'

In [50]:
aozora_db.text.remove({})

  """Entry point for launching an IPython kernel.


{'n': 0, 'ok': 1.0}

In [70]:
from bson.json_util import dumps

aozora_db.text.count()

  This is separate from the ipykernel package so we can avoid doing imports until


1093

In [6]:
def get_refer_to(author_name):
  return list(aozora_db.text.find({'text': {'$regex': author_name} }))

[ (name, [ {"title": text['title'], 'author': text['author']['name'], 'path': text['path'] } for text in get_refer_to(name)]) for name in bungo["著者名"] ]

NameError: name 'aozora_db' is not defined