In [1]:
import re

RE_RUBY = re.compile(r"《.+?》")
text = "私は実に先生をこの雑沓《ざっとう》の間《あいだ》に見付け出したのである。"
rubies = RE_RUBY.findall(text)
print(rubies)

['《ざっとう》', '《あいだ》']


In [2]:
ignored_text = RE_RUBY.sub("", text)
ignored_text

'私は実に先生をこの雑沓の間に見付け出したのである。'

In [9]:
import json


def truncate_str(s, max_len):
    return s if len(s) <= max_len else s[: max_len - 3] + "..."


result = []
with open("../data/kokoro_1.txt", mode="r", encoding="utf-8") as f:
    for line in f:
        line = line.strip()
        if not line:
            continue
        rubies = RE_RUBY.findall(line)
        ignored_text = RE_RUBY.sub("", line)
        result.append(
            {
                "origin": truncate_str(line, 40),
                "length": len(line),
                "rubies": rubies,
                "ruby-count": len(rubies),
                "ignored-text": truncate_str(ignored_text, 40),
                "ignored-length": len(ignored_text),
            }
        )

print(json.dumps(result[0], indent=2, ensure_ascii=False))
print(json.dumps(result[1], indent=2, ensure_ascii=False))

{
  "origin": "私《わたくし》はその人を常に先生と呼んでいた。だからここでもただ先生と書く...",
  "length": 171,
  "rubies": [
    "《わたくし》",
    "《はば》",
    "《と》",
    "《かしらもじ》"
  ],
  "ruby-count": 4,
  "ignored-text": "私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は...",
  "ignored-length": 151
}
{
  "origin": "私が先生と知り合いになったのは鎌倉《かまくら》である。その時私はまだ若々し...",
  "length": 474,
  "rubies": [
    "《かまくら》",
    "《はがき》",
    "《くめん》",
    "《に》",
    "《さんち》",
    "《た》",
    "《すす》",
    "《し》",
    "《かんじん》",
    "《もと》"
  ],
  "ruby-count": 10,
  "ignored-text": "私が先生と知り合いになったのは鎌倉である。その時私はまだ若々しい書生であっ...",
  "ignored-length": 430
}


In [11]:
# DataFrame化
import pandas as pd

df = pd.DataFrame(result)
df

Unnamed: 0,origin,length,rubies,ruby-count,ignored-text,ignored-length
0,私《わたくし》はその人を常に先生と呼んでいた。だからここでもただ先生と書く...,171,"[《わたくし》, 《はば》, 《と》, 《かしらもじ》]",4,私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は...,151
1,私が先生と知り合いになったのは鎌倉《かまくら》である。その時私はまだ若々し...,474,"[《かまくら》, 《はがき》, 《くめん》, 《に》, 《さんち》, 《た》, 《すす》, ...",10,私が先生と知り合いになったのは鎌倉である。その時私はまだ若々しい書生であっ...,430
2,学校の授業が始まるにはまだ大分《だいぶ》日数《ひかず》があるので鎌倉におっ...,199,"[《だいぶ》, 《ひかず》, 《と》, 《むすこ》, 《ひとり》, 《かっこう》]",6,学校の授業が始まるにはまだ大分日数があるので鎌倉におってもよし、帰ってもよ...,170
3,宿は鎌倉でも辺鄙《へんぴ》な方角にあった。玉突《たまつ》きだのアイスクリー...,155,"[《へんぴ》, 《たまつ》, 《なわて》]",3,宿は鎌倉でも辺鄙な方角にあった。玉突きだのアイスクリームだのというハイカラ...,140
4,私は毎日海へはいりに出掛けた。古い燻《くす》ぶり返った藁葺《わらぶき》の間...,250,"[《くす》, 《わらぶき》, 《あいだ》, 《いそ》, 《へん》, 《せんとう》, 《にぎ》...",12,私は毎日海へはいりに出掛けた。古い燻ぶり返った藁葺の間を通り抜けて磯へ下り...,196
5,私は実に先生をこの雑沓《ざっとう》の間《あいだ》に見付け出したのである。そ...,354,"[《ざっとう》, 《あいだ》, 《かけぢゃや》, 《はずみ》, 《な》, 《はせへん》, 《...",17,私は実に先生をこの雑沓の間に見付け出したのである。その時海岸には掛茶屋が二...,272
