# Pythonを使った文字列処理

## 正規表現による処理

### ルビの処理

In [1]:
text = "私は実に先生をこの雑沓《ざっとう》の間《あいだ》に見付け出したのである。"

In [8]:
import re

RE_RUBY = re.compile(r"《.+?》")

In [9]:
rubies = RE_RUBY.findall(text)
print(rubies)

['《ざっとう》', '《あいだ》']


In [4]:
ignored_text = RE_RUBY.sub("", text)
ignored_text

'私は実に先生をこの雑沓の間に見付け出したのである。'

### 複数行のテキストデータの処理

In [5]:
result = []
with open("data/kokoro-1.txt", "r", encoding="utf-8") as f:
    for line in f:
        if not line.strip():
            continue
        data = {}
        data["org"] = line
        data["length"] = len(line)
        rubies = RE_RUBY.findall(line)  # ・・①
        data["number-of-ruby"] = len(rubies)  # ・・②
        ignored_text = RE_RUBY.sub("", line)  # ・・③
        data["ignored-text"] = ignored_text  # ・・④
        data["ignored-length"] = len(ignored_text)  # ・・⑤
        result.append(data)
result[0]

{'org': '\u3000私《わたくし》はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚《はば》かる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起すごとに、すぐ「先生」といいたくなる。筆を執《と》っても心持は同じ事である。よそよそしい頭文字《かしらもじ》などはとても使う気にならない。\n',
 'length': 173,
 'number-of-ruby': 4,
 'ignored-text': '\u3000私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。これは世間を憚かる遠慮というよりも、その方が私にとって自然だからである。私はその人の記憶を呼び起すごとに、すぐ「先生」といいたくなる。筆を執っても心持は同じ事である。よそよそしい頭文字などはとても使う気にならない。\n',
 'ignored-length': 153}

### DataFrame化

In [10]:
import pandas as pd

df = pd.DataFrame(result)

In [11]:
df

Unnamed: 0,org,length,number-of-ruby,ignored-text,ignored-length
0,私《わたくし》はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち...,173,4,私はその人を常に先生と呼んでいた。だからここでもただ先生と書くだけで本名は打ち明けない。こ...,153
1,私が先生と知り合いになったのは鎌倉《かまくら》である。その時私はまだ若々しい書生であった。...,476,10,私が先生と知り合いになったのは鎌倉である。その時私はまだ若々しい書生であった。暑中休暇を利...,432
2,学校の授業が始まるにはまだ大分《だいぶ》日数《ひかず》があるので鎌倉におってもよし、帰って...,201,6,学校の授業が始まるにはまだ大分日数があるので鎌倉におってもよし、帰ってもよいという境遇にい...,172
3,宿は鎌倉でも辺鄙《へんぴ》な方角にあった。玉突《たまつ》きだのアイスクリームだのというハイ...,157,3,宿は鎌倉でも辺鄙な方角にあった。玉突きだのアイスクリームだのというハイカラなものには長い畷...,142
4,私は毎日海へはいりに出掛けた。古い燻《くす》ぶり返った藁葺《わらぶき》の間《あいだ》を通り...,252,12,私は毎日海へはいりに出掛けた。古い燻ぶり返った藁葺の間を通り抜けて磯へ下りると、この辺にこ...,198
5,私は実に先生をこの雑沓《ざっとう》の間《あいだ》に見付け出したのである。その時海岸には掛茶...,356,17,私は実に先生をこの雑沓の間に見付け出したのである。その時海岸には掛茶屋が二軒あった。私はふ...,274
