In [1]:
import os, re
from janome.tokenizer import Tokenizer

In [2]:
# 形態素解析 --- (※1)
def tokenize(text):
    t = Tokenizer()
    # テキストの先頭にあるヘッダとフッタを削除
    text = re.split(r'\-{5,}',text)[2]
    text = re.split(r'底本：', text)[0]
    text = text.strip()
    # ルビを削除
    text = text.replace('｜', '')
    text = re.sub(r'《.+?》', '', text)
    # テキスト内の脚注を削除
    text = re.sub(r'［＃.+?］', '', text)
    # 一行ずつ処理
    lines = text.split("\r\n")
    results = []
    for line in lines:
        res = []
        tokens = t.tokenize(line)
        for tok in tokens:
            bf = tok.base_form # 基本系
            if bf == "*": bf = tok.surface
            ps = tok.part_of_speech # 品詞情報
            hinsi = ps.split(',')[0]
            if hinsi in ['名詞', '動詞', '形容詞', '記号']:
                res.append(bf)
        l = " ".join(res)
        results.append(l)
    return results

In [7]:
# 辞書データの作成 --- (※2)
persons = ['夏目漱石', '太宰治', '芥川龍之介']
sakuhin_count = {}
for person in persons:
    person_dir = "./text/" + person
    sakuhin_count[person] = 0 # 作品数を数えるため
    results = []
    for sakuhin in os.listdir(person_dir):
        print(person, sakuhin) # 経過を表示するため
        sakuhin_count[person] += 1
        sakuhin_file = person_dir + "/" + sakuhin
        try:
            # 青空文庫のShift_JISファイルを読み込む
            bindata = open(sakuhin_file, "rb").read()
            text = bindata.decode("shift_jis")
            lines = tokenize(text) # 形態素解析
            results += lines
        except Exception as e:
            print("[error]", sakuhin_file, e)
            continue
                # ファイルへ保存 --- (※3)
    fname = "./text/" + person + ".wakati"
    with open(fname, "w", encoding="utf-8") as f:
        f.write("\n".join(results))
    print(person) 
print("作品数:", sakuhin_count)

夏目漱石 田山花袋君に答う.txt
夏目漱石 文壇の趨勢.txt
夏目漱石 博士問題の成行.txt
夏目漱石 『吾輩は猫である』中篇自序.txt
夏目漱石 こころ.txt
夏目漱石 点頭録.txt
夏目漱石 満韓ところどころ.txt
夏目漱石 『心』予告.txt
夏目漱石 吾輩は猫である.txt
夏目漱石 自転車日記.txt
夏目漱石 初秋の一日.txt
夏目漱石 文士の生活 夏目漱石氏−収入−衣食住−娯楽−趣味−愛憎−日常生活−執筆の前後.txt
夏目漱石 コンラッドの描きたる自然について.txt
夏目漱石 文芸と道徳.txt
夏目漱石 硝子戸の中.txt
夏目漱石 『吾輩は猫である』下篇自序.txt
夏目漱石 幻影の盾.txt
夏目漱石 道草.txt
夏目漱石 変な音.txt
夏目漱石 正岡子規.txt
夏目漱石 高浜虚子著『鶏頭』序.txt
夏目漱石 戦争からきた行き違い.txt
夏目漱石 文芸とヒロイツク.txt
夏目漱石 教育と文芸.txt
夏目漱石 木下杢太郎『唐草表紙』序.txt
夏目漱石 学者と名誉.txt
夏目漱石 中味と形式.txt
夏目漱石 予の描かんと欲する作品.txt
夏目漱石 文芸は男子一生の事業とするに足らざる乎.txt
夏目漱石 思い出す事など.txt
夏目漱石 処女作追懐談.txt
夏目漱石 それから.txt
夏目漱石 倫敦消息.txt
夏目漱石 三四郎.txt
夏目漱石 模倣と独立.txt
夏目漱石 「額の男」を読む.txt
夏目漱石 一夜.txt
夏目漱石 坊っちゃん.txt
夏目漱石 カーライル博物館.txt
夏目漱石 文鳥.txt
夏目漱石 薤露行.txt
夏目漱石 『それから』予告.txt
夏目漱石 坑夫.txt
夏目漱石 手紙.txt
夏目漱石 野分.txt
夏目漱石 「自然を写す文章」.txt
夏目漱石 子規の画.txt
夏目漱石 行人.txt
夏目漱石 明治座の所感を虚子君に問れて.txt
夏目漱石 西洋にはない.txt
夏目漱石 倫敦塔.txt
夏目漱石 文芸の哲学的基礎.txt
夏目漱石 猫の広告文.txt
夏目漱石 彼岸過迄.txt
夏目漱石 僕の昔.txt
夏目漱石 『伝説の時代』序.txt
夏目漱石 余と万年筆.txt
夏目漱石 鈴木三重吉宛書簡—明治三十九年.txt
夏目漱石 『煤煙』の序.txt
夏目漱

芥川龍之介 文芸的な、余りに文芸的な.txt
芥川龍之介 六の宮の姫君.txt
芥川龍之介 漱石山房の冬.txt
芥川龍之介 饒舌.txt
芥川龍之介 近頃の幽霊.txt
芥川龍之介 永久に不愉快な二重生活.txt
芥川龍之介 佐藤春夫氏.txt
芥川龍之介 わが家の古玩.txt
[error] ./text/芥川龍之介/わが家の古玩.txt 'shift_jis' codec can't decode byte 0xfa in position 520: illegal multibyte sequence
芥川龍之介 煙草と悪魔.txt
芥川龍之介 少年.txt
芥川龍之介 第四の夫から.txt
芥川龍之介 魔術.txt
芥川龍之介 拊掌談.txt
芥川龍之介 将軍.txt
芥川龍之介 耳目記.txt
芥川龍之介 「ケルトの薄明」より.txt
芥川龍之介 新緑の庭.txt
芥川龍之介 蜘蛛の糸.txt
芥川龍之介 槐.txt
芥川龍之介 身のまはり.txt
芥川龍之介 内田百間氏.txt
芥川龍之介 日本の女.txt
芥川龍之介 尼提.txt
芥川龍之介 教訓談.txt
芥川龍之介 木曽義仲論.txt
芥川龍之介 偽者二題.txt
芥川龍之介 あばばばば.txt
芥川龍之介 風変りな作品に就いて.txt
芥川龍之介 大正十二年九月一日の大震に際して.txt
芥川龍之介 芭蕉雑記.txt
芥川龍之介 るしへる.txt
芥川龍之介 鬼ごつこ.txt
芥川龍之介 軍艦金剛航海記.txt
芥川龍之介 首が落ちた話.txt
芥川龍之介 奉教人の死.txt
芥川龍之介 毛利先生.txt
芥川龍之介 変遷その他.txt
芥川龍之介 犬と笛.txt
芥川龍之介 窓.txt
芥川龍之介 おしの.txt
芥川龍之介 東西問答.txt
芥川龍之介 近藤浩一路氏.txt
[error] ./text/芥川龍之介/近藤浩一路氏.txt list index out of range
芥川龍之介 動物園.txt
芥川龍之介 尾形了斎覚え書.txt
芥川龍之介 女体.txt
芥川龍之介 微笑.txt
芥川龍之介 京都日記.txt
芥川龍之介 さまよえる猶太人.txt
芥川龍之介 病牀雑記.txt
芥川龍之介 貉.txt
芥川龍之介 山鴫.txt
芥川龍之介 葱.txt
芥川龍之介 続西方の人