In [4]:
from bs4 import BeautifulSoup
from urllib import request
import re

In [5]:
url = "https://www.aozora.gr.jp/cards/000148/files/2371_13943.html"

response = request.urlopen(url)
soup = BeautifulSoup(response, "html.parser")
response.close()

print("HTML取得完了")

HTML取得完了


In [6]:
main_div = soup.find("div", class_="main_text")

if main_div is None:
    raise ValueError("本文領域が見つかりません")

print("本文領域取得完了")

本文領域取得完了


In [7]:
# ルビ削除
for tag in main_div.find_all(["rt", "rp"]):
    tag.decompose()

# テキストだけ取得
main_text = main_div.get_text()

# 改行・全角空白削除
main_text = re.sub(r"[\u3000\r\n]+", "", main_text)

print("前処理完了（先頭200文字）")
print(main_text[:200])

前処理完了（先頭200文字）
近頃は大分方々の雑誌から談話をしろしろと責められて、頭ががらん胴になったから、当分品切れの看板でも懸けたいくらいに思っています。現に今日も一軒断わりました。向後日本の文壇はどう変化するかなどという大問題はなかなか分りにくい。いわんや二三日前まで『文学評論』の訂正をしていて、頭が痺れたように疲れているから、早速に分別も浮びません。それに似寄った事をせんだってごく簡略に『秀才文壇』の人に話してしまった


In [8]:
first_sentence = main_text.split("。")[0] + "。"

print("【最初の1文】")
print(first_sentence)

【最初の1文】
近頃は大分方々の雑誌から談話をしろしろと責められて、頭ががらん胴になったから、当分品切れの看板でも懸けたいくらいに思っています。


In [9]:
stopwords_text = """
は
の
です
ます
私
俺
を
に
が
と
で
も
"""

stopwords_list = [w for w in stopwords_text.split("\n") if w]

print("【ストップワード一覧】")
print(stopwords_list)

【ストップワード一覧】
['は', 'の', 'です', 'ます', '私', '俺', 'を', 'に', 'が', 'と', 'で', 'も']


In [10]:
print("【対象の最初の1文】")
print(first_sentence)

# ★手動分割（実体のある単語を書く）
split_text_list = [
    "近頃", "は", "大分", "方々", "の", "雑誌", "から",
    "談話", "を", "しろ", "しろ", "と", "責め", "られて", "、",
    "思って", "います", "。"
]

print("\n【手動分割】")
print(split_text_list)

# ストップワード除去
result_text_list = []
for w in split_text_list:
    if w not in stopwords_list:
        result_text_list.append(w)

print("\n【除去前】")
print(split_text_list)

print("\n【除去後】")
print(result_text_list)

【対象の最初の1文】
近頃は大分方々の雑誌から談話をしろしろと責められて、頭ががらん胴になったから、当分品切れの看板でも懸けたいくらいに思っています。

【手動分割】
['近頃', 'は', '大分', '方々', 'の', '雑誌', 'から', '談話', 'を', 'しろ', 'しろ', 'と', '責め', 'られて', '、', '思って', 'います', '。']

【除去前】
['近頃', 'は', '大分', '方々', 'の', '雑誌', 'から', '談話', 'を', 'しろ', 'しろ', 'と', '責め', 'られて', '、', '思って', 'います', '。']

【除去後】
['近頃', '大分', '方々', '雑誌', 'から', '談話', 'しろ', 'しろ', '責め', 'られて', '、', '思って', 'います', '。']
