In [9]:
from bs4 import BeautifulSoup
from urllib import request
import re

In [10]:
url = "https://www.aozora.gr.jp/cards/000148/files/2371_13943.html"

response = request.urlopen(url)
soup = BeautifulSoup(response, "html.parser")
response.close()

print("HTML取得OK")

HTML取得OK


In [11]:
main_div = soup.find("div", class_="main_text")

if main_div is None:
    raise ValueError("div class='main_text' が見つかりません。HTML構造を確認してください。")

print("本文領域取得OK")


本文領域取得OK


In [12]:
# ルビ関連タグ削除
for tag in main_div.find_all(["rt", "rp"]):
    tag.decompose()

# 文字だけ抽出（HTMLタグ除去）
main_text = main_div.get_text()

# 改行・全角空白など除去（最低限）
main_text = re.sub(r"[\u3000\r\n]+", "", main_text)

print("前処理OK（先頭300文字）")
print(main_text[:300])
print("\n本文の長さ:", len(main_text))


前処理OK（先頭300文字）
近頃は大分方々の雑誌から談話をしろしろと責められて、頭ががらん胴になったから、当分品切れの看板でも懸けたいくらいに思っています。現に今日も一軒断わりました。向後日本の文壇はどう変化するかなどという大問題はなかなか分りにくい。いわんや二三日前まで『文学評論』の訂正をしていて、頭が痺れたように疲れているから、早速に分別も浮びません。それに似寄った事をせんだってごく簡略に『秀才文壇』の人に話してしまった。あいにくこの方面も種切れです。が、まあせっかくだから――いつおいでになっても、私の談話が御役に立った試がないようだから――つまらん事でも責任逃れに話しましょう。私が小説を書き出したのは、何年前からか

本文の長さ: 3057


In [14]:
stopwords_text = """
は
の
です
ます
私
俺
を
に
が
と
で
も
"""
stopwords_list = [w for w in stopwords_text.split("\n") if w]

print("【ストップワード一覧】")
print(stopwords_list)


【ストップワード一覧】
['は', 'の', 'です', 'ます', '私', '俺', 'を', 'に', 'が', 'と', 'で', 'も']


In [15]:
# ↓ ここは first_sentence を見ながら、あなたが手で区切って作る
split_text_list = [
    "近頃", "は", "（ここを実際の単語に）", "。"
]

print("\n【手動分割】")
print(split_text_list)



【手動分割】
['近頃', 'は', '（ここを実際の単語に）', '。']


In [16]:
result_text_list = []
for w in split_text_list:
    if w not in stopwords_list:
        result_text_list.append(w)

print("\n【除去前】")
print(split_text_list)

print("\n【除去後】")
print(result_text_list)



【除去前】
['近頃', 'は', '（ここを実際の単語に）', '。']

【除去後】
['近頃', '（ここを実際の単語に）', '。']
