In [3]:
import requests
from bs4 import BeautifulSoup

# 青空文庫の作品ページ
url = "https://www.aozora.gr.jp/cards/000148/files/2371_13943.html"
res = requests.get(url)
res.encoding = 'shift_jis'  # 青空文庫はShift_JISでエンコードされている

soup = BeautifulSoup(res.text, "html.parser")

# 本文の開始位置を探す
main_text = soup.find("div", class_="main_text")
text = main_text.get_text() if main_text else soup.get_text()

import re

# 改行や空白の整理
cleaned_text = re.sub(r'\n|\r|\u3000', '', text)
# ルビや注釈などの削除（青空文庫特有の記法）
cleaned_text = re.sub(r'《.*?》', '', cleaned_text)
cleaned_text = re.sub(r'［＃.*?］', '', cleaned_text)

print(cleaned_text[:500])  # 最初の500文字だけ表示

# 最初の1文（手動で抽出）
first_sentence = "近頃は文壇の趨勢についていろいろ考えさせられることが多いので、少しその考えたことを述べて見ようと思っています。"

# 手動で品詞ごとに分割したリスト（教材例に基づく）
tokenized = [
    ("近頃", "副詞"),
    ("は", "助詞"),
    ("文壇", "名詞"),
    ("の", "助詞"),
    ("趨勢", "名詞"),
    ("に", "助詞"),
    ("ついて", "動詞"),
    ("いろいろ", "形容動詞"),
    ("考えさせられる", "動詞"),
    ("こと", "名詞"),
    ("が", "助詞"),
    ("多い", "形容詞"),
    ("ので", "接続助詞"),
    ("少し", "副詞"),
    ("その", "連体詞"),
    ("考えた", "動詞"),
    ("こと", "名詞"),
    ("を", "助詞"),
    ("述べて", "動詞"),
    ("見よう", "動詞"),
    ("思って", "動詞"),
    ("います", "助動詞"),
    ("。", "記号")
]

# 教材に基づくストップワード（例）
stop_pos = ["助詞", "助動詞", "接続助詞", "副詞", "連体詞", "記号"]

# ストップワードを除去
filtered_tokens = [word for word, pos in tokenized if pos not in stop_pos]

# 結果表示
print("ストップワード除去後の語:", filtered_tokens)


近頃は大分方々の雑誌から談話をしろしろと責められて、頭ががらん胴になったから、当分品切れの看板でも懸けたいくらいに思っています。現に今日も一軒断わりました。向後日本の文壇はどう変化するかなどという大問題はなかなか分りにくい。いわんや二三日前まで『文学評論』の訂正をしていて、頭が痺れたように疲れているから、早速に分別も浮びません。それに似寄った事をせんだってごく簡略に『秀才文壇』の人に話してしまった。あいにくこの方面も種切れです。が、まあせっかくだから――いつおいでになっても、私の談話が御役に立った試がないようだから――つまらん事でも責任逃れに話しましょう。私が小説を書き出したのは、何年前からか確と覚えてもいないが、けっして古くはない。見方によればごく近頃であると云ってもよろしい。しかるに我が文壇の潮流は非常に急なもので、私よりあとから、小説家として、世にあらわれ、また一般から作家として認められたものが大分ある。今も続々出つつあるように思われる。私は多忙な身だから、ほかの人の作を一々通読する暇がない。たてこんで来ると、つい読み損って、それぎりにする事もあるが、できるだけは参考のため、研究
