# Blogger Word Cloud Generator 📝☁️

分析したいブログのURLと期間（開始日・終了日）を入力して、下の▶ボタンを押してください。

**注:** 除外したい単語は、GitHubリポジトリにある `stopwords.txt` ファイルを直接編集してください。

In [None]:
#@title ◆ 設定と実行 ◆
#@markdown --- 
#@markdown ### 1. 分析したいブログの情報を入力
#@markdown **分析したいブログのURLを入力してください**
blog_url = "" #@param {type:"string"}
#@markdown 
#@markdown --- 
#@markdown ### 2. 分析する期間を指定
#@markdown **入力がない場合は、過去30日間の記事を分析します**
start_date_str = "" #@param {type:"date"}
end_date_str = "" #@param {type:"date"}

#@markdown --- 
#@markdown **設定が終わったら、このセルを実行してください（左の▶ボタンをクリック）**
import os
from datetime import datetime, timedelta, timezone

if not blog_url:
    raise ValueError("ブログのURLが入力されていません。入力してから再度実行してください。")

# --- 日付のデフォルト値を設定 ---
jst = timezone(timedelta(hours=9))
today = datetime.now(jst)

if end_date_str:
    # 入力された日付の終わり（23:59:59）に設定
    end_date_obj = datetime.strptime(end_date_str, '%Y-%m-%d').replace(hour=23, minute=59, second=59, tzinfo=jst)
else:
    # デフォルトは今日
    end_date_obj = today

if start_date_str:
    # 入力された日付の始まり（00:00:00）に設定
    start_date_obj = datetime.strptime(start_date_str, '%Y-%m-%d').replace(tzinfo=jst)
else:
    # デフォルトは終了日から30日前
    start_date_obj = end_date_obj - timedelta(days=30)

# --- 環境準備 ---
github_repo_url = "https://github.com/amufaamo/blog-to-tagcloud"

print("環境の準備中です...")
print("1. 必要なライブラリをインストールしています。")
!pip install requests beautifulsoup4 janome wordcloud matplotlib > /dev/null 2>&1

print("2. 日本語フォントをダウンロードしています。")
font_path = '/content/NotoSansCJKjp-Regular.otf'
if not os.path.exists(font_path) or os.path.getsize(font_path) < 1024*1024: 
    !wget -q -O {font_path} https://github.com/googlefonts/noto-cjk/raw/main/Sans/OTF/Japanese/NotoSansCJKjp-Regular.otf

print("3. GitHubから除外ワードリスト(stopwords.txt)を取得しています。")
stopwords_url = github_repo_url.replace('github.com', 'raw.githubusercontent.com') + '/main/stopwords.txt'
!wget -q -O /content/stopwords.txt {stopwords_url}

print("準備が完了しました！\n")

# --- 以下、分析用のコード ---
import requests
from bs4 import BeautifulSoup
from janome.tokenizer import Tokenizer
from collections import Counter
import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt

def load_stopwords(filepath='/content/stopwords.txt'):
    if not os.path.exists(filepath):
        return set()
    with open(filepath, 'r', encoding='utf-8') as f:
        stopwords = {line.strip() for line in f if line.strip()}
    print(f"{len(stopwords)}個の除外ワードを読み込みました。")
    return stopwords

def analyze_blog(base_url, start_date, end_date, stopwords):
    all_text = ""
    current_url = base_url
    page_num = 1
    print(f"ブログの分析を開始します。")
    print(f"対象期間: {start_date.strftime('%Y-%m-%d')} ~ {end_date.strftime('%Y-%m-%d')}")
    
    while current_url:
        print(f"ページ {page_num} を取得中...")
        try:
            response = requests.get(current_url)
            response.encoding = 'utf-8'
            soup = BeautifulSoup(response.text, 'html.parser')
        except:
            print("エラー: ページにアクセスできませんでした。")
            break
        posts = soup.find_all('article', class_='post-outer-container')
        if not posts and page_num == 1: return None
        
        page_contains_valid_posts = False
        stop_crawling = False
        for post in posts:
            time_tag = post.find('time', class_='published')
            body_tag = post.find('div', class_='post-body')
            if not time_tag or not body_tag: continue
            
            post_date = datetime.fromisoformat(time_tag['datetime'])
            # 記事の日付が期間内かチェック
            if start_date <= post_date <= end_date:
                page_contains_valid_posts = True
                all_text += body_tag.get_text() + "\n"
            # 記事が開始日より古ければ、これ以上さかのぼるのをやめる
            elif post_date < start_date:
                stop_crawling = True
                break
        
        if stop_crawling:
            print("対象期間外の記事に到達したため、クロールを終了します。")
            break

        older_posts_link = soup.find('a', class_='blog-pager-older-link')
        if older_posts_link and older_posts_link.has_attr('href'):
            current_url = older_posts_link['href']
            page_num += 1
        else:
            current_url = None
            
    if not all_text: return None
    print("\nテキストの解析中...")
    t = Tokenizer()
    words = [token.surface for token in t.tokenize(all_text) 
             if token.surface not in stopwords and 
             token.part_of_speech.startswith(('名詞', '動詞', '形容詞')) and 
             len(token.surface) > 1 and not re.match(r'^[0-9a-zA-Z]+$', token.surface)]
    return Counter(words)

custom_stopwords = load_stopwords()
word_counter = analyze_blog(blog_url, start_date_obj, end_date_obj, custom_stopwords)

if word_counter:
    print("\n--- ✅単語の頻度ランキング TOP 50 ---")
    for word, count in word_counter.most_common(50):
        print(f"{word}: {count}回")
    
    print("\nワードクラウド画像を生成中...")
    if os.path.exists(font_path) and os.path.getsize(font_path) > 1000000:
      try:
        wordcloud = WordCloud(
            width=1200, height=600, background_color='white',
            font_path=font_path, max_words=150, colormap='viridis'
        ).generate_from_frequencies(word_counter)
        
        plt.figure(figsize=(15, 8))
        plt.imshow(wordcloud, interpolation='bilinear')
        plt.axis("off")
        plt.show()
      except OSError as e:
        print(f"\nエラー: ワードクラウドの生成中にエラーが発生しました。")
    else:
        print(f"エラー：フォントファイルが正しくダウンロードできませんでした。「ランタイムの再起動」を試してください。")
else:
    print("エラー: 分析対象の記事が見つかりませんでした。URLや期間を確認してください。")