In [1]:
import requests
from bs4 import BeautifulSoup
import csv
import os
import re

In [2]:
def convert_wareki_to_iso(date_str):
    """
    例: "令和7年7月23日" → "2025-07-23"
    """
    match = re.match(r"令和(\d+)年(\d+)月(\d+)日", date_str)
    if match:
        year = int(match.group(1)) + 2018  # 令和1年 = 2019年
        month = int(match.group(2))
        day = int(match.group(3))
        return f"{year:04d}-{month:02d}-{day:02d}"
    return None 

In [3]:
url = "https://www.kantei.go.jp/jp/news/index.html"
source = "首相官邸"

response = requests.get(url)
response.encoding = "utf-8"

# BeautifulSoupでHTMLを解析
soup = BeautifulSoup(response.text, "html.parser")

datas = []
for li in soup.select("ul.news-list li"):
    a_tag = li.find("a")
    date_tag = li.find("div") 

    if a_tag:
        title = a_tag.text.strip()
        href = a_tag["href"]
        url_full = "https://www.kantei.go.jp" + href
        date = date_tag.get_text(strip=True) if date_tag else "不明"
        date = date.replace("更新日：", "")
        date = convert_wareki_to_iso(date) or "0000-00-00"  

        datas.append({
            "title": title,
            "url": url_full,
            "date": date,
            "source": source
        })

for data in datas:
    print(data)


{'title': 'カムチャツカ半島付近を震源とする地震による津波について（２）', 'url': 'https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a2.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': '石破総理はカムチャツカ半島付近を震源とする地震による津波についての会見を行いました', 'url': 'https://www.kantei.go.jp/jp/103/statement/2025/0730bura.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': 'カムチャツカ半島付近を震源とする地震による津波について', 'url': 'https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a1.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': '石破総理はカムチャツカ半島付近を震源とする地震による津波に関する指示を行いました', 'url': 'https://www.kantei.go.jp/jp/103/discourse/20250730shiji.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': '石破総理は月例経済報告等に関する関係閣僚会議に出席しました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/29getsurei.html', 'date': '2025-07-29', 'source': '首相官邸'}
{'title': '閣議の概要について', 'url': 'https://www.kantei.go.jp/jp/tyoukanpress/202507/29_a.html', 'date': '2025-07-29', 'source': '首相官邸'}
{'title': '林内閣官房長官は物価問題に関する関係閣僚会議を開催しました', 'url': 'https://www.kantei.go.jp/jp/

In [4]:
from supabase import create_client
SUPABASE_URL = "https://jwrygoxgxaaffddrcgsl.supabase.co"   # プロジェクトごとに異なる
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Imp3cnlnb3hneGFhZmZkZHJjZ3NsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTI2NDIzMTcsImV4cCI6MjA2ODIxODMxN30.TiKsD-kieM55ssPC-Qi1VmH1nd4pnq8zXwI7sH-oSZ8"

# 接続
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# 保存
for data in datas:
    existing_url = supabase.table("articles").select("*").eq("url", data["url"]).execute()
    existing_title = supabase.table("articles").select("*").eq("title", data["title"]).execute()

    if len(existing_url.data) == 0 and len(existing_title.data) == 0:
        supabase.table("articles").insert(data).execute()
        print(f"保存しました: {data['date']} {data['title']} ({data['url']})")
    elif len(existing_url.data) != 0:
        print(f"urlに重複が存在します: {data["date"]} {data['title']} ({data['url']})")
    elif len(existing_title.data) != 0:
        print(f"タイトルに重複が存在します: {data["date"]} {data['title']} ({data['url']})")


保存しました: 2025-07-30 カムチャツカ半島付近を震源とする地震による津波について（２） (https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a2.html)
保存しました: 2025-07-30 石破総理はカムチャツカ半島付近を震源とする地震による津波についての会見を行いました (https://www.kantei.go.jp/jp/103/statement/2025/0730bura.html)
urlに重複が存在します: 2025-07-30 カムチャツカ半島付近を震源とする地震による津波について (https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a1.html)
urlに重複が存在します: 2025-07-30 石破総理はカムチャツカ半島付近を震源とする地震による津波に関する指示を行いました (https://www.kantei.go.jp/jp/103/discourse/20250730shiji.html)
urlに重複が存在します: 2025-07-29 石破総理は月例経済報告等に関する関係閣僚会議に出席しました (https://www.kantei.go.jp/jp/103/actions/202507/29getsurei.html)
urlに重複が存在します: 2025-07-29 閣議の概要について (https://www.kantei.go.jp/jp/tyoukanpress/202507/29_a.html)
urlに重複が存在します: 2025-07-29 林内閣官房長官は物価問題に関する関係閣僚会議を開催しました (https://www.kantei.go.jp/jp/pages/20250729choukan_kaigi.html)
urlに重複が存在します: 2025-07-28 石破総理は令和７年度第９回経済財政諮問会議を開催しました (https://www.kantei.go.jp/jp/103/actions/202507/28keizai.html)
urlに重複が存在します: 2025-07-25 石破総理は日本経済団体連合会夏季フォーラム２０２５に出席し講演を行いました (https://

In [None]:
from google import genai
from google.genai import types

# geminiを使用して記事を生成する関数
def create_article(text, source):
    client = genai.Client()

    prompt=f"""
    あなたはニュース記者です。入力された文書に基づいて、ニュース記事を作成してください。
    文書は{source}からのものです。出典情報は別で書くので、出力には含めないでください。

    トーンとスタイル:
    1. 中立的かつ簡潔に記述してください。
    2. 一般読者にもわかりやすいように、必要に応じて用語や背景を簡潔に説明してください。
    3. 出力は日本語でお願いします。
    4. 出力は700文字以内に収めてください。

    内容に関する制約:
    1. **事実に基づいた記述** 入力文書に基づいた「事実」や「根拠のある予測」は書いても良いです。
    【許可される表現の例】
    「金利が上昇した時、円高に振れる可能性があります」「今後の経済に影響を与えるとみられます」
    2. **推測や想像の禁止** 文書に記載のない推測や想像は含めないでください。他の文書で公開されている可能性を考慮してください。また、あなたが最新の知識を持っていないことを考慮してください。
    【禁止される表現の例】
    「まだ明らかになっていませんが」「将来的にすごいことになるでしょう」「この件についてはまだ詳細がわかりません」「今後話し合われます」「発表されていません」「今後の発表に期待しましょう」


    入力文書: {text}

    出力形式: 本文のみ出力してください。文書内容、背景、影響などを分かりやすく解説してください。

    """

    response = client.models.generate_content(
        model = "gemini-2.5-flash",
        contents = prompt,
        
    )

    return response.text

In [None]:
#記事生成
from supabase import create_client
import re
import requests
from bs4 import BeautifulSoup
import time

SUPABASE_URL = "https://jwrygoxgxaaffddrcgsl.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Imp3cnlnb3hneGFhZmZkZHJjZ3NsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTI2NDIzMTcsImV4cCI6MjA2ODIxODMxN30.TiKsD-kieM55ssPC-Qi1VmH1nd4pnq8zXwI7sH-oSZ8"

supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

datas = supabase.table("articles").select("*").is_("article", None).execute()

# HTMLからテキストを抽出する関数
def extract_text_from_html(soup, tag="section"):
    container = soup.find(tag)
    if not container:
        return None

    # すべての<p>タグを対象とし、動画説明などを除外
    p_tag = container.find_all("p")
    filtered_p = []
    for p in p_tag:
        if not p.get("class") or not any(cls for cls in p.get("class") if "note" in cls or "attention" in cls):
            filtered_p.append(p.get_text(strip=True))

    return "\n".join(filtered_p) if filtered_p else None


for data in datas.data:
    url=data["url"]
    source=data["source"]
    response = requests.get(url)
    response.encoding = "utf-8"
    soup = BeautifulSoup(response.text, "html.parser")

    original_text = extract_text_from_html(soup, "section")
    if not original_text: # sectionタグ内に文章が見つからない場合はarticleタグを対象にする
        original_text = extract_text_from_html(soup, "article")

    if original_text:
        article = create_article(original_text,source)
        supabase.table("articles").update({"article": article}).eq("url", url).execute()
        print(f"✅ 元の文章:\n{original_text}\n")
        print(f"🔽 生成記事:\n{article}")
        print("################################################################")
        time.sleep(10) # APIのレート制限を避けるために10秒待機
        
    else:
        print(f"記事が見つかりません: {data['url']}")


✅ 元の文章:
カムチャツカ半島付近を震源とする地震による津波について（２）
まず、私（官房長官）からでございますが、先ほども申し上げましたとおり、本日８時２５分頃、カムチャツカ半島付近を震源とするマグニチュード８．７の地震が発生をいたしました。この地震に伴い、北海道から和歌山県の太平洋側沿岸に、津波警報が発表され、高いところで３メートル程度の津波が予想をされており、北海道根室市等において、１０時３０分に３０センチの津波が観測をされたなどの報告を受けております。警報が発表されている地域の皆様は、直ちに高台や避難ビルなどの安全な場所に避難をしてください。現時点で、人的・物的被害があったとの報告は受けておりません。政府としては、官邸危機管理センターに設置した官邸連絡室において、引き続き、被害状況の把握に当たっております。総理からは、国民に対し、津波や避難等に関する情報提供を適時的確に行うとともに、住民避難等の被害防止の措置を徹底すること、早急に被害状況を把握すること、地方自治体とも緊密に連携し、人命第一の方針の下、政府一体となって、被害防止に全力で取り組むこととの指示があったところでございます。現在、警察、消防、自衛隊、海上保安庁、国土交通省のヘリを活用し、被災地域の被害状況を確認をしております。迅速に被害の全容を把握するとともに、被害が確認された場合には、速やかに、災害応急対策に取り組んでまいります。繰り返しになりますが、北海道から和歌山県の太平洋側沿岸に、津波警報が発表されております。警報が発表されている地域の皆様は、直ちに高台や避難ビルなどの安全な場所に避難をしてください。津波が到達しても、第二波、第三波が、より大きくなって到達することもありますので、津波に関する情報に十分注意し、警報が解除されるまで、安全な場所から離れないようにしてください。私からは以上です。

🔽 本日午前8時25分頃、カムチャツカ半島付近を震源とするマグニチュード8.7の地震が発生しました。これに伴い、北海道から和歌山県にかけての太平洋側沿岸に津波警報が発表され、高いところで3メートル程度の津波が予想されています。

津波はすでに到達しており、北海道根室市では午前10時30分に30センチの津波が観測されました。現時点では、この地震と津波による人的・物的被害の報告は受けていないと政府は発表して

In [7]:
url = "https://www.kantei.go.jp/jp/tyoukanpress/202507/29_a.html"
response = requests.get(url)
response.encoding = "utf-8"
soup = BeautifulSoup(response.text, "html.parser")
original_text = extract_text_from_html(soup, "section")    
if not original_text: # sectionタグ内に文章が見つからない場合はarticleタグを対象にする
        original_text = extract_text_from_html(soup, "article")

print(original_text)

閣議の概要について
閣議の概要について申し上げます。一般案件等２件、政令、人事が決定をされました。大臣発言として、赤澤大臣から「『令和７年度年次経済財政報告』について」、国家公安委員会委員長から「令和７年警察白書について」、厚生労働大臣から「『令和７年版厚生労働白書』について」、総務大臣から「令和７年度普通交付税大綱について」、それぞれ御発言がありました。閣僚懇談会におきましては、赤澤大臣から「米国政府との協議等の報告について」、御発言がありました。私（官房長官）からは以上です。
