# 首相官邸から文書取得

In [1]:
import requests
from bs4 import BeautifulSoup
import csv
import os
import re

In [2]:
def convert_wareki_to_iso(date_str):
    """
    例: "令和7年7月23日" → "2025-07-23"
    """
    match = re.match(r"令和(\d+)年(\d+)月(\d+)日", date_str)
    if match:
        year = int(match.group(1)) + 2018  # 令和1年 = 2019年
        month = int(match.group(2))
        day = int(match.group(3))
        return f"{year:04d}-{month:02d}-{day:02d}"
    return None 

In [3]:
url = "https://www.kantei.go.jp/jp/news/index.html"
source = "首相官邸"

response = requests.get(url)
response.encoding = "utf-8"

# BeautifulSoupでHTMLを解析
soup = BeautifulSoup(response.text, "html.parser")

datas = []
for li in soup.select("ul.news-list li"):
    a_tag = li.find("a")
    date_tag = li.find("div") 

    if a_tag:
        title = a_tag.text.strip()
        href = a_tag["href"]
        url_full = "https://www.kantei.go.jp" + href
        date = date_tag.get_text(strip=True) if date_tag else "不明"
        date = date.replace("更新日：", "")
        date = convert_wareki_to_iso(date) or "0000-00-00"  

        datas.append({
            "title": title,
            "url": url_full,
            "date": date,
            "source": source
        })

for data in datas:
    print(data)


{'title': '石破総理は日米交渉の合意に関する自動車業界との意見交換を行いました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/31ikenkoukan.html', 'date': '2025-07-31', 'source': '首相官邸'}
{'title': '石破総理はカムチャツカ半島付近を震源とする地震による津波についての会見を行いました', 'url': 'https://www.kantei.go.jp/jp/103/statement/2025/0730kaiken2.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': 'カムチャツカ半島付近を震源とする地震による津波について（３）', 'url': 'https://www.kantei.go.jp/jp/tyoukanpress/202507/30_p.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': '石破総理は沖縄豆記者団による表敬を受けました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/30mamekisya.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': 'カムチャツカ半島付近を震源とする地震による津波について（２）', 'url': 'https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a2.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': '石破総理はカムチャツカ半島付近を震源とする地震による津波についての会見を行いました', 'url': 'https://www.kantei.go.jp/jp/103/statement/2025/0730bura.html', 'date': '2025-07-30', 'source': '首相官邸'}
{'title': 'カムチャツカ半島付近を震源とする地震による津波について', 'url': 

In [4]:
from supabase import create_client
SUPABASE_URL = "https://jwrygoxgxaaffddrcgsl.supabase.co"   # プロジェクトごとに異なる
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Imp3cnlnb3hneGFhZmZkZHJjZ3NsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTI2NDIzMTcsImV4cCI6MjA2ODIxODMxN30.TiKsD-kieM55ssPC-Qi1VmH1nd4pnq8zXwI7sH-oSZ8"

# 接続
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# 保存
for data in datas:
    existing_url = supabase.table("articles").select("*").eq("url", data["url"]).execute()

    if len(existing_url.data) == 0:
        supabase.table("articles").insert(data).execute()
        print(f"保存しました: {data['date']} {data['title']} ({data['url']})")
    elif len(existing_url.data) != 0:
        print(f"urlに重複が存在します: {data["date"]} {data['title']} ({data['url']})")


保存しました: 2025-07-31 石破総理は日米交渉の合意に関する自動車業界との意見交換を行いました (https://www.kantei.go.jp/jp/103/actions/202507/31ikenkoukan.html)
urlに重複が存在します: 2025-07-30 石破総理はカムチャツカ半島付近を震源とする地震による津波についての会見を行いました (https://www.kantei.go.jp/jp/103/statement/2025/0730kaiken2.html)
urlに重複が存在します: 2025-07-30 カムチャツカ半島付近を震源とする地震による津波について（３） (https://www.kantei.go.jp/jp/tyoukanpress/202507/30_p.html)
urlに重複が存在します: 2025-07-30 石破総理は沖縄豆記者団による表敬を受けました (https://www.kantei.go.jp/jp/103/actions/202507/30mamekisya.html)
urlに重複が存在します: 2025-07-30 カムチャツカ半島付近を震源とする地震による津波について（２） (https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a2.html)
urlに重複が存在します: 2025-07-30 石破総理はカムチャツカ半島付近を震源とする地震による津波についての会見を行いました (https://www.kantei.go.jp/jp/103/statement/2025/0730bura.html)
urlに重複が存在します: 2025-07-30 カムチャツカ半島付近を震源とする地震による津波について (https://www.kantei.go.jp/jp/tyoukanpress/202507/30_a1.html)
urlに重複が存在します: 2025-07-30 石破総理はカムチャツカ半島付近を震源とする地震による津波に関する指示を行いました (https://www.kantei.go.jp/jp/103/discourse/20250730shiji.html)
urlに重複が存在します: 2025-07-29 石破

# AI記事生成

In [None]:
from google import genai
from google.genai import types

# geminiを使用して記事を生成する関数
def create_article(text, source):
    client = genai.Client()

    prompt=f"""
    あなたはニュース記者です。入力された文書に基づいて、ニュース記事を作成してください。
    文書は{source}からのものです。

    トーンとスタイル:
    1. 中立的かつ簡潔に記述してください。
    2. 一般読者にもわかりやすいように、必要に応じて用語や背景を簡潔に説明してください。
    3. 出力は日本語でお願いします。
    4. 出力は700文字以内に収めてください。

    内容に関する制約:
    1. **事実に基づいた記述** 入力文書に基づいた「事実」や「根拠のある予測」は書いても良いです。
    【許可される表現の例】
    「金利が上昇した時、円高に振れる可能性があります」「今後の経済に影響を与えるとみられます」
    2. **推測や想像の禁止** 文書に記載のない推測や想像は含めないでください。他の文書で公開されている可能性を考慮してください。また、あなたが最新の知識を持っていないことを考慮してください。
    【禁止される表現の例】
    「まだ明らかになっていませんが」「将来的にすごいことになるでしょう」「この件についてはまだ詳細がわかりません」「今後話し合われます」「発表されていません」「今後の発表に期待しましょう」


    入力文書: {text}

    出力形式: 本文のみ出力してください。文書内容、背景、影響などを分かりやすく解説してください。

    """

    response = client.models.generate_content(
        model = "gemini-2.5-pro",
        contents = prompt,
        
    )

    return response.text

In [6]:
#記事生成
from supabase import create_client
import re
import requests
from bs4 import BeautifulSoup
import time

SUPABASE_URL = "https://jwrygoxgxaaffddrcgsl.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Imp3cnlnb3hneGFhZmZkZHJjZ3NsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTI2NDIzMTcsImV4cCI6MjA2ODIxODMxN30.TiKsD-kieM55ssPC-Qi1VmH1nd4pnq8zXwI7sH-oSZ8"

supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

datas = supabase.table("articles").select("*").is_("article", None).execute()

# HTMLからテキストを抽出する関数
def extract_text_from_html(soup, tag="section"):
    container = soup.find(tag)
    if not container:
        return None

    # すべての<p>タグを対象とし、動画説明などを除外
    p_tag = container.find_all("p")
    filtered_p = []
    for p in p_tag:
        if not p.get("class") or not any(cls for cls in p.get("class") if "note" in cls or "attention" in cls):
            filtered_p.append(p.get_text(strip=True))

    return "\n".join(filtered_p) if filtered_p else None


for data in datas.data:
    url=data["url"]
    source=data["source"]
    response = requests.get(url)
    response.encoding = "utf-8"
    soup = BeautifulSoup(response.text, "html.parser")

    original_text = extract_text_from_html(soup, "section")
    if not original_text: # sectionタグ内に文章が見つからない場合はarticleタグを対象にする
        original_text = extract_text_from_html(soup, "article")

    if original_text:
        article = create_article(original_text,source)
        supabase.table("articles").update({"article": article}).eq("url", url).execute()
        print(f"✅ 元の文章:\n{original_text}\n")
        print(f"🔽 生成記事:\n{article}")
        print("################################################################")
        time.sleep(10) # APIのレート制限を避けるために10秒待機
        
    else:
        print(f"記事が見つかりません: {data['url']}")


✅ 元の文章:
令和７年７月３１日、石破総理は、都内で開催された日米交渉の合意に関する自動車業界との意見交換を行いました。

🔽 生成記事:
令和7年7月31日、石破総理は都内で、日米交渉の合意に関する自動車業界との意見交換を行いました。

この意見交換は、日米間で合意された内容が日本の基幹産業である自動車産業に与えるであろう影響や、それに伴う課題、機会について、政府が業界の意見を直接聴取する目的で行われたとみられます。

日米間の経済交渉において、自動車関連の議題はこれまでも重要な位置を占めてきました。今回の合意が日本の自動車産業にどのような影響をもたらすか、またその影響にいかに適切に対応していくかは、国内経済にとって重要な課題です。

意見交換には、自動車メーカーや関連団体の代表者らが出席し、総理との間で、合意内容の円滑な実施や、将来的な産業の発展に向けた課題などについて意見が交わされた模様です。

政府は、国際的な取り決めを国内産業に適切に適用し、経済の安定と発展を図る上で、産業界との継続的な対話が重要であるとの認識を示しています。今回の意見交換も、その一環として行われたものであり、今後の政策形成に反映されていくものとみられます。
################################################################
