In [4]:
import requests
from bs4 import BeautifulSoup
import csv
import os
import re

In [5]:
def convert_wareki_to_iso(date_str):
    """
    例: "令和7年7月23日" → "2025-07-23"
    """
    match = re.match(r"令和(\d+)年(\d+)月(\d+)日", date_str)
    if match:
        year = int(match.group(1)) + 2018  # 令和1年 = 2019年
        month = int(match.group(2))
        day = int(match.group(3))
        return f"{year:04d}-{month:02d}-{day:02d}"
    return None 

In [6]:
url = "https://www.kantei.go.jp/jp/news/index.html"
response = requests.get(url)
response.encoding = "utf-8"

# BeautifulSoupでHTMLを解析
soup = BeautifulSoup(response.text, "html.parser")

documents = []
for li in soup.select("ul.news-list li"):
    a_tag = li.find("a")
    date_tag = li.find("div") 

    if a_tag:
        title = a_tag.text.strip()
        href = a_tag["href"]
        url_full = "https://www.kantei.go.jp" + href
        date = date_tag.get_text(strip=True) if date_tag else "不明"
        date = date.replace("更新日：", "")
        date = convert_wareki_to_iso(date) or "0000-00-00"  

        documents.append({
            "title": title,
            "url": url_full,
            "date": date
        })

for document in documents:
    print(document)


{'title': '石破総理は令和７年度第９回経済財政諮問会議を開催しました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/28keizai.html', 'date': '2025-07-28'}
{'title': '石破総理は日本経済団体連合会夏季フォーラム２０２５に出席し講演を行いました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/25forum.html', 'date': '2025-07-25'}
{'title': '石破総理はチェコ共和国のペトル・パヴェル大統領と首脳会談を行いました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/25czech.html', 'date': '2025-07-25'}
{'title': '石破総理は与野党党首会談についての会見を行いました', 'url': 'https://www.kantei.go.jp/jp/103/statement/2025/0725bura.html', 'date': '2025-07-25'}
{'title': '石破総理は第６回米国の関税措置に関する総合対策本部を開催しました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/25kansei.html', 'date': '2025-07-25'}
{'title': '石破総理は赤澤大臣からの米国関税措置に関する日米協議の報告等についての会見を行いました', 'url': 'https://www.kantei.go.jp/jp/103/statement/2025/0724bura.html', 'date': '2025-07-24'}
{'title': '石破総理は都道府県議会議長との懇談会を開催しました', 'url': 'https://www.kantei.go.jp/jp/103/actions/202507/24todoufuken.html', 'date': '2025-07-24'}
{'title': '石破総理はＥＵ（欧州連合）の

In [7]:
from supabase import create_client
SUPABASE_URL = "https://jwrygoxgxaaffddrcgsl.supabase.co"   # プロジェクトごとに異なる
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Imp3cnlnb3hneGFhZmZkZHJjZ3NsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTI2NDIzMTcsImV4cCI6MjA2ODIxODMxN30.TiKsD-kieM55ssPC-Qi1VmH1nd4pnq8zXwI7sH-oSZ8"

# 接続
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# 保存
for document in documents:
    existing_url = supabase.table("articles").select("*").eq("url", document["url"]).execute()
    existing_title = supabase.table("articles").select("*").eq("title", document["title"]).execute()

    if len(existing_url.data) == 0 and len(existing_title.data) == 0:
        supabase.table("articles").insert(document).execute()
        print(f"保存しました: {document['date']} {document['title']} ({document['url']})")
    elif len(existing_url.data) != 0:
        print(f"urlに重複が存在します: {document["date"]} {document['title']} ({document['url']})")
    elif len(existing_title.data) != 0:
        print(f"タイトルに重複が存在します: {document["date"]} {document['title']} ({document['url']})")


urlに重複が存在します: 2025-07-28 石破総理は令和７年度第９回経済財政諮問会議を開催しました (https://www.kantei.go.jp/jp/103/actions/202507/28keizai.html)
urlに重複が存在します: 2025-07-25 石破総理は日本経済団体連合会夏季フォーラム２０２５に出席し講演を行いました (https://www.kantei.go.jp/jp/103/actions/202507/25forum.html)
urlに重複が存在します: 2025-07-25 石破総理はチェコ共和国のペトル・パヴェル大統領と首脳会談を行いました (https://www.kantei.go.jp/jp/103/actions/202507/25czech.html)
urlに重複が存在します: 2025-07-25 石破総理は与野党党首会談についての会見を行いました (https://www.kantei.go.jp/jp/103/statement/2025/0725bura.html)
urlに重複が存在します: 2025-07-25 石破総理は第６回米国の関税措置に関する総合対策本部を開催しました (https://www.kantei.go.jp/jp/103/actions/202507/25kansei.html)
urlに重複が存在します: 2025-07-24 石破総理は赤澤大臣からの米国関税措置に関する日米協議の報告等についての会見を行いました (https://www.kantei.go.jp/jp/103/statement/2025/0724bura.html)
urlに重複が存在します: 2025-07-24 石破総理は都道府県議会議長との懇談会を開催しました (https://www.kantei.go.jp/jp/103/actions/202507/24todoufuken.html)
urlに重複が存在します: 2025-07-23 石破総理はＥＵ（欧州連合）のアントニオ・コスタ欧州理事会議長及びウァズラ・フォン・デア・ライエン欧州委員会委員長と第３０回定期首脳協議を行いました (https://www.kantei.go.jp/jp/103/actions/202507/23eu

In [None]:
from google import genai
from google.genai import types

# geminiを使用して記事を生成する関数
def create_article(document):
    client = genai.Client()

    prompt=f"""
    あなたはニュース記者です。入力された文書に基づいて、ニュース記事を作成してください。

    トーンとスタイル:
    1. 中立的かつ簡潔に記述してください。
    2. 一般読者にもわかりやすいように、必要に応じて用語や背景を簡潔に説明してください。
    3. 出力は日本語でお願いします。
    4. 出力は700文字以内に収めてください。

    内容に関する制約:
    1. **事実に基づいた記述** 入力文書に基づいた「事実」や「根拠のある予測」は書いても良いです。
    【許可される表現の例】
    「金利が上昇した時、円高に振れる可能性があります」「今後の経済に影響を与えるとみられます」
    2. **推測や想像の禁止** 文書に記載のない推測や想像は含めないでください。他の文書で公開されている可能性を考慮してください。また、あなたが最新の知識を持っていないことを考慮してください。
    【禁止される表現の例】
    「まだ明らかになっていませんが」「将来的にすごいことになるでしょう」「この件についてはまだ詳細がわかりません」「今後話し合われます」「発表されていませんが」「今後の発表に期待しましょう」


    入力文書:{document}

    出力形式:
    タイトル: 発表内容を表す見出しを付けてください。
    本文: 文書内容、背景、影響などを分かりやすく解説してください。

    """

    response = client.models.generate_content(
        model = "gemini-2.5-flash",
        contents = prompt,
        
    )

    return response.text

In [11]:
for p in soup.find_all("p"):
    print(p.get_text(strip=True), p.get("class"))


当サイトではJavaScriptを使用しております。ご利用のブラウザ環境によっては、機能が一部限定される場合があります。ブラウザの設定でJavaScriptを有効にしていただくことにより、より快適にご利用いただけます。 None
動画が再生できない方はこちら（政府広報オンライン） ['module-text--note', 'attention']
動画ファイルはこちら ['module-text--note', 'attention']
令和７年７月２５日、石破総理は、総理大臣官邸で第６回米国の関税措置に関する総合対策本部を開催しました。 None
会議では、米国の関税措置に関する対応について議論が行われました。 None
総理は、本日の議論を踏まえ、次のように述べました。 None
「今般、米国の関税措置に関する日米協議について、トランプ大統領との間で合意することができました。まず、我が国の基幹産業である自動車及び自動車部品について、本年４月以降に課された２５パーセントの追加関税率を半減し、既存の税率を含め１５パーセントとすることで合意をいたしました。世界に先駆け、数量制限のない自動車・自動車部品関税の引下げを実現することができました。続いて相互課税について２５パーセントまで引上げるとされていた日本の関税率を、１５パーセントにとどめることができました。これは対米貿易黒字を抱える国の中で、これまでで最も低い数値となるものあります。さらに、半導体や医薬品といった経済安全保障上重要な物資について、仮に将来、関税が課される際も、我が国が他国に劣後する扱いとはならない。このような確約を得たところであります。日本企業による米国への投資を通じて、半導体、医薬品、鉄鋼、造船、重要鉱物、航空、エネルギー、自動車、ＡＩ（人工知能）、量子等、経済安全保障上重要な分野について、日米がともに利益を得られる強靱（きょうじん）なサプライチェーンを構築していくため、日米で緊密に連携していくことで合意をいたしました。正に、我が国の経済安全保障を確保する観点からも極めて重要な合意であると考えております。今般の合意には、農産品を含め、日本側の関税を引き下げることは含まれておりません。これこそ正に『関税より投資』であります。２月の首脳会談で私がトランプ大統領に提案して以来、一貫して米国に対し主張し、働

In [None]:
#記事生成
from supabase import create_client
import re
import requests
from bs4 import BeautifulSoup
import time

SUPABASE_URL = "https://jwrygoxgxaaffddrcgsl.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6Imp3cnlnb3hneGFhZmZkZHJjZ3NsIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NTI2NDIzMTcsImV4cCI6MjA2ODIxODMxN30.TiKsD-kieM55ssPC-Qi1VmH1nd4pnq8zXwI7sH-oSZ8"

supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

documents = supabase.table("articles").select("*").is_("article", None).execute()

# HTMLからテキストを抽出する関数
def extract_text_from_html(soup, tag="section"):
    container = soup.find(tag)
    if not container:
        return None

    # すべての<p>タグを対象とし、動画説明などを除外
    p_tag = container.find_all("p")
    filtered_p = []
    for p in p_tag:
        if not p.get("class") or not any(cls for cls in p.get("class") if "note" in cls or "attention" in cls):
            filtered_p.append(p.get_text(strip=True))

    return "\n".join(filtered_p) if filtered_p else None


for document in documents.data:
    url=document["url"]
    response = requests.get(url)
    response.encoding = "utf-8"
    soup = BeautifulSoup(response.text, "html.parser")

    text = extract_text_from_html(soup, "section")
    if not text: # sectionタグ内に文章が見つからない場合はarticleタグを対象にする
        text = extract_text_from_html(soup, "article")

    if text:
        article = create_article(document)
        supabase.table("articles").update({"article": article}).eq("url", url).execute()
        print(f"✅ 元の文章:\n{text}\n")
        print(f"🔽 {article}")
        print("################################################################")
        time.sleep(10) # APIのレート制限を避けるために10秒待機
        
    else:
        print(f"記事が見つかりません: {document['url']}")


✅ 元の文章:
閣議の概要について
まず、閣議の概要について申し上げます。一般案件２件、条約の公布、政令、人事が決定をされました。大臣発言として、文部科学大臣から「令和６年度文部科学白書について」、防衛大臣から「『令和７年版日本の防衛』について」、石破内閣総理大臣から「海外出張不在中の臨時代理等について」、それぞれ御発言がありました。
内閣辞令の人事について
本日の閣議で決定された内閣辞令の人事はお配りしたとおりでございます。
外国人との秩序ある共生社会推進室の設置について
もう一件、先日、７月８日も申し上げたとおり、石破総理から「内閣官房に外国人施策の司令塔となる事務局組織を設置する」との方針が示されていたところ、本日、内閣官房に、「外国人との秩序ある共生社会推進室」を設置をいたしました。国民の皆様の安全・安心の確保は経済成長の不可欠の前提ですが、一部の外国人による犯罪や迷惑行為、各種制度の不適切な利用など、国民の皆様が不安や不公平感を有する状況も生じております。外国人との秩序ある共生社会の実現は、政府として取り組むべき重要な政策課題の一つであります。政府としては、新たに設置した司令塔組織が中心となって、実態把握や国・自治体の情報基盤整備を行うとともに、法令遵守の徹底、制度の適正利用、透明性の確保の観点から、国内社会のグローバル化を前提としていない制度・運用全般を見直すなど、総合的・施策横断的取組を進めてまいります。私（官房長官）からは以上です。

🔽 **タイトル: 政府、外国人との秩序ある共生社会推進室を設置**

政府は2025年7月15日、新たな組織として「外国人との秩序ある共生社会推進室」を設置したことを発表しました。これは、日本に在住する外国人と日本社会との間で、より円滑で調和の取れた共生関係を築くことを目指すものとみられます。

同日の閣議では、この推進室の設置に加えて、閣議の概要が報告されました。また、内閣辞令による人事異動についても発表されています。

今回の発表は、増加する在日外国人への対応や、多文化共生社会の実現に向けた政府の取り組みの一環として注目されます。推進室が今後、どのような具体的な活動を展開していくか、今後の動向が注視されます。
####################################################