In [10]:
import os
import re
from datetime import datetime
import xml.etree.ElementTree as ET
from bs4 import BeautifulSoup
import html2text

# --- 設定 ---
xml_path = "note.xml"
output_dir = "../../../../obsidian/note/articles"
date_threshold = datetime(2024, 4, 1)

os.makedirs(output_dir, exist_ok=True)

# HTML→Markdown変換設定
html_converter = html2text.HTML2Text()
html_converter.ignore_links = False
html_converter.bypass_tables = False

# タイトルを安全なファイル名に変換
def normalize_filename(title):
    title = re.sub(r'[\\/*?:"<>|]', '', title)
    return title.strip().replace(" ", "_")

# 名前空間（WordPress形式に対応）
ns = {
    "content": "http://purl.org/rss/1.0/modules/content/",
    "wp": "http://wordpress.org/export/1.2/"
}

# XML読み込み
tree = ET.parse(xml_path)
root = tree.getroot()
items = root.findall(".//item")

for item in items:
    title_elem = item.find("title")
    date_elem = item.find("wp:post_date", ns)
    content_elem = item.find("content:encoded", ns)

    if title_elem is None or date_elem is None or content_elem is None:
        continue

    title = title_elem.text
    date_str = date_elem.text
    content_html = content_elem.text or ""

    try:
        pub_date = datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S")
    except ValueError:
        continue

    if pub_date >= date_threshold:
        filename = normalize_filename(title) + ".md"
        filepath = os.path.join(output_dir, filename)

        if os.path.exists(filepath):
            print(f"[SKIP] 既に存在: {filename}")
            continue

        markdown_body = html_converter.handle(content_html)

        with open(filepath, "w", encoding="utf-8") as f:
            f.write(f"# {title}\n\n")
            f.write(markdown_body)

        print(f"[OK] {filename} を作成しました")


[SKIP] 既に存在: 日記を始めます.md
[SKIP] 既に存在: 【#1】１年後の理想の姿.md
[SKIP] 既に存在: 【#2】卒業研究の進捗報告.md
[SKIP] 既に存在: 【#3】消費者物価指数ってなに？.md
[SKIP] 既に存在: 【#4】新しい挑戦.md
[SKIP] 既に存在: 【#5】卒論テーマが決まるまでの話.md
[SKIP] 既に存在: 【#6】ファインチューニングってなに？.md
[SKIP] 既に存在: 【#7】Kaggleへの想い.md
[SKIP] 既に存在: 【#8】上を見たらキリがない、けど上を見なかったら成長できない.md
[SKIP] 既に存在: 【#9】ただのデータサイエンティストでは生きていけない.md
[SKIP] 既に存在: 【#10】スタート時点で圧倒的に勝つ.md
[SKIP] 既に存在: 【#11】Qiitaでも発信を始めました.md
[SKIP] 既に存在: 【#12】チャンスは向こうからやってこない.md
[SKIP] 既に存在: 【#13】「受動的な勉強」と「能動的な勉強」.md
[SKIP] 既に存在: 【#14】時間が長く感じたり短く感じたりする仕組み.md
[SKIP] 既に存在: 【#15】&quot;人見知り&quot;は性格じゃなくて、ただのクセ.md
[SKIP] 既に存在: 【#16】今、楽しみにしていること.md
[SKIP] 既に存在: 【#17】「モチベーションが続かない」をなくす方法.md
[SKIP] 既に存在: 【#18】とりあえず一歩前進しました.md
[SKIP] 既に存在: 【#19】「自分」というキャラを演じる.md
[SKIP] 既に存在: 【#20】誕生日は、「年」と「きっかけ」を与えてくれる日.md
[SKIP] 既に存在: 【#21】22歳の抱負.md
[SKIP] 既に存在: 【#22】やる気スイッチの押し方が分かったかも！.md
[SKIP] 既に存在: 【#23】資格取得について.md
[SKIP] 既に存在: 【#24】基本情報技術者の勉強計画.md
[SKIP] 既に存在: 【#25】Kaggle_Notebookをローカルで環境構築したい.md
[SKIP] 既に存在: 【#26】続・Kaggle環境をWindowsローカルに構築.md
