In [1]:
import xml.etree.ElementTree as ET
import html
import re
import pandas as pd

def load_target_keywords(df, target_column):
    # 対象列で1が立っているキーワードのみ取得
    # strip()で空白除去してからリスト化
    return [k.strip() for k in df.loc[df[target_column] == 1, 'keyword'].dropna().tolist()]


def extract_content_by_keywords(xml_path, keywords):
    tree = ET.parse(xml_path)
    root = tree.getroot()
    collected_text = []

    for page in root.findall('page'):
        tag_elem = page.find('tag')
        content_elem = page.find('content')

        if tag_elem is not None and content_elem is not None:
            tag_text = html.unescape((tag_elem.text or "").strip())

            # タグをカンマや全角カンマで分割し、前後の空白も削除
            tag_list = [t.strip() for t in re.split(r'[、,]', tag_text) if t.strip()]

            # いずれかのタグがキーワードに完全一致するか
            if any(tag in keywords for tag in tag_list):
                raw_text = content_elem.text
                if raw_text:
                    decoded_text = html.unescape(raw_text)
                    cdata_match = re.search(r'<!\[CDATA\[(.*?)\]\]>', decoded_text, re.DOTALL)
                    if cdata_match:
                        collected_text.append(cdata_match.group(1).strip())

    return '\n\n'.join(collected_text)


# --- 使用例 ---

#xml_file = "ir/2025/79360_アシックス/file.xml"
#csv_file = "ir/2025/79360_アシックス/info/contents.csv"
xml_file = "ir/2025/79360_アシックス_2020/アシックス統合報告書2020.xml"
csv_file = "ir/2025/79360_アシックス_2020/info/contents.csv"

# 除外対象列
excluded_columns = ['keyword', 'page', 'origin', '表示']

# CSVを読み込む
df = pd.read_csv(csv_file)

# 対象の列を動的に抽出
target_columns = [col for col in df.columns if col not in excluded_columns]

# 各ターゲット列について順に処理
for col in target_columns:
    print(f"\n=== タグ: {col} ===")
    keywords = load_target_keywords(df, col)
    output_text = extract_content_by_keywords(xml_file, keywords)
    print(output_text)



=== タグ: Target_A ===
「ASICS統合報告書2020」の発行にあたって
　アシックスとして初の統合報告書発行にあたり、アシックスの中長期の企業価値創造に関わる重要性の高い情報を網羅的に整理いたしました。その中で特に2020年10月公表した長期ビジョン「VISION2030」、その実現に向けて新たにスタートした「中期経営計画2023」にフォーカスし、外部環境が大きく変化する状況下においてアシックスの進むべき方向性とその実現に向けた戦略をご説明しています。　本報告書は、財務・IRチームが中心となり、関係部署との協力のもとで編集方針や掲載内容を議論しています。私は経理財務統括部の責任者として、その制作プロセスが正当であり、かつ記載内容が正確であることをここに表明いたします。　今後ともステークホルダーの皆様との対話を重視し、より一層開示内容とコミュニケーションの充実を目指してまいります。
執行役員　経理財務統括部長　林　晃司
編集後記
　ASICS統合報告書2020を最後までお読みいただき誠にありがとうございました。　投資家の皆さまをはじめとするステークホルダーの皆さまに、アシックスの中長期的な価値創造についてのご理解を深めていただくことを目的として、本年より統合報告書を発行しています。　初年度の統合報告書作成にあたり、経営企画室、サステナビリティ統括部、法務・知財統括部、経理財務統括部などをはじめとする関係部署とともに、価値創造プロセスの諸資本や創出価値、競争優位性などを洗い出す作業を行いました。その過程において、改めてアシックスの価値の源泉となる経営資源が何であるか、その資源を活用しながらどのようにビジョンを実現していくのかという道筋を描くことができました。　今後もステークホルダーの皆様とより深い対話を通じて、アシックスの財務・非財務の価値をご理解いただきたく思いますので、ぜひ本報告書に関する率直なご意見、ご要望を賜れば幸いです。
ASICS統合報告書2020編集委員会
統合報告書に関するお問い合わせはahq-org-finance-ir-t@asics.comまで
西井　 岳安部　 浩玉田　 貴嗣土井　 俊和福田　 隆介中須賀 幹彦鈴木　 萌佐伯　 日南子小森　 涼太
経理財務統括部経営企画室サステナビリティ統括部法務・知財統括部
山口　聡史大明