In [1]:
# XBRLファイルからサステナビリティ関連のテキストを抽出、指定したキーワードを含む文章を集約・出力
import os
import re
import html
from bs4 import BeautifulSoup
import pandas as pd
import talknize_module_std as tk2



# 読み取るデータ項目
columns_to_extract = ["書類管理番号", "書類名", "EDINET(ファンド)コード", "提出者(ファンド)", "提出者法人番号"]
# 追加のデータ項目
columns_to_extract.extend(["XBRLファイル名", "XBRLファイルパス"])

# 結果を格納するリスト
result_data = []

#業界を指定
#industry = '精密機器'
#industry = 'パルプ・紙'
industry = '銀行業'

# data/XBRLフォルダのパス
base_dir = 'data/XBRL/' + industry


# Xbrl_Searchで始まるフォルダを取得
folders = [folder for folder in os.listdir(base_dir) if folder.startswith('Xbrl_Search')]

for folder in folders:
    folder_path = os.path.join(base_dir, folder)
    csv_file = os.path.join(folder_path, 'XbrlSearchDlInfo.csv')
    
    if os.path.exists(csv_file):
        # CSVファイルを読み込む (Shift_JISエンコーディング)
        df = pd.read_csv(csv_file, header=1, encoding='shift_jis')
        if not df.empty:
            # 指定された列のデータを取得
            data_row = df.iloc[0][columns_to_extract[:-2]].to_dict()
            # 書類管理番号を取得
            doc_number = data_row["書類管理番号"]
            
            # XBRLファイルのパス
            xbrl_folder = os.path.join(folder_path, doc_number, 'XBRL', 'PublicDoc')
            if os.path.exists(xbrl_folder):
                # XBRLファイル名を取得
                xbrl_files = [file for file in os.listdir(xbrl_folder) if file.endswith('.xbrl')]
                if xbrl_files:
                    # 最初のXBRLファイル名とそのパスを取得
                    xbrl_file_name = xbrl_files[0]
                    data_row["XBRLファイル名"] = xbrl_file_name
                    data_row["XBRLファイルパス"] = os.path.join(xbrl_folder, xbrl_file_name)
                else:
                    data_row["XBRLファイル名"] = ""
                    data_row["XBRLファイルパス"] = ""
            else:
                data_row["XBRLファイル名"] = ""
                data_row["XBRLファイルパス"] = ""
            
            # 結果に追加
            result_data.append(data_row)

# 結果をデータフレームに変換
result_df = pd.DataFrame(result_data, columns=columns_to_extract)
result_df = result_df.rename(columns={'提出者(ファンド)': '企業名'})

#インデックスを調整
# データの保存先ファイル名を定義
#output_file = 'data/tcfd_target.csv'
# 結果をCSVファイルに保存
#result_df.to_csv(output_file, index=False, encoding='utf-8-sig')

#print(f"{len(result_data)} 件のデータを {output_file} に保存しました。")
result_df.head(30)

Unnamed: 0,書類管理番号,書類名,EDINET(ファンド)コード,企業名,提出者法人番号,XBRLファイル名,XBRLファイルパス
0,S100TWH9,有価証券報告書,E37725,株式会社いよぎんホールディングス,3500001024507,jpcrp030000-asr-001_E37725-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140415/S100...
1,S100TLFZ,有価証券報告書,E37777,株式会社しずおかフィナンシャルグループ,9080001025220,jpcrp030000-asr-001_E37777-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140434/S100...
2,S100TNEG,有価証券報告書,E37785,株式会社ちゅうぎんフィナンシャルグループ,1260001037279,jpcrp030000-asr-001_E37785-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140450/S100...
3,S100TREI,有価証券報告書,E03621,楽天銀行株式会社,5010701022527,jpcrp030000-asr-001_E03621-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140509/S100...
4,S100TWKN,有価証券報告書,E38714,株式会社京都フィナンシャルグループ,3130001075397,jpcrp030000-asr-001_E38714-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140529/S100...
5,S100U4S8,訂正有価証券報告書,E30103,株式会社めぶきフィナンシャルグループ,1060001007582,jpcrp030000-asr-001_E30103-000_2023-03-31_02_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140546/S100...
6,S100TQ1S,有価証券報告書,E30746,株式会社東京きらぼしフィナンシャルグループ,9011101071326,jpcrp030000-asr-001_E30746-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140603/S100...
7,S100TMNK,有価証券報告書,E31612,株式会社九州フィナンシャルグループ,2340001018765,jpcrp030000-asr-001_E31612-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140625/S100...
8,S100TN8H,有価証券報告書,E31775,株式会社ゆうちょ銀行,5010001112730,jpcrp030000-asr-001_E31775-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140653/S100...
9,S100TO04,有価証券報告書,E03646,株式会社　富山第一銀行,8230001002106,jpcrp030000-asr-001_E03646-000_2024-03-31_01_2...,data/XBRL/銀行業/Xbrl_Search_20240813_140715/S100...


In [2]:
#”xxx\n。\n”や”CO\n2”のような文字列を置換して、”xxx。”や”CO2”にする
def arrange_specific_text(text):
    replaced_text = text

    # 句点のみ浮いているのを是正
    replacements = {
        r'\n。': r'。',
        r'\n、': r'、',
        r'\n“\n': '“',
        r'\)\n': r')',
        r'\n\)': r')',
        r'\n\*': r'*',
        r'CO\n2\n': 'CO2',
        r'ＣＯ\n2\n': 'CO2',
        r'ＣＯ2': 'CO2',
        r'CO\n2': 'CO2',
        r'ＣＯ₂': 'CO2',
        r'ＣＯ\n₂': 'CO2',
        r'\n℃\n': '℃',
        r'■\n': '■'
    }

    for pattern, replacement in replacements.items():
        replaced_text = re.sub(pattern, replacement, replaced_text)

    #一文ごとに改行を入れる
    replaced_text = re.sub(r'。', '。\n', replaced_text)

    return replaced_text

# すべてのタグを削除し、テキストデータのみを出力
def remove_all_tags(tag):
    content_text = ''.join(str(child) for child in tag.contents if isinstance(child, BeautifulSoup))
#    content_text = arrange_specific_text(''.join(str(child) for child in tag.contents if isinstance(child, BeautifulSoup))) 
    tag.extract()
    return content_text

In [3]:
def zenkaku_to_hankaku(text):
    # 全角のアルファベットと数字のUnicodeコードポイント
    zenkaku = str.maketrans(
        'ＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ０１２３４５６７８９．，',
        'ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.,'
    )
    # 変換を実行
    return text.translate(zenkaku)

In [4]:
# extract_sustainable_info関数（sustainable_infoを抽出・加工）
def extract_sustainable_info(fundcode, file_path):
    with open(file_path, 'r', encoding='utf-8') as file:
        xbrl_content = file.read()

    # エスケープ文字を元のタグに戻す
    decoded_content = html.unescape(xbrl_content)

    # BeautifulSoupでパース
    soup = BeautifulSoup(decoded_content, 'xml')

    # 対象タグに対する要素を取得
    elements = soup.find_all(lambda tag: tag.name and 'DisclosureOfSustainabilityRelatedFinancialInformationTextBlock' in tag.name)

    # attribute属性を除去する
    for element in elements:
        if element.has_attr('attribute'):
            del element['attribute']

    # style属性を除去する
    for element in elements:
        for tag in element.find_all(True):  # Trueは全てのタグを対象にする
            if tag.has_attr('style'):
                del tag['style']

    # <p>タグを除去する
    for element in elements:
        for p_tag in element.find_all('p'):
            p_tag.unwrap()

    # elements全体の内容をリストに格納する
    output_content = []

    for element in elements:
        # テーブルをタブ区切りテキストに変換する
        for table in element.find_all('table'):
            table_text = []
            for row in table.find_all('tr'):
                row_text = []
                for cell in row.find_all(['td', 'th']):
                    row_text.append(cell.get_text(strip=True))
                table_text.append('\t'.join(row_text))
            # テーブルの変換結果をelementの中に置き換える
            table_text_str = '\n'.join(table_text)
            parent = table.parent
            if parent:
                table.insert_after(table_text_str)
                table.decompose()
        # elementの内容を文字列としてリストに追加
        output_content.append(arrange_specific_text(element.get_text(separator='\n', strip=True)))
    return output_content

In [5]:
# '抽出テキスト' 列を result_df に追加
result_df['抽出テキスト'] = ''

# result_dfの各行に対してextract_sustainable_info関数を適用して '抽出テキスト' 列を更新
for index, row in result_df.iterrows():
    fundcode = row['EDINET(ファンド)コード']
    file_path = row['XBRLファイルパス']
    extracted_text = extract_sustainable_info(fundcode, file_path)  # リスト形式
    joined_text =  ' '.join(extracted_text) # リストを結合し1つの文字列にする
    
    # '抽出テキスト' 列にアレンジしたテキストを追加
    result_df.at[index, '抽出テキスト'] =zenkaku_to_hankaku(arrange_specific_text(joined_text))

# 抽出したい列をリストとして指定
columns_to_save = ['書類管理番号', 'EDINET(ファンド)コード', '企業名', 'XBRLファイル名', '抽出テキスト']
# 指定した列のみのデータフレームを作成
extracted_df = result_df[columns_to_save]

#file_name = f"output/Sustainability_text.csv"
#extracted_df.to_csv(file_name, encoding="utf_8_sig", index=False)
extracted_df.head(30)


Unnamed: 0,書類管理番号,EDINET(ファンド)コード,企業名,XBRLファイル名,抽出テキスト
0,S100TWH9,E37725,株式会社いよぎんホールディングス,jpcrp030000-asr-001_E37725-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\n当社グループのサステナビリティに関する考え...
1,S100TLFZ,E37777,株式会社しずおかフィナンシャルグループ,jpcrp030000-asr-001_E37777-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\n当グループのサステナビリティに関する考え方...
2,S100TNEG,E37785,株式会社ちゅうぎんフィナンシャルグループ,jpcrp030000-asr-001_E37785-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\nちゅうぎんグループのサステナビリティに関す...
3,S100TREI,E03621,楽天銀行株式会社,jpcrp030000-asr-001_E03621-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\n当行グループのサステナビリティに関する考え...
4,S100TWKN,E38714,株式会社京都フィナンシャルグループ,jpcrp030000-asr-001_E38714-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\n当社グループのサステナビリティに関する考え...
5,S100U4S8,E30103,株式会社めぶきフィナンシャルグループ,jpcrp030000-asr-001_E30103-000_2023-03-31_02_2...,2 【サステナビリティに関する考え方及び取組】\n当社グループのサステナビリティに関する考え...
6,S100TQ1S,E30746,株式会社東京きらぼしフィナンシャルグループ,jpcrp030000-asr-001_E30746-000_2024-03-31_01_2...,2【サステナビリティに関する考え方及び取組】\n当社グループでは、持続可能な地域社会の構築に...
7,S100TMNK,E31612,株式会社九州フィナンシャルグループ,jpcrp030000-asr-001_E31612-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\n当社グループのサステナビリティに関する考え...
8,S100TN8H,E31775,株式会社ゆうちょ銀行,jpcrp030000-asr-001_E31775-000_2024-03-31_01_2...,2 【サステナビリティに関する考え方及び取組】\n以下の記載における将来に関する事項は、明示...
9,S100TO04,E03646,株式会社　富山第一銀行,jpcrp030000-asr-001_E03646-000_2024-03-31_01_2...,2【サステナビリティに関する考え方及び取組】\n当行は2021年4月に「富山第一銀行グループ...


In [6]:
#サステナビリティ関連パートのテキストデータから、指定したキーワードを含む文章を抽出・表示する

#import pandas as pd

def load_keywords(csv_file):
    df = pd.read_csv(csv_file,header=None)
    keywords = df[0].tolist() 
    return keywords

def extract_sentences_with_keywords(text, keywords1, keywords2):
    sentences = re.split(r'[。\n]', text)  # 句点 '。' と改行でテキストを分割
    sentences = [s + '。\n' for s in sentences if s]  # 空の文字列を削除し、文末に句点を追加
    
    # キーワードが空の場合の処理
    if not keywords1:
        return []
    if not keywords2:
        sentences_with_keywords = [
            sentence for sentence in sentences 
            if any(keyword1 in sentence for keyword1 in keywords1)
        ]
    else:
        sentences_with_keywords = [
            sentence for sentence in sentences 
            if any(keyword1 in sentence for keyword1 in keywords1) and any(keyword2 in sentence for keyword2 in keywords2)
        ]
    
    return sentences_with_keywords

# キーワードのCSVファイルを読み込む
#csv_file = 'output/Word_list/keywords.csv'  # キーワードを含むCSVファイルのパス
#keywords1 = load_keywords(csv_file)

keywords1=['シナリオ']
#keywords1=['気候変動']
#keywords1=['移行']
#keywords1=['物理']
#keywords1=['財務インパクト', '財務影響']
#keywords1=['機会']

#keywords1=['℃']

#keyword2はkeyword1とANDで絞り込みを行いたい場合に使用
keywords2=[]
#keywords2=['リスク']


#result_dfに項目追加
if not keywords2 == []:
    Text_with_KW = ', '.join(keywords1)+ '|'+ ', '.join(keywords2)
else:
    Text_with_KW = ', '.join(keywords1)  

result_df[Text_with_KW] = ''

# テキストデータの各レコードごとにkeyword1, keyword2を含む文章を抽出・表示
for index, row in result_df.iterrows():
    text = row['抽出テキスト'] 
    result_df.at[index, Text_with_KW] = ' '.join(extract_sentences_with_keywords(text, keywords1,keywords2))   


In [7]:
# 抽出したい列をリストとして指定
#columns_to_save2 = ['書類管理番号', 'EDINET(ファンド)コード', '企業名', 'XBRLファイル名', 'Keywords','Text_with_KW']
# 指定した列のみのデータフレームを作成
#$extracted_df = result_df[columns_to_save2]
#extracted_df = result_df[['書類管理番号', 'EDINET(ファンド)コード', '企業名', 'XBRLファイル名', 'Keywords','Text_with_KW']]
if not keywords2 == []:
    file_element = '_'.join(keywords1)+ '-'+ '_'.join(keywords2)
else:
    file_element = '_'.join(keywords1)
#print(file_element)
file_name = f"output/Sentences_with_Keywords_" + industry + '_' + file_element + ".csv"
result_df[['書類管理番号', 'EDINET(ファンド)コード', '企業名', 'XBRLファイル名', Text_with_KW]].to_csv(file_name, encoding="utf_8_sig", index=False)

In [8]:
tk_title =  Text_with_KW + '_TK'
result_df[tk_title] = ''
# テキストデータの各レコードごとにkeyword1, keyword2を含む文章を抽出・表示
for index, row in result_df.iterrows():
    text = row[Text_with_KW] 
    result_df.at[index, tk_title] = tk2.mecab_tokenizer(text)

result_df[[Text_with_KW,tk_title]].head(30)#to_csv(file_name, encoding="utf_8_sig", index=False)

Unnamed: 0,シナリオ,シナリオ_TK
0,ウ.シナリオ分析。\n 移行リスクは、事業性与信先のうち「電力・ガス」セクターを対象に、NG...,"[ウ, シナリオ分析, 移行, リスク, 事業, 与信, 電力, ガス, セクター, 対象,..."
1,環境委員会\t・カーボンニュートラル（Scope1、2）達成に向けた2024年度以降の削減計...,"[環境委員会, カーボンニュートラル, Scope, 1, 2, 達成, 2024年度, 削..."
2,（シナリオ分析）。\n 気候変動リスクがちゅうぎんグループの財務に及ぼす影響を把握・分析する...,"[シナリオ分析, 気候変動, リスク, 忠義, 財務, 把握, 分析, 炭素, 経営, 高度..."
3,,[]
4,サステナビリティ関連リスクにおいて、特に重要であると考える気候変動関連リスクが顕在化した場合...,"[サステナビリティ, 関連, リスク, 重要, 気候変動, 関連, リスク, 顕在, 業績,..."
5,なお、移行リスクについては、国際エネルギー機関（IEA）が策定した1.5℃シナリオ、気候変動...,"[移行, リスク, 国際エネルギー機関, IEA, 策定, 1.5度, シナリオ, 気候変動..."
6,シナリオ分析。\n ・　シナリオ分析の実施により、脱炭素社会への移行に向け、お客さまの事業転...,"[シナリオ分析, シナリオ分析, 実施, 炭素, 社会, 移行, お客様, 事業, 転換, ..."
7,シナリオ分析などを活用した気候関連のリスク管理に取り組むと同時に、脱炭素社会の実現に向け、お...,"[シナリオ分析, 活用, 気候, 関連, リスク管理, 炭素, 社会, 実現, お客様, 温..."
8,更に、TCFD提言の内容を踏まえ、気候変動関連のリスクと機会の特定や、気候変動関連のリスクが...,"[TCFD, 提言, 内容, 気候変動, 関連, リスク, 機会, 特定, 気候変動, 関連..."
9,（※）「気候関連財務情報開示タスクフォース（TCFD）」等の情報を参考に、気候変動の影響を受...,"[TCFD, TCFD, 情報, 参考, 気候変動, 業種, 不動産業, 対象, 定性的, ..."


In [9]:
file_name = f"output/Sentences_with_Keywords_" + industry + '_' + file_element + '_tk' + ".csv"
result_df[['書類管理番号', 'EDINET(ファンド)コード', '企業名', 'XBRLファイル名', Text_with_KW, tk_title]].to_csv(file_name, encoding="utf_8_sig", index=False)