In [15]:
# CSVファイルに記載したフォルダ・PDFファイル名を読み込み、
# PDFファイルのテキストをページ単位でCSVファイルに格納

import pandas as pd
import MeCab
import fitz
import re
import sys
sys.path.append('/work_dir') 
import talknize_module_20240909 as tk
import csv
import os
from concurrent.futures import ThreadPoolExecutor, as_completed

In [16]:
# CSVを読み込む関数
def load_csv(file_path):
    """
    CSVを読み込み、DataFrameを返す
    file_path: CSVファイルのパス
    """
    try:
        return pd.read_csv(file_path)
    except FileNotFoundError:
        print(f"Error: CSV file not found at {file_path}")
        return None
    except pd.errors.EmptyDataError:
        print(f"Error: CSV file at {file_path} is empty or invalid")
        return None
    except Exception as e:
        print(f"Error reading CSV file: {e}")
        return None

In [17]:
# ファイルを処理する関数
def process_file(file_path):
    """
    個々のPDFファイルをページ単位でテキスト化し、同一フォルダ内にCSVファイルとして格納
    
    """
    if not os.path.exists(file_path):
        print(f"Error: File does not exist - {file_path}")
        return
    
    try:
        doc = fitz.open(file_path) 
        
        #ページ単位でテキストをリストに格納
        #page_textにはインデックスは付与されていない

        page_text=[]
        for page in doc:
            text = page.get_text() # プレーンテキストを取得
            #if text != '' :
                #無駄な改行を削除の上で'。'で改行、一文の範囲を明確にする
            text = re.sub(r'。','。\n', re.sub(r'\n','', text))
                #リストに格納
            page_text.append(text)

        #リストをcsvファイルに保存（PDFと拡張子のみ相違）
        df_txt = pd.DataFrame(page_text)
        csv_path = re.sub('.pdf', '', file_path) + ".csv"
        df_txt.to_csv(csv_path, index=True, encoding='utf-8_sig')

    except Exception as e:
        print(f"Error processing file {file_path}: {e}")


In [21]:
# メインルーチン

def main():
    # CSVファイルのパス
    csv_path = 'data/IR_Source.csv'  # CSVのパスを指定

    # CSVを読み込む
    df = load_csv(csv_path)
    if df is None:
        print("Failed to load CSV. Exiting program.")
        return

    # 必要な列名を指定
    folder_col = '格納フォルダ'
    file_col = '統合報告書PDF'

    # CSVの列が期待通りか確認
    if folder_col not in df.columns or file_col not in df.columns:
        print(f"Error: CSV file must contain '{folder_col}' and '{file_col}' columns")
        return

    # 処理対象のファイルパスをリストに収集
    file_paths = []
    for index, row in df.iterrows():
        folder_name = 'ir/2025/' + row[folder_col]
        file_name = row[file_col]

        # パスが有効かチェック
        if pd.isna(folder_name) or pd.isna(file_name):
            print(f"Skipping row {index}: Folder or File is missing")
            continue

        # ファイルパスを構築
        file_path = os.path.join(folder_name, file_name)
        file_paths.append(file_path)

    # 並列処理
    results = []
    max_workers = 4  # 並列で動作するスレッド数
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        future_to_file = {executor.submit(process_file, file_path): file_path for file_path in file_paths}
        for future in as_completed(future_to_file):
            result = future.result()
            results.append(result)

    # 処理結果をログ出力
    print("Processing completed. Summary:")
    for result in results:
        print(result)

if __name__ == "__main__":
    main()

#順に企業コード・企業名・PDFファイル名を取り込み


Processing completed. Summary:
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None
None


In [2]:
security_code = 25030
company_name = 'キリンホールディングス'
pdf_filename = 'kirinreport2024.pdf'
csv_filename = re.sub('.pdf', '', pdf_filename) + ".csv"
#txt_filename

In [3]:
#PDFファイルを開き、ページ単位でテキストデータを取得
path = 'ir/2025/'+ str(security_code) + '_' + company_name + '/' 
open_file='ir/2025/'+ str(security_code) + '_' + company_name + '/' + pdf_filename
doc = fitz.open(path + pdf_filename) 

#ページ単位でテキストをリストに格納
#page_textにはインデックスは付与されていない
page_text=[]
for page in doc:
    text = page.get_text() # プレーンテキストを取得
    #if text != '' :
        #無駄な改行を削除の上で'。'で改行、一文の範囲を明確にする
    text = re.sub(r'。','。\n', re.sub(r'\n','', text))
        #リストに格納
    page_text.append(text)
    

In [4]:
print(page_text[2])

ContentsI N T E G R AT E D  R E P O R T  2 0 2 4 INPUT イノベーションを生み出す基盤 多様な人財と挑戦する風土 ..................................... 34 確かな価値を生む技術力 ........................................ 38 お客様主語のマーケティング力 ............................... 40 価値創造を加速するICT .......................................... 42 BUSINESS  社会課題を成長機会としてシナジーを 生かして取り組む事業 全体像  ................................................................... 44 事例1（食領域）   サステナブルな大麦を使ったクラフトビールで 生産地のコミュニティ活性化へ ............................... 46 事例2（医領域）   画期的な新薬を生み出し続ける 体制・仕組みをつくる ............................................. 48 事例3（ヘルスサイエンス領域）   「Sleep」シリーズ販促を通じ 良質な睡眠の重要性を啓発 .................................... 50 OUTPUT  基盤を生かし、事業を通じて社会課題の 解決につながるイノベーションを生み出す 財務目標・非財務目標........................................... 52 OUTCOME 社会に還元する価値 ............................................ 53 事例1（健康）   免疫ケアの浸透を加速させ 人々の「健康の土台」をつくる ................................. 54 事例2（環境）   豊かな自然を育むブドウ生産が ネイチャー・ポジティブに導く ................................. 55 事例3（コミュニティ）   多様な

In [5]:
df_txt = pd.DataFrame(page_text)
df_txt.head(30)

Unnamed: 0,0
0,2023年12月期統合レポート2 0 2 4 I N T E G R A T E D R ...
1,2KIRIN INTEGRATED REPORT 20243KIRIN INTEGRATED...
2,ContentsI N T E G R AT E D R E P O R T 2 0 2...
3,CEO Messageキリンホールディングス株式会社代表取締役会長CEO最高経営責任者磯崎 ...
4,当社グループが展開している酒類・飲料事業、医薬事業、そしてヘルスサイエンス事業は、それぞれビ...
5,COO Message私自身、食・医・ヘルスサイエンスの各領域に携わる中で見えた、当社グルー...
6,戦略、内部プロセス、従業員のマインドと行動、この3つをつなげてぐるぐる回すことが経営の肝だと...
7,主要な子会社キリンビール（他8社）ライオン（他47社）フォアローゼズキリングループのビジネス...
8,1617KIRIN INTEGRATED REPORT 2024KIRIN INTEGRAT...
9,1885 ジャパン・ブルワリー・カンパニー設立 1888 「キリンビール」発売 190...


In [9]:
df_txt.to_csv(path + csv_filename, index=True, encoding='utf-8_sig')
