In [2]:
import fitz  # PyMuPDF
from PIL import Image
import os
from tqdm import tqdm 

In [3]:
def get_filename_without_extension(file_path):
    return os.path.splitext(os.path.basename(file_path))[0]

In [4]:
def pdf_to_images(pdf_path, output_folder):
    # PDFファイルを開く
    pdf_document = fitz.open(pdf_path)
    file_name    = get_filename_without_extension(pdf_path)

    # 各ページを処理
    for page_num in range(len(pdf_document)):
        page = pdf_document.load_page(page_num)
        
        # ページを画像としてレンダリング
        pix = page.get_pixmap()
        
        # 画像をPillow Imageオブジェクトに変換
        img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
        
        # 画像を保存
        img.save(f"{output_folder}/{file_name}_{page_num + 1}.png")


In [5]:
#フォルダパス内のファイルパスを取得する関数
def get_file_paths(folder_path):
    file_paths = []
    for root, _, files in os.walk(folder_path):
        for file in files:
            file_path = os.path.join(root, file)
            file_paths.append(file_path)
    return file_paths

In [18]:
#set_path
input_folder_path = "./input/"
output_folder_path = "./input/pdf_img"

pdf_folder_path = input_folder_path +"pdf/"
pdf_text_folder_path = input_folder_path +"pdf_text/"

### 1.transform pdf to img

In [7]:
# get_path
pdf_paths = get_file_paths(pdf_folder_path)
# pdf_paths


In [8]:
# #transfer pdf to img
# for pdf_path in tqdm(pdf_paths):
#     pdf_to_images(pdf_path, output_folder_path)

### 2.summarize text in img

In [9]:
import os
import base64
import numpy as np
from openai import AzureOpenAI
from dotenv import load_dotenv
load_dotenv()

True

In [10]:

from multiprocessing import Pool, cpu_count


In [11]:
#set env
AZURE_OPENAI_API_KEY = os.getenv("AZURE_OPENAI_API_KEY")
AZURE_OPENAI_ENDPOINT = os.getenv("AZURE_OPENAI_ENDPOINT")
API_VERSION = os.getenv("API_VERSION")
DEPLOYMENT_ID_FOR_CHAT_COMPLETION = os.getenv("DEPLOYMENT_ID_FOR_CHAT_COMPLETION")

In [12]:
def get_text_from_img(image_file):
    with open(image_file, 'rb') as f:
        img = f.read()
        content =  [
        {
            'role' : 'system',
            'content' : [
                {'type':'text', 'text':'あなたは画像から文字を読み取りmarkdownに変換して出力します'},
                {'type':'text', 'text':'わからないときは # unknown と出力します'},
                ]
        },
        {
            'role' : 'user',
            'content' : [
            { 'type': "image_url", 'image_url': {'url':'data:image/jpeg;base64,'+ base64.b64encode(img).decode('ascii') }},
            ]
        }
        ]

    client = AzureOpenAI(
        api_key=AZURE_OPENAI_API_KEY,
        api_version=API_VERSION,
        azure_endpoint=AZURE_OPENAI_ENDPOINT)

    completion_resp = client.chat.completions.create(
        model=DEPLOYMENT_ID_FOR_CHAT_COMPLETION,
        temperature=0,
        seed=42,
        messages=content
        )
    
    return completion_resp.choices[0].message.content

In [13]:
# get_path
img_paths = get_file_paths(output_folder_path)


In [19]:
#abstract_text_and_save
for img_path in tqdm(img_paths):
    md_text   = get_text_from_img(img_path)
    file_name = get_filename_without_extension(img_path)
    with open( pdf_text_folder_path+ f'{file_name}.md', 'w') as f:
        f.write(md_text)
        f.close()


    print("====================")
    print(pdf_text_folder_path+ f'{file_name}.md')
    print(md_text)
    print("====================")


  0%|          | 1/1539 [00:06<2:35:48,  6.08s/it]

./input/pdf_text/10_1.md
```markdown
# Sustainability Data Book 2024

パナソニックグループ  
サステナビリティ データブック 2024

**Panasonic Group**
```


  0%|          | 2/1539 [00:15<3:23:00,  7.92s/it]

./input/pdf_text/10_10.md
# 環境

## 方針
当社グループは創業以来、環境社会に貢献することを経営理念として、1970年代から環境保全に取り組んできました。そして、1991年、環境経営を基本方針（環境基本方針）に位置付け、1993年には環境管理システムを構築し、環境保全活動を推進してきました。安全な水と地球環境の保全は、私たちの事業活動において重要なテーマです。

2001年に策定した「グリーンプラン2018」の活動計画、2010年には「グリーンプラン2018」を改訂し、2018年には新たに「グリーンプラン2020」を策定しました。水、エネルギー、廃棄物などの環境負荷を低減するため、活動を推進しています。

2013年、当社グループは「人と社会にとってより良い世界」を実現するために「グリーンプラン2018」を策定し、B2B環境経営の取り組みを強化することとしました。同年、環境省が主催する「国際連携のための環境経営システム」において、クリーンエネルギーの利用促進に関する活動を目指すことを表明しました。さらに、2050年には、温室効果ガスの排出量を実質ゼロにすることを目指しています。

2019年、グリーンプラン2018の成果を受け、パナソニックグループの創立・運営に関する方針を見直し、環境マネジメントシステムを強化しました。


  0%|          | 3/1539 [00:24<3:35:35,  8.42s/it]

./input/pdf_text/10_100.md
# 社員のウェルビーイング

## 多様な働き方の推進
当社グループでは、様々な価値観に基づく「生産性の向上」、そして個人の視点でのウェルビーイングの実現を目指し、イノベーション創出・業務効率化を実現し、長期的な成長に寄与しています。働き方に関しては、出社/リモートのどちらのスタンスを選択できるようにし、個人のライフスタイルに応じた柔軟な働き方を推進しています。また、特に中高年層においては、キャリアの再構築を支援するための施策を強化しています。

[DEIポリシー](https://holding.japanpost.jp/organization/sustainability/diversity-equity-inclusion/support/worklifebalance.html)

## 働く時間と場所の選択肢拡大
グループ全体で、さまざまなキャリアサポート・ライフバランス支援に取り組んでいます。特に、育児や介護に関する制度を充実させ、従業員が安心して働ける環境を整えています。

### 情報参考データ
| 時間制約 | 利用者数 | 利用率 |
|----------|----------|--------|
| 時間制約 | 866人    | 1.4%   |
| フレックスタイム | 51,146人 | 80.9%  |
| リモートワーク | 9,171人  | 14.5%  |

### 2023年度
| 選択制勤務者数 | 利用者数 |
|----------------|----------|
| 時間制約      | 153人    |
| フレックスタイム | 259人    |
| リモートワーク | 258人    |

## 妊娠・育児中の社員へのサポート
### 育児に関する制度
- チャイルドリフレッシュ
- フレックスタイム制度

「育児に関するガイドラインを整備し、社員が安心して育児と仕事を両立できるようにサポートしています。」


  0%|          | 4/1539 [00:34<3:54:50,  9.18s/it]

./input/pdf_text/10_101.md
```markdown
# 社員のウェルビーイング

## 方針
- 責任者・体制
- グループ共通の重要指標
- 経営基本方針の実践
- 安全・安心・健康にはたらく。
- やりがいを持って、はたらく。
- 個性を活かしあって、はたらく。
- 投資家向け人事戦略
- 通報・相談窓口
- 人材データ

## 育児休業取得
| 性別 | 2022年度 | 2023年度 |
|------|-----------|-----------|
| 男性 | 平均取得日数 | 21.58 | 36.28 |
| 女性 | 平均取得日数 | 100.00 | 103.7 |
| 合計 | 平均取得日数 | 376.4 | 305.8 |

> 「2023年度の育児休業取得率は、男性が76.0%、女性が103.7%となり、男女ともに前年を上回りました。」

## 介護中の社員へのサポート
- 「介護サポートガイド」を作成し、会社制度の理解を図っています。また、社内のメンターシステムとして、介護をする社員同士の交流を促進し、それぞれの体験を共有する場を設けています。

## ワーク・ライフ・バランスを支える制度の例
- 多様な働き方を推進する制度を展開。

## ジェンダーの公平性の推進
- 当社グループでは特に女性の活躍に注力しており、上級の役職者を増やすことに取り組んでいます。

### 最新のダイバーシティ
- PHD. PEXおよび子会社
- ジェンダーの公平性指標: 21%

| 年度 | 男性 | 女性 |
|------|------|------|
| 2017 | 493  | 453  |
| 2018 | 543  | 474  |
| 2019 | 564  | 485  |
| 2020 | 600  | 554  |
| 2021 | 664  | 593  |
| 2022 | 693  | 610  |
| 2023 | 750  | 675  |

> (2022年度) 社員 93:100, 管理職 73:100
> (2023年度) 社員 96:100, 管理職 75:100

PHD. PEXおよび子会社
```


  0%|          | 5/1539 [00:44<4:00:43,  9.42s/it]

./input/pdf_text/10_102.md
# 社員のウェルビーイング

## 方針
- 責任者・体制
- グループ共通の重要指標
- 経営基本方針の実践
- 安全・安心・健康に、はたらく。
- 個性を活かしつつ、はたらく。
- 投資家等の人事戦略
- 通報・相談窓口
- 人材データ

## 女性社員向けの勉強会：キャリアストレッチセミナー
日本では、女性社員のキャリア形成を支援するために、リーダーシップやネットワーク構築のためのセミナーを実施しています。特に、女性のキャリアに関する意識を高めるためのプログラムを提供し、女性自身がキャリアを描く力を育むことを目指しています。

## LGBTQ+の社員が活躍できる職場づくり

### 行動指針
「パナソニックグループ コンプライアンス方針」において、全員の多様性を尊重し、性別に関係なく活躍できる職場環境を行うことを掲げています。

### 人事関連施策への適用
当社では、2024年4月からの採用に際し、男女を問わず性別に関係なく、性別に基づく差別をなくすことを目指しています。

### 相互支援の促進
グループ内での相互支援を促進するため、LGBTQ+の社員が自らの声を上げる場を設けることを目指しています。

### グループ内での情報発信
LGBTQ+の人々への理解を深めるため、LGBTQ+の社員が自らの経験を語るイベントの開催を行っています。

### 障がいのある人が活躍できる職場づくり
2024年6月時点での日本における障がいのある人の雇用率は2.56%であり、それぞれの職場において、障がいのある人がより活躍できるような取り組みを進めています。

### 特別な会計
グループ内の特別な会計は、障がいのある人を支援するための施策を実施しています。また、障がいのある人への支援を行うための施策を継続的に実施しています。

---

Sustainability Data Book 2024 101


  0%|          | 6/1539 [11:35<96:51:35, 227.46s/it]

./input/pdf_text/10_103.md
```markdown
# 社員のウェルビーイング

## 特例会社（掲載は2024年6月1日現在）

| 会社名                       | 設立  | 従業員数（人） | 業務概要                                      |
|------------------------------|-------|----------------|-----------------------------------------------|
| パナソニック株式会社         | 1980年| 75             | AV機器、家電、産業機器、アプライアンス、照明、ROHS指令、環境配慮型製品、PC（パソコン）等 |
| パナソニックシステムソリューションズジャパン | 1981年| 36             | ITサービス、システムインテグレーション等                  |
| パナソニックエコソリューションズ | 1994年| 69             | LED照明、電力管理、光熱費削減ソリューション等              |
| パナソニックアプライアンス社 | 1998年| 38             | 家庭用電化製品、冷蔵庫、洗濯機、空調等                      |
| パナソニックインダストリー社 | 1999年| 44             | 産業機器、電子部品、電源装置等                          |

## 高年齢の社員が活躍できる環境づくり
当社グループでは多様な人材がそれぞれの能力を最大限発揮できる職場環境を整えるための会議を定期的に開催しています。

### ① 働き方の多様化の推進
当社は、ライフプランを考慮した働き方の提案により、一人ひとりが自分らしい生き方をデザインできるようにサポートしています。

### ② 高齢者雇用の推進
高齢者の雇用促進に向けた取り組みを行い、定年後もキャリアを活かせるような支援を行っています。

## 社員の目的的なコミュニティ活動（ERG）
当社グループでは、社員の多様性を尊重し、様々な活動を推進していま

  0%|          | 7/1539 [11:44<66:26:25, 156.13s/it]

./input/pdf_text/10_104.md
# 社員のウェルビーイング

## 方針
- 責任者・体制
- グループ共通の最重要指標
- 経営基本方針の実践
- 安全・安心・健康にはちゅう。
- やりがいを持ってはたらく。
- 個性を活かしあってはたらく。

## 投資戦略の人事戦略
- 通報・相談窓口
- 人材データ

---

## 空質空調（パナソニック株式会社 空質空調社）
- パナソニック株式会社は空質空調社において、同社が提供する「空気のプロフェッショナルパートナー」の実現に向けて取り組んでいます。具体的には、空質・人が快適に過ごせる環境を提供するための施策を推進しています。

## サプライチェーンマネジメントソフトウェア（パナソニック株式会社）
- サプライチェーンマネジメント分野の専門的なソリューションを提供しているBlue Yonder Inc.において、トランプ社と共同で自社の人材を強化しています。また、全員が新しい技術を習得し、サプライチェーンの最適化に向けた取り組みを進めています。

---

## 通報・相談窓口
### 社員の精神的・身体的ストレスに対する予防・対応（日本）
- 当社グループでは、社員の精神的・身体的ストレスに対する予防の必要性として、以下の取り組みを行っています。
  - **EAP**（Employee Assistance Program）
  - **差別・ハラスメントの通報**
    - 当社グループは、社員が精神的ストレスを受けた場合に相談できる窓口を設けています。

---

Sustainability Data Book 2024 103


  1%|          | 8/1539 [11:51<46:13:17, 108.69s/it]

./input/pdf_text/10_105.md
```markdown
# 社員のウェルビーイング

## 人材データ

### 社員数
- **総数**: 228,420人 (2024年4月1日現在)
  - **地域別**: 
    - 日本: 38%
    - 海外: 62%
  - **職種別**: 
    - 新卒: 60%
    - キャリア: 40%

### 採用人数
- **2023年4月1日現在**
  - 男性: 985 (新卒: 1,770, キャリア: 2,755)
  - 女性: 370 (新卒: 412, キャリア: 782)
  - 計: 1,355 (新卒: 2,182, キャリア: 3,537)

### 雇用率
- **2017年度**: 2.4%
- **2018年度**: 4.6%
- **2019年度**: 2.0%
- **2020年度**: 2.1%
- **2021年度**: 2.5%
- **2022年度**: 5.3%
- **2023年度**: 2.2%
- **2024年度**: 1.5%

### 平均勤続年数
- 男性: 20.7年
- 女性: 19.4年
- 平均: 20.4年

### 各健康指標 (日本)
- **事業数**: 9,063 (1事業あたりの平均が数値化されている人の割合)
  - 男性: 14%
  - 女性: 21%

### 運動実施率
- **2010年から2023年**
  - 男性: 9%
  - 女性: 6%

### 健康診断受診率 (25歳以上の人)
- **2008年から2023年**
  - 男性: 40%
  - 女性: 30%
```



  1%|          | 9/1539 [11:58<32:39:27, 76.84s/it] 

./input/pdf_text/10_106.md
# 責任ある調達活動

## 方針
- 責任者・体制
- サプライチェーンのデューディリジェンス
- 環境負荷低減の取り組み
- 責任ある鉱物調達
- 社内教育と社外での啓発活動
- 通報・相談窓口

---

### 取引の状況（地域別 (%)）
- 日本: 35%
- 中国: 29%
- インド: 30%
- その他: 6%

### 取引の状況（業種別 (%)）
- 加工部品: 53%
- 原材料: 23%
- 電気・電子部品: 22%
- その他（金融等）: 2%

---

Sustainability Data Book 2024 105


  1%|          | 10/1539 [12:08<23:55:27, 56.33s/it]

./input/pdf_text/10_107.md
```markdown
# 責任ある調達活動

## 方針
### 調達方針
当社グループは、調達についての基本的な考え方を「調達方針」として2003年に定めています。その基本にあるのは、「調達活動は企業の社会的責任である」と考えています。調達を通じて、持続可能な社会の実現に貢献することが求められています。

- グローバル調達の重要性
  - 当社グループは、グローバルに事業を展開しているため、グローバルに調達を行う必要があります。相互の理解、研鑽が求められるため、要求される基準・価値観に対しても配慮しなければなりません。

### CSR調達の実践
- CSR調達の実践は、社会的責任、環境への配慮、人権、労働条件など、さまざまな側面を考慮しながら進められています。調達先の選定においても、これらの観点を重視しています。

### 企業としての責任遂行
- 2022年4月より、サプライチェーンにおけるCSR推進を目的とした「パナソニック サプライチェーン CSR推進ガイドライン」を策定し、サプライチェーンに関与する全ての企業に対して、CSR活動の推進を行い、持続可能な社会の実現に貢献しています。

## クリーニング調達の徹底
当社グループは、「企業は社会の公器である」という考えのもと、グローバルに調達活動を行う際には公正かつ透明性のある取引を行うことを重視しています。2004年に「クリーニング調達」を行い、この方針を徹底しています。毎年モニタリングを行い、調達先に対しても「クリーニング調達」の徹底を求めています。

### 購入先候補からの金銭の受領の禁止、供給契約・全体の禁止
- 「調達」はグローバルに実施される特性上として、「調達先から金銭を受け取ることは禁じられています」。また、供給契約においても、透明性を確保するために、金銭の受領を禁止しています。

[詳細はこちら](https://holdings.panasonic/jp/corporate/procurement/declare.html)

## 責任者・体制
パナソニック ホールディングス（株）（以下、PHD）代表取締役社長が責任者として調達活動を推進しています（2024年3月現在）。サプライチェーンにおける責任ある調達活動は、企業全体の重要

  1%|          | 11/1539 [12:17<17:40:50, 41.66s/it]

./input/pdf_text/10_108.md
```markdown
# 責任ある調達活動

## 方針
- 責任者・体制
- サプライチェーンのデュー・ディリジェンス
- 環境負荷低減の取り組み
- 責任ある調達活動
- 社内教育と社外での啓発活動
- 通報・相談窓口

## 2022年12月20日 CSR ガイドライン改訂時からの基準を満たしています。

### CSR自主アセスメントの実施と監査
当社グループは、サプライチェーンにおける人権・環境・ディリジェンスに関してCSR自主アセスメントを実施しています。結果を踏まえ、CSR自主アセスメントは、当グループのCSRガイドラインに基づき実施されており、毎年の実施結果をもとに、改善の必要性を検討しています。新規の取引先に対しても、同様に実施され、取引先の状況に応じて、取引先と共に改善に取り組んでいます。

このCSR自主アセスメントは、WEBサーベイ形式のもので、取引先のCSR自主アセスメント実施状況を2024年4月に取引先に対して12,300社のうち95%が実施しました。

### 購入先様からのコミットメントの取得
当社グループは、「パナソニックグループ コンプライアンス方針」に基づき、サプライチェーン全体におけるCSRガイドラインの遵守を徹底しています。また、CSRガイドラインの遵守に関するコミットメントを取引先に求めています。新規取引先に対しては、取引開始前にCSRガイドラインの遵守を求めるとともに、既存取引先に対しても、定期的にコミットメントの取得を行っています。

## 環境負荷低減の取り組み
当社グループは環境負荷を低減し、物質・エネルギーの使用量を減少させる取り組みを行っています。

[サプライチェーン推進](https://holdings.panasonic/jp/corporate/sustainability/pdf/sdb2024-e.pdf)

## 責任ある調達活動
- 基本的な考え方
  - サプライチェーンにおける責任ある調達活動は、リスクの回避、持続可能な社会の実現に寄与することを目的としています。特に、環境、サプライヤー、労働、ハラスメントなどの問題に対して取り組んでいます。
```



  1%|          | 12/1539 [12:26<13:30:20, 31.84s/it]

./input/pdf_text/10_109.md
# 責任ある調達活動

## 方針
責任者・体制  
サプライチェーンのデュー・ディリジェンス  
環境負荷低減の取り組み  
責任ある調達活動  
社内教育と社外での啓発活動  
通報・相談窓口  

## 責任ある調達活動
PHDの調達活動は、環境保護、製品/サービスの品質向上、社会的責任を重視しており、サプライチェーン全体において持続可能性に配慮しています。

## デュー・ディリジェンスの取り組み
責任ある調達活動は、製品/サービスの調達においてのリスクを評価し、当社グループでは、調達ルールとして、RMIの実行する鉱・タングステン・金（3TG）の調達基準（CMRT）およびコバルト・ナイの調達基準（EMRT）を含む基準の遵守を徹底しています。

## 責任ある鉱物調達
責任グループでは、当社が直接または間接に購入した鉱物について、環境および社会的影響を考慮し、2023年度には、責任ある鉱物調達の対象鉱物が3,041品目から5,000品目以上に拡大され、EMRT基準に基づく調達が進められています。2024年には、より多くの鉱物に関しても調達基準を拡大することを検討しています。

2023年度、当社は、鉱物調達においてConformant / Active Smelter (RMIの認証を受けている、無鉱物についての調達基準を遵守している)を含む、責任ある調達の実施を進めています。サプライチェーンにおける重要な要素として、サプライヤーとの関係を強化し、持続可能な調達を推進しています。

## 業界連携の取り組み
当社グループでは、電子業界連盟（JEITA）「責任ある鉱物調達ガイドライン」に基づき、サプライチェーン全体における透明性を高めるために、国内外の関連団体と連携し、情報共有を行っています。また、JEITAのサプライヤーグループにも参加し、他の企業と協力しています。

## 社内教育と社外での啓発活動
責任調達では、調達活動が社会的責任を果たすために人材を育成することが重要です。CSRに関する考え方を浸透させるためにコンプライアンス教育を実施しています。また、各国（欧州/米国・中東・アジア）において、責任ある調達活動について、理解を深めるための研修を実施しています。


  1%|          | 12/1539 [12:35<26:42:56, 62.98s/it]


KeyboardInterrupt: 

In [None]:
# # multiprocessing_ver
# ### 動作しないためNG

# def abstract_text_and_save(img_path):
#     md_text = get_text_from_img(img_path)
#     file_name = get_filename_without_extension(img_path)
#     with open(pdf_text_folder_path + f'{file_name}.md', 'w') as f:
#         f.write(md_text)

# if __name__ == '__main__':
#     # 画像パスのリストを取得

#     # プロセスプールを作成し、並列処理
#     with Pool(cpu_count()) as p:
#         list(tqdm(p.imap(abstract_text_and_save, 
#                          img_paths), 
#                   total=len(img_paths)))


  0%|          | 0/1539 [00:00<?, ?it/s]