### ライブラリのインストール

In [1]:
# 必要なライブラリのインストール
!apt-get update
!apt-get install -y poppler-utils
!pip install PyPDF2 openai tqdm pdf2image Pillow

0% [Working]            Hit:1 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Connecting to security.ubuntu.com (185.125.190.83)] [                                                                               Get:2 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
0% [2 InRelease 73.7 kB/128 kB 58%] [Waiting for headers] [Waiting for headers]                                                                               Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
0% [2 InRelease 85.1 kB/128 kB 66%] [3 InRelease 14.2 kB/129 kB 11%] [Waiting f                                                                               Get:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,632 B]
0% [2 InRelease 104 kB/128 kB 81%] [3 InRelease 14.2 kB/129 kB 11%] [4 InReleas0% [2 InRelease 104 kB/128 kB 81%] [3 InRelease 14.2 kB/129 kB 11%] [Connected                                            

### ライブラリのインポートと環境設定

In [2]:
# 必要なライブラリのインポート
import os
import io
import base64
import tempfile
import time
import PyPDF2
import openai
from tqdm.notebook import tqdm
from google.colab import files, drive
from pdf2image import convert_from_path, convert_from_bytes
from PIL import Image
import re
import json
from IPython.display import display, HTML

# Google Driveのマウント
drive.mount('/content/drive')

Mounted at /content/drive


### OpenAI APIの設定

OpenAIのAPIキーを設定します。セキュリティのため、APIキーは環境変数として設定します。

**注意**: OpenAI APIを使用するためには、OpenAIのアカウントを作成し、APIキーを取得する必要があります。APIキーの取得方法は[OpenAIの公式サイト](https://platform.openai.com/)で確認できます。

In [3]:
# OpenAI APIキーの設定
# 注意: APIキーは公開しないでください
OPENAI_API_KEY = input("OpenAI APIキーを入力してください: ")
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
openai.api_key = OPENAI_API_KEY

# APIキーが正しく設定されたかを確認（初文字と末尾3文字だけを表示）
if OPENAI_API_KEY:
    masked_key = OPENAI_API_KEY[0] + '*' * (len(OPENAI_API_KEY) - 4) + OPENAI_API_KEY[-3:]
    print(f"APIキーが設定されました: {masked_key}")
else:
    print("APIキーが設定されていません。処理を続行できません。")

OpenAI APIキーを入力してください: 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
APIキーが設定されました: s****************************************************************************************************************************************************************RMA


### PDFファイルの読み込み関数

PDFファイルをアップロードするか、Google Driveから読み込むための関数を定義します。

In [5]:
def upload_pdf():
    """ユーザーからPDFファイルをアップロードする関数"""
    try:
        print("PDFファイルをアップロードしてください...")
        uploaded = files.upload()
        if not uploaded:
            print("ファイルがアップロードされませんでした。")
            return None, None

        file_name = list(uploaded.keys())[0]
        if not file_name.lower().endswith('.pdf'):
            print(f"警告: アップロードされたファイル {file_name} はPDFではないようです。")

        file_path = file_name  # Colabの一時ディレクトリに保存される
        print(f"ファイル '{file_name}' がアップロードされました。")
        return file_path, file_name
    except Exception as e:
        print(f"ファイルのアップロード中にエラーが発生しました: {str(e)}")
        return None, None

def get_pdf_from_drive(drive_path):
    """Google Driveから指定されたパスのPDFファイルを読み込む関数"""
    try:
        # パスが/content/drive/で始まっているか確認
        if not drive_path.startswith('/content/drive/'):
            drive_path = os.path.join('/content/drive/MyDrive/', drive_path)

        if not os.path.exists(drive_path):
            print(f"エラー: 指定されたパス '{drive_path}' にファイルが存在しません。")
            return None, None

        if not drive_path.lower().endswith('.pdf'):
            print(f"警告: 指定されたファイル '{drive_path}' はPDFではないようです。")

        file_name = os.path.basename(drive_path)
        print(f"ファイル '{file_name}' をGoogle Driveから読み込みました。")
        return drive_path, file_name
    except Exception as e:
        print(f"Google Driveからのファイル読み込み中にエラーが発生しました: {str(e)}")
        return None, None

def get_pdf_file():
    """PDFファイルの取得方法を選択するインタラクティブな関数"""
    print("PDFファイルの取得方法を選択してください:")
    print("1: ファイルをアップロード")
    print("2: Google Driveから読み込む")

    choice = input("選択肢の番号を入力してください (1または2): ")

    if choice == "1":
        return upload_pdf()
    elif choice == "2":
        drive_path = input("Google Drive上のPDFファイルのパスを入力してください: ")
        return get_pdf_from_drive(drive_path)
    else:
        print("無効な選択です。1または2を入力してください。")
        return get_pdf_file()  # 再帰的に関数を呼び出し

### GPT-4o-miniを使用したOCR処理

ここでGPT-4o-miniモデルを使用して、画像からテキストを抽出する核となる部分を実装します。

In [6]:
def encode_image_to_base64(image):
    """PIL Imageオブジェクトをbase64エンコードされた文字列に変換する"""
    buffered = io.BytesIO()
    image.save(buffered, format="PNG")
    return base64.b64encode(buffered.getvalue()).decode('utf-8')

def extract_text_with_gpt4o_mini(image, retry_count=3, retry_delay=5):
    """GPT-4o-miniモデルを使用して画像からテキストを抽出する関数"""
    base64_image = encode_image_to_base64(image)

    # APIリクエストのためのプロンプトを設定
    prompt = "この画像に含まれるすべてのテキストを抽出し、元のレイアウトをできるだけ維持してください。段落、箇条書き、表などの構造を保持してください。"

    for attempt in range(retry_count):
        try:
            response = openai.chat.completions.create(
                model="gpt-4o-mini",
                messages=[
                    {"role": "system", "content": "あなたは高精度なOCRシステムです。画像からテキストを正確に抽出してください。"},
                    {"role": "user", "content": [
                        {"type": "text", "text": prompt},
                        {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{base64_image}"}}
                    ]}
                ],
                max_tokens=4096
            )

            # 抽出されたテキストを返す
            return response.choices[0].message.content

        except Exception as e:
            if attempt < retry_count - 1:  # 最後の試行以外
                print(f"API呼び出し中にエラーが発生しました: {str(e)}")
                print(f"{retry_delay}秒後に再試行します... (試行 {attempt + 1}/{retry_count})")
                time.sleep(retry_delay)
            else:
                print(f"APIリクエスト失敗: {str(e)}")
                return f"OCR処理に失敗しました: {str(e)}"

    return "テキスト抽出に失敗しました。"

### PDFの処理関数（バッチ処理対応）

大きなPDFファイルを効率的に処理するためのバッチ処理関数を定義します。

In [7]:
def process_pdf(pdf_path, batch_size=5, start_page=1, end_page=None):
    """PDFファイルからテキストを抽出する関数（バッチ処理対応）"""
    try:
        # PDFファイルのメタデータを取得
        with open(pdf_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            total_pages = len(pdf_reader.pages)

            # ページ範囲の検証と設定
            if start_page < 1:
                start_page = 1
            if end_page is None or end_page > total_pages:
                end_page = total_pages

            print(f"PDFファイル: {os.path.basename(pdf_path)}")
            print(f"総ページ数: {total_pages}")
            print(f"処理範囲: {start_page}〜{end_page}ページ")

        # 処理するページ範囲
        pages_to_process = list(range(start_page - 1, end_page))
        total_pages_to_process = len(pages_to_process)

        # 結果を格納する辞書
        extracted_text = {}

        # バッチ処理（メモリ使用量を抑える）
        for batch_start in range(0, total_pages_to_process, batch_size):
            batch_end = min(batch_start + batch_size, total_pages_to_process)
            batch_pages = pages_to_process[batch_start:batch_end]

            print(f"\nバッチ処理: {batch_start + 1}〜{batch_end}番目のページ（実際のページ番号: {batch_pages[0] + 1}〜{batch_pages[-1] + 1}）")

            try:
                # PDFをページごとに画像に変換
                images = convert_from_path(pdf_path, first_page=batch_pages[0] + 1, last_page=batch_pages[-1] + 1)
            except Exception as pdf_error:
                if "poppler" in str(pdf_error).lower():
                    print("エラー: popplerがインストールされていません。以下のコマンドを実行してください:")
                    print("!apt-get update && apt-get install -y poppler-utils")
                    return {}
                else:
                    raise pdf_error

            # 各ページを処理
            for i, image in enumerate(tqdm(images, desc="ページ処理中")):
                page_num = batch_pages[i] + 1  # 1から始まるページ番号
                print(f"\nページ {page_num}/{end_page} を処理中...")

                # GPT-4o-miniによるテキスト抽出
                page_text = extract_text_with_gpt4o_mini(image)
                extracted_text[page_num] = page_text

                # メモリ解放
                del image

            # バッチ間で一時停止して、APIレート制限に引っかからないようにする
            if batch_end < total_pages_to_process:
                print("API制限を回避するため10秒間停止します...")
                time.sleep(10)

        return extracted_text

    except Exception as e:
        print(f"PDFの処理中にエラーが発生しました: {str(e)}")
        # スタックトレースを表示
        import traceback
        traceback.print_exc()
        return {}

### テキストファイルの保存関数

In [8]:
def save_extracted_text(extracted_text, file_name, save_location="both"):
    """抽出したテキストをファイルに保存する関数"""
    if not extracted_text:
        print("保存するテキストがありません。")
        return

    # ファイル名から拡張子を除去し、テキストファイル名を作成
    base_name = os.path.splitext(os.path.basename(file_name))[0]
    txt_file_name = f"{base_name}_extracted.txt"

    # 抽出したテキストを結合（ページ番号順）
    sorted_pages = sorted(extracted_text.keys())
    full_text = ""
    for page in sorted_pages:
        full_text += f"\n==== ページ {page} ====\n\n"
        full_text += extracted_text[page] + "\n"

    # テキストの保存先（Colab、Google Drive、または両方）
    saved_paths = []

    if save_location in ["colab", "both"]:
        # Colabに保存
        try:
            with open(txt_file_name, 'w', encoding='utf-8') as f:
                f.write(full_text)
            saved_paths.append(f"Colab: {txt_file_name}")
            print(f"テキストをColabに保存しました: {txt_file_name}")

            # ダウンロードリンクを表示
            from google.colab import files
            files.download(txt_file_name)
        except Exception as e:
            print(f"Colabへの保存中にエラーが発生しました: {str(e)}")

    if save_location in ["drive", "both"]:
        # Google Driveに保存
        try:
            drive_path = f"/content/drive/MyDrive/{txt_file_name}"
            with open(drive_path, 'w', encoding='utf-8') as f:
                f.write(full_text)
            saved_paths.append(f"Google Drive: {drive_path}")
            print(f"テキストをGoogle Driveに保存しました: {drive_path}")
        except Exception as e:
            print(f"Google Driveへの保存中にエラーが発生しました: {str(e)}")

    return saved_paths

### メイン実行関数

上記で定義した関数を組み合わせて、PDFからテキストを抽出し保存します。

In [9]:
def main():
    """メイン実行関数"""
    print("===== PDF文書からテキスト抽出ツール（GPT-4o-mini使用） =====")

    # PDFファイルの取得
    pdf_path, file_name = get_pdf_file()
    if pdf_path is None or file_name is None:
        print("PDFファイルの取得に失敗しました。処理を中止します。")
        return

    # 処理設定
    print("\n処理設定:")
    batch_size_input = input("バッチサイズを入力してください（メモリ制約がある場合は小さい値を設定、デフォルト: 5）: ")
    batch_size = int(batch_size_input) if batch_size_input.strip() else 5

    start_page_input = input("開始ページを入力してください（デフォルト: 1）: ")
    start_page = int(start_page_input) if start_page_input.strip() else 1

    end_page_input = input("終了ページを入力してください（デフォルト: 最終ページ）: ")
    end_page = int(end_page_input) if end_page_input.strip() else None

    save_location = input("保存先を選択してください（'colab'、'drive'、または 'both'、デフォルト: 'both'）: ")
    if not save_location.strip() or save_location.lower() not in ['colab', 'drive', 'both']:
        save_location = 'both'

    # PDFの処理
    print("\nPDFの処理を開始します...")
    start_time = time.time()
    extracted_text = process_pdf(pdf_path, batch_size, start_page, end_page)
    end_time = time.time()
    processing_time = end_time - start_time

    if not extracted_text:
        print("テキスト抽出に失敗しました。")
        return

    # 抽出したテキストの保存
    print("\n抽出したテキストを保存します...")
    saved_paths = save_extracted_text(extracted_text, file_name, save_location)

    # 処理結果の表示
    print("\n===== 処理結果 =====")
    print(f"処理時間: {processing_time:.2f}秒")
    print(f"処理したページ数: {len(extracted_text)}")
    print("保存先:")
    for path in saved_paths:
        print(f" - {path}")

    # 最初の数ページのサンプル表示
    sample_pages = min(3, len(extracted_text))
    if sample_pages > 0:
        print(f"\n最初の{sample_pages}ページのサンプル:")
        for page in sorted(extracted_text.keys())[:sample_pages]:
            print(f"\n==== ページ {page} のサンプル ====")
            sample_text = extracted_text[page][:500] + "..." if len(extracted_text[page]) > 500 else extracted_text[page]
            print(sample_text)

    print("\n処理が完了しました。")

### 実行

In [None]:
# メイン処理の実行
if __name__ == "__main__":
    main()

===== PDF文書からテキスト抽出ツール（GPT-4o-mini使用） =====
PDFファイルの取得方法を選択してください:
1: ファイルをアップロード
2: Google Driveから読み込む
選択肢の番号を入力してください (1または2): 1
PDFファイルをアップロードしてください...


Saving hoken1-seiho_06.pdf to hoken1-seiho_06.pdf
ファイル 'hoken1-seiho_06.pdf' がアップロードされました。

処理設定:
バッチサイズを入力してください（メモリ制約がある場合は小さい値を設定、デフォルト: 5）: 
開始ページを入力してください（デフォルト: 1）: 
終了ページを入力してください（デフォルト: 最終ページ）: 
保存先を選択してください（'colab'、'drive'、または 'both'、デフォルト: 'both'）: 

PDFの処理を開始します...
PDFファイル: hoken1-seiho_06.pdf
総ページ数: 30
処理範囲: 1〜30ページ

バッチ処理: 1〜5番目のページ（実際のページ番号: 1〜5）


ページ処理中:   0%|          | 0/5 [00:00<?, ?it/s]


ページ 1/30 を処理中...

ページ 2/30 を処理中...

ページ 3/30 を処理中...

ページ 4/30 を処理中...

ページ 5/30 を処理中...
API制限を回避するため10秒間停止します...

バッチ処理: 6〜10番目のページ（実際のページ番号: 6〜10）


ページ処理中:   0%|          | 0/5 [00:00<?, ?it/s]


ページ 6/30 を処理中...

ページ 7/30 を処理中...

ページ 8/30 を処理中...

ページ 9/30 を処理中...

ページ 10/30 を処理中...
API制限を回避するため10秒間停止します...

バッチ処理: 11〜15番目のページ（実際のページ番号: 11〜15）


ページ処理中:   0%|          | 0/5 [00:00<?, ?it/s]


ページ 11/30 を処理中...

ページ 12/30 を処理中...

ページ 13/30 を処理中...

ページ 14/30 を処理中...

ページ 15/30 を処理中...
API制限を回避するため10秒間停止します...

バッチ処理: 16〜20番目のページ（実際のページ番号: 16〜20）


ページ処理中:   0%|          | 0/5 [00:00<?, ?it/s]


ページ 16/30 を処理中...

ページ 17/30 を処理中...

ページ 18/30 を処理中...

ページ 19/30 を処理中...

ページ 20/30 を処理中...
API制限を回避するため10秒間停止します...

バッチ処理: 21〜25番目のページ（実際のページ番号: 21〜25）


ページ処理中:   0%|          | 0/5 [00:00<?, ?it/s]


ページ 21/30 を処理中...

ページ 22/30 を処理中...

ページ 23/30 を処理中...

ページ 24/30 を処理中...

ページ 25/30 を処理中...
API制限を回避するため10秒間停止します...

バッチ処理: 26〜30番目のページ（実際のページ番号: 26〜30）


ページ処理中:   0%|          | 0/5 [00:00<?, ?it/s]


ページ 26/30 を処理中...

ページ 27/30 を処理中...

ページ 28/30 を処理中...

ページ 29/30 を処理中...

ページ 30/30 を処理中...

抽出したテキストを保存します...
テキストをColabに保存しました: hoken1-seiho_06_extracted.txt


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

テキストをGoogle Driveに保存しました: /content/drive/MyDrive/hoken1-seiho_06_extracted.txt

===== 処理結果 =====
処理時間: 294.28秒
処理したページ数: 30
保存先:
 - Colab: hoken1-seiho_06_extracted.txt
 - Google Drive: /content/drive/MyDrive/hoken1-seiho_06_extracted.txt

最初の3ページのサンプル:

==== ページ 1 のサンプル ====
```
保険 1 （生命保険）

第 6 章  団体生命保険

平成 19 年 6 月作成

日本アクチュアリー会
```

==== ページ 2 のサンプル ====
このテキストは日本アクチュアリー会資格試験の第2次試験（専門科目）を受験する方のための教材です。

各項目について見識ある方にお譲りいただきました。  
受験生がこのテキストから幅広い理論・実践的知識を習得し、あわせて応用能力を備えることを狙いとしており、テキストの内容自体が日本アクチュアリー会の公式見解を表すものではありません。  
しかしながら、できる限り様々な考え方、意見を集約するよう努めており、受験生にとって適切な学習書としての役割を果たすものです。

平成18年度　テキスト部会（生保）

==== ページ 3 のサンプル ====
```
第 6 章  団体生命保険

6.1  はじめに                             6・1
6.2  日本における団体生命保険の沿革     6・2
6.3  団体生命保険の他保険選択         6・3
     6.3.1  疾病選択の目的               6・3
     6.3.2  団体による選択理論           6・3

6.4  団体定期保険の税務               6・6
     6.4.1  保険料                       6・6
     6.4.2  保険金                       6・6
     6.4.3  高度障害保険金               6・7

6.5  団体保険の種類 

## Streamlitによる対話型UI

以下のセルを実行すると、Streamlitアプリケーションが起動し、ngrokを使用して公開URLが生成されます。
このURLにアクセスすることで、Webブラウザから対話的にPDF文書からのテキスト抽出が可能になります。

In [10]:
# 必要なライブラリのインストール
!pip install streamlit pyngrok

Collecting streamlit
  Downloading streamlit-1.44.1-py3-none-any.whl.metadata (8.9 kB)
Collecting pyngrok
  Downloading pyngrok-7.2.4-py3-none-any.whl.metadata (8.7 kB)
Collecting watchdog<7,>=2.1.5 (from streamlit)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
Collecting pydeck<1,>=0.8.0b4 (from streamlit)
  Downloading pydeck-0.9.1-py2.py3-none-any.whl.metadata (4.1 kB)
Downloading streamlit-1.44.1-py3-none-any.whl (9.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.8/9.8 MB[0m [31m59.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyngrok-7.2.4-py3-none-any.whl (23 kB)
Downloading pydeck-0.9.1-py2.py3-none-any.whl (6.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.9/6.9 MB[0m [31m66.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl (79

In [11]:
# ngrokのセットアップ
import os
from pyngrok import ngrok

# ngrokの認証トークンが既に設定されている場合は以下の行をコメントアウトしてください
# 初回実行時には、ngrokの認証トークンを取得して設定する必要があります
# トークンは https://dashboard.ngrok.com/get-started/your-authtoken から取得できます
NGROK_TOKEN = input("ngrokの認証トークンを入力してください: ")
if NGROK_TOKEN:
    !ngrok authtoken {NGROK_TOKEN}
    print("ngrokの認証トークンが設定されました")
else:
    print("警告: ngrokの認証トークンが設定されていません。既に設定されている場合は問題ありません。")

ngrokの認証トークンを入力してください: 2vo3QNRBPgl9gKo4NEZs2pEipdh_4Dn3y4MLqDYgTt1dk7TTg
Authtoken saved to configuration file: /root/.config/ngrok/ngrok.yml
ngrokの認証トークンが設定されました


In [15]:
!pip install python-dotenv
from dotenv import load_dotenv, find_dotenv

%cd /content/drive/MyDrive/Colab\ Notebooks/ai-engineering/第1回
load_dotenv(find_dotenv())

/content/drive/MyDrive/Colab Notebooks/ai-engineering/第1回


True

In [16]:
# Streamlitアプリの起動
from pyngrok import ngrok

# 現在のディレクトリを確認
!pwd

# 8501ポートをngrokで公開
public_url = ngrok.connect(8501).public_url
print(f"公開URL: {public_url}")
print("このURLにアクセスして、Streamlitアプリケーションを使用できます。")
print("注意: このセルを実行している間はアプリケーションが利用可能です。中断するとアクセスできなくなります。")

# Streamlitアプリを実行
!streamlit run pdf_extraction_app.py

/content/drive/MyDrive/Colab Notebooks/ai-engineering/第1回
公開URL: https://53e0-104-197-192-99.ngrok-free.app
このURLにアクセスして、Streamlitアプリケーションを使用できます。
注意: このセルを実行している間はアプリケーションが利用可能です。中断するとアクセスできなくなります。

Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.
[0m
[0m
[34m[1m  You can now view your Streamlit app in your browser.[0m
[0m
[34m  Local URL: [0m[1mhttp://localhost:8501[0m
[34m  Network URL: [0m[1mhttp://172.28.0.12:8501[0m
[34m  External URL: [0m[1mhttp://104.197.192.99:8501[0m
[0m
[34m  Stopping...[0m
[34m  Stopping...[0m
^C


In [17]:
# 後片付け: ngrokのトンネルを削除
# このセルは、アプリの使用が終わったら実行してください
from pyngrok import ngrok
ngrok.kill()
print("ngrokのトンネルが削除されました。")

ngrokのトンネルが削除されました。
