 * @ Author: Yohei Ohto
 * @ Create Time: 2025-04-03 17:57:05
 * @ Modified time: 2025-04-03 17:57:11
 * @ Description: pdfをテキストファイルに変換

In [1]:
import glob

DATA_DIR = "./data/saiyo/*"
paths = glob.glob(DATA_DIR)

In [7]:
!pip install pymupdf

Collecting pymupdf
  Downloading pymupdf-1.25.5-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Downloading pymupdf-1.25.5-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (20.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: pymupdf
Successfully installed pymupdf-1.25.5


In [10]:
import fitz  # PyMuPDF

for path in paths:
    pdf_path = path  # 最初のPDFファイルを選択
    output_path = pdf_path.replace(".pdf", "_extracted.txt")

    # PDF を開く
    pdf_document = fitz.open(pdf_path)

    extracted_text = ""

    # 各ページのテキストを抽出
    for page_num in range(len(pdf_document)):
        page = pdf_document[page_num]
        text = page.get_text("text")  # テキストを取得
        extracted_text += f"--- Page {page_num + 1} ---\n{text}\n\n"

    # テキストを保存
    with open(output_path, "w", encoding="utf-8") as file:
        file.write(extracted_text)

    print(f"テキストを {output_path} に保存しました！")


テキストを ./data/saiyo/R5_DC1_saiyou_extracted.txt に保存しました！
テキストを ./data/saiyo/R6_DC1_saiyou_extracted.txt に保存しました！
テキストを ./data/saiyo/R4_DC1_saiyou_extracted.txt に保存しました！
テキストを ./data/saiyo/R2_DC1_saiyou_extracted.txt に保存しました！
テキストを ./data/saiyo/R3_DC1_saiyou_extracted.txt に保存しました！


In [11]:
import re

for path in paths:
    output_path = path.replace(".pdf", "_extracted.txt")  # 抽出済みテキストファイル

    extracted_lines = []
    
    # テキストを読み込む
    with open(output_path, "r", encoding="utf-8") as file:
        lines = file.readlines()

    # 正規表現で半角カタカナを判定
    halfwidth_katakana_pattern = re.compile(r"[\uFF61-\uFF9F]+")  # 半角カタカナの範囲

    for i in range(len(lines) - 1):  # 最後の行は対象外
        if halfwidth_katakana_pattern.search(lines[i]):  # 現在の行に半角カタカナがある場合
            extracted_lines.append(lines[i + 1].strip())  # 次の行を追加

    # 結果を保存
    result_path = path.replace(".pdf", "_filtered.txt")
    with open(result_path, "w", encoding="utf-8") as result_file:
        result_file.write("\n".join(extracted_lines))

    print(f"半角カタカナの次の行を {result_path} に保存しました！")

半角カタカナの次の行を ./data/saiyo/R5_DC1_saiyou_filtered.txt に保存しました！
半角カタカナの次の行を ./data/saiyo/R6_DC1_saiyou_filtered.txt に保存しました！
半角カタカナの次の行を ./data/saiyo/R4_DC1_saiyou_filtered.txt に保存しました！
半角カタカナの次の行を ./data/saiyo/R2_DC1_saiyou_filtered.txt に保存しました！
半角カタカナの次の行を ./data/saiyo/R3_DC1_saiyou_filtered.txt に保存しました！


In [None]:
from collections import Counter

for path in paths:
    output_path = path.replace(".pdf", "_filtered.txt")  # テキスト抽出後のファイル

    # タグごとのカウント用辞書
    tag_counter = Counter()
    
    # テキストを読み込む
    with open(output_path, "r", encoding="utf-8") as file:
        lines = file.readlines()

    for line in lines:
        line = line.strip()
        tag_counter[line] += 1  # カウントを増やす

    # 結果を保存
    result_path = path.replace(".pdf", "_tag_counts.txt")
    with open(result_path, "w", encoding="utf-8") as result_file:
        for tag, count in tag_counter.items():
            result_file.write(f"{tag}: {count}\n")

    print(f"タグの出現回数を {result_path} に保存しました！")

タグの出現回数を ./data/saiyo/R5_DC1_saiyou_tag_counts.txt に保存しました！
タグの出現回数を ./data/saiyo/R6_DC1_saiyou_tag_counts.txt に保存しました！
タグの出現回数を ./data/saiyo/R4_DC1_saiyou_tag_counts.txt に保存しました！
タグの出現回数を ./data/saiyo/R2_DC1_saiyou_tag_counts.txt に保存しました！
タグの出現回数を ./data/saiyo/R3_DC1_saiyou_tag_counts.txt に保存しました！


In [16]:
import re
import csv
from collections import Counter

# 指定したタグ
target_tags = ["薬系化学および創薬科学関連", "薬系分析および物理化学関連", "薬理学関連", "医療薬学関連", "生命、健康および医療情報学", "医療技術評価学関連"]  # ここにカウントしたいタグを指定

# 結果を保存するリスト（CSV出力用）
csv_data = [["file"] + target_tags]

for path in paths:
    output_path = path.replace(".pdf", "_extracted.txt")  # PDFから抽出したテキストファイル

    # タグごとのカウント用辞書
    tag_counter = Counter()
    
    # テキストを読み込む
    with open(output_path, "r", encoding="utf-8") as file:
        lines = file.readlines()


    for line in lines:
        line = line.strip()
        tag_counter[line] += 1  # カウントを増やす

    # 指定したタグのみをフィルタリングし、CSV用リストに追加
    row = [path] + [tag_counter[tag] for tag in target_tags]
    csv_data.append(row)

# 結果を1つのCSVファイルに保存
csv_filename = "tag_counts_summary.csv"
with open(csv_filename, "w", encoding="utf-8", newline="") as file:
    writer = csv.writer(file)
    writer.writerows(csv_data)

print(f"タグの出現回数を {csv_filename} に保存しました！")

タグの出現回数を tag_counts_summary.csv に保存しました！
