In [2]:
!pip install PyMuPDF

import os
import json
import docx
import fitz  # PyMuPDFをインポート ▼▼▼
from sentence_transformers import SentenceTransformer
from dotenv import load_dotenv

load_dotenv()

def get_text_from_docx(filepath):
    """DOCXファイルからテキストを抽出する関数"""
    try:
        doc = docx.Document(filepath)
        return '\n'.join([para.text for para in doc.paragraphs])
    except Exception as e:
        print(f"  -> エラー: {filepath} の読み込みに失敗 - {e}")
        return None

# ▼▼▼ PDFからテキストを抽出する関数を追加 ▼▼▼
def get_text_from_pdf(filepath):
    """PDFファイルからテキストを抽出する関数"""
    try:
        doc = fitz.open(filepath)
        text = ""
        for page in doc:
            text += page.get_text()
        doc.close()
        return text
    except Exception as e:
        print(f"  -> エラー: {filepath} の読み込みに失敗 - {e}")
        return None

papers_dir = './papers'
all_papers_data = []

print("Embedding用AIモデルの読み込みを開始します...")
model = SentenceTransformer('intfloat/multilingual-e5-base')
print("モデルの読み込み完了。")

print("\n論文のEmbedding生成を開始します...")

# ▼▼▼ .docxと.pdfの両方のファイルをリストアップするように修正 ▼▼▼
file_list = [f for f in os.listdir(papers_dir) if f.lower().endswith(('.docx', '.pdf'))]

for filename in file_list:
    filepath = os.path.join(papers_dir, filename)
    print(f"{filename}を処理中...")
    
    text = ""
    # ▼▼▼ ファイルの拡張子によって処理を分岐 ▼▼▼
    if filename.lower().endswith('.docx'):
        text = get_text_from_docx(filepath)
    elif filename.lower().endswith('.pdf'):
        text = get_text_from_pdf(filepath)

    if not text:
        continue

    # 埋め込み用のテキストには 'passage: ' というプレフィックスを付ける
    content_to_embed = f"passage: {text}"

    try:
        embedding = model.encode(content_to_embed, normalize_embeddings=True).tolist()
        
        paper_data = {
            "filename": filename,
            "content": text[:500] + "...",  # プレビュー用に最初の500文字を保存
            "embedding": embedding
        }
        all_papers_data.append(paper_data)
        print("  -> Embedding生成完了。")

    except Exception as e:
        print(f"  -> Embedding生成中にエラーが発生しました: {e}")
        
# JSONファイルに書き出し
output_filename = 'papers.json'
with open(output_filename, 'w', encoding='utf-8') as f:
    json.dump(all_papers_data, f, ensure_ascii=False, indent=2)

print(f"\n全ての論文のEmbedding生成が完了し、'{output_filename}'に保存しました。")

Collecting PyMuPDF
  Downloading pymupdf-1.26.3-cp39-abi3-win_amd64.whl.metadata (3.4 kB)
Downloading pymupdf-1.26.3-cp39-abi3-win_amd64.whl (18.7 MB)
   ---------------------------------------- 0.0/18.7 MB ? eta -:--:--
   ---------------------------------------- 0.1/18.7 MB 1.1 MB/s eta 0:00:18
    --------------------------------------- 0.3/18.7 MB 3.6 MB/s eta 0:00:06
   - -------------------------------------- 0.7/18.7 MB 5.2 MB/s eta 0:00:04
   -- ------------------------------------- 1.4/18.7 MB 7.4 MB/s eta 0:00:03
   ---- ----------------------------------- 1.9/18.7 MB 8.2 MB/s eta 0:00:03
   ----- ---------------------------------- 2.5/18.7 MB 9.0 MB/s eta 0:00:02
   ------ --------------------------------- 2.9/18.7 MB 8.9 MB/s eta 0:00:02
   ------- -------------------------------- 3.5/18.7 MB 9.3 MB/s eta 0:00:02
   -------- ------------------------------- 3.9/18.7 MB 9.3 MB/s eta 0:00:02
   ---------- ----------------------------- 4.7/18.7 MB 10.0 MB/s eta 0:00:02
   -----


[notice] A new release of pip is available: 24.0 -> 25.1.1
[notice] To update, run: C:\Users\kotas\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip
  from .autonotebook import tqdm as notebook_tqdm


Embedding用AIモデルの読み込みを開始します...
モデルの読み込み完了。

論文のEmbedding生成を開始します...
02_内山田湖太_卒論_最終版.docxを処理中...
  -> Embedding生成完了。
2005 matsumoto yoo hirayama petrova.pdfを処理中...
  -> Embedding生成完了。
CV_20250708_2024000371.pdfを処理中...
  -> Embedding生成完了。
EI_16_田中慶人_卒論v4.docxを処理中...
  -> Embedding生成完了。
hujii.pdfを処理中...
  -> Embedding生成完了。
ito.pdfを処理中...
  -> Embedding生成完了。
kaku.docxを処理中...
  -> Embedding生成完了。
kazuki.docxを処理中...
  -> Embedding生成完了。
mae.docxを処理中...
  -> Embedding生成完了。
naka.docxを処理中...
  -> Embedding生成完了。
oisi - コピー - コピー.docxを処理中...
  -> Embedding生成完了。
oisi - コピー.docxを処理中...
  -> Embedding生成完了。
oisi.docxを処理中...
  -> Embedding生成完了。
soma - コピー.docxを処理中...
  -> Embedding生成完了。
soma.docxを処理中...
  -> Embedding生成完了。
The Japanese Journal of Health Psychology, 2007, Vol.20, No.2, 30-41.pdfを処理中...
  -> Embedding生成完了。
自分の卒論.docxを処理中...
  -> Embedding生成完了。

全ての論文のEmbedding生成が完了し、'papers.json'に保存しました。
