In [7]:
# ========================================
# Cell 1: 라이브러리 import 및 설정
# ========================================

import os
import sys
import pandas as pd
sys.path.append(os.path.abspath('../src'))

from processors.pdf_text_extractor import PDFTextExtractor
from processors.pdf_pair_matcher import PDFPairMatcher
from processors.translation_pair_generator import TranslationPairGenerator
from config import PROCESSED_DIR, PDF_DOWNLOAD_DIR

# 처리할 언어 쌍들 정의
LANGUAGE_PAIRS = [
    ('en', 'ko'),  # 영어-한국어
    ('en', 'ja'),  # 영어-일본어
]

# 필요한 디렉토리 생성
os.makedirs(PROCESSED_DIR, exist_ok=True)

print(f"🌐 처리할 언어 쌍: {LANGUAGE_PAIRS}")
print(f"📁 PDF 폴더: {PDF_DOWNLOAD_DIR}")
print(f"📁 결과 저장 폴더: {PROCESSED_DIR}")

# PDF 폴더 존재 확인
for lang_pair in LANGUAGE_PAIRS:
    for lang in lang_pair:
        lang_dir = os.path.join(PDF_DOWNLOAD_DIR, lang)
        if os.path.exists(lang_dir):
            pdf_count = len([f for f in os.listdir(lang_dir) if f.endswith('.pdf')])
            print(f"   - {lang.upper()}: {pdf_count}개 PDF")
        else:
            print(f"   - {lang.upper()}: ❌ 폴더 없음 ({lang_dir})")




🌐 처리할 언어 쌍: [('en', 'ko'), ('en', 'ja')]
📁 PDF 폴더: /mnt/d/Cloud-Synced/Illumina/OneDrive - Illumina, Inc/aem_qa_system/data/2_downloaded/pdfs
📁 결과 저장 폴더: /mnt/d/Cloud-Synced/Illumina/OneDrive - Illumina, Inc/aem_qa_system/data/3_processed
   - EN: 101개 PDF
   - KO: ❌ 폴더 없음 (/mnt/d/Cloud-Synced/Illumina/OneDrive - Illumina, Inc/aem_qa_system/data/2_downloaded/pdfs/ko)
   - EN: 101개 PDF
   - JA: 95개 PDF


In [8]:
# ========================================
# Cell 2: 모든 언어 쌍 처리
# ========================================

extractor = PDFTextExtractor()
generator = TranslationPairGenerator(similarity_threshold=0.9)

all_results = {}

for source_lang, target_lang in LANGUAGE_PAIRS:
    print(f"\n{'='*80}")
    print(f"🔄 {source_lang.upper()}-{target_lang.upper()} 언어 쌍 처리 시작")
    print(f"{'='*80}")
    
    # 1. PDF 페어 찾기
    matcher = PDFPairMatcher(source_lang, target_lang)
    pdf_pairs = matcher.find_pdf_pairs()
    
    if not pdf_pairs:
        print(f"❌ {source_lang.upper()}-{target_lang.upper()} PDF 페어를 찾을 수 없습니다.")
        continue
    
    # 2. 번역 쌍 생성
    pairs_for_this_language = []
    
    for i, (source_path, target_path) in enumerate(pdf_pairs):
        print(f"\n[{i+1}/{len(pdf_pairs)}] 처리 중: {os.path.basename(target_path)}")
        
        try:
            # 텍스트 추출
            source_segments = extractor.extract_segments_from_pdf(source_path)
            target_segments = extractor.extract_segments_from_pdf(target_path)
            
            print(f"   - {source_lang.upper()}: {len(source_segments)}개, {target_lang.upper()}: {len(target_segments)}개 세그먼트")
            
            # 번역 쌍 생성
            pairs = generator.generate_pairs(
                source_segments, target_segments, target_path, 
                source_lang, target_lang
            )
            pairs_for_this_language.extend(pairs)
            
            print(f"   - ✅ {len(pairs)}개 번역 쌍 생성")
            
        except Exception as e:
            print(f"   - ❌ 오류: {e}")
    
    all_results[f"{source_lang}_{target_lang}"] = pairs_for_this_language
    print(f"\n🎉 {source_lang.upper()}-{target_lang.upper()}: 총 {len(pairs_for_this_language)}개 번역 쌍 완료!")





🔄 EN-KO 언어 쌍 처리 시작
❌ 매칭 테이블을 찾을 수 없습니다: /mnt/d/Cloud-Synced/Illumina/OneDrive - Illumina, Inc/aem_qa_system/data/1_input/pdf_list_master_en_ko.csv
❌ EN-KO PDF 페어를 찾을 수 없습니다.

🔄 EN-JA 언어 쌍 처리 시작
📋 EN-JA 매칭 테이블에서 101개 항목을 로드했습니다.
✅ 실제 존재하는 100개의 EN-JA PDF 페어를 발견했습니다.

[1/100] 처리 중: nextseq-1000-2000-wgs-app-note-M-GL-01148-jpn.pdf
   - EN: 163개, JA: 108개 세그먼트
🤖 임베딩 모델을 로드하는 중...
✅ 임베딩 모델 로드 완료.


  return forward_call(*args, **kwargs)


   - ✅ 19개 번역 쌍 생성

[2/100] 처리 중: trusight-oncology-500-ctdna-data-sheet-m-gl-00843-jpn.pdf
   - EN: 356개, JA: 176개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 63개 번역 쌍 생성

[3/100] 처리 중: scrna-seq-app-note-m-gl-01139-jpn.pdf
   - EN: 1026개, JA: 583개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 426개 번역 쌍 생성

[4/100] 처리 중: illumina-long-read-prep-data-sheet-m-gl-01420-jpn.pdf
   - EN: 245개, JA: 137개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 60개 번역 쌍 생성

[5/100] 처리 중: emedgene-data-sheet-m-gl-01057-jpn.pdf
   - EN: 321개, JA: 118개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 44개 번역 쌍 생성

[6/100] 처리 중: dragen-bio-it-data-sheet-m-gl-00680-jpn.pdf
   - EN: 398개, JA: 191개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 74개 번역 쌍 생성

[7/100] 처리 중: respiratory-pathogen-id-amr-panel-flyer-m-gl-00114-jpn.pdf
   - EN: 99개, JA: 43개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 26개 번역 쌍 생성

[8/100] 처리 중: ilmn-long-read-hu-tech-note-m-gl-01421-jpn.pdf
   - EN: 232개, JA: 136개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 46개 번역 쌍 생성

[9/100] 처리 중: upip-flyer-m-gl-01191-jpn.pdf
   - EN: 55개, JA: 22개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 11개 번역 쌍 생성

[10/100] 처리 중: predict-data-sheet-m-gl-01186-jpn.pdf
   - EN: 237개, JA: 126개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 50개 번역 쌍 생성

[11/100] 처리 중: agrigenomics-research-review-jpn.pdf
   - EN: 2890개, JA: 1839개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 1164개 번역 쌍 생성

[12/100] 처리 중: gene-editing-publication-dl.html
   - EN: 1681개, JA: 36개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 3개 번역 쌍 생성

[13/100] 처리 중: singlecell-publication-vol2-dl.html
   - EN: 6026개, JA: 24개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 1개 번역 쌍 생성

[14/100] 처리 중: complex-disease-publication-dl.html
   - EN: 2776개, JA: 25개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 1개 번역 쌍 생성

[15/100] 처리 중: emedgene-brochure-m-gl-01089-jpn.pdf
   - EN: 105개, JA: 25개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 10개 번역 쌍 생성

[16/100] 처리 중: miseqdx-instrument-data-sheet-m-na-00005-jpn.pdf
   - EN: 297개, JA: 77개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 32개 번역 쌍 생성

[17/100] 처리 중: novaseq-6000dx-system-spec-sheet-m-gl-00766-jpn.pdf
   - EN: 227개, JA: 85개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 28개 번역 쌍 생성

[18/100] 처리 중: cancer-research-methods-guide-m-amr-00521-jpn.pdf
   - EN: 2042개, JA: 548개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 277개 번역 쌍 생성

[19/100] 처리 중: novaseqx-applications-ebook-m-gl-01796-jpn.pdf
   - EN: 1299개, JA: 652개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 486개 번역 쌍 생성

[20/100] 처리 중: illumina-connected-analytics-okayama-case-study-m-gl-01639-jpn.pdf
   - EN: 85개, JA: 35개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 10개 번역 쌍 생성

[21/100] 처리 중: multiomics-ebook-m-gl-00120-jpn.pdf
   - EN: 680개, JA: 197개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 114개 번역 쌍 생성

[22/100] 처리 중: gene-expression-ebook-m-gl-00258-jpn.pdf
   - EN: 1176개, JA: 712개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 518개 번역 쌍 생성

[23/100] 처리 중: cgp-ebook-m-gl-00129-jpn.pdf
   - EN: 844개, JA: 463개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 357개 번역 쌍 생성

[24/100] 처리 중: novaseq-x-series-brochure-m-us-00202-jpn.pdf
   - EN: 197개, JA: 40개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 9개 번역 쌍 생성

[25/100] 처리 중: novaseq-x-series-specification-sheet-m-us-00197-jpn.pdf
   - EN: 440개, JA: 174개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 96개 번역 쌍 생성

[26/100] 처리 중: novaseq-x-data-concordance-app-note-m-us-00201-jpn.pdf
   - EN: 381개, JA: 189개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 73개 번역 쌍 생성

[27/100] 처리 중: illmn-nanostring-geomx-proteo-app-note-m-gl-00968-jpn.pdf
   - EN: 352개, JA: 184개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 76개 번역 쌍 생성

[28/100] 처리 중: illmn-nanostring-geomx-app-note-m-gl-00223-jpn.pdf
   - EN: 252개, JA: 113개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 46개 번역 쌍 생성

[29/100] 처리 중: 10x-gene-expression-tech-note-m-gl-00777-jpn.pdf
   - EN: 328개, JA: 199개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 107개 번역 쌍 생성

[30/100] 처리 중: multiomic-approach-immunology-10x-genomics-m-gl-00488-jpn.pdf
   - EN: 435개, JA: 229개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 103개 번역 쌍 생성

[31/100] 처리 중: nextseq-1k-2k-immune-repertoire-sequencing-m-gl-01149-jpn.pdf
   - EN: 226개, JA: 120개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 53개 번역 쌍 생성

[32/100] 처리 중: nextseq-1000-2000-exome-app-note-m-gl-00479-jpn.pdf
   - EN: 342개, JA: 191개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 83개 번역 쌍 생성

[33/100] 처리 중: ica-data-sheet-m-gl-00684-jpn.pdf
   - EN: 311개, JA: 145개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 59개 번역 쌍 생성

[34/100] 처리 중: novaseq-x-software-ecosystem-tech-note-m-gl-01587-jpn.pdf
   - EN: 313개, JA: 134개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 53개 번역 쌍 생성

[35/100] 처리 중: illumina-connected-insights-data-sheet-m-gl-01399-jpn.pdf
   - EN: 434개, JA: 159개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 71개 번역 쌍 생성

[36/100] 처리 중: 10x-multiomics-tech-note-m-amr-00006-jpn.pdf
   - EN: 291개, JA: 153개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 64개 번역 쌍 생성

[37/100] 처리 중: single-cell-e-book-dl.html
   - EN: 1007개, JA: 27개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 4개 번역 쌍 생성

[38/100] 처리 중: new-to-ngs-ebook-m-amr-00948-jpn.pdf
   - EN: 747개, JA: 292개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 154개 번역 쌍 생성

[39/100] 처리 중: srst-hai-app-note-m-gl-01570-jpn.pdf
   - EN: 153개, JA: 84개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 41개 번역 쌍 생성

[40/100] 처리 중: public-health-surveillance-ebook-jpn.pdf
   - EN: 1006개, JA: 432개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 228개 번역 쌍 생성

[41/100] 처리 중: illumina-connected-insights-data-sheet-m-jp-00141-jpn.pdf
   - EN: 435개, JA: 185개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 86개 번역 쌍 생성

[42/100] 처리 중: emedgene-genetic-disease-research-brochure-m-gl-00570-jpn.pdf
   - EN: 111개, JA: 29개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 5개 번역 쌍 생성

[43/100] 처리 중: dna-methylation-ewas-ebook-m-gl-02112-jpn.pdf
   - EN: 1465개, JA: 651개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 346개 번역 쌍 생성

[44/100] 처리 중: miseq-data-sheet-m-gl-00006-jpn.pdf
   - EN: 172개, JA: 81개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 33개 번역 쌍 생성

[45/100] 처리 중: novaseq-6000-spec-sheet-m-gl-00271-jpn.pdf
   - EN: 329개, JA: 149개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 60개 번역 쌍 생성

[46/100] 처리 중: ribozero-microbiome-app-note-m-gl-00692-jpn.pdf
   - EN: 246개, JA: 159개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 55개 번역 쌍 생성

[47/100] 처리 중: appnote_miseq_denovo-J.pdf
   - EN: 105개, JA: 76개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 20개 번역 쌍 생성

[48/100] 처리 중: microbial-single-genome-guide-m-gl-02702-jpn.pdf
   - EN: 421개, JA: 162개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 96개 번역 쌍 생성

[49/100] 처리 중: iseq100-1-channel-tech-note-770-2013-054-jpn.pdf
   - EN: 206개, JA: 127개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 43개 번역 쌍 생성

[50/100] 처리 중: illumina-genomics-architecture-app-note-m-gl-01991-jpn.pdf
   - EN: 123개, JA: 61개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 17개 번역 쌍 생성

[51/100] 처리 중: dragen-popgen-tech-note-m-gl-00561-jpn.pdf
   - EN: 292개, JA: 162개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 57개 번역 쌍 생성

[52/100] 처리 중: ica-data-security-white-paper-m-gl-00333-jpn.pdf
   - EN: 571개, JA: 179개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 58개 번역 쌍 생성

[53/100] 처리 중: ilmn-long-read-enrich-data-sheet-m-gl-02188-jpn.pdf
   - EN: 392개, JA: 221개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 116개 번역 쌍 생성

[54/100] 처리 중: long-read-enrich-custom-tech-note-m-gl-02189-jpn.pdf
   - EN: 274개, JA: 151개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 72개 번역 쌍 생성

[55/100] 처리 중: iCommunity-Territory-Pathology-M-GL-00868-jpn.pdf
   - EN: 344개, JA: 111개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 21개 번역 쌍 생성

[56/100] 처리 중: infinium-global-clinical-research-array-data-sheet-m-gl-00713-jpn.pdf
   - EN: 355개, JA: 171개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 100개 번역 쌍 생성

[57/100] 처리 중: tso500-ctdna-v2-data-sheet-m-gl-02196-jpn.pdf
   - EN: 721개, JA: 426개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 189개 번역 쌍 생성

[58/100] 처리 중: tso-500-ctdna-v2-input-titration-tech-note-m-gl-02229-jpn.pdf
   - EN: 207개, JA: 110개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 47개 번역 쌍 생성

[59/100] 처리 중: viral-surveillance-panel-v2-data-sheet-m-gl-02882-jpn.pdf
   - EN: 342개, JA: 143개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 56개 번역 쌍 생성

[60/100] 처리 중: tso500-ctdna-v1-v2-concordance-m-gl-02230-jpn.pdf
   - EN: 326개, JA: 205개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 87개 번역 쌍 생성

[61/100] 처리 중: trusight-oncology-500-and-ht-data-sheet-m-gl-00173-jpn.pdf
   - EN: 688개, JA: 399개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 167개 번역 쌍 생성

[62/100] 처리 중: illumina-connected-analytics-flyer-m-gl-00682-jpn.pdf
   - EN: 73개, JA: 24개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 13개 번역 쌍 생성

[63/100] 처리 중: illumina-connected-analytics-flyer-m-gl-00682-jpn.pdf
   - EN: 73개, JA: 24개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 13개 번역 쌍 생성

[64/100] 처리 중: dragen-on-basespace-970-2019-015-jpn.pdf
   - EN: 166개, JA: 93개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 41개 번역 쌍 생성

[65/100] 처리 중: illumina-protein-prep-data-sheet-m-gl-02533-jpn.pdf
   - EN: 252개, JA: 105개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 39개 번역 쌍 생성

[66/100] 처리 중: infinium-global-screening-array-data-sheet-m-gl-00712-jpn.pdf
   - EN: 399개, JA: 188개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 101개 번역 쌍 생성

[67/100] 처리 중: illumina-stranded-total-rna-prep-data-sheet-m-gl-02148-jpn.pdf
   - EN: 269개, JA: 169개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 63개 번역 쌍 생성

[68/100] 처리 중: miseq-i100-specification-sheet-m-gl-02244-jpn.pdf
   - EN: 384개, JA: 146개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 64개 번역 쌍 생성

[69/100] 처리 중: iseq100-system-spec-sheet-m-gl-00456-jpn.pdf
   - EN: 255개, JA: 115개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 40개 번역 쌍 생성

[70/100] 처리 중: iseq100-16s-app-note-770-2018-009-jpn.pdf
   - EN: 253개, JA: 176개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 62개 번역 쌍 생성

[71/100] 처리 중: 10x-visium-tech-note-m-gl-00177-jpn.pdf
   - EN: 311개, JA: 162개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 78개 번역 쌍 생성

[72/100] 처리 중: nextseq-1000-2000-metagenomics-app-note-m-gl-01147-jpn.pdf
   - EN: 242개, JA: 176개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 55개 번역 쌍 생성

[73/100] 처리 중: nextseq-1000-2000-rna-seq-app-note-m-gl-00480-jpn.pdf
   - EN: 358개, JA: 203개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 86개 번역 쌍 생성

[74/100] 처리 중: nextseq-1000-2000-single-cell-app-note-m-gl-00478-jpn.pdf
   - EN: 267개, JA: 123개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 54개 번역 쌍 생성

[75/100] 처리 중: nextseq-1000-2000-spec-sheet-m-na-00008.pdf
   - EN: 478개, JA: 478개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 436개 번역 쌍 생성

[76/100] 처리 중: nextseq-600c-16s-rrna-application-note-m-gl-01146-jpn.pdf
   - EN: 380개, JA: 175개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 47개 번역 쌍 생성

[77/100] 처리 중: illumina-cfdna-prep-enrich-m-gl-02096-jpn.pdf
   - EN: 436개, JA: 221개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 76개 번역 쌍 생성

[78/100] 처리 중: library-preparation-solutions-m-gl-00033-jpn.pdf
   - EN: 388개, JA: 153개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 84개 번역 쌍 생성

[79/100] 처리 중: illumina-dna-pcr-free-data-sheet-m-gl-00679-jpn.pdf
   - EN: 309개, JA: 160개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 49개 번역 쌍 생성

[80/100] 처리 중: illumina-dna-prep-data-sheet-m-gl-01373-jpn.pdf
   - EN: 272개, JA: 110개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 40개 번역 쌍 생성

[81/100] 처리 중: ilmn-microbial-amplicon-prep-data-sheet-m-gl-01788-jpn.pdf
   - EN: 152개, JA: 76개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 34개 번역 쌍 생성

[82/100] 처리 중: sequencing-platforms-brochure-m-gl-00451-jpn.pdf
   - EN: 205개, JA: 20개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 10개 번역 쌍 생성

[83/100] 처리 중: illumina-rna-prep-enrich-data-sheet-m-gl-02145-jpn.pdf
   - EN: 283개, JA: 163개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 57개 번역 쌍 생성

[84/100] 처리 중: rna-seq-workflows-guide-m-gl-00034-jpn.pdf
   - EN: 648개, JA: 337개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 221개 번역 쌍 생성

[85/100] 처리 중: 16s-rrna-seq-methods-guide-m-gl-02701-jpn.pdf
   - EN: 208개, JA: 104개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 55개 번역 쌍 생성

[86/100] 처리 중: shotgun-metagenomics-methods-guide-1270-2020-005-jpn.pdf
   - EN: 396개, JA: 153개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 83개 번역 쌍 생성

[87/100] 처리 중: infectious-disease-brochure-m-gl-02404.pdf
   - EN: 324개, JA: 324개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 291개 번역 쌍 생성

[88/100] 처리 중: miseq-i100-data-concordance-app-note-m-gl-02246-jpn.pdf
   - EN: 387개, JA: 216개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 103개 번역 쌍 생성

[89/100] 처리 중: covidseq-omicron-tech-note-m-gl-00691-jpn.pdf
   - EN: 341개, JA: 224개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 91개 번역 쌍 생성

[90/100] 처리 중: illumina-covidseq-tech-note-m-gl-00408-jpn.pdf
   - EN: 188개, JA: 117개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 36개 번역 쌍 생성

[91/100] 처리 중: miseq-i100-library-qc-app-note-m-gl-02871-jpn.pdf
   - EN: 183개, JA: 94개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 42개 번역 쌍 생성

[92/100] 처리 중: miseq-i100-wastewater-surveillance-app-note-m-gl-02915-jpn.pdf
   - EN: 279개, JA: 121개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 63개 번역 쌍 생성

[93/100] 처리 중: miseq-i100-library-optimization-tech-note-m-gl-03322-jpn.pdf
   - EN: 230개, JA: 101개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 39개 번역 쌍 생성

[94/100] 처리 중: service-plans-flyer-m-gl-03189-jpn.pdf
   - EN: 58개, JA: 16개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 10개 번역 쌍 생성

[95/100] 처리 중: miseq-i100-upip-ww-app-note-m-gl-03522-jpn.pdf
   - EN: 298개, JA: 134개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 51개 번역 쌍 생성

[96/100] 처리 중: infinium-methylation-screening-array-data-sheet-m-gl-01893-jpn.pdf
   - EN: 373개, JA: 177개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 88개 번역 쌍 생성

[97/100] 처리 중: illumina-stranded-mrna-prep-data-sheet-m-gl-02143-jpn.pdf
   - EN: 197개, JA: 110개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 38개 번역 쌍 생성

[98/100] 처리 중: workflow-design-eval-service-data-sheet-m-gl-01272-jpn.pdf
   - EN: 113개, JA: 39개 세그먼트
   - ✅ 14개 번역 쌍 생성

[99/100] 처리 중: rna-seq-correlation-engine-tech-note-m-gl-02154-jpn.pdf


  return forward_call(*args, **kwargs)


   - EN: 148개, JA: 68개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 30개 번역 쌍 생성

[100/100] 처리 중: instrument-services-training-brochure-m-gl-02786-jpn.pdf
   - EN: 250개, JA: 43개 세그먼트


  return forward_call(*args, **kwargs)


   - ✅ 14개 번역 쌍 생성

🎉 EN-JA: 총 9682개 번역 쌍 완료!


In [9]:
# ========================================
# Cell 3: 결과 저장
# ========================================

total_pairs = 0

for lang_pair, pairs in all_results.items():
    if pairs:
        # 언어별 개별 파일 저장
        csv_path = os.path.join(PROCESSED_DIR, f"pdf_translation_pairs_{lang_pair}.csv")
        df = pd.DataFrame(pairs)
        df.to_csv(csv_path, index=False, encoding='utf-8-sig')
        
        total_pairs += len(pairs)
        print(f"💾 {lang_pair.upper()} 저장: {csv_path} ({len(pairs)}개)")
        print(f"   📊 평균 유사도: {df['similarity_score'].mean():.3f}")

# 통합 파일 저장 (옵션)
if total_pairs > 0:
    all_pairs_combined = []
    for pairs in all_results.values():
        all_pairs_combined.extend(pairs)
    
    combined_csv_path = os.path.join(PROCESSED_DIR, "pdf_translation_pairs_all.csv")
    combined_df = pd.DataFrame(all_pairs_combined)
    combined_df.to_csv(combined_csv_path, index=False, encoding='utf-8-sig')
    
    print(f"\n📦 통합 파일 저장: {combined_csv_path}")
    print(f"   📊 전체 번역 쌍: {len(all_pairs_combined)}개")
    print(f"   🌐 지원 언어: {combined_df['target_lang'].unique().tolist()}")




💾 EN_JA 저장: /mnt/d/Cloud-Synced/Illumina/OneDrive - Illumina, Inc/aem_qa_system/data/3_processed/pdf_translation_pairs_en_ja.csv (9682개)
   📊 평균 유사도: 0.965

📦 통합 파일 저장: /mnt/d/Cloud-Synced/Illumina/OneDrive - Illumina, Inc/aem_qa_system/data/3_processed/pdf_translation_pairs_all.csv
   📊 전체 번역 쌍: 9682개
   🌐 지원 언어: ['ja']


In [None]:
# ========================================
# Cell 4: 결과 요약
# ========================================

if total_pairs > 0:
    print(f"\n{'='*80}")
    print("📈 다국어 PDF 번역 쌍 추출 완료!")
    print(f"{'='*80}")
    
    for lang_pair, pairs in all_results.items():
        if pairs:
            source_lang, target_lang = lang_pair.split('_')
            df = pd.DataFrame(pairs)
            print(f"\n🌐 {source_lang.upper()}-{target_lang.upper()}:")
            print(f"   📄 번역 쌍: {len(pairs)}개")
            print(f"   📊 평균 유사도: {df['similarity_score'].mean():.3f}")
            print(f"   📁 소스 파일: {df['source_file'].nunique()}개")
            
            # 상위 1개 샘플 보기
            if len(pairs) > 0:
                top_pair = df.nlargest(1, 'similarity_score').iloc[0]
                print(f"   🔍 최고 유사도 ({top_pair['similarity_score']:.3f}):")
                print(f"     {source_lang.upper()}: {top_pair['source_text'][:50]}...")
                print(f"     {target_lang.upper()}: {top_pair['target_text'][:50]}...")
else:
    print("\n⚠️ 생성된 번역 쌍이 없습니다.")