In [1]:
## 문서구조 기반 샘플링 Ver.04 (점수정렬+점수정렬제거)

import pdfplumber
import re
import random

def structure_based_sampling(pdf_path, num_pages=40):
    sampled_pages = []
    total_pages = 0

    with pdfplumber.open(pdf_path) as pdf:
        total_pages = len(pdf.pages)
        
        # 페이지 수가 40 미만이면 샘플링 중단
        if total_pages < 40:
            print("PDF 파일의 페이지 수가 40페이지 미만이므로 샘플링하지 않습니다.")
            return [], []
        
        page_scores = []  # 페이지별 중요도 점수 저장
        
        for i, page in enumerate(pdf.pages):
            text = page.extract_text() or ""
            score = 0
            
            # 목차가 있는 페이지
            if re.search(r"목차|contents", text, re.IGNORECASE):
                score += 5

            # 제목이 큰 글씨 (첫 번째 단어 폰트 크기 분석)
            words = page.extract_words()
            if words and "size" in words[0] and words[0]["size"] > 15:
                score += 3
            
            # 표/그래프가 포함된 페이지
            if len(page.extract_tables()) > 0:
                score += 4
                
            if len(page.images) > 0:
                score += 4

            # 결론/요약이 포함된 페이지
            if re.search(r"결론|요약|summary|conclusion", text, re.IGNORECASE):
                score += 5
            
            # 페이지와 점수를 저장
            page_scores.append((i+1, score, text))
        
        # 페이지 수가 500 미만일 경우 점수 정렬을 적용
        if total_pages < 500:
            # 점수 정렬이 있는 경우
            page_scores.sort(key=lambda x: x[1], reverse=True)
        
            # 중요도가 높은 페이지를 선택
            sampled_pages = []
            sampled_page_numbers = []
            
            unique_scores = list(set(score for _, score, _ in page_scores))
            unique_scores.sort(reverse=True)  # 점수 내림차순 정렬
            
            for score in unique_scores:
                pages_with_same_score = [(p, t) for p, s, t in page_scores if s == score]
                random.shuffle(pages_with_same_score)  # 같은 점수 내에서 랜덤 섞기
                
                for page_num, text in pages_with_same_score:
                    if len(sampled_pages) < num_pages and page_num not in sampled_page_numbers:
                        sampled_page_numbers.append(page_num)
                        sampled_pages.append(text)
                    if len(sampled_pages) >= num_pages:
                        break
                if len(sampled_pages) >= num_pages:
                    break
        else:
            # 500페이지 이상일 경우 점수 정렬 없이 랜덤 샘플링
            sampled_page_numbers = random.sample(range(1, total_pages + 1), num_pages)
            sampled_pages = [pdf.pages[i-1].extract_text() or "" for i in sampled_page_numbers]
        
    return sampled_page_numbers, sampled_pages

pdf_path = r"C:\Users\LG\Desktop\하이브리드굴삭기시스템설계기술개발.pdf"
sampled_page_numbers, sampled_texts = structure_based_sampling(pdf_path, num_pages=40)
print(sampled_page_numbers)
# 결과 출력
if sampled_page_numbers:
    for i, (page_num, text) in enumerate(zip(sampled_page_numbers, sampled_texts[:7])):  # 앞부분만 출력
        print(f"\n 원본 PDF의 {page_num} 페이지:\n{text[:500]}...\n")


[5, 148, 65, 118, 120, 99, 150, 151, 47, 13, 221, 49, 61, 31, 163, 143, 46, 199, 8, 63, 119, 11, 48, 146, 15, 67, 188, 53, 74, 225, 14, 3, 64, 200, 82, 198, 108, 60, 62, 10]

 원본 PDF의 5 페이지:
국가연구개발 보고서원문 성과물 전담기관인 한국과학기술정보연구원에서 가공·서비스 하는 연구보고서는 동의 없이 상업적 및 기타 영리목적으로 사용할 수 없습니다.
3. 개발결과 요약
굴삭기, 하이브리드 동력시스템, 연비, 효율, 회생, 유압펌프모터,
키워드
선회감속기
o 선회-붐 회생 복합형 하이브리드 굴삭기 설계 기술 (기존 엔진
식 굴삭기 대비 35% 이상 연비 향상)
핵심기술
o 붐 에너지 회생용 유압펌프모터 설계/제작/평가 기술
o 고감속 선회감속기 설계 기술 (감속비 70)
o 22톤 중형 굴삭기용 하이브리드 동력시스템 설계기술 개발 및
시작품 제작
¯ 기존 굴삭기 대비 연비 향상율 35%
¯ 작업 성능 100%
¯ CO 총량 35% 이상 저감
2
o 유압에너지 회생용 유압펌프모터 성능 최적화 및 B 10,000hr
10
최종목표
신뢰성 확보
o 하이브리드 굴삭기용 선회감속기 시제품 제작 및 시험/평가 기
술 연구
¯ 감속기 최대 출력토크 : 12,000N.m
¯ 감속기 소음 :...


 원본 PDF의 148 페이지:
국가연구개발 보고서원문 성과물 전담기관인 한국과학기술정보연구원에서 가공·서비스 하는 연구보고서는 동의 없이 상업적 및 기타 영리목적으로 사용할 수 없습니다.
라. 고감속 선회감속기 개발 (한국기계연구원)
1) 1단계 결과 요약
하이브리드 굴삭기용 고토크 선회감속기 기술 개발 1단계 과제에서는
다음과 같은 연구를 수행하였다.
1. 1차년도 개발 내용 및 개발 범위
가. 고토크 선회감속기의 설계, 해석 및 1차 시제품 제작
1) 고토크 선회감속기의 기어트레인 설계 및 해석
가) 선회감속기 기어 트레인 설계 및