# - 필요 라이브러리 import

In [2]:
import win32com.client

import os
from docxcompose.composer import Composer
from docx import Document as Document_compose

# - 문제의 길이 파악

In [None]:
import win32com.client


def get_document_total_height(doc):
    """
    문서 전체의 총 세로 길이를 계산합니다 (포인트 단위).
    """
    try:
        # 페이지 수
        num_pages = doc.ComputeStatistics(2)  # 2: wdStatisticPages

        # 각 페이지의 세로 길이
        page_height = doc.PageSetup.PageHeight  # 포인트 단위

        # 문서 전체 높이 = 페이지 수 * 페이지 높이
        total_height = num_pages * page_height

        return total_height

    finally:
        print("문서 전체 높이 확인 완료")

In [None]:
def get_document_fonts(doc):
    """
    문서에서 사용된 폰트와 크기 정보를 추출합니다.
    """
    try:
        fonts = {}
        for paragraph in doc.Paragraphs:
            font_name = paragraph.Range.Font.Name
            font_size = paragraph.Range.Font.Size

            # 폰트 이름과 크기를 저장
            if font_name not in fonts:
                fonts[font_name] = set()
            fonts[font_name].add(font_size)

        return {font: list(sizes) for font, sizes in fonts.items()}

    finally:
        print("폰트/크기 확인 완료")

In [None]:
def get_document_spacing_info(doc):
    """
    문서 내 글자의 자간(Spacing) 및 행간(LineSpacing) 정보를 추출합니다.
    """
    try:
        spacing_info = []
        for paragraph in doc.Paragraphs:
            line_spacing = paragraph.LineSpacing  # 행간
            for character in paragraph.Range.Characters:
                char_spacing = character.Font.Spacing  # 자간
                spacing_info.append({
                    "line_spacing": line_spacing,
                    "char_spacing": char_spacing
                })

        return spacing_info

    finally:
        print("자간 확인 완료")

In [None]:
def get_document_margins(doc):
    """
    문서의 위, 아래 여백 정보를 추출합니다 (포인트 단위).
    """
    try:
        # 위쪽 및 아래쪽 여백 가져오기
        top_margin = doc.PageSetup.TopMargin    # 위 여백 (pt 단위)
        bottom_margin = doc.PageSetup.BottomMargin  # 아래 여백 (pt 단위)

        return {
            "top_margin": top_margin,
            "bottom_margin": bottom_margin
        }

    finally:
        print("위/아래 여백 확인")

In [None]:
import win32com.client
import os

def calculate_content_height(doc):
    """
    Word 문서 내용의 전체 높이를 계산합니다.
    (텍스트 높이 + 행간 + 이미지 높이)
    """
    try:
        # 전체 높이를 계산하기 위한 변수
        total_text_height = 0
        total_image_height = 0

        # 텍스트 높이와 행간 계산
        for paragraph in doc.Paragraphs:
            font_size = paragraph.Range.Font.Size  # 폰트 크기 (pt)
            line_spacing = paragraph.LineSpacing  # 행간 (pt)
            
            # 문단 내 줄 수 계산
            line_count = paragraph.Range.ComputeStatistics(1)  # 1은 wdStatisticLines
            
            # 문단 높이 계산
            paragraph_height = (font_size * line_count) + (line_spacing * (line_count - 1))
            total_text_height += paragraph_height

        # 이미지 높이 계산
        for shape in doc.InlineShapes:
            total_image_height += shape.Height

        # 총 높이 계산
        total_height = total_text_height + total_image_height

        return {
            "text_height": total_text_height,
            "image_height": total_image_height,
            "total_height": total_height
        }
        
    except:
        print("문서 내용 전체 확인 오류류")
    
    finally:
        print("문서 전체 내용 높이 확인")

In [None]:
file_list = ["Q_1", "Q_2", "Q_3", "Q_4"]

# .ipynb 경로
base_path = os.getcwd()

word = win32com.client.Dispatch("Word.Application")
word.Visible = False

for file in file_list:
    doc_path = os.path.join(base_path, f"word_files\{file}.docx")
    # doc_path = r"D:\YearDreamSchool-D\python_projects\msword_pjt\word_files\Q_1.docx"
    
    # 문서 파일 열기
    doc = word.Documents.Open(doc_path)


    #--------- 문서 전체 높이 확인 ---------
    total_height = get_document_total_height(doc)

    print(f"문서 전체 높이: {total_height} pt")

    #--------- 문서 전체 높이 확인 ---------
    fonts = get_document_fonts(doc)

    print("문서에서 사용된 폰트와 크기:")
    for font, sizes in fonts.items():
        print(f" - {font}: {sizes}")

    #--------- 문서 전체 높이 확인 ---------
    spacing_info = get_document_spacing_info(doc)

    print("문서 자간 및 행간 정보:")
    for info in spacing_info[:5]:  # 첫 5개만 출력
        print(f" - 행간: {info['line_spacing']} pt, 자간: {info['char_spacing']} pt")

    #--------- 문서 전체 높이 확인 ---------
    margins = get_document_margins(doc)

    print("문서 여백 정보:")
    print(f" - 위 여백: {margins['top_margin']} pt")
    print(f" - 아래 여백: {margins['bottom_margin']} pt")

    #--------- 문서 전체 높이 확인 ---------
    content_height = calculate_content_height(doc)

    print("문서 내용 높이 정보:")
    print(f" - 텍스트 높이: {content_height['text_height']} pt")
    print(f" - 이미지 높이: {content_height['image_height']} pt")
    print(f" - 총 높이: {content_height['total_height']} pt")

    print("\n", "--------------------------------------------------------", "\n")
    
    # 문서 닫기
    doc.Close(False)

word.Quit()

In [1]:
import win32com.client

def get_document_info(doc):
    """
    Word 문서의 주요 정보를 하나의 함수에서 추출합니다.
    """
    try:
        # 초기 데이터 구조
        document_info = {
            "total_height": None,
            "fonts": {},
            "spacing_info": [],
            "margins": {},
            "content_height": {
                "text_height": 0,
                "image_height": 0,
                "total_height": 0
            }
        }

        # 총 세로 길이 계산
        num_pages = doc.ComputeStatistics(2)  # 2: wdStatisticPages
        page_height = doc.PageSetup.PageHeight  # 포인트 단위
        document_info["total_height"] = num_pages * page_height

        # 폰트 정보 추출
        fonts = {}
        for paragraph in doc.Paragraphs:
            font_name = paragraph.Range.Font.Name
            font_size = paragraph.Range.Font.Size
            if font_name not in fonts:
                fonts[font_name] = set()
            fonts[font_name].add(font_size)
        document_info["fonts"] = {font: list(sizes) for font, sizes in fonts.items()}

        # 자간 및 행간 정보 추출
        for paragraph in doc.Paragraphs:
            line_spacing = paragraph.LineSpacing
            for character in paragraph.Range.Characters:
                char_spacing = character.Font.Spacing
                document_info["spacing_info"].append({
                    "line_spacing": line_spacing,
                    "char_spacing": char_spacing
                })

        # 여백 정보 추출
        document_info["margins"] = {
            "top_margin": doc.PageSetup.TopMargin,
            "bottom_margin": doc.PageSetup.BottomMargin
        }

        # 내용의 전체 높이 계산
        total_text_height = 0
        total_image_height = 0

        for paragraph in doc.Paragraphs:
            font_size = paragraph.Range.Font.Size
            line_spacing = paragraph.LineSpacing
            line_count = paragraph.Range.ComputeStatistics(1)  # 1은 wdStatisticLines
            paragraph_height = (font_size * line_count) + (line_spacing * (line_count - 1))
            total_text_height += paragraph_height

        for shape in doc.InlineShapes:
            total_image_height += shape.Height

        document_info["content_height"] = {
            "text_height": total_text_height,
            "image_height": total_image_height,
            "total_height": total_text_height + total_image_height
        }

        return document_info
    
    except:
        print("Error")

    # finally:
    #     print("문서 정보 확인 완료")


In [3]:
import os

# 1. get_document_info 에서 처음 붙여넣을 문서의 사용 가능한 픽셀 확인 (내용 길이 pt도 알아야 함)
# 2. 붙여 넣을 파일들의 내용 길이 pt를 확인
# 3. "사용 가능한 pt"와 붙일 내용의 pt를 확인해서 페이지를 벗어날 경우 다음 페이지에 새로 붙여넣음

# 여기서는 이미 병합할 파일 목록이 넘어온 상태
# 묶어서 

# .ipynb 경로
base_path = os.getcwd()

file_list = os.listdir(os.path.join(base_path, "word_files", "q"))

word = win32com.client.Dispatch("Word.Application")
word.Visible = False

# 문서 내 사용 가능한 pt
usable_pt = 0
# 문서의 행간 pt
line_spacing_pt = 0
# 현재 문서안의 내용 pt
current_text_pt = 0

for idx, file in enumerate(file_list):
    doc_path = os.path.join(base_path, f"word_files\q\{file}")
    # doc_path = r"D:\YearDreamSchool-D\python_projects\msword_pjt\word_files\Q_1.docx"
    
    # 문서 파일 열기
    doc = word.Documents.Open(doc_path)

    # 결과 저장
    result = get_document_info(doc)
        
    print(f"문서의 전체 길이 : {result['total_height']}")
    print(f"폰트 : {result['fonts']}")

    print(list(result["fonts"].values())[-1][0])


    print(f"자간, 행간 : {result['spacing_info']}")
    print(f"여백 : {result['margins']}")
    print(f"전체 길이 : {result['content_height']['total_height']}")
    print("\n", "--------------------------------------------------------", "\n")
    
    # 문서 닫기
    doc.Close(False)

word.Quit()

문서의 전체 길이 : 841.9000244140625
폰트 : {'Arial': [11.0]}
11.0
자간, 행간 : [{'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spacing': 0.0}, {'line_spacing': 13.800000190734863, 'char_spac

In [4]:
"""
import os
import win32com.client

def group_docs_by_page(base_path, file_list):
    """
    base_path : 단일 파일이 들어있는 폴더의 상위 경로 (ex: .../word_files/q)
    file_list : Word 파일 이름의 리스트 (ex: ["Q_short_01.docx", "Q_short_02.docx", ...])
    
    각 문서의 pt를 측정하여,
    한 페이지에 들어갈 수 있는 문서들을 한 덩어리(리스트)로 묶고,
    페이지가 넘어가면 새 리스트를 생성해 2차원 리스트를 반환합니다.
    """

    # Word Application 객체 생성
    word = win32com.client.Dispatch("Word.Application")
    word.Visible = False

    # 최종 결과(2차원 리스트)
    grouped_pages = []
    # 현재 페이지(서브 리스트)가 될 리스트
    current_page = []

    # 누적 문서 길이 (현재 페이지에 추가된 문서들의 길이 + 행간)
    current_text_pt = 0
    # 한 페이지에 쓸 수 있는 최대 pt (마스터 문서의 양식 기준)
    usable_pt = 0
    # 행간 pt (문제 사이를 구분하는 용도)
    line_spacing_pt = 0

    for idx, filename in enumerate(file_list):
        doc_path = os.path.join(base_path, filename)

        # Word 문서 열기
        doc = word.Documents.Open(doc_path, Visible=False)
        result = get_document_info(doc)
        doc.Close(False)

        # 문서 내용 높이
        inner_text_pt = result["content_height"]["total_height"]

        # 첫 파일(마스터 문서) 처리
        if idx == 0:
            # "문서 전체길이 - (위/아래 마진)" 으로 usable_pt 설정
            top_margin = result['margins']["top_margin"]
            bottom_margin = result['margins']["bottom_margin"]
            total_height = result["total_height"]
            usable_pt = total_height - (top_margin + bottom_margin)

            # 행간 (임의로 첫 문서에서 가져온다)
            line_spacing_pt = result['spacing_info'][0]['line_spacing']

            # 마스터 문서는 우선 현재 페이지에 넣고,
            # 길이 누적 (문서를 추가할 때, 통상 "문서길이 + 행간" 정도를 보는 경우가 많음)
            current_page.append(filename)
            current_text_pt = inner_text_pt  # 첫 문서이므로 일단 누적 = 내용길이
        else:
            # 다음 문서가 현재 페이지에 들어갈 수 있는지 확인
            # "기존 누적 길이 + (행간) + (문서 내용 길이)"
            if current_text_pt + line_spacing_pt + inner_text_pt <= usable_pt:
                # 같은 페이지에 추가 가능
                current_page.append(filename)
                # 길이 누적
                current_text_pt += (line_spacing_pt + inner_text_pt)
            else:
                # 넘칠 경우, 새 페이지(새 리스트)로 넘긴다
                grouped_pages.append(current_page)  # 지금까지의 페이지를 저장
                # 새로운 페이지 초기화
                current_page = [filename]
                current_text_pt = inner_text_pt  # 새 페이지이므로 다시 초기화

    # 모든 문서를 다 돌고 난 후, 마지막 페이지가 비어있지 않다면 추가
    if current_page:
        grouped_pages.append(current_page)

    word.Quit()

    return grouped_pages
"""

In [43]:
import os
import win32com.client

def get_document_info(doc):
    """
    Word 문서의 주요 정보를 하나의 함수에서 추출합니다.
    """
    try:
        # 초기 데이터 구조
        document_info = {
            "total_height": None,
            "fonts": {},
            "spacing_info": [],
            "margins": {},
            "content_height": {
                "text_height": 0,
                "image_height": 0,
                "total_height": 0
            }
        }

        # 총 세로 길이 계산
        num_pages = doc.ComputeStatistics(2)  # 2: wdStatisticPages
        page_height = doc.PageSetup.PageHeight  # 포인트 단위
        document_info["total_height"] = page_height

        # 폰트 정보 추출
        fonts = {}
        for paragraph in doc.Paragraphs:
            font_name = paragraph.Range.Font.Name
            font_size = paragraph.Range.Font.Size
            if font_name not in fonts:
                fonts[font_name] = set()
            fonts[font_name].add(font_size)
        document_info["fonts"] = {font: list(sizes) for font, sizes in fonts.items()}

        # 자간 및 행간 정보 추출
        for paragraph in doc.Paragraphs:
            line_spacing = paragraph.LineSpacing
            for character in paragraph.Range.Characters:
                char_spacing = character.Font.Spacing
                document_info["spacing_info"].append({
                    "line_spacing": line_spacing,
                    "char_spacing": char_spacing
                })

        # 여백 정보 추출
        document_info["margins"] = {
            "top_margin": doc.PageSetup.TopMargin,
            "bottom_margin": doc.PageSetup.BottomMargin, 
            "header_dist": doc.PageSetup.HeaderDistance, 
            "footer_dist": doc.PageSetup.FooterDistance
        }

        # 내용의 전체 높이 계산
        total_text_height = 0
        total_image_height = 0

        ### -------------------------------------------------------------------------------------
        # for paragraph in doc.Paragraphs:
        #     text = paragraph.Range.Text
        #     soft_line_count = text.count("\v")  # Soft Line Break (Shift + Enter) 개수
        #     total_lines = paragraph.Range.ComputeStatistics(1) + soft_line_count

        #     font_size = paragraph.Range.Font.Size
        #     line_spacing = paragraph.LineSpacing
        #     paragraph_height = (font_size * total_lines) + (line_spacing * (total_lines - 1))
            
        #     total_text_height += paragraph_height

        for paragraph in doc.Paragraphs:
            first_line_y = paragraph.Range.Information(5)  # wdVerticalPositionRelativeToPage
            last_line_y = paragraph.Range.End.Information(5)  # 문단 마지막 줄 위치

            paragraph_height = last_line_y - first_line_y
            total_text_height += paragraph_height


        ### 기존 코드
        # for paragraph in doc.Paragraphs:
        #     font_size = paragraph.Range.Font.Size
        #     line_spacing = paragraph.LineSpacing
        #     line_count = paragraph.Range.ComputeStatistics(1)  # 1은 wdStatisticLines
        #     paragraph_height = (font_size * line_count) + (line_spacing * (line_count - 1))
        #     total_text_height += paragraph_height
        ### -------------------------------------------------------------------------------------

        for shape in doc.InlineShapes:
            total_image_height += shape.Height

        document_info["content_height"] = {
            "text_height": total_text_height,
            "image_height": total_image_height,
            "total_height": total_text_height + total_image_height
        }

        return document_info
    
    except:
        print("Error")

    # finally:
    #     print("문서 정보 확인 완료")



def group_docs_by_page(base_path, file_list):
    """
    base_path : 단일 파일이 들어있는 폴더의 상위 경로 (ex: .../word_files/q)
    file_list : Word 파일 이름의 리스트 (ex: ["Q_short_01.docx", "Q_short_02.docx", ...])

    각 문서의 pt를 측정하여,
    한 페이지에 들어갈 수 있는 문서들을 한 덩어리(리스트)로 묶고,
    페이지가 넘어가면 새 리스트를 생성해 2차원 리스트를 반환합니다.

    수정 요청사항:
      "문제 + 한 줄 띄우기 + 문제" 의 높이를
      문제1 높이 + 행간 + 빈 줄 높이 + 행간 + 문제2 높이
      로 계산하여 배치가 가능하면 같은 페이지에, 불가능하면 페이지를 넘긴다.
    """

    word = win32com.client.Dispatch("Word.Application")
    word.Visible = False

    grouped_pages = []   # 최종 결과(2차원 리스트)
    current_page = []    # 현재 페이지에 들어갈 파일들
    current_text_pt = 0  # 현재 페이지에 누적된 문서 높이

    usable_pt = 0        # 한 페이지에서 쓸 수 있는 최대 pt (마스터 문서 기준)
    line_spacing_pt = 0  # 기본 행간(pt)
    
    # "빈 한 줄 높이(폰트 크기)"를 고정 12pt로 예시 설정
    # (get_document_info에서 실제 폰트 크기를 받아오면 그 값으로 대체 가능)
    blank_line_pt = 0

    for idx, filename in enumerate(file_list):
        doc_path = os.path.join(base_path, filename)

        # Word 문서 열기
        doc = word.Documents.Open(doc_path, Visible=False)
        result = get_document_info(doc)
        doc.Close(False)

        print(filename)
        print(result["total_height"])
        print(result["margins"])
        print(result["content_height"])
        print("\n")

        # 이 문서(문제)의 실제 내용 높이
        inner_text_pt = result["content_height"]["total_height"]

        # -------------------------------------
        # 1) 첫 파일(마스터 문서) 처리
        # -------------------------------------
        if idx == 0:
            # usable_pt 계산 = (문서 전체 높이) - (위/아래 마진)
            total_height = result["total_height"]
            top_margin = result['margins']["top_margin"]
            bottom_margin = result['margins']["bottom_margin"]
            header_dist = result["margins"]["header_dist"]
            footer_dist = result["margins"]["footer_dist"]
            usable_pt = total_height - (top_margin + bottom_margin + header_dist + footer_dist)
            blank_line_pt = list(result["fonts"].values())[-1][0]

            # 행간 (예: 첫 문서에서 가져온다)
            line_spacing_pt = result['spacing_info'][0]['line_spacing']

            # 첫 문서는 그냥 현재 페이지에 추가
            current_page.append(filename)
            current_text_pt = inner_text_pt

        # -------------------------------------
        # 2) 두 번째 문서부터
        # -------------------------------------
        else:
            # 만약 현재 페이지가 비어있지 않다면(이미 문제가 하나 이상 들어있다면)
            # "문제 + 한 줄 띄우기 + 문제"의 높이를 고려해야 함
            if len(current_page) > 0:
                # 추가로 필요한 높이 = 행간 + 빈줄 + 행간 + 다음 문서 높이
                needed_pt = line_spacing_pt + blank_line_pt + line_spacing_pt + inner_text_pt
            else:
                # 새 페이지에 바로 배치하는 경우라면, 빈 줄 없이 그냥 이 문서 높이만 추가
                needed_pt = inner_text_pt

            # 같은 페이지에 들어갈 수 있는지 판단
            if (current_text_pt + needed_pt) < usable_pt:
                # 같은 페이지에 추가
                current_page.append(filename)
                current_text_pt += needed_pt
            else:
                # 페이지를 넘겨야 함
                grouped_pages.append(current_page)
                # 새 페이지 초기화
                current_page = [filename]
                current_text_pt = inner_text_pt

    # 모든 문서 처리 후, 마지막 페이지가 비어있지 않다면 결과에 넣는다
    if current_page:
        grouped_pages.append(current_page)

    word.Quit()

    return grouped_pages


In [42]:
# === 사용자 환경 설정 ===
WORK_DIR = os.getcwd()     
WORK_DIR = r"C:\Users\CHY\Desktop\exe_test"

Q_DIR = os.path.join(WORK_DIR, "split")
TEST_DIR = os.path.join(WORK_DIR, "test")

file_list = [f for f in os.listdir(Q_DIR) if not f.startswith("~$")]
file_list = [f for f in os.listdir(TEST_DIR) if not f.startswith("~$")]

print(Q_DIR)
print(TEST_DIR)

print(file_list)

C:\Users\CHY\Desktop\exe_test\split
C:\Users\CHY\Desktop\exe_test\test
['1.docx', '1_1.docx']


In [36]:
usage_pt = 841.9000244140625 - (85.05000305175781+72.0+42.54999923706055+49.599998474121094)

print(usage_pt)

usage_pt - (415.3499879837036 + 109.80000019073486)

592.700023651123


67.55003547668457

In [None]:
"""
Math_HL_B1_Thermal energy transfer_TZ0_P04.docx
841.9000244140625
{'top_margin': 85.05000305175781, 'bottom_margin': 72.0, 'header_dist': 42.54999923706055, 'footer_dist': 49.599998474121094}
{'text_height': 133.80000019073486, 'image_height': 281.54998779296875, 'total_height': 415.3499879837036}

Math_HL_B1_Thermal energy transfer_TZ0_P05.docx
841.9000244140625
{'top_margin': 85.05000305175781, 'bottom_margin': 72.0, 'header_dist': 42.54999923706055, 'footer_dist': 49.599998474121094}
{'text_height': 109.80000019073486, 'image_height': 0, 'total_height': 109.80000019073486}

Phy_HL_A1_Kinematics_TZ0_P01.docx
841.9000244140625
{'top_margin': 85.05000305175781, 'bottom_margin': 72.0, 'header_dist': 42.54999923706055, 'footer_dist': 49.599998474121094}
{'text_height': 121.80000019073486, 'image_height': 0, 'total_height': 121.80000019073486}
"""

In [44]:
"""
1.docx
841.9000244140625
{'top_margin': 85.05000305175781, 'bottom_margin': 72.0, 'header_dist': 42.54999923706055, 'footer_dist': 49.599998474121094}
{'text_height': 133.80000019073486, 'image_height': 281.54998779296875, 'total_height': 415.3499879837036}
"""

list_output = group_docs_by_page(TEST_DIR, file_list)

list_output

Error
1.docx


TypeError: 'NoneType' object is not subscriptable

In [12]:
print(a)
print(f"{b:.1f}")

792.0
281.7


# - 문서병합

In [11]:
import os
from docxcompose.composer import Composer
from docx import Document as Document_compose

# 각 파일들을 별개의 페이지에 넣어 하나의 파일로 변환

def combine_all_docx_separately(full_dir, files_list):
    """
    full_dir : 파일 전까지의 전체 절대경로로
    files_list : 병합할 파일들의 list
    """

    # master문서(첫 시작 문서) 설정
    master = Document_compose(os.path.join(full_dir, f"{files_list[0]}.docx"))
    # master문서를 composer에 할당
    composer = Composer(master)

    for i in range(1, len(files_list)):
        composer.doc.add_page_break() # 다음 페이지로
        doc_temp = Document_compose(os.path.join(full_dir, f"{files_list[i]}.docx")) # 다음 문서 가져오기
        composer.append(doc_temp) # 가져온 temp문서 master문서에 append
        
    composer.save("outputs/combined_file.docx")

In [32]:
import os
from docxcompose.composer import Composer
from docx import Document as Document_compose

# 2차원 list로 묶여있는 파일들끼리 하나의 페이지로 병합합

def combine_all_docx(full_dir, files_list):
    """
    full_dir   : 파일들이 위치한 폴더의 절대경로
    files_list : 병합할 파일들의 2차원 리스트
    """

    # 1) 첫 번째 서브 리스트의 첫 번째 파일을 '마스터 문서'로 설정
    # master = Document_compose(os.path.join(full_dir, f"{files_list[0][0]}.docx"))
    master = Document_compose(os.path.join(full_dir, files_list[0][0]))
    composer = Composer(master)

    # 만약 첫 번째 서브 리스트에 파일이 여러 개라면, 나머지 파일을 같은 페이지에 순차적으로 추가
    first_sub_list = files_list[0]
    if len(first_sub_list) > 1:
        # 두 번째 파일부터 병합
        for file_name in first_sub_list[1:]:
            composer.doc.add_paragraph()  # 한 줄 띄우고
            # doc_temp = Document_compose(os.path.join(full_dir, f"{file_name}.docx"))
            doc_temp = Document_compose(os.path.join(full_dir, file_name))
            composer.append(doc_temp)

   

    # 2) 나머지 서브 리스트(1번째 인덱스부터 끝까지) 처리
    for sub_list_index in range(1, len(files_list)):
        # 새로운 서브 리스트를 삽입하기 전에 페이지를 넘김
        composer.doc.add_page_break()
        
        # ------ 여기까진 문제 없음 ----------

        # break

        current_sub_list = files_list[sub_list_index]

        # 이 서브 리스트에 속한 파일들을 같은 페이지에 순차적으로 병합
        # 첫 번째 파일
        first_doc_name = current_sub_list[0]
        # doc_temp = Document_compose(os.path.join(full_dir, f"{first_doc_name}.docx"))
        doc_temp = Document_compose(os.path.join(full_dir, first_doc_name))
        composer.append(doc_temp)

        # 두 번째 파일부터는 같은 페이지에서 문단 띄우고 병합
        if len(current_sub_list) > 1:
            for file_name in current_sub_list[1:]:
                composer.doc.add_paragraph()
                # doc_temp = Document_compose(os.path.join(full_dir, f"{file_name}.docx"))
                doc_temp = Document_compose(os.path.join(full_dir, file_name))
                composer.append(doc_temp)

    # 3) 결과 파일 저장
    composer.save("outputs/combined_file.docx")


In [13]:
file_list = ["word_files/Q_1.docx", "word_files/Q_2.docx", "word_files/Q_3.docx", "word_files/Q_4.docx"]

# a_files = ["A_short_01", "A_short_02", "A_short_03", "A_short_04", "A_short_05", "A_short_06"]
q_files_sep = ["Q_short_01", "Q_short_02", "Q_short_03", "Q_short_04", "Q_short_05", "Q_short_06", "Q_short_07", "Q_short_08", "Q_short_09", "Q_short_10"]
q_files = [
    ["Q_short_01", "Q_short_02"], 
    ["Q_short_03"], 
    ["Q_short_04", "Q_short_05"], 
    ["Q_short_06", "Q_short_07", "Q_short_08"], 
    ["Q_short_09", "Q_short_10"]
    ]


# === 사용자 환경 설정 ===
WORK_DIR = os.getcwd()     
Q_DIR = os.path.join(WORK_DIR, "word_files", "q")
A_DIR = os.path.join(WORK_DIR, "word_files", "a")

print(Q_DIR)
print(A_DIR)

d:\YearDreamSchool-D\python_projects\msword_pjt\word_files\q
d:\YearDreamSchool-D\python_projects\msword_pjt\word_files\a


In [50]:
temp_list_output = [['Q_short_01.docx', 'Q_short_02.docx'],
                    ['Q_short_03.docx', 'Q_short_04.docx'],
                    ['Q_short_05.docx']]

temp_list_output = [['Q_short_01.docx', 'Q_short_02.docx'],
                    ['Q_short_03.docx']]

list_output

[['Q_short_01.docx', 'Q_short_02.docx'],
 ['Q_short_03.docx', 'Q_short_04.docx'],
 ['Q_short_05.docx'],
 ['Q_short_06.docx', 'Q_short_07.docx'],
 ['Q_short_08.docx'],
 ['Q_short_09.docx'],
 ['Q_short_10.docx']]

In [48]:
# combine_all_docx(Q_DIR, temp_list_output)
combine_all_docx(Q_DIR, list_output)

# combine_all_docx_separately(Q_DIR, q_files_sep)

In [7]:
import win32com.client

def remove_empty_pages_in_doc(doc_path: str):
    """
    doc_path: 대상 Word 파일(.docx, .doc 등)의 절대경로
    
    문서를 열어, 글자가 전혀 없는(공백/엔터만 있는) 페이지를 전부 삭제하고,
    같은 경로(doc_path)에 덮어씁니다.
    """

    wdGoToPage = 1        # GoTo()에서 "페이지로 이동"
    wdGoToAbsolute = 1    # "절대 페이지 번호" 기준
    wdStatisticPages = 2  # doc.ComputeStatistics(2) => 전체 페이지 수

    word = win32com.client.Dispatch("Word.Application")
    word.Visible = False

    doc = word.Documents.Open(doc_path, Visible=False)



    ### com_error: (-2147023170, '원격 프로시저를 호출하지 못했습니다.', None, None) 해결결
    wdViewPrint = 3  # wdPrintView
    # (1) 문서 활성화
    doc.Activate()
    # (2) 보기 모드: 인쇄 레이아웃
    doc.ActiveWindow.View.Type = wdViewPrint
    ### 

    # 전체 페이지 수
    total_pages = doc.ComputeStatistics(wdStatisticPages)

    # 마지막 페이지부터 1페이지까지 역순으로 확인
    for page_idx in range(total_pages, 0, -1):
        # 1) 현재 페이지의 시작 위치
        page_start_range = doc.GoTo(What=wdGoToPage, Which=wdGoToAbsolute, Count=page_idx)
        start_pos = page_start_range.Start

        # 2) 다음 페이지의 시작 위치 (page_idx가 마지막 페이지면 문서의 끝으로 처리)
        if page_idx == total_pages:
            end_pos = doc.Range().End
        else:
            next_page_range = doc.GoTo(What=wdGoToPage, Which=wdGoToAbsolute, Count=page_idx + 1)
            end_pos = next_page_range.Start

        # 3) 페이지 범위
        rng = doc.Range(Start=start_pos, End=end_pos)

        # 4) 페이지가 비어 있는지 확인
        if not rng.Text.strip():
            rng.Delete()  # 페이지 전체 삭제

    # 저장 & 종료
    doc.Save()
    doc.Close(False)
    word.Quit()

In [9]:
target_path = "D:\YearDreamSchool-D\python_projects\msword_pjt\outputs\combined_file.docx"
remove_empty_pages_in_doc(target_path)