## 정책 자료 문제 해결을 위한

In [1]:
#라이브러리 및 모델 로드
import torch
import re
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

# KoBART 모델 로드
tokenizer = PreTrainedTokenizerFast.from_pretrained('digit82/kobart-summarization')
model = BartForConditionalGeneration.from_pretrained('digit82/kobart-summarization')

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


In [2]:
# 모델 전처리 강화
def chunk_text(text, sentence_per_chunk=10):
    # 정규표현식으로 문장 단위 분리 (.!? 뒤 공백이 올 경우 분리)
    sentences = re.split(r'(?<=[.!?])\s+', text)  
    
    chunks = []
    current_chunk = []
    
    for idx, sent in enumerate(sentences):
        current_chunk.append(sent)
        # 10문장 단위로 청크 생성 또는 마지막 남은 문장 처리
        if (idx + 1) % sentence_per_chunk == 0 or idx == len(sentences)-1:
            chunk = ' '.join(current_chunk).strip()
            if chunk:  # 빈 문자열 체크
                chunks.append(chunk)
            current_chunk = []
    return chunks

In [None]:
#1번
#모델 하이퍼파라미터 최적화
def summarize_text(text):
    input_ids = tokenizer.encode(
        text, 
        return_tensors="pt", 
        truncation=True, 
        max_length=1024  # 모델 최대 입력 길이 확인
    )
    
    summary_ids = model.generate(
        input_ids,
        num_beams=8,                # 빔 서치 확장
        max_length=300,             # 출력 길이 조정
        min_length=100,
        repetition_penalty=2.5,     # 반복 억제
        length_penalty=0.9,         # 길이 패널티
        early_stopping=True,
        no_repeat_ngram_size=3      # 중복 n-gram 제한
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [8]:
#2번
# 모델 하이퍼파라미터 최적화
def summarize_text(text):
    input_ids = tokenizer.encode(
        text, 
        return_tensors="pt", 
        truncation=True, 
        max_length=1024  # 모델 최대 입력 길이 확인
    )
    
    summary_ids = model.generate(
        input_ids,
        num_beams=9,                # 빔 서치 확장
        max_length=200,             # 출력 길이 조정
        min_length=100,
        repetition_penalty=3.2,     # 반복 억제
        length_penalty=0.9,         # 길이 패널티
        early_stopping=True,
        no_repeat_ngram_size=4      # 중복 n-gram 제한
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [None]:
#3번
# 모델 하이퍼파라미터 최적화
def summarize_text(text):
    input_ids = tokenizer.encode(
        text, 
        return_tensors="pt", 
        truncation=True, 
        max_length=1024  # 모델 최대 입력 길이 확인
    )
    
    input_ids = input_ids.to('cuda')
    
    summary_ids = model.generate(
        input_ids,
        num_beams=7,                # 빔 서치 확장
        max_length=150,             # 출력 길이 조정
        min_length=100,
        repetition_penalty=2.8,     # 반복 억제
        length_penalty=0.8,         # 길이 패널티
        early_stopping=True,
        no_repeat_ngram_size=3      # 중복 n-gram 제한
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [None]:
#4번
# 모델 하이퍼파라미터 최적화
def summarize_text(text):
    input_ids = tokenizer.encode(
        text, 
        return_tensors="pt", 
        truncation=True, 
        max_length=1024  # 모델 최대 입력 길이 확인
    )
    
    input_ids = input_ids.to('cuda')
    
    summary_ids = model.generate(
        input_ids,
        num_beams=7,                # 빔 서치 확장
        max_length=150,             # 출력 길이 조정
        min_length=100,
        repetition_penalty=3.0,     # 반복 억제
        length_penalty=0.8,         # 길이 패널티
        early_stopping=True,
        no_repeat_ngram_size=4      # 중복 n-gram 제한
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [None]:
#5번
# 모델 하이퍼파라미터 최적화
def summarize_text(text):
    input_ids = tokenizer.encode(
        text, 
        return_tensors="pt", 
        truncation=True, 
        max_length=1024  # 모델 최대 입력 길이 확인
    )
    
    input_ids = input_ids.to('cuda')
    
    summary_ids = model.generate(
        input_ids,
        num_beams=7,                # 빔 서치 확장
        max_length=120,             # 출력 길이 조정
        min_length=75,
        repetition_penalty=3.0,     # 반복 억제
        length_penalty=0.8,         # 길이 패널티
        early_stopping=True,
        no_repeat_ngram_size=4      # 중복 n-gram 제한
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [None]:
#6번
# 모델 하이퍼파라미터 최적화
def summarize_text(text):
    input_ids = tokenizer.encode(
        text, 
        return_tensors="pt", 
        truncation=True, 
        max_length=1024  # 모델 최대 입력 길이 확인
    )
    
    input_ids = input_ids.to('cuda')
    
    summary_ids = model.generate(
        input_ids,
        num_beams=6,                # 빔 서치 확장
        max_length=120,             # 출력 길이 조정
        min_length=75,
        repetition_penalty=3.0,     # 반복 억제
        length_penalty=0.8,         # 길이 패널티
        early_stopping=True,
        no_repeat_ngram_size=4      # 중복 n-gram 제한
    )
    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

In [4]:
#계층적 요약 구조 도입
"""
✓ 긴 문서(3,000자+) → depth 3-4 사용시 계층적 추상화 가능
✓ 짧은 문서(~500자) → depth 1 고정 권장
✓ 중간 길이 문서 → depth 2가 최적의 밸런스
✓ 품질 저하 발생시 → 동적 depth 조정이나 하이브리드 기법 도입
"""
def hierarchical_summarization(text, depth=2):
    if depth == 0:  # 최종 단계
        return summarize_text(text)
    
    # 현재 단계에서 청크 분할
    chunks = chunk_text(text) 
    # 각 청크를 하위 단계로 전달 (재귀)
    summaries = [hierarchical_summarization(chunk, depth-1) for chunk in chunks]
    # 상위 요약 수행
    return summarize_text(' '.join(summaries))

In [5]:
#텍스트 전처리 강화
def preprocess_text(text):
    """요약 전 텍스트 정제"""
    # 연속 공백 단일화
    text = re.sub(r'\s+', ' ', text)  
    # [각주1] 형태 제거
    text = re.sub(r'\[.*?\]', '', text)  
    # 1.2.3 같은 번호 체계 제거
    text = re.sub(r'\d+\.\d+', '', text)  
    # 특수문자 정규화
    text = re.sub(r'[●◆▶▼]+', '', text)  
    return text.strip()

In [6]:
#모델 요약 결과 후처리(미정)
# 요약 결과 후처리
def postprocess_summary(summary):
    """중복 문장 제거 및 결과 정제"""
    sentences = list(dict.fromkeys(summary.split('. ')))  # 중복 제거
    return '. '.join(sentences).replace(' ,', ',')  # 문법 정리

In [9]:
#문서 텍스트 추출
import fitz
file_path = './example.pdf'
ex_pdf = []
doc = fitz.open(file_path)
for page in doc:
    text = page.get_text()
    ex_pdf.append(text)
    

# 1. PDF 텍스트 추출
ex_pdf = str(ex_pdf).replace('·','\t')#PDF에서 추출한 원본 텍스트

# 2. 전처리
cleaned_text = preprocess_text(ex_pdf)

# 3. 계층적 요약 (2단계)
raw_summary = hierarchical_summarization(cleaned_text, depth=2)

# 4. 후처리
final_summary = postprocess_summary(raw_summary)

print("최종 요약 결과:")
print(final_summary)

최종 요약 결과:
중앙기관과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후 성별영향평가서를 작성하여 각 기관에 제출할 예정이며  (성별ᆞ생년월일, 법인의 경우는 그 명칭 및 대표자 성명)\n전자우편\n전화번호\n내용\n휴대전화 번호\n신청\n1사용목적\n2사용대수\n3사용기간\n1일 사용 신청서\n신.


In [None]:
result_1 = """중앙부처기관과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후 성별영향평가서'를 작성하여 각 기관에 제출할 예정이며, 
‘성별ᆞ생년월일’은 법인의 경우 법인등록번호)\n주소(법인의 경우는 주된 사무소의 소재지) \n전자우편\n전화번호\n신청\n내용\n전화, 전화번호, 홈페이지 등을 통해 신청을 받는다."""

result_2 = """
중앙기관과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후 성별영향평가서를 작성하여 각 기관에 제출할 예정이며  
(성별ᆞ생년월일, 법인의 경우는 그 명칭 및 대표자 성명)\n전자우편\n전화번호\n내용\n휴대전화 번호\n신청\n1사용목적\n2사용대수\n3사용기간\n1일 사용 신청서\n신.
"""

result_3 = """
중앙행정과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '성별영향평가'를 실시하기 위해 성별, 연령, 성별 등 성별을 고려한 계획을 작성하여 
각 기관에 제출할 수 있는 리스트를 작성해 '여성ᆞ성평등을 위한 종합계획' 및 '2020년까지 5개년 계획에 대한 성별영향분석리스트'를 작성하고 평가 대상자를 대상으로 ‘비전과 목표, 전략 및 중점과제’ 등을 작성해야 한다.  
"""

result_4 = """
중앙기관과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '성별영향평가'를 실시하기 위해 성별영향평가서를 작성하여 각 기관에 제출할 예정이며, 평가 시기 : 모든 과정은 GIA시스템을 통해 진행되고 
\n- 신규 수립인 경우 ‘계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후’ 중 빠른 시기에 비전과 목표, 전략 및 중점과제에 대한 「성별영향평가서」를 작성해 여성가족부 등 관계기관에 발송한다.
"""

result_5 = """
중앙행정과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '성별영향평가'를 실시하기 위해 '계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후' 중 빠른 시기에 비전과 목표, 전략 및 중점과제에 대한 「성별영향평가서」를 작성해 여성가족부 등 관계기관에 발송할 예정이다.
"""

result_6 = """
중앙행정기관과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '성별영향평가'를 실시하기 위해 '계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후' 중 빠른 시기에 비전과 목표, 전략 및 중점과제에 대한 「성별영향평가서」를 작성해 여성ᆞ가족부 등에 발송할 예정이다.
"""

You passed along `num_labels=3` with an incompatible id to label map: {'0': 'NEGATIVE', '1': 'POSITIVE'}. The number of labels wil be overwritten to 2.


중앙부처기관과 지방자치단체는 법률에 따라 3년 이상의 주기로 수립하는 계획인 '계획 확정 3개월 전, 위원회 상정 60일 이전 또는 중간보고 후 성별영향평가서'를 작성하여 각 기관에 제출할 예정이며, ‘성별ᆞ생년월일’은 법인의 경우 법인등록번호) 주소(법인의 경우는 주된 사무소의 소재지)  전자우편 전화번호 신청 내용 전화, 전화번호, 홈페이지 등을 통해 신청을 받는다.
