In [1]:
import torch
from datasets import Dataset, load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, pipeline, TrainingArguments
from peft import LoraConfig, PeftModel
from trl import SFTTrainer

In [2]:
from dotenv import load_dotenv
from huggingface_hub import login
import os

# .env 파일 경로를 명시적으로 지정
load_dotenv(dotenv_path='/data/ephemeral/home/upstage-ai-advanced-ir2/HUGGINGFACE_API_TOKEN.env')

hf_token = os.getenv("HUGGINGFACE_API_TOKEN")
print(hf_token)  # 올바르게 불러오는지 확인

# 로그인 시도
login(token=hf_token)

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
The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /data/ephemeral/home/.cache/huggingface/token
Login successful


In [3]:
import json
from datasets import Dataset

# JSONL 파일 경로
input_file = '/data/ephemeral/home/upstage-ai-advanced-ir2/data/documents.jsonl'
# output_file = '/data/ephemeral/home/upstage-ai-advanced-ir2/data/summary.jsonl'

# 수정된 데이터를 저장할 리스트
cleaned_data = []

# JSONL 파일을 읽고 \n, \t, \r 제거
with open(input_file, 'r', encoding='utf-8') as f:
    for line in f:
        data = json.loads(line.strip())
        
        # content에서 \n, \t, \r 제거
        data['content'] = data['content'].replace("\n", " ").replace("\t", " ").replace("\r", " ")
        
        cleaned_data.append(data)

# Dataset으로 변환
dataset = Dataset.from_list(cleaned_data)

# # 첫 번째 문서 확인
# print(dataset[0])

# # 특수문자를 제거한 후 dataset['train']['document'][0]과 같은 방식으로 접근 가능합니다
# #dataset['content']

In [4]:
# 8비트 양자화 설정
BASE_MODEL = "rtzr/ko-gemma-2-9b-it"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)

model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map="auto", quantization_config=quantization_config, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True)

Loading checkpoint shards:   0%|          | 0/10 [00:00<?, ?it/s]

In [5]:
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512)
# doc = dataset['content'][0]

In [6]:
dataset

Dataset({
    features: ['docid', 'src', 'content'],
    num_rows: 14
})

In [9]:
import warnings
from tqdm import tqdm  # 진행률 바를 위한 tqdm 임포트
import json
import torch  # PyTorch 임포트
import os

# 경고 무시 설정
warnings.filterwarnings("ignore", category=DeprecationWarning)

# 요약된 데이터를 저장할 리스트
summarized_data = []

# 이전 작업의 마지막 인덱스 저장 파일
last_index_file = '/data/ephemeral/home/upstage-ai-advanced-ir2/gem/title_last_index.json'

# 이전 작업의 마지막 인덱스 확인
if os.path.exists(last_index_file):
    with open(last_index_file, 'r', encoding='utf-8') as f:
        last_index = json.load(f)["last_index"]
else:
    last_index = -1  # 시작할 때는 0부터

# 각 문서 요약
for idx in tqdm(range(last_index + 1, len(dataset)), desc="Extracting Titles"):
    doc = dataset[idx]
    messages = [
        {
            "role": "user",
            "content": f"""주어진 텍스트에서 핵심 내용을 대표하는 5개의 제목을 추출해주세요.
규칙:
- 각 제목은 10단어 이내로 간결하게 작성
- 텍스트의 주요 주제와 관련성이 높아야 함
- 중복되는 내용은 피할 것
- 명사형으로 끝나는 제목 선호
- 번호나 레이블 없이 제목만 작성


텍스트:
{doc["content"]}

아래와 같은 형식으로 정확히 3개의 제목만 작성해주세요 (쉼표로 구분):
제목1,제목2,제목3,제목4,제목5

예시 출력:
비뇨기계와 순환계의 협력,신체 폐기물 제거 시스템,혈액 정화 및 순환 과정"""
        }
    ]

    
    prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

    outputs = pipe(
        prompt,
        do_sample=True,
        temperature=0.2,
        top_k=50,
        top_p=0.95,
        add_special_tokens=True
    )

    summarized_text = outputs[0]["generated_text"][len(prompt):]

    # 타이틀 추출 후 포맷 변경
    titles = summarized_text.strip().split('\n')  # 개행으로 나누기
    titles = [title.replace('**', '').strip() for title in titles if title]  # 마크업 제거 및 빈 문자열 제외

    # 요약된 데이터를 저장
    summarized_data.append({
        "docid": doc["docid"],
        "src": doc["src"],
        "content": titles  # 수정된 형식으로 타이틀 저장
    })

    # 캐시 비우기
    torch.cuda.empty_cache()

    # 2개마다 저장
    if (idx + 1) % 2 == 0:
        with open('/data/ephemeral/home/upstage-ai-advanced-ir2/gem/title_partial.jsonl', 'a', encoding='utf-8') as f_out:
            for item in summarized_data:
                f_out.write(json.dumps(item, ensure_ascii=False) + "\n")
        
        # 리스트 초기화
        summarized_data = []

        # 진행상황 업데이트
        tqdm.write(f"{idx + 1} 개의 문서가 처리되었습니다.")  # 현재 처리된 문서 수 출력

# 남은 데이터 저장
if summarized_data:
    with open('/data/ephemeral/home/upstage-ai-advanced-ir2/gem/title_partial.jsonl', 'a', encoding='utf-8') as f_out:
        for item in summarized_data:
            f_out.write(json.dumps(item, ensure_ascii=False) + "\n")

# 마지막 인덱스 저장
with open(last_index_file, 'w', encoding='utf-8') as f:
    json.dump({"last_index": len(dataset) - 1}, f)  # 마지막 인덱스 저장

# 진행 완료 시 출력
print("모든 문서 요약이 완료되었습니다.")


Extracting Titles:  14%|█▍        | 2/14 [00:20<02:01, 10.15s/it]

2 개의 문서가 처리되었습니다.


Extracting Titles:  29%|██▊       | 4/14 [00:41<01:45, 10.50s/it]

4 개의 문서가 처리되었습니다.


Extracting Titles:  43%|████▎     | 6/14 [01:01<01:22, 10.33s/it]

6 개의 문서가 처리되었습니다.


Extracting Titles:  57%|█████▋    | 8/14 [01:32<01:18, 13.08s/it]

8 개의 문서가 처리되었습니다.


Extracting Titles:  71%|███████▏  | 10/14 [02:01<00:55, 13.95s/it]

10 개의 문서가 처리되었습니다.


Extracting Titles:  86%|████████▌ | 12/14 [02:36<00:31, 15.69s/it]

12 개의 문서가 처리되었습니다.


Extracting Titles: 100%|██████████| 14/14 [03:05<00:00, 13.23s/it]

14 개의 문서가 처리되었습니다.
모든 문서 요약이 완료되었습니다.



