In [2]:
import pandas as pd
import os
import re
import torch
from tqdm import tqdm
from transformers import AutoTokenizer
from transformers import AutoModelForCausalLM
import sys
from datetime import datetime


In [3]:
def log_message(message):
    timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    sys.stdout.write(f"[{timestamp}] {message}\n")
    sys.stdout.flush()

In [4]:
BASE_DIR = os.getcwd()
DATA_DIR = os.path.join(BASE_DIR, "data")
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

In [5]:

# 모델과 토크나이저 로드
model_name = 'yanolja/EEVE-Korean-Instruct-10.8B-v1.0'
log_message(f"Loading tokenizer and model: {model_name}")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
model.to(DEVICE)
log_message("Model loaded successfully")


[2024-11-05 15:03:07] Loading tokenizer and model: yanolja/EEVE-Korean-Instruct-10.8B-v1.0


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

[2024-11-05 15:03:20] Model loaded successfully


# 뉴스기사 제목 생성

In [None]:

data_path = os.path.join(DATA_DIR, "train.csv")
log_message(f"Loading data from: {data_path}")
origin_df = pd.read_csv(data_path)
new_df = origin_df.copy()
for idx, text in enumerate(new_df['text']) : 
    new_df.loc[new_df['text'] == text, 'text'] = re.sub(r'[^가-힣ㅏ-ㅣ ]+', ' ', text).strip()

log_message(f"Data loaded. Shape: {new_df.shape}")
log_message(f"Model: {model_name}")
log_message(f"Data length: {len(new_df)}")

for tidx, noised_text in tqdm(enumerate(new_df['text']), total=len(new_df), desc="Processing"):
    if tidx % 10 == 0:  # Log every 10 iterations
        log_message(f"Processing item {tidx}/{len(new_df)}")
    
    prompt = f"""당신은 한국어 신문 기사 헤드라인 생성 전문가입니다. 주어진 불완전한 문자들을 포함하는 새로운 신문 기사 헤드라인을 생성하세요. 
                주어진 불완전한 문장의 문자들을 가장 많이 포함하는 자연스러운 신문기사 헤드라인을 생성하세요. 생성 시 다음 지침을 따르세요:

                1. 한국어 신문 기사 헤드라인의 일반적인 스타일과 어조를 유지하세요.
                2. 기존의 문장의 단어와 문자를 최대한 많이 포함해야합니다.
                3. 문맥을 고려하여 가장 그럴듯한 내용으로 복구하세요.
                4. 생성된 헤드라인은 완전하고 의미가 통해야 합니다.
                5. 주어진 문장이 많이 훼손되어 복구가 어려운 경우 완전히 새로운 헤드라인을 생성하세요.
                
                이제 다음의 문장을 이용해 새로운 헤드라인을 생성해주세요:
                불완전한 헤드라인: {noised_text}
                생성된 헤드라인:"""

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=50,
            num_return_sequences=1,
            temperature=0.7,
            top_p=0.95,
            do_sample=True
        )

    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
    cleaned_text = generated_text.split("생성된 헤드라인:")[-1].split('\n')[0]
    new_df.loc[tidx, 'text'] = cleaned_text

output_path = './data/fill_mask/train_generated.csv'
log_message(f"Saving results to: {output_path}")
new_df.to_csv(output_path, index=False)
log_message("Process completed successfully")

[2024-11-05 02:30:25] Loading data from: /data/ephemeral/home/kjh/data/train.csv
[2024-11-05 02:30:27] Data loaded. Shape: (2800, 3)
[2024-11-05 02:30:27] Model: yanolja/EEVE-Korean-Instruct-10.8B-v1.0
[2024-11-05 02:30:27] Data length: 2800


Processing:   0%|          | 0/2800 [00:00<?, ?it/s]

[2024-11-05 02:30:27] Processing item 0/2800


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Processing:   0%|          | 0/2800 [00:00<?, ?it/s]


KeyboardInterrupt: 

# Augmentation

In [13]:
data_path = os.path.join(DATA_DIR, "fill_mask/train_generated.csv")
log_message(f"Loading data from: {data_path}")
origin_df = pd.read_csv(data_path)
new_df = origin_df.copy()
new_df.head()

[2024-11-05 08:21:48] Loading data from: /data/ephemeral/home/kjh/data/fill_mask/train_generated.csv


Unnamed: 0,ID,text,target
0,ynat-v1_train_00000,정권이 파리 미사 참석에 이용기간 제한을 두고 분열을 보임,4
1,ynat-v1_train_00001,찰 국 로한 회장이 맡은 주요 프로젝트,3
2,ynat-v1_train_00002,"""김정은, 자주통일 새 열쇠를 잡고 나서야 한다""",2
3,ynat-v1_train_00003,"""갤럭시 노트 7, 주말 동안 10만 대 개통…시장 불법 보조금 논란에 얼룩져""",5
4,ynat-v1_train_00004,"""대선을 앞두고 감시 강화, 단발적 비해""",6


In [None]:
log_message(f"Data loaded. Shape: {new_df.shape}")
log_message(f"Model: {model_name}")
log_message(f"Data length: {len(new_df)}")

batch_size = 8  # 적절한 배치 크기를 설정하세요. GPU 메모리에 따라 조정이 필요할 수 있습니다.

for i in tqdm(range(0, len(new_df), batch_size), desc="Processing batches"):
    batch = new_df['text'][i:i+batch_size].tolist()
    
    prompts = [f"""당신은 한국어 신문 기사 헤드라인 수정 및 생성 전문가입니다. 주어진 문장을 이용해 헤드라인을 생성하세요. 
                주어진 문장과 유사한 의미를 가지는 자연스러운 신문기사 헤드라인을 생성하세요. 생성 시 다음 지침을 따르세요:

                1. 한국어 신문 기사 헤드라인의 일반적인 스타일과 어조를 유지하세요.
                2. 기존의 문장의 주제와 유사한 주제의 헤드라인을 생성해주세요.
                3. 생성된 헤드라인은 완전하고 의미가 통해야 합니다.
                4. 주어진 문장이 많이 훼손되어 복구가 어려운 경우 완전히 새로운 헤드라인을 생성하세요.
                
                이제 다음의 문장을 이용해 새로운 헤드라인을 생성해주세요:
                불완전한 헤드라인: {title_text}
                생성된 헤드라인:""" for title_text in batch]

    inputs = tokenizer(prompts, return_tensors="pt", padding=True, truncation=True).to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=50,  # 헤드라인은 짧으므로 max_new_tokens를 줄였습니다.
            num_return_sequences=1,
            temperature=0.7,
            top_p=0.95,
            do_sample=True
        )

    generated_texts = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    cleaned_texts = [text.split('생성된 헤드라인:')[-1].split("\n")[0].strip() for text in generated_texts]
    for text in cleaned_texts :
        print(text)
    new_df.loc[i:i+batch_size-1, 'text'] = cleaned_texts

output_path = './data/generate_context/context_generated.csv'
log_message(f"Saving results to: {output_path}")
new_df.to_csv(output_path, index=False)
log_message("Process completed successfully")

# Cleaning

In [7]:
data_path = os.path.join(DATA_DIR, "Self_train/self_train_step2.csv")
log_message(f"Loading data from: {data_path}")
origin_df = pd.read_csv(data_path)
new_df = origin_df.copy()
new_df.head()
len(new_df)

[2024-11-05 15:03:48] Loading data from: /data/ephemeral/home/kjh/data/Self_train/self_train_step2.csv


2800

In [None]:
log_message(f"Data loaded. Shape: {new_df.shape}")
log_message(f"Model: {model_name}")
log_message(f"Data length: {len(new_df)}")

batch_size = 8  # 적절한 배치 크기를 설정하세요. GPU 메모리에 따라 조정이 필요할 수 있습니다.

for i in tqdm(range(0, len(new_df), batch_size), desc="Processing batches"):
    batch = new_df['text'][i:i+batch_size].tolist()
    
    prompts = [f"""당신은 한국어 뉴스 헤드라인 정제 전문가입니다. 주어진 텍스트에서 노이즈를 제거하고 자연스러운 뉴스 헤드라인을 생성해야 합니다. 다음 지침을 따르세요:

                    1. 불필요한 특수문자, 숫자, 알파벳을 제거하세요.
                    2. 맞춤법과 문법을 교정하세요.
                    3. 의미가 불분명한 부분은 문맥을 고려하여 자연스럽게 보완하세요.
                    4. 원래 헤드라인의 주요 키워드와 의미를 최대한 유지하세요.
                    5. 출력은 정제된 헤드라인만 포함해야 합니다.

                    예시:
                    입력: "157 조우 선동, 독과 함께 PAG 5전이 고군분투",1
                    출력: 조우선 선수, 독일 팀과 함께 PGA 투어 5차전에서 고군분투

                    이제 다음 헤드라인을 정제해주세요:
                    입력: {title_text}
                    출력: """ for title_text in batch]

    inputs = tokenizer(prompts, return_tensors="pt", padding=True, truncation=True).to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=50,  # 헤드라인은 짧으므로 max_new_tokens를 줄였습니다.
            num_return_sequences=1,
            temperature=0.7,
            top_p=0.95,
            do_sample=True
        )

    generated_texts = tokenizer.batch_decode(outputs, skip_special_tokens=True)
    cleaned_texts = [text.split('이제 다음 헤드라인을 정제해주세요:')[-1].split("출력:")[-1].split('\n')[0].strip() for text in generated_texts]
    for text in cleaned_texts :
        print(text)
    new_df.loc[i:i+batch_size-1, 'text'] = cleaned_texts

output_path = './data/generate_context/context_generated.csv'
log_message(f"Saving results to: {output_path}")
new_df.to_csv(output_path, index=False)
log_message("Process completed successfully")



[2024-11-05 15:06:39] Data loaded. Shape: (2800, 3)
[2024-11-05 15:06:39] Model: yanolja/EEVE-Korean-Instruct-10.8B-v1.0
[2024-11-05 15:06:39] Data length: 2800


Processing batches:   0%|          | 0/350 [00:00<?, ?it/s]Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Processing batches:   0%|          | 1/350 [00:18<1:48:01, 18.57s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


2분 KT 이용 기간이 종료됩니다.
文 대통령이 로 LH공사 사장에게 2시간 면담을 요청하다
김정은, 새해 자주통일 메시지 발표
갤럭시 노트 8, 주말에 27만대 개통...시장은 불법 보조금에 얼룩져
2020년 미국 대선을 앞두고 감시 강화, R2F 단발에 비해
6명 중 1명의 미국 성인, 배우자/연인의 빚 떠안다
롯데와 기아, 광주 경기 취소
33득점 아가메즈, 우리카드, KB손해보험 꺾고 3위 확보


Processing batches:   1%|          | 2/350 [00:52<2:40:37, 27.69s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


朴 대통령, 경주 지진 현장 방문... 충격받은 모습
듀얼심 아이폰, 하반기 출시 기대감 커져…알뜰폰 이용자를 위한
르모델 열화상 카메라 주가 상승
1월 옵션 만기일 NH투자 매도 우세
황 총리, 모든 부처에 비상 대비 태세 철저히 준비 주문
엑스아이 수리: 디디에프레 41-0
2대 문인당, 동2구 4동 민관2동 7사위 철거
KISA 박민정 책임연구원, APTLD 이사로 선출


Processing batches:   1%|          | 3/350 [01:27<2:58:27, 30.86s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


혐의 받은 기자, 공사업체 협박에 따른 분쟁 해결 명목 돈 집행유예
높아진 주거비 부담, 월세 전환에 따른…지난해 최고치 기록
2014년 개전, 작가 연정연 인터뷰
『페이스북 드론 아퀼라, 첫 실제 비행 성공』
2021 시즌 추신수 타율 0.265로 마감, 최지만은 19홈런 6타점 달성
팬들의 사랑을 받는 KIA K4, 수단 팬들에게 인기

2018 아시안게임, 박항서 베트남이 일본을 넘다


Processing batches:   1%|          | 4/350 [02:01<3:05:23, 32.15s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



탐사선 폭발 조사: 현장 분석
3분기 레코미 영업이익 1,105억 증가
2단계 생체인증: 대중교통 이용객이 생체인증으로 결제를 완료하세요
2023년 7월 70회 월드컵 대회, KFA 개최
35라운드 축구 마스터즈, 인천에서 진행
핸드폰 데이터 로밍 폭탄 차단, 더 빨리 개선됩니다.
2020년 세계 K-무역협회, 1,000명의 무역인 배출


Processing batches:   1%|▏         | 5/350 [02:35<3:09:24, 32.94s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



5년 동안 석면 규정 지키기: 석면 규제의 중요성
2270호 결의안 이행보고서 제출 국가 70개에 육박
팬데믹 일상, KBS 코로나로 바뀐 일상에 대한 영상 공모
짧은 크루즈 관광객을 위한 부산 해안 트레킹 상품 개발
딥씨에스씨 생산, 인공광년산량 증가

15일부터 LG G8 씽큐 예약판매…디스플레이 1회 무상 교체 혜택


Processing batches:   2%|▏         | 6/350 [03:10<3:11:54, 33.47s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



류현진의 담당 포수 최환, 다저스 버츠 감독이 육성
웹 서밋에서 창조경제 논의
5천년 전 한반도에서 자생적으로 형성된 한국민족의 뿌리, 북방
8월 산업생산, 제조업 가동률 하락, 금융위기 영향
엑스유 의원, 특별회의 불참
5대 은행 R은행, 4개 지역에서 3명의 직원에 대한 감금 사건
6개월째 지속되는 리먼 사태처럼 충격적 인 위기


Processing batches:   2%|▏         | 7/350 [03:43<3:11:46, 33.55s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


金正日 부인 김정숙, 몰랐던 보니
땅공과 I타의 3년 무급 인턴, 진보인가
4주 연속 상승한 미국 여성 MBA 비율
근육 조직 생성에 중요한 발견
7월 위클스, PS PlayStation Korea: 한국에서 얼마나 벌까?

즐거운 카메라 5개 탑재 LG V40 출시



Processing batches:   2%|▏         | 8/350 [04:01<2:42:34, 28.52s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



文 대통령, 북미 정상회담 조속히 개최 제안
美-韓 M2 항체, 유럽 B형 간염 치료제 오스트리아 임상 3상 시작
폼페이오, 오바마도 인정했듯이 트럼프의 외교 실패 없었다고
멸종된 파충류보다 타조·매와 더 가까운 새들
3연승 대한항공, 우리카드 꺾고; GS칼텍스, 1라운드 전승
2023년 2월 7일, 10만 명이 참가한 자선 행사로 모금 성공
1년 간 나경원 원내대표, 선출부터 퇴장까지 파란만장한 순간들


Processing batches:   3%|▎         | 9/350 [04:19<2:22:34, 25.09s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.



3부: 리수 국제사회 임명식에서 기념식 열려
챔피언스리그 4강에서 레알 마드리드와 아틀레티코 마드리드 맞대결
콩그룹 금융회사, 나고야 지점 철수 결정
류현진에 관한 MBC 다큐멘터리: MLB 전설의 통찰력
혁신 도시 D1v, 울산·경상권 고용 활성화 7월 합류
컴퓨팅의 미래: ACM 모비시스 서울 국제학회 개막
냄새가 맡겨… 퇴근길 수상한 차 뒤쫓다


Processing batches:   3%|▎         | 10/350 [04:53<2:38:01, 27.89s/it]Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


독일, 반이스라엘 테러 팔레스타인인 강연 금지 및 비자 취소

9U 천재 사령탑 O오 감독, 한국전에서 승리
6호 특공대, G&C 캠페인을 위한 52억 기부금 신고
北, "조국통일" 민주전선 결성
롯데백화점에 아마존, 3천만 달러 투자
2월과 3월 대구·경북 고용유지지원금 신청 급증, 7,550건
4,500대 생산, 본트카 애스턴마틴 스파 국내


Processing batches:   3%|▎         | 10/350 [05:03<2:51:52, 30.33s/it]


KeyboardInterrupt: 

: 