In [1]:
import pandas as pd
import os
import re
import torch
from tqdm import tqdm
from transformers import AutoTokenizer
from transformers import AutoModelForCausalLM

In [2]:
BASE_DIR = os.getcwd()
DATA_DIR = os.path.join(BASE_DIR, 'data')
OUTPUT_DIR = os.path.join(BASE_DIR, 'outputs')

labeled_data_path = os.path.join(DATA_DIR, "cleaning_step1")

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [4]:
# 모델과 토크나이저 로드
model_name = 'Saxo/Linkbricks-Horizon-AI-Korean-Pro-8B'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
model.to(DEVICE)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 4096)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (v_proj): Linear(in_features=4096, out_features=1024, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (up_proj): Linear(in_features=4096, out_features=14336, bias=False)
          (down_proj): Linear(in_features=14336, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((4096,), eps=1e-05)
        (post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-05)
      )
    )
    (norm)

In [3]:
df_list = []
for label in range(7) :
    df = pd.read_csv(labeled_data_path+f"/c1_label_dropped_{label}.csv")
    df_list.append(df)
    print(df.head())

                    ID                                               text  \
0  ynat-v1_train_00015                     KISA 박민정 책임연구원이 APTLD 이사로 선출되다   
1  ynat-v1_train_00066  UEFA 챔피언스리그 4강 마드리드 더비, 레알 마드리드와 아틀레티코 마드리드가 맞붙는다   
2  ynat-v1_train_00079                          본트카 애스턴마틴 스파 국내 4백500대 생산   
3  ynat-v1_train_00087                               수능 6개 시험장 울릉도서 한 화장실   
4  ynat-v1_train_00113                             신간 "지적자본주의와 사회적 기업" 출간   

   target  
0       0  
1       0  
2       0  
3       0  
4       0  
                    ID                                text  target
0  ynat-v1_train_00020  추신수 타율 0.265로 시즌 마감, 최지만은 19홈런 6타점       1
1  ynat-v1_train_00021        KIA, 수단 팬들에게 호평받는 K4 M족 한 마리       1
2  ynat-v1_train_00028         KFA, 2023년 7월 70회 월드컵 대회 개최       1
3  ynat-v1_train_00029           축구 마스터즈, 인천에서 35라운드 경기 진행       1
4  ynat-v1_train_00032           박항 감독의 베트남 축구, 한국과의 경기 준비       1
                    ID                              text  targe

## 1. Paraphrasing

In [None]:
for idx, df in enumerate(df_list) :
    temp_df = df.copy()
    for tidx, noised_text in enumerate(df['text']) :
        prompt = f"""
                    당신은 전문적인 한국어 신문 헤드라인 교정 전문가입니다. 주어진 헤드라인의 오류를 최소한으로 수정하고, 원문의 의도와 핵심 내용을 최대한 유지해야 합니다. 다음 지침을 엄격히 따라주세요:

                    1. 원문 분석: 헤드라인의 주요 키워드와 전체적인 의미를 파악합니다.
                    2. 최소 수정: 명백한 오류만을 수정하고, 불필요한 변경은 피합니다.
                    3. 맥락 유지: 원문의 의도와 문맥을 최대한 유지합니다.
                    4. 오타 수정: 명확한 오타만 수정하고, 의심스러운 경우 원문을 유지합니다.
                    5. 문법 교정: 문법적 오류가 명확한 경우에만 수정합니다.
                    6. 불필요한 추가 금지: 원문에 없는 정보를 임의로 추가하지 않습니다.
                    7. 확신 없는 경우 유지: 교정이 확실하지 않은 경우, 원문을 그대로 유지합니다.

                    예시:
                    1. 원문: 문인 당2, 4동 민관2동 7사위 철거
                    교정: 문인동 2, 4동과 민관동 2동 7층 아파트 철거

                    2. 원문: WEF 일련의 이벤트에서 창조경제 논의
                    교정: WEF, 일련의 이벤트에서 창조경제 논의

                    3. 원문: 김종길 리먼 사태처럼 충격적 인 6Mq
                    교정: 김종길 "리먼 사태처럼 충격적인 상황 우려"

                    이제 다음 헤드라인을 위의 지침과 예시를 참고하여 최소한으로 교정해주세요. 확실하지 않은 부분은 원문 그대로 유지하세요:

                    원문: {noised_text}
                    교정:"""


        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=70,
                num_return_sequences=1,
                temperature=0.8,
                top_p=0.95,
                do_sample=True
            )

        generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
        cleaned_text = generated_text.split("교정:")[-1].split('\n')[0]
        
        temp_df.loc[tidx, 'text'] = cleaned_text
        print("origin : ", noised_text)
        print("cleaned : ", cleaned_text)

    temp_df.to_csv(f'./data/cleaning_pp/cleaned_label_{idx}.csv', index=False)

Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  KISA 박민정 책임연구원이 APTLD 이사로 선출되다
cleaned :   KISA 박민정 책임연구원이 APTLD 이사로 선출되다


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  UEFA 챔피언스리그 4강 마드리드 더비, 레알 마드리드와 아틀레티코 마드리드가 맞붙는다
cleaned :   UEFA 챔피언스리그 4강 마드리드 더비, 레알 마드리드와 아틀레티코 마드리드가 맞붙는다


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  본트카 애스턴마틴 스파 국내 4백500대 생산
cleaned :   본트카 애스턴마틴 스파 국내 4,500대 생산


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  수능 6개 시험장 울릉도서 한 화장실
cleaned :   수능 6개 시험장, 울릉도 한 화장실


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  신간 "지적자본주의와 사회적 기업" 출간
cleaned :   신간 "지적자본주의와 사회적 기업" 출간


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  오늘 날씨 미세먼지 보통 수, 오후부터 점차 개선될 예정
cleaned :   오늘 미세먼지 수치 보통, 오후 이후 점차 개선될 것


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  대화점 팝스타 라디오쇼
cleaned :   김민석, 3개월간 7억원 이상 벌어


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  박 대통령, TK 국회의원과 110분간 면담…사드 민심 청취
cleaned :   박 대통령, TK 국회의원과 110분간 면담…사드 민심 청


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  도자기 작품, 에상 올람객들
cleaned :   도자기 작품, 에상 올림픽 대회 참가자들에게 선물


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  그룹 C픽 서울 9시 1분 일강 이
cleaned :   그룹 C픽, 서울 9시 1분 일강 이


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  말 여행 AI가 반려동물의 건강을 관리하는 것의 중요성
cleaned :   말 여행 AI, 반려동물 건강 관리 중요성 강조


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  명품 즐거움 필사 3문지 문학간
cleaned :   명품 즐거움 필사 3문지 문학간


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  한국 3명이 일본의 이기연극에 출연
cleaned :   한국 3명, 일본 이기연극에 출연


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  SPT뚝 떨어져 4층으로 추정되는 도난 사건
cleaned :   SPT뚝 떨어져, 4층으로 추정되는 도난 사건


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  인천 계양구 오전 7시 1호 주보 해킹
cleaned :   인천 계양구 오전 7시 1호 신문 주보 해킹


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  폭염 속 야외 보러 몰린 시민 M종화관 전시 인기
cleaned :   폭염 속 시민 몰려 M종화관 전시 인기


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  경기도 6개 시, 0시 대설주의보 발령
cleaned :   경기도 6개 시, 0시 대


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  말과 여자의 주권 인류 무형문화유산 해양화
cleaned :   말과 여자의 주권 인류 무형문화유산 해양화


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  5일 황금연휴, 아파트 이용권 무료로 드려요
cleaned :   5일 황금연휴, 아파트 이용권 무료로 제공


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  연천, 영하 9도까지 추워졌어요
cleaned :   연천, 영하 9도까지 추워졌어요


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  8월 6일, 화재 대책회의 개최
cleaned :   8월 6일 화재 대책회의 개최


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  제주도 여행 취향맞춤 여행사 M대야 날릴 4색 계곡다 축제
cleaned :   제주도 여행 취향맞춤 여행사 M대야 날릴 4색 계곡다 축제


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  하이트진로, 경기도 9곳 초미세먼지 5대 위험지역 선정
cleaned :   하이트진로, 경기도 9곳 초미세먼지 5대 위험지역 선정


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  등단 30년 차 장인 W가 지냈습니다
cleaned :   등단 30년차 장인 W, 고향에서 지냈습니다


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  미세먼지 위기 속 물가 상황
cleaned :   미세먼지 위기 속 물가 상황


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  NH농협카드 AI 개발 프로젝트 승인
cleaned :   NH농협카


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  신 촛불 시위, 3월 9일 동시다
cleaned :   신 촛불 시위, 3월 9일 동시다행히 교정된 버전입니다. 신촛불시위가 3월 9일에 동시에 진행될 예정이라고 합니다. 교정된 버전은 다음과 같습니다.


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  중부지역 밤늦게까지 19도의 따뜻한 날씨가 이어집니다
cleaned :   중부지역 밤늦게까지 19도의 따뜻한 날씨가


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  사진 8전 V노운 노이 도시 별
cleaned :   사진 8전 V노운 도시 별


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  레카 전맑가 J씨 해4은 내까 U고 비
cleaned :   레카 전맑가 J씨 해4은 내까 U고 비


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  SK텔레콤, 유콘시스템과 5G 드론용 ICT 솔루션 개발 협력
cleaned :   SK텔레콤, 유콘시스템과 5G 드론용 ICT 솔루션 개발 협력


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  대형 서점에 없던 베스트셀러 판권 사전 계약
cleaned :   대형 서점에 없던 베스트셀러 판권 사전 계약


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  조소앙이 쓴 독립운동 이야기, 유방의 역사를 되짚어본다
cleaned :   조소앙이 쓴 독립운동 이야기, 유방의 역사를 되짚어본다


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  베트남산 카레가 인기 메뉴로 6주째 1위
cleaned :   코로나 19로 인한 한국 경제 침체, IMF 경고


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  신문 피의자 인터뷰
cleaned :   대통령, 100일간의 정치에 대한 의견 제시


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  이산의 미래와령계곡의 군사적 영향력
cleaned :   이산의 미래와 영계곡의 군사적 영향력


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  국문협 U상에 도임훈안 김순옥 박예리
cleaned :   국문협, U상에 도임훈안 김순옥 박예리


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  폭풍으로 갇힌 R주 산마을, 지금까지 이 내린 눈의 양은
cleaned :   폭풍으로 갇힌 R주 산마을, 지금까지 이 내린


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


origin :  간 기와 외상 3차
cleaned :   간 기와 외상 3차


KeyboardInterrupt: 

: 