In [1]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '4' # nvidia-smi로 비어있는 gpu 확인하고 여기서 선택할것!

import re

from transformers import (
    PreTrainedTokenizerFast as BaseGPT2Tokenizer,
    EncoderDecoderModel,
    DataCollatorForSeq2Seq,
)


from asset.tokenization_kobert import KoBertTokenizer
from asset import tokenization_kobert
src_tokenizer = KoBertTokenizer.from_pretrained('monologg/kobert')

#from huggingface_hub import notebook_login

#notebook_login()

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'KoBertTokenizer'.


In [2]:
class GPT2Tokenizer(BaseGPT2Tokenizer):
    def build_inputs_with_special_tokens(self, token_ids, _):
        return token_ids + [self.eos_token_id]
trg_tokenizer = GPT2Tokenizer.from_pretrained("skt/kogpt2-base-v2",
  bos_token='</s>', eos_token='</s>', unk_token='<unk>',
  pad_token='<pad>', mask_token='<mask>')

In [3]:
model = EncoderDecoderModel.from_pretrained('./save_points/dacon-v4/checkpoint-276000')
model.eval()
model.config.decoder_start_token_id = trg_tokenizer.bos_token_id

# dacon-v4부터 augmentation 적용됨

In [4]:
import numpy as np
from sentence_transformers import SentenceTransformer # SentenceTransformer Version 2.2.2
import pandas as pd

# Embedding Vector 추출에 활용할 모델(distiluse-base-multilingual-cased-v1) 불러오기
smodel = SentenceTransformer('distiluse-base-multilingual-cased-v1')

In [5]:
# 문장 예시
preds = [
    "이번 경진대회는 질의 응답 처리를 수행하는 AI 모델을 개발해야합니다.",
    "데이콘은 플랫폼입니다."
]

gts = [
    "이번 경진대회의 주제는 도배 하자 질의 응답 AI 모델 개발입니다.",
    "데이콘은 국내 최대의 AI 경진대회 플랫폼입니다."
]

In [6]:
# 샘플에 대한 Cosine Similarity 산식
def cosine_similarity(a, b):
    dot_product = np.dot(a, b)
    norm_a = np.linalg.norm(a)
    norm_b = np.linalg.norm(b)
    return dot_product / (norm_a * norm_b) if norm_a != 0 and norm_b != 0 else 0

In [7]:
sample_scores = []
for pred, gt in zip(preds, gts):
    # 생성된 답변 내용을 512 Embedding Vector로 변환
    pred_embed = smodel.encode(pred)
    gt_embed = smodel.encode(gt)
    
    sample_score = cosine_similarity(gt_embed, pred_embed)
    # Cosine Similarity Score가 0보다 작으면 0으로 간주
    sample_score = max(sample_score, 0)
    print('예측 : ', pred)
    print('정답 : ', gt)
    print('Cosine Similarity Score : ', sample_score)
    print('-'*20)
    sample_scores.append(sample_score)
print('전체 샘플의 Cosine Similarity Score 평균 : ', np.mean(sample_scores))

예측 :  이번 경진대회는 질의 응답 처리를 수행하는 AI 모델을 개발해야합니다.
정답 :  이번 경진대회의 주제는 도배 하자 질의 응답 AI 모델 개발입니다.
Cosine Similarity Score :  0.83436465
--------------------
예측 :  데이콘은 플랫폼입니다.
정답 :  데이콘은 국내 최대의 AI 경진대회 플랫폼입니다.
Cosine Similarity Score :  0.6281873
--------------------
전체 샘플의 Cosine Similarity Score 평균 :  0.731276


In [8]:
input_list = []


data = pd.read_csv("./bigdata/train.csv")
input_dict = {"utterance":[]}
for _, row in data.iterrows():
    for q_col in ['질문_1', '질문_2']:
        for a_col in ['답변_1', '답변_2', '답변_3', '답변_4', '답변_5']:
            input_list.append({"question":row[q_col],"answer":row[a_col]})
data = pd.read_csv('./bigdata/augs_preprocessing/qa_aug.csv')
for _, row in data.iterrows():
    input_list.append({"question":row['Question'],"answer":row['Answer']})
            


In [9]:
def read_input(path):
    test_question = []
    test = pd.read_csv(path)
    for ut in test['질문']:
        test_question.append(ut)

    return test_question

In [10]:
test_q= read_input('./bigdata/test.csv')

In [11]:
gt_q_embed = []

for gt_q_dic in input_list:
    gt_q_embed.append({"question_embed":smodel.encode(gt_q_dic["question"]),"question":gt_q_dic["question"],"answer":gt_q_dic["answer"]})
    


In [12]:


def translate(text):
    max_sim_dic = {"question_embed":None,"question":None,"answer":None}
    max_sim = -100
    text_embed = smodel.encode(text)
    for gt_dic in gt_q_embed:
        tmp_sim = cosine_similarity(gt_dic["question_embed"], text_embed)
        if tmp_sim > max_sim:
            if "장점" or "단점" in text:
                if ("장점" in text and "단점" in gt_dic["question"]) or ("단점" in text and "장점" in gt_dic["question"]):
                    #print("there was an error")
                    continue
            max_sim = tmp_sim
            max_sim_dic = {"question_embed":gt,"question":gt_dic["question"],"answer":gt_dic["answer"]}
    
    
    if max_sim < 0.9:
        
        embeddings = src_tokenizer(text, return_attention_mask=False, return_token_type_ids=False, return_tensors='pt')
        embeddings = {k: v for k, v in embeddings.items()}
        # generate 함수에 하이퍼파라미터 추가
        output_sequences = model.generate(
            **embeddings,
            max_length=65,
            temperature=0.9,
            top_k=1,
            top_p=0.9,
            repetition_penalty=1.2,
            do_sample=True,
            num_return_sequences=1
        )
        tmp = trg_tokenizer.decode(output_sequences[0, 1:-1].cpu())
        return tmp

        # dot postprocessing
#         output_sequences = model.generate(
#             **embeddings,
#             max_length=65,
#             temperature=0.9,
#             top_k=1,
#             top_p=0.9,
#             repetition_penalty=1.2,
#             do_sample=True,
#             num_return_sequences=1
#         )
        
    
    
        
    
#         tmp = trg_tokenizer.decode(output_sequences[0, 1:-1].cpu())
        
#         last_period_index = tmp.rfind('.')
        
#         sliced_text = ""
        
#         if last_period_index != -1:  # 마침표가 문자열에 존재하는 경우
#             sliced_text = tmp[:last_period_index + 1]
#         else:  # 마침표가 없는 경우
#             sliced_text = tmp
        
#         return sliced_text
    
    #print("max_sim is...  " +str(max_sim))
    return max_sim_dic["answer"]

In [13]:
def translate_framework(text):
    pred = ""
    dividers = ["또한,","그리고"]# 며,    . 
    special_divider1 = ["와 ","관계는 무엇인가요?"]
    for divider in dividers:
        
        if divider in text:
            text1 = text.split(divider)[0].strip()
            text2 = text.split(divider)[1].strip()
            pred = translate(text1) +" "+divider+" "+ translate(text2)
            return pred
    
    
    
    if special_divider1[1] in text:
        text1 = text.split(special_divider1[0])[0].strip()
        text2 = text.split(special_divider1[0])[1].strip()[:-12]
        pred = translate(text1) +" "+divider+" "+ translate(text2)
        return pred
    
    pred = translate(text)
    return pred
    

In [14]:
# def translate_framework(text):
#     dividers = ["또한,", "그리고"]  # 일반 구분자
#     special_divider = ("와 ", "관계는 무엇인가요?")  # 특별 구분자

#     # 특별 구분자에 대해 텍스트를 먼저 검사하고 처리합니다.
#     if special_divider[1] in text:
#         parts = text.split(special_divider[1])
#         for i, part in enumerate(parts[:-1]):  # 마지막 부분 제외
#             if special_divider[0] in part:
#                 subparts = part.rsplit(special_divider[0], 1)  # 마지막 '와 '로 나눕니다.
#                 parts[i] = translate(subparts[0]) + special_divider[0] + translate(subparts[1])
#             else:
#                 parts[i] = translate(part)
#         text = special_divider[1].join(parts)

#     # 일반 구분자에 대한 처리
#     # 모든 구분자를 하나의 패턴으로 결합합니다.
#     pattern = '|'.join(map(re.escape, dividers))
#     pieces = re.split(pattern, text)
#     translations = [translate(piece) for piece in pieces]

#     # 구분자를 기준으로 원본 텍스트에서 구분자들을 추출합니다.
#     divider_matches = re.findall(pattern, text)

#     # 번역된 부분과 구분자를 다시 조합합니다.
#     result = translations[0]
#     for divider, translation in zip(divider_matches, translations[1:]):
#         result += divider + translation

#     return result

In [15]:
preds = []
for i in range(len(test_q)):
    sr_text = test_q[i] # dialect
    tg_text = translate_framework(sr_text) # translate
    preds.append(tg_text)
    if i>30 and i<60:
        print("source_text : ",sr_text)
        print("result :      ",tg_text)
        print()
        print()

  "You have modified the pretrained model configuration to control generation. This is a"


source_text :  몰딩 수정을 예방하기 위해 건물 내부에서 어떤 종류의 환경 관리가 필요한가요?
result :       몰딩이 햇빛, 습기, 화학물질에 노출될 경우, UV 보호 코팅이나 방수 처리를 통해 몰딩을 보호할 수 있습니다. 습기에 강한 마감재를 사용하거나, 화학물질에 저항력이 있는 소재를 선택하는 것도 중요합니다.


source_text :  KMEW 세라믹 지붕재의 단점에 대해 알려주세요. 또한, 세라믹 타일을 사용할 때 고려해야 할 단점은 무엇인가요?
result :       KMEW 세라믹 지붕재의 단점 중 하나는 가격이 비싸다는 것입니다. 또 다른 단점으로는 금속 지붕재에 비해 상대적으로 무겁다는 점이 있습니다. 그러나 이러한 단점에도 불구하고, KMEW 세라믹 지붕재는 탁월한 내구성과 아름다운 디자인으로 많은 사람들에게 인기가 있습니다. 또한, 세라믹 타일을 사용할 때는 온도 변화에 민감하며, 내장용으로만 적합하고, 경도가 약해 충격과 마모에 취약하다는 주요 단점을 고려해야 하며, 특히 바닥이나 벽면 사용 시 미끄러울 수 있어 주의가 필요합니다.


source_text :  줄퍼티 마감은 무엇인가요? 또한, 액체방수공사는 무엇을 하는 것인가요?
result :       줄퍼티 마감은 석고보드의 이음메 부분을 메꾼 후 1차, 2차로 퍼티를 해 마감하는 것을 의미합니다. 줄퍼티 마감은 올퍼티 마감보다 단가가 저렴하다는 장점이 있지만 이음메 부분의 배부름 현상이 있으며, 줄퍼티를 한 곳과 하지 않은 곳의 질감 차이가 있다는 단점이 있어 가게, 식당, 공장에 주로 시공합니다. 또한, 액체방수공사란 콘크리트, 모르타르 등의 표면에 액체 형태의 방수제를 도포하거나 침투시키고 방수제를 혼합한 모르타르를 덧발라 침투를 막는 공법입니다.


source_text :  페인트 하도재 없이 페인트를 바로 칠할 경우 어떤 문제가 발생할 수 있나요?
result :       페인트 하도재는 바탕면과 페인트의 접착 성능을 높이기 위해 칠합니다. 

In [16]:
# Test 데이터셋의 모든 질의에 대한 답변으로부터 512 차원의 Embedding Vector 추출
# 평가를 위한 Embedding Vector 추출에 활용하는 모델은 'distiluse-base-multilingual-cased-v1' 이므로 반드시 확인해주세요.
from sentence_transformers import SentenceTransformer # SentenceTransformer Version 2.2.2

# Embedding Vector 추출에 활용할 모델(distiluse-base-multilingual-cased-v1) 불러오기
model = SentenceTransformer('distiluse-base-multilingual-cased-v1')

# 생성한 모든 응답(답변)으로부터 Embedding Vector 추출
pred_embeddings = model.encode(preds)
pred_embeddings.shape

(130, 512)

In [17]:
submit = pd.read_csv('./bigdata/sample_submission.csv')
# 제출 양식 파일(sample_submission.csv)을 활용하여 Embedding Vector로 변환한 결과를 삽입
submit.iloc[:,1:] = pred_embeddings
submit.head()

Unnamed: 0,id,vec_0,vec_1,vec_2,vec_3,vec_4,vec_5,vec_6,vec_7,vec_8,...,vec_502,vec_503,vec_504,vec_505,vec_506,vec_507,vec_508,vec_509,vec_510,vec_511
0,TEST_000,0.044602,0.012139,0.020529,0.011162,0.065665,0.020268,-0.018136,0.012876,0.015751,...,-0.001223,-0.030352,-0.016536,-0.02963,0.000294,0.014831,0.050644,0.025173,0.017702,0.031392
1,TEST_001,-0.041642,0.03343,8.3e-05,-0.009218,0.047056,0.011109,-0.027505,-0.006905,0.005268,...,-0.000544,0.018413,-0.040152,-0.019035,0.012574,0.063181,-0.053114,-0.030768,0.009494,0.015076
2,TEST_002,0.013767,-0.0442,-0.03336,-0.001521,0.13827,-0.030953,-0.00352,-0.03113,0.031937,...,-0.005634,-0.024755,0.046367,-0.02375,-0.014049,0.000465,-0.036908,-0.035307,-0.050996,0.090346
3,TEST_003,-0.027219,-0.004336,0.058696,0.006045,0.091306,-0.063706,-0.070253,-0.007821,0.002429,...,-0.05181,-0.026638,-0.043167,-0.013853,-0.051651,0.036527,-0.03967,-0.01418,-0.020559,0.095904
4,TEST_004,0.001872,0.007149,-0.005232,-0.008722,0.116962,0.005872,0.055559,0.038449,-0.019666,...,-0.012512,-0.00037,0.033457,0.007287,-0.025373,0.008964,-0.019305,0.018529,0.008241,0.042715


In [18]:
# 리더보드 제출을 위한 csv파일 생성
submit.to_csv('./submit/dacon-v0_submit.csv', index=False)