In [1]:
# 패키지 설치
!pip install transformers
!pip install datasets
!pip install sentence_transformers

# 패키지 로드
import pandas as pd
import torch
from transformers import PreTrainedTokenizerFast, BartModel,BartForConditionalGeneration
import math
import re
import logging
from datetime import datetime
from torch.utils.data import DataLoader
from datasets import load_dataset
from sentence_transformers import SentenceTransformer, LoggingHandler, losses, models, util
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from sentence_transformers.readers import InputExample
from nltk.translate.bleu_score import corpus_bleu
from transformers import pipeline, AutoTokenizer

Collecting transformers
  Downloading transformers-4.30.2-py3-none-any.whl (7.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m76.7 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.14.1 (from transformers)
  Downloading huggingface_hub-0.16.4-py3-none-any.whl (268 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m268.8/268.8 kB[0m [31m30.0 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1 (from transformers)
  Downloading tokenizers-0.13.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m84.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting safetensors>=0.3.1 (from transformers)
  Downloading safetensors-0.3.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m57.2 MB/s[0m eta [36m0:00:0

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
model_sts = torch.load("/content/drive/MyDrive/conference(18,19)/model.pt")
data = pd.read_csv('/content/drive/MyDrive/conference(18,19)/final_data.csv')

content = []
for i in range(len(data)):
    content.append(str(data['contents'][i]))
document_embeddings = model_sts.encode(content)

In [29]:
class fn():

    def __init__(self, text):
        self.text = re.sub("(<span class='quot[0-9]'>|\n\r\n|</span>|<br/>|<br />|([^0-9가-힣A-Za-z. ]))","",text)

    def __str__(self):
        return f"해당 클래스는 '{self.text}'라는 문장이 참인지, 거짓인지 판단합니다."

    def summarize(self):
        tokenizer = PreTrainedTokenizerFast.from_pretrained('digit82/kobart-summarization')
        model_sm = BartForConditionalGeneration.from_pretrained('digit82/kobart-summarization')
        text = self.text.replace('\n', ' ')
        raw_input_ids = tokenizer.encode(text)
        input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

        if len(input_ids) > 1024:
            summary_text = '해당 기사 본문 내용이 너무 길어서 요약에 실패했습니다. 좀더 적은 양의 본문 내용을 뽑아주세요'
        else:
            summary_ids = model_sm.generate(torch.tensor([input_ids]),  num_beams=4,  max_length=512,  eos_token_id=1)
            summary_text = tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)

        return summary_text

    def sts(self):
        query_embedding = model_sts.encode(self.text)
        cos_scores = util.pytorch_cos_sim(query_embedding, document_embeddings)[0]
        top_results = torch.topk(cos_scores, k=3)
        num_top_results = sum(top_results[0] > 0.45)

        cos_contents = []
        label_contents = []

        if num_top_results != 0:
            for i, (score, idx) in enumerate(zip(top_results[0], top_results[1])):
                if score <= 0.5: break
                label = 'True' if data['label'][int(idx)] == 1 else 'False'
                cos_contents.append(content[idx])
                label_contents.append(label)
            return cos_contents, label_contents

        elif num_top_results == 0:
            return "입력 문장과 유사한 문장이 없으므로 확인이 불가능합니다"

    def nli(self, con_text):
        classifier = pipeline("text-classification", model="Huffon/klue-roberta-base-nli", return_all_scores=True)
        tokenizer = AutoTokenizer.from_pretrained("Huffon/klue-roberta-base-nli")
        results = classifier(f'{self.text} {tokenizer.sep_token} {con_text}')[0]
        return results

    def fact(self):
        if self.sts() == "입력 문장과 유사한 문장이 없으므로 확인이 불가능합니다":
            return "입력 문장과 유사한 문장이 없으므로 확인이 불가능합니다"

        else:
            sts_list = []
            for i in self.sts()[0]:
                sts_list.append(i)

            label_list = []
            for i in self.sts()[1]:
                label_list.append(i)

            nli_list = []
            for i in sts_list:
                nli_list.append(self.nli(i))

            fact_list = []

            for i in range(len(nli_list)):
                score = []
                for j in nli_list[i]:
                    score.append(j['score'])

                if score[0]>score[2]:
                    if label_list[i] == 'True':
                        fact_list.append('True')
                    else:
                        fact_list.append('False')

                else:
                    if label_list[i] == 'True':
                        fact_list.append('False')
                    else:
                        fact_list.append('True')

            return fact_list

    def result(self):
        if self.fact() == "입력 문장과 유사한 문장이 없으므로 확인이 불가능합니다":
            return "입력 문장과 유사한 문장이 없으므로 확인이 불가능합니다"
        else:
            if len(self.fact()) == 1:
                return f"입력 문장'{self.text}'에 대한 진위 여부는 '{self.fact()}'입니다."
            elif len(self.fact()) == 2:
                if self.fact() == ['True','False'] or self.fact() == ['False','True']:
                    return f"입력 문장'{self.text}'에 대한 판단을 유보합니다"
                else:
                    return f"입력 문장'{self.text}'에 대한 진위 여부는 '{self.fact()[0]}'입니다."

            else:
                t = 0
                f = 0
                for i in self.fact():
                    if i == 'True':
                        t += 1
                    else:
                        f += 1
                if t>f:
                    return f"입력 문장'{self.text}'에 대한 진위 여부는 'True'입니다."
                else:
                    return f"입력 문장'{self.text}'에 대한 진위 여부는 'False'입니다."



In [30]:
a = fn("문재인 아들이 비리 의혹이 없다")

In [8]:
a.sts()

(['안철수 문재인 아들 5급 공무원에 특채는 사실', '문재인 민주당 후보 아들이 고용정보원에서 휴직 중 승진했다 는 의혹 '],
 ['False', 'False'])

In [9]:
a.nli('안철수 문재인 아들 5급 공무원에 특채는 사실')

Downloading (…)lve/main/config.json:   0%|          | 0.00/926 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/499 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/495k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Xformers is not installed correctly. If you want to use memory_efficient_attention to accelerate training use the following command to install Xformers
pip install xformers.


[{'label': 'ENTAILMENT', 'score': 0.00031106884125620127},
 {'label': 'NEUTRAL', 'score': 0.9961093068122864},
 {'label': 'CONTRADICTION', 'score': 0.003579586511477828}]

In [None]:
a.nli('문재인 민주당 후보 아들이 고용정보원에서 휴직 중 승진했다 는 의혹')

[{'label': 'ENTAILMENT', 'score': 0.00038911771844141185},
 {'label': 'NEUTRAL', 'score': 0.9987987279891968},
 {'label': 'CONTRADICTION', 'score': 0.0008122034487314522}]

In [17]:
f = a.fact()



In [20]:
f[0]

'True'

In [31]:
r = a.result()

In [32]:
r

"입력 문장'문재인 아들이 비리 의혹이 없다'에 대한 진위 여부는 'True'입니다."