In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.28.1-py3-none-any.whl (7.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.0/7.0 MB[0m [31m63.4 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.13.4-py3-none-any.whl (200 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m200.1/200.1 kB[0m [31m22.0 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.3-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m67.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.13.4 tokenizers-0.13.3 transformers-4.28.1


In [3]:
import pandas as pd
import numpy as np
import urllib.request
import tensorflow as tf
import transformers
import re
import os
from tqdm import tqdm
from tensorflow import keras
from transformers import BertTokenizerFast
from transformers import TFBertForSequenceClassification

In [5]:
from transformers import TextClassificationPipeline

# Load Fine-tuning model
MODEL_NAME = 'best_bert'
MODEL_SAVE_PATH = os.path.join("/content/drive/MyDrive", MODEL_NAME)

loaded_tokenizer = BertTokenizerFast.from_pretrained(MODEL_SAVE_PATH)
loaded_model = TFBertForSequenceClassification.from_pretrained(MODEL_SAVE_PATH)

text_classifier = TextClassificationPipeline(
    tokenizer=loaded_tokenizer,
    model=loaded_model,
    framework='tf',
    return_all_scores=True
)

All model checkpoint layers were used when initializing TFBertForSequenceClassification.

All the layers of TFBertForSequenceClassification were initialized from the model checkpoint at /content/drive/MyDrive/best_bert.
If your task is similar to the task the model of the checkpoint was trained on, you can already use TFBertForSequenceClassification for predictions without further training.


In [6]:
df = pd.read_excel('/content/drive/MyDrive/labeling.xlsx')

In [7]:
def sentiment_predict(sentence):
  preds_list = text_classifier(sentence)[0]

  sorted_preds_list = sorted(preds_list, key=lambda x: x['score'], reverse=True)
  predicted_label = int(re.sub(r'[^0-9]', '', sorted_preds_list[0]['label']))
  predicted_score = sorted_preds_list[0]['score']
  real_label = df[df['label'] == predicted_label]['sentiment'].values

  print(f'{predicted_score:.2%} 확률로 {real_label}에 속하는 감정 문장입니다.')

In [8]:
def sentiment_all_predict(sentence):
  preds_list = text_classifier(sentence)[0]

  pos_sum = 0
  sorted_preds_list = sorted(preds_list, key=lambda x: x['score'], reverse=True)
  for i in range(0, len(sorted_preds_list)):
    predicted_label = int(re.sub(r'[^0-9]', '', sorted_preds_list[i]['label']))
    predicted_score = sorted_preds_list[i]['score']
    real_label = df[df['label'] == predicted_label]['sentiment'].values
    pos_sum += predicted_score

    print(f'{predicted_score:.2%} 확률로 {real_label}에 속하는 감정 문장입니다.')

In [28]:
sentiment_predict('일 더하기 일은 귀요미')

10.40% 확률로 ['신이 난']에 속하는 감정 문장입니다.


In [29]:
sentiment_all_predict('일 더하기 일은 귀요미')

10.40% 확률로 ['신이 난']에 속하는 감정 문장입니다.
8.58% 확률로 ['기쁨']에 속하는 감정 문장입니다.
5.05% 확률로 ['질투하는']에 속하는 감정 문장입니다.
4.54% 확률로 ['안도']에 속하는 감정 문장입니다.
4.30% 확률로 ['희생된']에 속하는 감정 문장입니다.
4.29% 확률로 ['흥분']에 속하는 감정 문장입니다.
3.69% 확률로 ['부끄러운']에 속하는 감정 문장입니다.
3.02% 확률로 ['만족스러운']에 속하는 감정 문장입니다.
2.64% 확률로 ['감사하는']에 속하는 감정 문장입니다.
2.48% 확률로 ['죄책감의']에 속하는 감정 문장입니다.
2.41% 확률로 ['한심한']에 속하는 감정 문장입니다.
2.18% 확률로 ['열등감']에 속하는 감정 문장입니다.
2.03% 확률로 ['방어적인']에 속하는 감정 문장입니다.
2.02% 확률로 ['눈물이 나는']에 속하는 감정 문장입니다.
1.67% 확률로 ['성가신']에 속하는 감정 문장입니다.
1.66% 확률로 ['자신하는']에 속하는 감정 문장입니다.
1.64% 확률로 ['느긋']에 속하는 감정 문장입니다.
1.61% 확률로 ['당황']에 속하는 감정 문장입니다.
1.51% 확률로 ['혼란스러운']에 속하는 감정 문장입니다.
1.49% 확률로 ['당혹스러운']에 속하는 감정 문장입니다.
1.48% 확률로 ['툴툴대는']에 속하는 감정 문장입니다.
1.42% 확률로 ['신뢰하는']에 속하는 감정 문장입니다.
1.37% 확률로 ['가난한, 불우한']에 속하는 감정 문장입니다.
1.34% 확률로 ['짜증내는']에 속하는 감정 문장입니다.
1.21% 확률로 ['안달하는']에 속하는 감정 문장입니다.
1.19% 확률로 ['편안한']에 속하는 감정 문장입니다.
1.19% 확률로 ['상처']에 속하는 감정 문장입니다.
1.19% 확률로 ['고립된']에 속하는 감정 문장입니다.
1.09% 확률로 ['초조한']에 속하는 감정 문장입니다.
1.08% 확률로 ['걱정스러운']에 속하