In [None]:
# INIT
# !pip install 'transformers[torch]' datasets torch tensorflow sentencepiece numpy pandas -q
import torch
from huggingface_hub import login
login("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")

def get_device():
    if torch.cuda.is_available():
        return torch.device("cuda")
    elif torch.backends.mps.is_built():
        return torch.device("mps")
    else:
        return torch.device("cpu")

# 2.텍스트 분류 (Text Classification)

* 텍스트 분류는 자연어 처리의 가장 대표적인 문제이다.
* 텍스트 분류는 텍스트를 입력으로 받아, 텍스트가 어떤 종류의 범주에 속하는지를 구분하는 문제이다.
  예를 들어 스팸 메일 분류기는 이메일을 입력으로 받아 스팸 메일인지 아닌지를 구분한다. 또한 영화 리뷰 분류기는 영화 리뷰를 입력으로 받아 리뷰가 긍정적인지 부정적인지를 구분한다.

*트랜스포머 모델을 훈련하는 전형적인 파이프라인*
```mermaid
graph LR
    S1[데이터셋]
    S2[토크나이저]
    S3[트랜스포머스]
    S4[데이터셋]

    S1 -->|데이터셋 로드하고 전처리하기| S2
    S2 -->|토크나이저로 토큰화하고 인코딩하기| S3
    S3 -->|트랜스포머 모델 훈련하기| S4
    S4 -->|훈련된 모델로 텍스트 분류하기| S5
```

## 2.1. 데이터셋

영어로 작성된 트위터 메시지에 감정이 어떻게 표현되는지 분류하는 감정 분류기를 만든다.
감정은 분노(angry), 혐오(disgust), 두려움(fear), 기쁨(joy), 슬픔(sadness), 놀람(surprise)의 여섯 개 감정으로 분류한다.

In [None]:
# 허깅페이스 데이터셋 로드
from datasets import list_datasets

all_datasets = list_datasets()
print("현재 허브에는 {}개의 데이터셋이 있습니다.\n".format(len(all_datasets)))

In [None]:
# emotion 데이터셋 로드
from datasets import load_dataset
emotions = load_dataset('emotion')
emotions

In [None]:
train_ds = emotions['train']
train_ds

In [None]:
# 한 개의 행이 하나의 딕셔너리로 구성되어 있다. 키는 'label'과 'text'이다.
train_ds[0]

In [None]:
# 키를 이용해 값을 가져올 수 있다.
train_ds.column_names

In [None]:
print(train_ds.features)

In [None]:
train_ds[:5]

### 2.1.2. 데이터셋에서 데이터프레임 만들기


In [None]:
import pandas as pd

emotions.set_format('pandas')
df = emotions['train'][:]
df.head()

In [None]:
# 레이블을 숫자에서 문자로 변환
def label_int2str(row):
  return emotions["train"].features["label"].int2str(row)

# 레이블명 컬럼 추가
df['label_name'] = df['label'].apply(label_int2str)
df.head()

### 2.1.3. 클래스 분포 확인

* 텍스트 분류 문제를 풀 때는 데이터셋의 클래스 분포를 확인하는 것이 중요하다.
* 클래스 분포가 평향된 데이터셋은 훈련 손실과 평가 지표 측면에서 균형 잡힌 데이터셋과 다른 처리법이 필요하다.

In [None]:
import matplotlib.pyplot as plt

df['label_name'].value_counts(ascending=True).plot.barh()
# with label counts
for index, value in enumerate(df['label_name'].value_counts(ascending=True)):
  plt.text(value, index, str(value))
plt.title("Frequency of classes")
plt.show()

이 데이터셋은 불균형이 심하다. joy와 sadness 클래스가 ㅁ낳이 등장하고 love와 surprise 클래스는 5~10배 정도 적게 등장한다.

불균형한 데이터는 다음 방법을 사용해 균형을 맞출 수 있다.

* 소수 클래스를 랜덤하게 오버샘플링 한다.
* 다수 클래스를 랜덤하게 언더샘플링 한다.
* 클래스의 대표성이 부족하다면 레이블된 데이터를 더 많이 수집한다.

### 2.1.4. 트위 길이 확인

* 트랜스포머 모델은 *최대 문맥 크기(maximum context size)*라는 최대 입력 시퀀스 길이가 있다.
* DistilBERT 모델의 최대 문맥 크키는 512토큰으로 문단 몇개 정도가 된다.
* 트윗당 단어 분포를 보면 감정에 따른 트위 길이가 대략 추정된다.

In [None]:
df['words per tweet'] = df['text'].str.split().apply(len)
df.boxplot('words per tweet', by='label_name', grid=False, showfliers=False, color='black')

plt.show()

* 각 감정의 트윗 길이는 15개 단어 정도이다.
* 가장 긴 트윗도 DistilBERT의 최대 문맥 크기보다 더 작다.

In [None]:
emotions.reset_format()

## 2.2.텍스트에서 토큰으로

* DistilBERT 같은 트랜스포머 모델은 원시 문자열을 입력으로 받지 못한다.

**토큰화 방법**

1. 문자 토큰화
2. 단어 토큰화
3. 부분단어 토큰화

### 2.2.1. 문자 토큰화

In [None]:
text = "Tokenizing text is a core task of NLP."
tokenized_text = list(text)
print(tokenized_text)

In [None]:
# 수치화
token2idx = {ch: idx for idx, ch in enumerate(sorted(set(tokenized_text)))}
print(token2idx)

In [None]:
# 어휘 사전에 있는 각 문자를 고유한 정수로 바꾸는 매핑 딕셔너리
input_ids = [token2idx[token] for token in tokenized_text]
print(input_ids)

각 토큰이 고유한 숫자 식별자로 매핑된다.

In [None]:
categorical_df = pd.DataFrame({"Name":["Bumblebee", "Optimus Prime", "Megatron"], "Label ID": [0, 1, 2]})
categorical_df

In [None]:
# 원 핫 백터로 변환
pd.get_dummies(categorical_df, columns=["Label ID"])

**하나의 항목만 1이고 나머지는 0인 벡터로 변환**을 원-핫 벡터라고 한다.
벡터의 두 원소가 1이면 해당하는 토큰이 동시에 존재한다는 의미이다.

In [None]:
# pytorch input_ids를 텐서로 바꾸고 one_hot()함수를 이용해 원 핫 인코딩을 만든다.
import torch
import torch.nn.functional as F

input_ids = torch.tensor(input_ids)
one_hot_encodings = F.one_hot(input_ids, num_classes=len(token2idx))
one_hot_encodings.shape

38개의 입력 토큰 각각에 20 차원의 원-핫 벡터가 만들어 진다.

어휘사전을 구성하는 고유한 문자가 20개이기 때문이다.

In [None]:
print(f"토큰: {tokenized_text[0]}")
print(f"텐서 인덱스: {input_ids[0]}")
print(f"원 핫 인코딩: {one_hot_encodings[0]}")

### 2.2.2. 단어 토큰화

* 텍스트를 문자가 아니라 단어로 분할하고 각 단어를 정수로 매핑한다.
* 단어 토큰화는 처음부터 단어를 사용하기 때문에 문자에서 단어를 학습하는 단계가 생략되어 훈련 과정의 복잡도가 감소한다.

In [None]:
tokenized_text = text.split()
print(tokenized_text)

문자 수준 토큰화에서 수행한 단계를 동일하게 적용해 각 단어를 하나의 ID에 매핑한다.
**구두점을 제거하고 모든 문자를 소문자로 변환**한다.

### 2.2.3. 부분단어 토큰화

기본적으로 문자 토큰화와 단어 토큰화의 장점을 결합한 형태이다. 드믈게 등장하는 단어를 더 작은 단위로 나누면 모델이 복잡한 단어나 철차 오류를 처리하기 용이하다.
또한 입력 길이를 적절한 크기로 유지하기 위해 자주 등장하는 단어를 고유한 항목으로 유지한다. 부분단어 토큰화는 통계 규칙과 알고리즘 을 함께 사용해 사전 훈련 말뭉치에서 학습한다.

In [None]:
from transformers import AutoTokenizer

model_ckpt = 'distilbert-base-uncased'

tokenizer = AutoTokenizer.from_pretrained(model_ckpt)

In [None]:
# AutoTokenizer클래스는 체크포인트 이름을 사용해 모델의 설정, 사전 훈련된 가중치, 어휘사전을 자동으로 추출하는 자동 클래스 이다.
# 이 클래스를 사용하면 모델 간의 빠른 전환이 가능하지만, 특정 클래스를 수동으로 로드할 수도 있다.

# DisstilBERT 토크나이저 로드

from transformers import DistilBertTokenizer

distilbert_tokenizer = DistilBertTokenizer.from_pretrained(model_ckpt)

In [None]:
import json
encoded_text = tokenizer(text)
print(encoded_text)

문자 토큰화처럼 단어가 input_ids 필드에 있는 고유한 정수에 매핑된다.

In [None]:
tokens = tokenizer.convert_ids_to_tokens(encoded_text['input_ids'])
print(tokens)

* [CLS], [SEP]가 시퀀스 처음과 끝에 추가된다.
  이런 토큰은 모델마다 다르며, 시퀀스의 시작과 끝을 나타낸다.
* 모든 토큰이 소문자로 변환된다.
* `tokenizing`, `NLP`가 각각 2개의 토큰으로 분할된다.
  자주 등장하는 단어가 아니기 때문에 `###izing`, `##p`에 있는 #는 앞의 문자열이 공백이 아님을 나타낸다.
  이런 접두사가 붙은 토큰은 문자열로 다시 바꿀 때 앞의 토큰과 합쳐진다.


In [None]:
print(tokenizer.convert_tokens_to_string(tokens))

In [None]:
# 어휘 사전의 크기 확인
tokenizer.vocab_size

In [None]:
# 모델의 최대 문맥 크기 확인
tokenizer.model_max_length

### 2.2.4. 전체 데이터셋 토큰화

전체 말뭉치를 토큰화하기 위해서`DatasetDict`객채의 `map`메서드를 사용한다.

In [None]:
def tokenize(batch):
  # padding=True 로 설정하면 배치에 있는 가장 긴 샘플 크기에 맞춰 심플을 0으로 패딩한다.
  # truncation=True 로 설정하면 모델의 최대 문맥 크기에 맞춰 샘플을 잘라낸다.
  return tokenizer(batch['text'], padding=True, truncation=True)

# 확인

print(tokenize(emotions["train"][:2]))

첫번째 문장이 두번째 문자보다 길이가 짧다. 이런 경우에는 두번째 문장을 첫번째 문장의 길이에 맞추기 위해 패딩을 추가한다.
여기서 패딩은 0으로 채워진 토큰이다. 어휘사전에는 [PAD]에 해당한다.

In [None]:
emotions_encoded = emotions.map(tokenize, batched=True, batch_size=None)
print(emotions_encoded['train'].column_names)

## 2.3. 텍스트 분류 모델 훈련하기

DistilBERT 같은 모델은 텍스트 시퀀스에 있는 마스킹된 단어를 예측하도록 사전 훈련된다. 하지만 이런 언어 모델은 텍스트 분류에 바로 사용하지 못한다. 

DistilBERT 같은 인코더 기반 모델의 구조

1. 텍스트를 토큰화해 토큰 인코딩이라 부르는 `원-핫 벡터`로 변환한다.
2. 토큰 인코딩을 저차원 공간의 벡터인 `토큰 임베딩`으로 변환한다.
3. 토큰 임베딩을 `인코더 블록`층에 통과시켜 각 입력 토큰에 대한 은닉 상태를 만든다.
4. 각 은틱 상태는 언어 모델링의 사전 훈련 목표를 달성하기 위해 입력 토큰을 예측하는 층으로 전달된다.
5. 분류 작업에서는 이 언어 모델링층을 분류층으로 변환한다.

*특성추출*

사전 훈련된 모델을 수정하지 않고 은닉 상태를 특성으로 사용해 분류모델을 훈련

*미세튜닝*

사전 훈련된 모델의 파라미터도 업데이트하기 위해 전체 모델을 `엔드-투-엔드`로 훈련한다.

### 2.3.1. 트랜스포머를 특성 추출기로 사용하기

트랜스포머는 특성 추출기로 사용하기 편하다. 트랜스포머는 훈련하는 동안 바디의 가중치를 동결하고 은닉 상태를 분류 모델의 특성으로 사용한다.

이 방식은 작거나 얕은 모델을 빠르게 훈련한다.

**사전 훈련된 모델 사용하기**

트랜스포머의 `AutoModel`은 `AutoTokenizer`와 비슷하게 사전 훈련된 가중치를 로드하는 `from_pretrained`메서드를 제공한다.

In [None]:
from transformers import AutoModel

model_ckpt = 'distilbert-base-uncased'
device = get_device()
model = AutoModel.from_pretrained(model_ckpt).to(device)

**마지막 은닉 상태 추출하기**

문자열을 인코딩하고 토큰을 파이토치 텐서로 변환한다. `return_tensors=pt` 매개변수를 지정해 텐서를 반환한다.

In [None]:
text = "tis is a text"

inputs = tokenizer(text, return_tensors="pt")
print(f"입력 텐서 크기 : {inputs['input_ids'].size()}")

In [None]:
inputs = {k:v.to(device) for k, v in inputs.items()}
with torch.no_grad(): # 그래디언트 계산 비활성화
  outputs = model(**inputs)
print(outputs)

In [None]:
outputs.last_hidden_state.size()

은닉 상태 텐서의 크기는 [batch_size, n_nokens, hidden_dim]이다. 

6개의 입력 토큰마다 768차원의 벡터를 반환한다.

In [None]:
# 마지막 은닉 상태를 얻는 방법
outputs.last_hidden_state[:,0].size()

In [None]:
def extract_hidden_states(batch):
  # 모델 입력을 GPU로 이동
  inputs = {k:v.to(device) for k, v in batch.items() if k in tokenizer.model_input_names}
  # 마지막 은닉 상태를 얻는다.
  with torch.no_grad():
    last_hidden_state = model(**inputs).last_hidden_state
  # [CLS]토큰에 대한 벡터를 반환한다.
  return {"hidden_state": last_hidden_state[:,0].cpu().numpy()}

In [None]:
# 이 모델은 텐서가 입력되기를 기대하므로 input_ids와 attention_mask 열을 "torch" 포멧으로 변경한다.
emotions_encoded.set_format("torch", columns=["input_ids", "attention_mask", "label"])

In [None]:
# 모든 분할에 대해 은닉 상태를 한번에 추출한다.
# batch_size=None으로 지정하지 않았기 때문에 기본값 1000이 사용된다.
# 기대한 대로 extract_hidden_states() 함수를 적용하면 새로운 hidden_state 열이 데이터셋에 추가된다.
emotions_hidden = emotions_encoded.map(extract_hidden_states, batched=True)

In [None]:
emotions_hidden["train"].column_names

**특성 행렬 마들기**

전처리된 데이터셋에 분류 모델을 훈련하는데 필요한 모든 정보가 담겨있다.

은닉 상태를 입력 특성으로 사용하고 레이블을 타깃으로 사용한다.

In [None]:
import numpy as np

X_train = np.array(emotions_hidden["train"]["hidden_state"])
X_valid = np.array(emotions_hidden["validation"]["hidden_state"])
y_train = np.array(emotions_hidden["train"]["label"])
y_valid = np.array(emotions_hidden["validation"]["label"])
X_train.shape, X_valid.shape, y_train.shape, y_valid.shape

은닉 상태로 모델을 훈련하기 전에 분류하려는 감저엥 대한 융여한 표현을 제공하는지 확인한다.

**훈련 세트 시각화하기**

768차원의 은닉상태를 시각화하기는 어렵기 때문에 UMAP 알고리즘을 사용해서 이 벡터를 2차원으로 줄인다.


In [None]:
from umap import UMAP
from sklearn.preprocessing import MinMaxScaler

# 특성 스케일을 [0, 1]로 조정한다.
X_scaled = MinMaxScaler().fit_transform(X_train)
# UMAP 객체를 생성하고 훈련한다.
mapper = UMAP(n_components=2, metric='cosine', random_state=42).fit(X_scaled)
df_emb = pd.DataFrame(mapper.embedding_, columns=['X', 'Y'])
df_emb['label'] = y_train
df_emb.head()

출력 결과는 훈련 샘플과 개수가 동일한 배열이다. 하지만 특성은 768개가 아니라 2개 이다.

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(7,5))
axes = axes.flatten()

cmaps = ["Greys", "Blues", "Oranges", "Reds", "Purples", "Greens"]
labels = emotions["train"].features["label"].names

for i, (label, cmap) in enumerate(zip(labels, cmaps)):
  df_emb_sub = df_emb.query(f"label == {i}")
  axes[i].hexbin(df_emb_sub['X'], df_emb_sub['Y'], cmap=cmap, gridsize=20, linewidths=(0,))
  axes[i].set_title(label)
  axes[i].set_xticks([]), axes[i].set_yticks([])

plt.tight_layout()
plt.show()

**간단한 분류 모델 훈련하기**

은닉 상태가 감정별로 조금씩 다르지만 일부 감정 사이에는 명확한 경계가 없기도 하다.

이 은닉 상태를 사용해 사이킷런의 로지스틱 회귀 모델을 훈련한다.

In [None]:
from sklearn.linear_model import LogisticRegression

# 수렴을 보장하기 위해 `max_iter`를 증가 시킨다.
lr_clf = LogisticRegression(max_iter=3000)
lr_clf.fit(X_train, y_train)
lr_clf.score(X_valid, y_valid)

In [None]:
from sklearn.dummy import DummyClassifier

dummy_clf = DummyClassifier(strategy="most_frequent")
dummy_clf.fit(X_train, y_train)
dummy_clf.score(X_valid, y_valid)

사이킷런의 DummyClassifier와 비교해 보면 DistilBERT 임베딩을 사용한 간단한 분류 모델은 기준 모델보다 훨씬 높은 정확도를 달성한다.

**오차 행렬 시각화하기**

In [None]:
from sklearn.metrics import ConfusionMatrixDisplay, confusion_matrix

def plot_confusion_matrix(y_preds, y_true, labels):
  cm = confusion_matrix(y_true, y_preds, normalize="true")
  fig, ax = plt.subplots(figsize=(6,6))
  disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)
  disp.plot(cmap="Blues", values_format=".2f", ax=ax, colorbar=False)
  plt.title("Normalized confusion matrix")
  plt.show()

y_preds = lr_clf.predict(X_valid)
plot_confusion_matrix(y_preds, y_valid, labels)

`anger`와 `fear`는 `sadness`와 가장 많이 혼동된다.

`love`와 `surprise`는 `joy`로 많이 오인된다.

### 2.3.2 트랜스포머 미세 튜닝하기

미세 튜닝 방식에서는 은닉 상태를 고정된 특성으로 사용하지 않고 전체 모델을 훈련한다.

이를 위해 분류 헤드는 미분이 가능해야한다. 따라서 이 방식은 신경망으로 분류 작업을 수행한다.

분류 모델에 입력으로 사용하는 은닉 상태를 훈련하면 분류 작업에 적합하지 않은 데이터를 다룰다는 문제를 회피할 수 있다.

초기 은식 상태는 훈련하는 동안에 모델 손실이 감소하도록 수정되고 성능이 높아진다.

**사전 훈련된 모델 로드하기**

1. 사전 훈련된 DistilBERT 모델
2. 

In [None]:
from transformers import AutoModelForSequenceClassification

num_labels = 6
model = (AutoModelForSequenceClassification
         .from_pretrained(model_ckpt, num_labels=num_labels)
         .to(device))

모델 일부가 랜덤하게 초기화된다는 경고가 발생한다. 이 경고는 모델의 일부가 사전 훈련된 가중치로 초기화되지 않았다는 것을 의미한다.
정상적인 동작이다.

In [None]:
from sklearn.metrics import accuracy_score, f1_score

def compute_metrics(pred):
  """
  
  """
  labels = pred.label_ids
  preds = pred.predictions.argmax(-1)
  f1 = f1_score(labels, preds, average="weighted")
  acc = accuracy_score(labels, preds)
  return {"accuracy": acc, "f1": f1}

**모델 훈련하기**

훈련 파라미터를 정의하기 위해 `TrainingArguments`클래스를 사용한다. 이 클래스는 많은 정보를 저장하며 훈련과 평가를 상세하게 제어할 수 있다.

In [None]:
from transformers import Trainer, TrainingArguments

batch_size = 64
logging_steps = len(emotions_encoded["train"]) // batch_size
model_name = f"{model_ckpt}-finetuned-emotion"
print(f"모델 이름: {model_name}")
training_args = TrainingArguments(output_dir=model_name,
                                  num_train_epochs=2,
                                  learning_rate=2e-5,
                                  per_device_train_batch_size=batch_size,
                                  per_device_eval_batch_size=batch_size,
                                  weight_decay=0.01,
                                  evaluation_strategy="epoch",
                                  disable_tqdm=False,
                                  logging_steps=logging_steps,
                                  push_to_hub=True,
                                  hub_private_repo=True,
                                  save_strategy="epoch",
                                  load_best_model_at_end=True,
                                  log_level="error")

배치 크기, 학습률, 에포크 횟수도 설정하고 훈련이 끝난 후 최상의 모델을 로드하도록 지정.

In [None]:
from transformers import Trainer

trainer = Trainer(model=model,
                  args=training_args,
                  compute_metrics=compute_metrics,
                  train_dataset=emotions_encoded["train"],
                  eval_dataset=emotions_encoded["validation"],
                  tokenizer=tokenizer)
trainer.train()

In [None]:
preds_output = trainer.predict(emotions_encoded["validation"])
preds_output.metrics

In [None]:
y_preds = np.argmax(preds_output.predictions, axis=1)
plot_confusion_matrix(y_preds, y_valid, labels)

In [None]:
## 케라스로 미세 튜닝하기

from transformers import TFAutoModelForSequenceClassification

print(f"Model Check Point: {model_ckpt}")
print(f"Number of labels: {num_labels}")

tf_model = (TFAutoModelForSequenceClassification.from_pretrained(model_ckpt, num_labels=num_labels, from_pt=True))

tokenizer_columns = tokenizer.model_input_names

tf_train_dataset = emotions_encoded["train"].to_tf_dataset(
  columns=tokenizer_columns,
  label_cols=["label"],
  shuffle=True,
  batch_size=batch_size)

tf_eval_dataset = emotions_encoded["validation"].to_tf_dataset(
  columns=tokenizer_columns,
  label_cols=["label"],
  shuffle=False,
  batch_size=batch_size)

In [None]:
import tensorflow as tf

tf_model.compile(
    optimizer=tf.keras.optimizers.Adam(learning_rate=2e-5),
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    metrics=tf.metrics.SparseCategoricalAccuracy(),
)

tf_model.fit(tf_train_dataset, validation_data=tf_eval_dataset, epochs=2)

**오류 분석**


In [None]:
from torch.nn.functional import cross_entropy

def forward_pass_with_label(batch):
  # 모든 입력 텐서를 모델과 같은 장치로 이동
  inputs = {k:v.to(device) for k, v in batch.items() if k in tokenizer.model_input_names}
  with torch.no_grad():
    output = model(**inputs)
    pred_label = torch.argmax(output.logits, axis=-1)
    loss = cross_entropy(output.logits, batch["label"].to(device), reduction="none")
    # 다른 데이터셋 열과 호환되도록 텐서를 CPU로 이동
    return {"loss": loss.cpu(), "predicted_label": pred_label.cpu().numpy()}

In [None]:
# 모든 샘플의 손실을 구한다.
emotions_encoded.set_format("torch", columns=["input_ids", "attention_mask", "label"])

# 손실 값을 계산한다.
emotions_encoded["validation"] = emotions_encoded["validation"].map(forward_pass_with_label, batched=True, batch_size=16)

In [None]:
# 텍스트, 손실, 예측 레이블과 진짜 레이블DataFrame을 만든다.
emotions_encoded.set_format("pandas")
cols = ["text", "label", "predicted_label", "loss"]
df_test = emotions_encoded["validation"][:][cols]
df_test["label"] = df_test["label"].apply(label_int2str)
df_test["predicted_label"] = (df_test["predicted_label"].apply(label_int2str))


***잘못된 레이블***

* 데이터에 레이블을 부여하는 프로세스는 모두 완벽하지 않다.
* 레이블을 부여하는 애너데이터가 실수할 수 있고, 레이블을 부여하는 방법에 따라 레이블이 달라질 수 있다.
* 잘못된 레이블이 존재하는 것은 자연스럽다.

***데이터셋의 특이사항***

* 데이터셋에는 특이사항이 존재할 수 있다.


In [None]:
df_test.sort_values('loss', ascending=False).head(10)

In [None]:
df_test.sort_values('loss', ascending=True).head(10)

**모델 저장 및 공유**

In [None]:
trainer.push_to_hub(commit_message="Training Completed!")

In [None]:
from transformers import pipeline

model_id = 'asanobm/distilbert-base-uncased-finetuned-emotion'

classifier = pipeline("text-classification", model=model_id)


In [None]:
tweet = "I saw a movie today and it was realy good."

preds = classifier(tweet, return_all_scores=True)

preds_df = pd.DataFrame(preds[0])
plt.bar(labels, 100 * preds_df['score'], color='C0')
plt.title(f"{tweet}")
plt.ylabel("Class probability (%)")
plt.show()

In [None]:
import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))  