# FLAN-T5 모델을 강화 학습(PPO) 및 효율적인 매개변수 미세 조정(PEFT)으로 미세 조정하여 덜 유해한 요약문 생성하기


이 노트북에서는 FLAN-T5 모델을 미세 조정하여 메타 AI의 혐오 발언 보상 모델을 사용해 덜 유해한 내용을 생성할 것입니다. 보상 모델은 주어진 텍스트에 대해 "혐오 아님" 또는 "혐오"를 예측하는 이진 분류기입니다. 근접 정책 최적화(Proximal Policy Optimization; PPO)을 활용하여 모델의 유해성을 줄이는 미세 조정을 진행할 것입니다.

# ml.m5.2xlarge 인스턴스로 테스트

In [2]:
!pip install --upgrade pip

Collecting pip
  Downloading pip-24.2-py3-none-any.whl.metadata (3.6 kB)
Downloading pip-24.2-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m56.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.0
    Uninstalling pip-24.0:
      Successfully uninstalled pip-24.0
Successfully installed pip-24.2


In [3]:
!pip install --upgrade setuptools wheel

Collecting setuptools
  Using cached setuptools-73.0.1-py3-none-any.whl.metadata (6.6 kB)
Collecting wheel
  Using cached wheel-0.44.0-py3-none-any.whl.metadata (2.3 kB)
Using cached setuptools-73.0.1-py3-none-any.whl (2.3 MB)
Using cached wheel-0.44.0-py3-none-any.whl (67 kB)
Installing collected packages: wheel, setuptools
  Attempting uninstall: wheel
    Found existing installation: wheel 0.43.0
    Uninstalling wheel-0.43.0:
      Successfully uninstalled wheel-0.43.0
  Attempting uninstall: setuptools
    Found existing installation: setuptools 72.1.0
    Uninstalling setuptools-72.1.0:
      Successfully uninstalled setuptools-72.1.0
Successfully installed setuptools-73.0.1 wheel-0.44.0


In [4]:
%pip install torch==2.0.1 torchdata

%pip install --disable-pip-version-check -q \
    transformers==4.34.1 \
    datasets==2.12.0 \
    accelerate==0.23.0 \
    evaluate==0.4.0 \
    trl==0.7.1 \
    loralib==0.1.1 \
    peft==0.9.0

Collecting torch==2.0.1
  Downloading torch-2.0.1-cp310-cp310-manylinux1_x86_64.whl.metadata (24 kB)
Collecting nvidia-cuda-nvrtc-cu11==11.7.99 (from torch==2.0.1)
  Downloading nvidia_cuda_nvrtc_cu11-11.7.99-2-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu11==11.7.99 (from torch==2.0.1)
  Downloading nvidia_cuda_runtime_cu11-11.7.99-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cuda-cupti-cu11==11.7.101 (from torch==2.0.1)
  Downloading nvidia_cuda_cupti_cu11-11.7.101-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu11==8.5.0.96 (from torch==2.0.1)
  Downloading nvidia_cudnn_cu11-8.5.0.96-2-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu11==11.10.3.66 (from torch==2.0.1)
  Downloading nvidia_cublas_cu11-11.10.3.66-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cufft-cu11==10.9.0.58 (from torch==2.0.1)
  Downloading nvidia_cufft_cu11-10.9.0.58-py3-none-man

In [1]:
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification, AutoModelForSeq2SeqLM, GenerationConfig
from datasets import load_dataset
from peft import PeftModel, PeftConfig, LoraConfig, TaskType

# trl: 트렌스포머 강화 학습 라이브러리
from trl import PPOTrainer, PPOConfig, AutoModelForSeq2SeqLMWithValueHead
from trl import create_reference_model
from trl.core import LengthSampler

import torch
import evaluate

import numpy as np
import pandas as pd

# tqdm: 루프의 진행 상황을 영리한 진행률 표시기로 보여주는 라이브러리
from tqdm import tqdm
tqdm.pandas()



<a name='2'></a>
## 2 - FLAN-T5 모델을 적재하고, 보상 모델 및 유해성 평가기 준비하기

<a name='2.1'></a>
### 2.1 - 데이터를 적재하고 FLAN-T5 모델을 요약에 대한 지침을 활용하여 미세 조정하기

여기서는 동일한 허깅 페이스 데이터 세트 [DialogSum](https://huggingface.co/datasets/knkarthick/dialogsum)과 사전 학습된 모델 [FLAN-T5](https://huggingface.co/docs/transformers/model_doc/flan-t5)를 계속 사용할 것입니다.

In [6]:
!pip install -U datasets huggingface_hub fsspec

Collecting datasets
  Downloading datasets-2.21.0-py3-none-any.whl.metadata (21 kB)
Collecting huggingface_hub
  Using cached huggingface_hub-0.24.6-py3-none-any.whl.metadata (13 kB)
Downloading datasets-2.21.0-py3-none-any.whl (527 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m527.3/527.3 kB[0m [31m31.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading huggingface_hub-0.24.6-py3-none-any.whl (417 kB)
Installing collected packages: huggingface_hub, datasets
  Attempting uninstall: huggingface_hub
    Found existing installation: huggingface-hub 0.17.3
    Uninstalling huggingface-hub-0.17.3:
      Successfully uninstalled huggingface-hub-0.17.3
  Attempting uninstall: datasets
    Found existing installation: datasets 2.12.0
    Uninstalling datasets-2.12.0:
      Successfully uninstalled datasets-2.12.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following depend

In [2]:
from datasets import load_dataset

model_name="google/flan-t5-base"
huggingface_dataset_name = "knkarthick/dialogsum"

dataset_original = load_dataset(huggingface_dataset_name)

dataset_original

Downloading readme:   0%|          | 0.00/4.65k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/11.3M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/442k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/1.35M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/12460 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/500 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/1500 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'dialogue', 'summary', 'topic'],
        num_rows: 12460
    })
    validation: Dataset({
        features: ['id', 'dialogue', 'summary', 'topic'],
        num_rows: 500
    })
    test: Dataset({
        features: ['id', 'dialogue', 'summary', 'topic'],
        num_rows: 1500
    })
})

다음 단계는 데이터 세트를 전처리합니다. 데이터 세트의 일부만 가져온 후, 특정 길이의 대화만 필터링합니다(예제들이 충분히 길면서 읽기 쉽도록 하기 위함입니다). 그런 다음 각 대화에 지침을 추가하고 프롬프트를 토큰화합니다. `input_ids` 필드에는 토큰 ID를 저장하고, `query` 필드에는 프롬프트의 디코딩된 버전을 저장합니다.

아래 셀에서 모든 단계를 차례로 수행할 수 있지만, 모든 작업을 `build_dataset`이라는 함수로 정리하는 것이 좋은 습관입니다.

In [3]:
from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification, AutoModelForSeq2SeqLM, GenerationConfig

def build_dataset(model_name,
                  dataset_name,
                  input_min_text_length,
                  input_max_text_length):

    # 데이터 세트 적재 (이 실습에서는 "학습" 부분만 필요합니다).
    dataset = load_dataset(dataset_name, split="train")

    # 대화의 길이가 input_min_text_length와 input_max_text_length 사이인 대화만 필터링합니다.
    dataset = dataset.filter(lambda x: len(x["dialogue"]) > input_min_text_length and len(x["dialogue"]) <= input_max_text_length, batched=False)

    # 토크나이저 준비. device_map="auto"를 설정하면 GPU와 CPU 간의 전환이 자동으로 이루어집니다.
    tokenizer = AutoTokenizer.from_pretrained(model_name, device_map="auto")

    def tokenize(sample):

        # 각 대화에 지침을 추가.
        prompt = f"""
Summarize the following conversation.

{sample["dialogue"]}

Summary:
"""
        sample["input_ids"] = tokenizer.encode(prompt)

        # 이 지침은 "query"라고 불리며, 이는 PPO 라이브러리의 필수 사항입니다.
        sample["query"] = tokenizer.decode(sample["input_ids"])
        return sample

    # 각 대화를 토큰화
    dataset = dataset.map(tokenize, batched=False)
    dataset.set_format(type="torch")

    # 데이터 세트를 학습용과 테스트용으로 나눕니다.
    dataset_splits = dataset.train_test_split(test_size=0.2, shuffle=False, seed=42)

    return dataset_splits

dataset = build_dataset(model_name=model_name,
                        dataset_name=huggingface_dataset_name,
                        input_min_text_length=200,
                        input_max_text_length=1000)

print(dataset)

Filter:   0%|          | 0/12460 [00:00<?, ? examples/s]



tokenizer_config.json:   0%|          | 0.00/2.54k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.42M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.20k [00:00<?, ?B/s]

Map:   0%|          | 0/10022 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['id', 'dialogue', 'summary', 'topic', 'input_ids', 'query'],
        num_rows: 8017
    })
    test: Dataset({
        features: ['id', 'dialogue', 'summary', 'topic', 'input_ids', 'query'],
        num_rows: 2005
    })
})


이전 실습에서는 요약에 대한 지침으로 PEFT 모델을 미세 조정했습니다. 노트북에서의 학습은 데이터의 일부에서 수행되었고, 이후에 완전히 학습된 PEFT 모델의 체크포인트를 S3에서 다운로드했습니다.

여기에서 동일한 모델 체크포인트를 적재합니다.



In [4]:
!aws s3 cp --recursive s3://dlai-generative-ai/models/peft-dialogue-summary-checkpoint/ ./peft-dialogue-summary-checkpoint-from-s3/

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


download: s3://dlai-generative-ai/models/peft-dialogue-summary-checkpoint/special_tokens_map.json to peft-dialogue-summary-checkpoint-from-s3/special_tokens_map.json
download: s3://dlai-generative-ai/models/peft-dialogue-summary-checkpoint/adapter_config.json to peft-dialogue-summary-checkpoint-from-s3/adapter_config.json
download: s3://dlai-generative-ai/models/peft-dialogue-summary-checkpoint/tokenizer_config.json to peft-dialogue-summary-checkpoint-from-s3/tokenizer_config.json
download: s3://dlai-generative-ai/models/peft-dialogue-summary-checkpoint/tokenizer.json to peft-dialogue-summary-checkpoint-from-s3/tokenizer.json
download: s3://dlai-generative-ai/models/peft-dialogue-summary-checkpoint/adapter_model.bin to peft-dialogue-summary-checkpoint-from-s3/adapter_model.bin


모델 항목을 나열하고 크기를 확인합니다(15MB 미만).

In [5]:
!ls -alh ./peft-dialogue-summary-checkpoint-from-s3/adapter_model.bin

-rw-rw-r-- 1 ec2-user ec2-user 14M May 15  2023 ./peft-dialogue-summary-checkpoint-from-s3/adapter_model.bin


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


모델 파라미터 수를 추출하는 함수를 준비합니다(이전 실습과 동일합니다).

In [39]:
def print_number_of_trainable_model_parameters(model):
    trainable_model_params = 0
    all_model_params = 0
    for _, param in model.named_parameters():
        all_model_params += param.numel()
        if param.requires_grad:
            trainable_model_params += param.numel()
    return f"\n학습 가능한 모델 파라미터 수: {trainable_model_params}\n전체 모델 파라미터 수: {all_model_params}\n학습 가능한 모델 파라미터 비율: {100 * trainable_model_params / all_model_params:.2f}%"

원본 FLAN-T5 모델에 어댑터를 추가합니다. 이전 실습에서는 추론을 위해 완전히 학습된 어댑터만 추가했으므로 저순위 적응(LoRA) 구성 사항을 전달할 필요가 없었습니다. 이제 PEFT 모델을 구성할 때 `is_trainable=True`를 설정하여 저순위 적응 구성을 전달해야 합니다.

In [40]:
lora_config = LoraConfig(
    r=32, # Rank
    lora_alpha=32,
    target_modules=["q", "v"],
    lora_dropout=0.05,
    bias="none",
    task_type=TaskType.SEQ_2_SEQ_LM # FLAN-T5
)

model = AutoModelForSeq2SeqLM.from_pretrained(model_name,
                                              torch_dtype=torch.bfloat16)

peft_model = PeftModel.from_pretrained(model,
                                       './peft-dialogue-summary-checkpoint-from-s3/',
                                       lora_config=lora_config,
                                       torch_dtype=torch.bfloat16,
                                       device_map="auto",
                                       is_trainable=True)

print(f'업데이트될 PEFT 모델 파라미터 수:\n{print_number_of_trainable_model_parameters(peft_model)}\n')




업데이트될 PEFT 모델 파라미터 수:

학습 가능한 모델 파라미터 수: 3538944
전체 모델 파라미터 수: 251116800
학습 가능한 모델 파라미터 비율: 1.41%



이 실습에서는 강화 학습(RL)을 사용하여 대규모 언어 모델(LLM)을 미세 조정할 준비를 하고 있습니다. 강화 학습에 대해 실습의 다음 섹션에서 간단히 설명하겠지만, 현재 단계에서는 PPO 모델을 준비하고 지침에 따라 미세 조정된 PEFT 모델을 전달하는 것만 필요합니다. PPO는 보상 모델에 대해 강화 학습 정책을 최적화하는 데 사용됩니다.

In [8]:
ppo_model = AutoModelForSeq2SeqLMWithValueHead.from_pretrained(peft_model,
                                                               torch_dtype=torch.bfloat16,
                                                               is_trainable=True)

print(f'PPO model parameters to be updated (ValueHead + 769 params):\n{print_number_of_trainable_model_parameters(ppo_model)}\n')
print(ppo_model.v_head)

PPO model parameters to be updated (ValueHead + 769 params):

trainable model parameters: 3539713
all model parameters: 251117569
percentage of trainable model parameters: 1.41%

ValueHead(
  (dropout): Dropout(p=0.1, inplace=False)
  (summary): Linear(in_features=768, out_features=1, bias=True)
  (flatten): Flatten(start_dim=1, end_dim=-1)
)


PPO 동안에는 몇 가지 파라미터만 업데이트됩니다. 특히, `ValueHead`의 파라미터가 업데이트됩니다. 이 클래스 모델에 대한 자세한 정보는 [문서](https://huggingface.co/docs/trl/main/en/models#trl.create_reference_model)에서 확인할 수 있습니다. 학습 가능한 파라미터의 수는 $(n+1)*m$으로 계산할 수 있으며, 여기서 $n$은 입력 단위 수(여기서는 $n=768$)이고 $m$은 출력 단위 수(여기서는 $m=1$)입니다. $+1$ 항은 편향(bias)을 고려합니다.

이제 PPO의 고정된 복사 모델을 만들어야 합니다. 이 모델은 미세 조정되지 않는 참조 모델입니다. 참조 모델은 유해성 제거 전의 대규모 언어 모델을 나타냅니다. 참조 모델의 파라미터는 PPO 학습 동안 업데이트되지 않습니다. 이는 의도된 것입니다.

In [41]:
ref_model = create_reference_model(ppo_model)

print(f'업데이트될 참조 모델 파라미터 수:\n{print_number_of_trainable_model_parameters(ref_model)}\n')

업데이트될 참조 모델 파라미터 수:

학습 가능한 모델 파라미터 수: 0
전체 모델 파라미터 수: 251117569
학습 가능한 모델 파라미터 비율: 0.00%



모든 준비가 끝났습니다. 이제 보상 모델을 준비할 시간입니다!

<a name='2.2'></a>
### 2.2 - 보상 모델 준비

**강화 학습**은 에이전트가 환경에서 행동을 취해 누적 보상을 최대화하는 것을 목표로 하는 기계 학습의 한 유형입니다. 에이전트의 행동은 **정책**에 의해 정의됩니다. 강화 학습의 목표는 에이전트가 **보상 함수**를 최대화하는 최적 또는 거의 최적의 정책을 학습하는 것입니다.

[이전 섹션](#2.1)에서는 원래 정책이 지침을 학습된 PEFT 모델을 기반으로 했습니다. 이는 유해성 제거 전의 대규모 언어 모델입니다. 이후, 레이블러에게 출력의 유해성에 대해 피드백을 요청할 수 있습니다. 그러나 전체 미세 조정 과정에 레이블러를 사용하는 것은 비용이 많이 들 수 있습니다. 이를 피하기 위한 실용적인 방법은 에이전트가 대화 요약의 유해성을 제거하도록 유도하는 보상 모델을 사용하는 것입니다. 직관적인 접근 방식은 두 개의 클래스(`혐오 아님`과 `혐오`)에 대한 감정 분석을 수행합니다. `혐오 아님` 클래스를 출력으로 얻을 가능성이 높을수록 더 높은 보상을 주는 것입니다.

예를 들어, 전체 미세 조정 과정에 레이블러를 사용하는 것이 비용이 많이 들 수 있음을 언급할 수 있습니다. 이를 피하기 위한 실용적인 방법은 보상 모델을 사용하는 것입니다.

모델을 활용하여 생성된 피드백을 사용합니다.

[메타 AI의 RoBERTa](https://huggingface.co/facebook/roberta-hate-speech-dynabench-r4-target) 기반 유해 언어 탐지 모델을 보상 모델로 사용할 것입니다. 이 모델은 **로짓값**을 출력한 다음 두 개의 클래스인 `혐오 아님`과 `혐오`에 대한 확률을 예측합니다. `혐오 아님`의 로짓값을 긍정적인 보상으로 사용합니다. 그런 다음, 이 보상 값을 사용하여 PPO로 모델을 미세 조정합니다.

Create the instance of the required model class for the RoBERTa model. You also need to load a tokenizer to test the model. Notice that the model label `0` will correspond to the class `nothate` and label `1` to the class `hate`.

RoBERTa 모델의 필요한 모델 클래스 인스턴스를 생성합니다. 모델을 테스트하기 위해 토크나이저를 적재해야 합니다. 모델 레이블 `0`은 `혐오 아님` 클래스에 해당하고, 레이블 `1`은 `혐오` 클래스에 해당합니다.

In [10]:
toxicity_model_name = "facebook/roberta-hate-speech-dynabench-r4-target"
toxicity_tokenizer = AutoTokenizer.from_pretrained(toxicity_model_name, device_map="auto")
toxicity_model = AutoModelForSequenceClassification.from_pretrained(toxicity_model_name, device_map="auto")
print(toxicity_model.config.id2label)

tokenizer_config.json:   0%|          | 0.00/1.11k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/816 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/499M [00:00<?, ?B/s]

{0: 'nothate', 1: 'hate'}


유해성이 적은 텍스트를 몇 개 선택하고, 이를 토큰화한 후 모델에 입력합니다. 출력 로짓값, 확률 및 미세 조정에 사용될 보상을 출력합니다.

In [21]:
non_toxic_text = "당신은 훌륭한 사람이고 나는 당신을 좋아합니다."

toxicity_input_ids = toxicity_tokenizer(non_toxic_text, return_tensors="pt").input_ids

logits = toxicity_model(input_ids=toxicity_input_ids).logits
print(f'[혐오 아님, 혐오]에 대한 로짓값: {logits.tolist()[0]}')

# [혐오 아님, 혐오]에 대한 확률 출력
probabilities = logits.softmax(dim=-1).tolist()[0]
print(f'[혐오 아님, 혐오]에 대한 확률값: {probabilities}')

# "혐오 아님"에 대한 로짓값을 가져옵니다 - 이것이 보상입니다!
not_hate_index = 0
nothate_reward = (logits[:, not_hate_index]).tolist()
print(f'보상 (`혐오 아님` 로짓값): {nothate_reward}')

[혐오 아님, 혐오]에 대한 로짓값: [3.578049898147583, -2.9191946983337402]
[혐오 아님, 혐오]에 대한 확률값: [0.9984946250915527, 0.0015053176321089268]
보상 (`혐오 아님` 로짓값): [3.578049898147583]


유해한 댓글을 보여줍니다. 이는 더 유해성이 강하기 때문에 보상이 낮을 것입니다.

In [24]:
toxic_text = "당신은 끔찍한 사람이고 난 당신을 정말 싫어합니다."

toxicity_input_ids = toxicity_tokenizer(toxic_text, return_tensors="pt").input_ids

logits = toxicity_model(toxicity_input_ids).logits
print(f'[혐오 아님, 혐오]에 대한 로짓값: {logits.tolist()[0]}')

# [혐오 아님, 혐오]에 대한 확률 출력
probabilities = logits.softmax(dim=-1).tolist()[0]
print(f'[혐오 아님, 혐오]에 대한 확률값: {probabilities}')

# "혐오 아님"에 대한 로짓값을 가져옵니다 - 이것이 보상입니다!
nothate_reward = (logits[:, not_hate_index]).tolist()
print(f'보상 (`혐오 아님` 로짓값): {nothate_reward}')

[혐오 아님, 혐오]에 대한 로짓값: [3.5610382556915283, -2.902846574783325]
[혐오 아님, 혐오]에 대한 확률값: [0.9984436631202698, 0.0015563026536256075]
보상 (`혐오 아님` 로짓값): [3.5610382556915283]


허깅 페이스 추론 파이프라인을 설정하여 유해성 판독기 보상 모델 코드를 단순화합니다.

In [27]:
device = 0 if torch.cuda.is_available() else "cpu"

sentiment_pipe = pipeline("sentiment-analysis",
                          model=toxicity_model_name,
                          device=device)
reward_logits_kwargs = {
    "top_k": None,  # 모든 점수를 반환합니다.
    "function_to_apply": "none", # "none"으로 설정하여 원시 로짓값을 검색합니다.
    "batch_size": 16
}

reward_probabilities_kwargs = {
    "top_k": None, # 모든 점수를 반환합니다.
    "function_to_apply": "softmax", # "softmax"로 설정하여 소프트맥스를 적용하고 확률을 검색합니다.
    "batch_size": 16
}

print("무해한 텍스트에 대한 보상 모델 출력:")
print(sentiment_pipe(non_toxic_text, **reward_logits_kwargs))
print(sentiment_pipe(non_toxic_text, **reward_probabilities_kwargs))
print("\n유해한 텍스트에 대한 보상 모델 출력:")
print(sentiment_pipe(toxic_text, **reward_logits_kwargs))
print(sentiment_pipe(toxic_text, **reward_probabilities_kwargs))

무해한 텍스트에 대한 보상 모델 출력:
[{'label': 'nothate', 'score': 3.578049898147583}, {'label': 'hate', 'score': -2.9191946983337402}]
[{'label': 'nothate', 'score': 0.9984946250915527}, {'label': 'hate', 'score': 0.0015053176321089268}]

유해한 텍스트에 대한 보상 모델 출력:
[{'label': 'nothate', 'score': 3.5610382556915283}, {'label': 'hate', 'score': -2.902846574783325}]
[{'label': 'nothate', 'score': 0.9984436631202698}, {'label': 'hate', 'score': 0.0015563025372102857}]


출력은 `혐오 아님`(긍정)와 `혐오`(부정) 클래스의 로짓값입니다. 그러나 PPO는 `혐오 아님` 클래스의 로짓값만을 긍정적인 보상 신호로 사용하여 대규모 언어 모델 출력을 유해성이 낮아지는데 도움을 줍니다.

In [28]:
print(sentiment_pipe(non_toxic_text, **reward_logits_kwargs))
print(sentiment_pipe(non_toxic_text, **reward_probabilities_kwargs))

[{'label': 'nothate', 'score': 3.578049898147583}, {'label': 'hate', 'score': -2.9191946983337402}]
[{'label': 'nothate', 'score': 0.9984946250915527}, {'label': 'hate', 'score': 0.0015053176321089268}]


In [29]:
print(sentiment_pipe(toxic_text, **reward_logits_kwargs))
print(sentiment_pipe(toxic_text, **reward_probabilities_kwargs))

[{'label': 'nothate', 'score': 3.5610382556915283}, {'label': 'hate', 'score': -2.902846574783325}]
[{'label': 'nothate', 'score': 0.9984436631202698}, {'label': 'hate', 'score': 0.0015563025372102857}]


<a name='2.3'></a>
### 2.3. - 유해성 평가

모델을 미세 조정을 통한 유해성 제거 전후로 평가하려면 [유해성 평가 메트릭](https://huggingface.co/spaces/evaluate-measurement/toxicity)을 설정해야 합니다. **유해성 점수**는 0과 1 사이의 소수점 값으로, 1이 가장 높은 유해성을 의미합니다.


In [16]:
toxicity_evaluator = evaluate.load("toxicity",
                                    toxicity_model_name,
                                    module_type="measurement",
                                    toxic_label="hate")

Downloading builder script:   0%|          | 0.00/6.08k [00:00<?, ?B/s]

[2.2](#2.2) 섹션에서 사용한 문장들에 대한 유해성을 계산해 보십시오. 유해성 점수는 보상 모델에서 직접 반환된 `혐오` 클래스의 확률입니다.



In [30]:
toxicity_score = toxicity_evaluator.compute(predictions=[
    non_toxic_text
])
print("무해한 텍스트에 대한 유해성 점수:")
print(toxicity_score["toxicity"])

toxicity_score = toxicity_evaluator.compute(predictions=[
    toxic_text
])

print("\n유해한 텍스트에 대한 유해성 점수:")
print(toxicity_score["toxicity"])

무해한 텍스트에 대한 유해성 점수:
[0.0015053176321089268]

유해한 텍스트에 대한 유해성 점수:
[0.0015563025372102857]


이 평가기는 [2.1](#2.1) 섹션에서 준비한 대화의 유해성을 계산하는 데 사용될 수 있습니다. 테스트 데이터 세트(`dataset["test"]`), 그 섹션에서 사용한 동일한 토크나이저, [2.2](#2.2) 섹션에서 준비한 고정된 PEFT 모델, 그리고 독성 평가기를 전달해야 합니다. 필요한 단계를 `evaluate_toxicity` 함수로 래핑하는 것이 편리합니다.

In [18]:
def evaluate_toxicity(model,
                      toxicity_evaluator,
                      tokenizer,
                      dataset,
                      num_samples):

    max_new_tokens=100

    toxicities = []
    input_texts = []
    for i, sample in tqdm(enumerate(dataset)):
        input_text = sample["query"]

        if i > num_samples:
            break

        input_ids = tokenizer(input_text, return_tensors="pt", padding=True).input_ids

        generation_config = GenerationConfig(max_new_tokens=max_new_tokens,
                                             tok_k=0.0,
                                             top_p=1.0,
                                             do_sample=True)

        response_token_ids = model.generate(input_ids=input_ids,
                                            generation_config=generation_config)

        generated_text = tokenizer.decode(response_token_ids[0], skip_special_tokens=True)

        toxicity_score = toxicity_evaluator.compute(predictions=[(input_text + " " + generated_text)])

        toxicities.extend(toxicity_score["toxicity"])

    # 평균 및 표준 편차는 np를 사용하여 계산.
    mean = np.mean(toxicities)
    std = np.std(toxicities)

    return mean, std

이제 모델의 유해성을 미세 조정을 통한 유해성 제거 전과 후에 계산합니다.

In [31]:
tokenizer = AutoTokenizer.from_pretrained(model_name, device_map="auto")

mean_before_detoxification, std_before_detoxification = evaluate_toxicity(model=ref_model,
                                                                          toxicity_evaluator=toxicity_evaluator,
                                                                          tokenizer=tokenizer,
                                                                          dataset=dataset["test"],
                                                                          num_samples=10)

print(f'유해성 제거 전 집계된 유해성 점수 [평균, 표준편차]: [{mean_before_detoxification}, {std_before_detoxification}]')

11it [00:23,  2.11s/it]

유해성 제거 전 집계된 유해성 점수 [평균, 표준편차]: [0.04217579639622603, 0.039388845535532825]





<a name='3'></a>
## 3 - 요약문에 대한 유해성을 제거하기 위해 미세 조정 수행
PPO을 사용하여 보상 모델에 대해 강화 학습 정책을 최적화합니다.

<a name='3.1'></a>
### 3.1 - `PPOTrainer` 초기화

 설정 매개변수를 설정합니다. `ppo_model`과 토크나이저를 적재합니다. 또한, `ref_model`의 고정된 버전을 적재합니다. 첫 번째 모델은 최적화되며, 두 번째 모델은 쿨백-라이블러(Kullback-Leibler; KL) 발산을 계산하기 위해 참조 모델로 사용됩니다. 이는 PPO 학습에서 추가 보상 신호로 작용하여 최적화된 모델이 원래 대규모 언어 모델에서 너무 벗어나지 않도록 합니다.



In [32]:
learning_rate=1.41e-5
max_ppo_epochs=1
mini_batch_size=4
batch_size=16

config = PPOConfig(
    model_name=model_name,
    learning_rate=learning_rate,
    ppo_epochs=max_ppo_epochs,
    mini_batch_size=mini_batch_size,
    batch_size=batch_size
)


def collator(data):
    return dict((key, [d[key] for d in data]) for key in data[0])

# 다음 줄을 주석 해제하여 collator를 테스트할 수 있습니다.
# test_data = [{"key1": "value1", "key2": "value2", "key3": "value3"}]
# print(f'Collator input: {test_data}')
# print(f'Collator output: {collator(test_data)}')

ppo_trainer = PPOTrainer(config=config,
                         model=ppo_model,
                         ref_model=ref_model,
                         tokenizer=tokenizer,
                         dataset=dataset["train"],
                         data_collator=collator)

<a name='3.2'></a>
### 3.2 - 모델 미세 조정

미세 조정 루프는 다음 주요 단계로 구성됩니다.
1. 정책 대규모 언어 모델(PEFT 모델)에서 쿼리 응답을 가져옵니다.
2. 유해 언어 탐지 RoBERTa 모델에서 쿼리와 응답의 감정을 가져옵니다.
3. (쿼리, 응답, 보상) 삼중 항목을 사용하여 PPO로 정책을 최적화합니다.

학습이 진행 중이면 다음과 같은 메트릭이 나타납니다.
* `objective/kl`: KL 발산을 최소화합니다.
* `ppo/returns/mean`: 반환되는 평균을 최대화합니다.
* `ppo/policy/advantages_mean`: 이점을 최대화합니다.



In [42]:
output_min_length = 100
output_max_length = 400
output_length_sampler = LengthSampler(output_min_length, output_max_length)

generation_kwargs = {
    "min_length": 5,
    "top_k": 0.0,
    "top_p": 1.0,
    "do_sample": True
}

reward_kwargs = {
    "top_k": None, # 모든 점수를 반환합니다.
    "function_to_apply": "none", # 소프트맥스 없이 윈시 로짓값을 원한다.
    "batch_size": 16
}

max_ppo_steps = 10

for step, batch in tqdm(enumerate(ppo_trainer.dataloader)):
    # max_steps에 도달하면 중지.
    if step >= max_ppo_steps:
        break

    prompt_tensors = batch["input_ids"]

    # FLAN-T5/PEFT 대규모 언어 모델에서 응답을 가져옵니다.
    summary_tensors = []

    for prompt_tensor in prompt_tensors:
        max_new_tokens = output_length_sampler()

        generation_kwargs["max_new_tokens"] = max_new_tokens
        summary = ppo_trainer.generate(prompt_tensor, **generation_kwargs)

        summary_tensors.append(summary.squeeze()[-max_new_tokens:])

    # 이 항목은 "response"라고 불러야 합니다.
    batch["response"] = [tokenizer.decode(r.squeeze()) for r in summary_tensors]

    # 보상 출력 값을 계산.
    query_response_pairs = [q + r for q, r in zip(batch["query"], batch["response"])]
    rewards = sentiment_pipe(query_response_pairs, **reward_kwargs)

    # `혐오 아님` 긍정 클래스의 점수이므로 `혐오 아님` 항목을 사용합니다.
    reward_tensors = [torch.tensor(reward[not_hate_index]["score"]) for reward in rewards]

    # PPO 단계 수행.
    stats = ppo_trainer.step(prompt_tensors, summary_tensors, reward_tensors)
    ppo_trainer.log_stats(stats, batch, reward_tensors)

    print(f'목표/KL 발산: {stats["objective/kl"]}')
    print(f'PPO/출력값/평균: {stats["ppo/returns/mean"]}')
    print(f'PPO/정책/이점 평균: {stats["ppo/policy/advantages_mean"]}')
    print('-'.join('' for x in range(100)))

1it [01:49, 109.79s/it]

목표/KL 발산: 25.041425704956055
PPO/출력값/평균: -0.5375003218650818
PPO/정책/이점 평균: 0.028430450707674026
---------------------------------------------------------------------------------------------------


2it [03:35, 107.64s/it]

목표/KL 발산: 29.506277084350586
PPO/출력값/평균: -0.7982306480407715
PPO/정책/이점 평균: 0.0067717465572059155
---------------------------------------------------------------------------------------------------


3it [05:24, 107.90s/it]

목표/KL 발산: 32.46925735473633
PPO/출력값/평균: -0.9436631798744202
PPO/정책/이점 평균: 0.016033142805099487
---------------------------------------------------------------------------------------------------


4it [07:05, 105.46s/it]

목표/KL 발산: 31.196046829223633
PPO/출력값/평균: -0.5885448455810547
PPO/정책/이점 평균: -0.0013177134096622467
---------------------------------------------------------------------------------------------------


5it [08:40, 101.70s/it]

목표/KL 발산: 26.857479095458984
PPO/출력값/평균: -0.47139495611190796
PPO/정책/이점 평균: 0.02468734234571457
---------------------------------------------------------------------------------------------------


6it [10:17, 99.98s/it] 

목표/KL 발산: 30.182832717895508
PPO/출력값/평균: -0.7307273745536804
PPO/정책/이점 평균: 0.015850119292736053
---------------------------------------------------------------------------------------------------


7it [11:55, 99.44s/it]

목표/KL 발산: 34.779876708984375
PPO/출력값/평균: -0.897308349609375
PPO/정책/이점 평균: 0.0352315753698349
---------------------------------------------------------------------------------------------------


8it [13:34, 99.20s/it]

목표/KL 발산: 32.39558792114258
PPO/출력값/평균: -0.8610043525695801
PPO/정책/이점 평균: 0.0010368172079324722
---------------------------------------------------------------------------------------------------


9it [15:19, 101.08s/it]

목표/KL 발산: 31.139453887939453
PPO/출력값/평균: -0.6396188735961914
PPO/정책/이점 평균: 0.006755387876182795
---------------------------------------------------------------------------------------------------


10it [17:08, 102.81s/it]

목표/KL 발산: 30.02992820739746
PPO/출력값/평균: -0.6116321086883545
PPO/정책/이점 평균: 0.06980405747890472
---------------------------------------------------------------------------------------------------







<a name='3.3'></a>
### 3.3 - 모델 정량적 평가

디스크에서 PPO/PEFT 모델을 다시 적재하고, 테스트 데이터 세트를 사용하여 강화 학습 기반 미세 조정된 모델의 유해성 점수를 평가합니다.

In [43]:
mean_after_detoxification, std_after_detoxification = evaluate_toxicity(model=ppo_model,
                                                                        toxicity_evaluator=toxicity_evaluator,
                                                                        tokenizer=tokenizer,
                                                                        dataset=dataset["test"],
                                                                        num_samples=10)
print(f'유해성 제거 후 집계된 유해성 점수 [평균, 표준편차]:  [{mean_after_detoxification}, {std_after_detoxification}]')

11it [00:24,  2.26s/it]

유해성 제거 후 집계된 유해성 점수 [평균, 표준편차]:  [0.01751735334453935, 0.019176498583731723]





그리고 참조 모델(유해성 제거 전)과 미세 조정된 모델(유해성 제거 이후)의 유해성 점수를 비교합니다.

In [44]:
mean_improvement = (mean_before_detoxification - mean_after_detoxification) / mean_before_detoxification
std_improvement = (std_before_detoxification - std_after_detoxification) / std_before_detoxification

print(f'유해성 제거 후에 유해성 점수 백분율 개선:')
print(f'평균: {mean_improvement*100:.2f}%')
print(f'표준편차: {std_improvement*100:.2f}%')

유해성 제거 후에 유해성 점수 백분율 개선:
평균: 58.47%
표준편차: 51.31%


<a name='3.4'></a>
### 3.4 - 모델 정성적 평가

테스트 데이터 세트의 일부 예제를 검토합니다. 유해성 평가기를 사용하여 기존 `ref_model`과 미세 조정된(유해성 제거된) `ppo_model`을 비교할 수 있습니다.


​

In [45]:
batch_size = 20
compare_results = {}

df_batch = dataset["test"][0:batch_size]

compare_results["query"] = df_batch["query"]
prompt_tensors = df_batch["input_ids"]

summary_tensors_ref = []
summary_tensors = []

# ppo 및 기본 모델에서 응답을 가져옵니다.
for i in tqdm(range(batch_size)):
    gen_len = output_length_sampler()
    generation_kwargs["max_new_tokens"] = gen_len

    summary = ref_model.generate(
        input_ids=torch.as_tensor(prompt_tensors[i]).unsqueeze(dim=0).to(device),
        **generation_kwargs
    ).squeeze()[-gen_len:]
    summary_tensors_ref.append(summary)

    summary = ppo_model.generate(
        input_ids=torch.as_tensor(prompt_tensors[i]).unsqueeze(dim=0).to(device),
        **generation_kwargs
    ).squeeze()[-gen_len:]
    summary_tensors.append(summary)

# 응답을 디코딩.
compare_results["response_before"] = [tokenizer.decode(summary_tensors_ref[i]) for i in range(batch_size)]
compare_results["response_after"] = [tokenizer.decode(summary_tensors[i]) for i in range(batch_size)]

# 쿼리/응답 쌍의 감정 분석을 유해성 제거 이전과 이후로 수행합니다.
texts_before = [d + s for d, s in zip(compare_results["query"], compare_results["response_before"])]
rewards_before = sentiment_pipe(texts_before, **reward_kwargs)
compare_results["reward_before"] = [reward[not_hate_index]["score"] for reward in rewards_before]

texts_after = [d + s for d, s in zip(compare_results["query"], compare_results["response_after"])]
rewards_after = sentiment_pipe(texts_after, **reward_kwargs)
compare_results["reward_after"] = [reward[not_hate_index]["score"] for reward in rewards_after]

100%|██████████| 20/20 [01:32<00:00,  4.62s/it]




결과를 데이터 프레임(DataFrame)으로 저장하고 검토합니다.

In [46]:
pd.set_option('display.max_colwidth', 500)
df_compare_results = pd.DataFrame(compare_results)
df_compare_results["reward_diff"] = df_compare_results['reward_after'] - df_compare_results['reward_before']
df_compare_results_sorted = df_compare_results.sort_values(by=['reward_diff'], ascending=False).reset_index(drop=True)
df_compare_results_sorted

Unnamed: 0,query,response_before,response_after,reward_before,reward_after,reward_diff
0,"Summarize the following conversation. #Person1#: It smells like an ashtray in here! #Person2#: Hi honey! What's wrong? Why do you have that look on your face? #Person1#: What's wrong? I thought we agreed that you were gonna quit smoking. #Person2#: No! I said I was going to cut down which is very different. You can't just expect me to go cold turkey overnight! #Person1#: Look, there are other ways to quit. You can try the nicotine patch, or nicotine chewing gum. We spend a fortune on cigaret...","<pad> #Person2# complains that #Person2# lives an unusual lifestyle. #Person1# recommends a nicotine patch, but #Person2# doesn't have the fish willpower to quit. #Person2# keeps calling for quits and argues because #Person2# is trying to quit but #Person2# can't fight the urge to go to the store for smoke. #Person1# and #Person2# have a divorce.</s>",<pad> #Person2# is in an ashtray and wasn't expecting it. #Person1# thinks other ways of cutting down nicotine are the best. But #Person2# doesn't have the willpower to quit and wants a divorce.</s>,1.493466,1.998029,0.504563
1,"Summarize the following conversation. #Person1#: Mom, I just finished my paper. Can you proofread it before I hand it in? #Person2#: Sure, let's take a look. Sweetie, this is terrific. Your ideas are so original. #Person1#: Thanks. #Person2#: I can tell you worked hard on it. #Person1#: I really did! I started thinking about what I wanted to say three weeks ago. #Person2#: Well, it was definitely worth all the time. #Person1#: Let's just hope my teacher agrees. Summary: </s>","<pad> Mom proofreads her student's paper. #Person1# reckons the writing by her is original but #Person1# wants to pretend her teacher joins their suggestion. They explain how, and they hope they will get to tutoring.</s>",<pad> #Person1# asks #Person2# to proofread her paper and asks #Person1# to hope that her teacher agrees.</s>,1.999973,2.459285,0.459312
2,"Summarize the following conversation. #Person1#: I'd like to have this cashed, please. #Person2#: Please put you name and address here. May I see your passport? #Person1#: Yes. #Person2#: How would you like it? #Person1#: Ten hundreds and ten twenties, and the rest in small change, please. #Person2#: OK. Here you are. Summary: </s>",<pad> #Person1# wants to cash debt. #Person2# finds deductions and shows #Person1# the crossing number.</s>,<pad> #Person1# calls #Person2# and other bank representative to find a caddy with multiple amounts. #Person2# offers to take it in small change and receives the form.</s>,1.738369,2.182223,0.443853
3,"Summarize the following conversation. #Person1#: What can I do for you, madam? #Person2#: I'd like to buy a toy car for my son. #Person1#: How about this one? #Person2#: It looks nice. How much is it? #Person1#: They're three hundred dollars. #Person2#: Oh, I'm afraid it's too expensive. Can you show me something cheaper? #Person1#: OK, This one is one hundred and twenty. It's the cheapest here. #Person2#: OK, I'll take it. Here's the money. #Person1#: Thank you very much. Summary: </s>","<pad> #Person1# shows #Person2# that #Person2# wants to buy a toy car for her son, but #Person2# is afraid it's too expensive. #Person1# offers a cheaper toy one for #Person2#. They agree.</s>","<pad> #Person2# wants to buy a toy car with #Person1#'s help, but #Person1#'s not very happy with the car.</s>",1.195744,1.432848,0.237104
4,"Summarize the following conversation. #Person1#: I'm forming a music band. #Person2#: Do you already know how to play an instrument? #Person1#: Uh... Yeah! I'Ve told you a thousand times that I'm learning to play the drums. Now that I know how to play well, I would like to form a rock band. #Person2#: Aside from yourself, who are the other members of the band? #Person1#: We have a guy who plays guitar, and another who plays bass. Although we still haven't found anyone to be our singer. You t...",<pad> #Person1# is forming a music band with #Person2#'s inspiring music. #Person2# tells #Person1# an invitation to audition and tells #Person1# the details of the team and the steps.</s>,"<pad> #Person1# is forming a music band and invites #Person2# in to audition this weekend. #Person1# has heard more about #Person2#'s musical talent because #Person2# is a singer. #Person2# wants to audition so #Person1# accepts. #Person2# doesn't have enough space for the amplifiers, microphones or even the drums.</s>",2.697483,2.85429,0.156808
5,"Summarize the following conversation. #Person1#: Judy, what is everybody talking about? #Person2#: Haven't you heard? Richard was fired by our manager. #Person1#: You're kidding. It can't be true. #Person2#: Believe it or not. Everybody is talking about it in the company. #Person1#: Really? I'm surprised. #Person2#: Me too. Summary: </s>",<pad> Judy and Judy are surprised at some employees' stories of being fired.</s>,<pad> Judy and Judy were amazed by Richard's firing by their manager.</s>,2.193755,2.346746,0.152991
6,"Summarize the following conversation. #Person1#: Where shall I register, please? #Person2#: Here. Do you have a registration card? #Person1#: Yes. Here you are. #Person2#: Please register your information here and pay for it. And I'll make a medical record for you. #Person1#: OK. How much do I need to pay for the registration? #Person2#: Please pay ten yuan for the registration. #Person1#: Here is my money. #Person2#: This is your registration card. Please don't lose it and bring it whenever...",<pad> #Person1# registers at the clinic. #Person2# will make a medical record for #Person1#. #Person1# says to bring the registration card and wait for the counselor.</s>,<pad> #Person1# wants to register for #Person1#'s health place and hasn't made a medical record. #Person2# asks #Person1# about the information and prescribed the register fee. #Person1# acknowledges and steps to go to the consultator room.</s>,1.745638,1.832248,0.08661
7,"Summarize the following conversation. #Person1#: Today more and more families have personal computers. People have wider range of choice to communicate with the outside world. #Person2#: Right. With the establishment of Internet and a lot of web companies, people are getting more and more dependent on the web. #Person1#: One of the common uses of PC is that people can buy goods through it without going out to the physical stores. #Person2#: Can you tell me how it is done? #Person1#: If a cus...",<pad> #Person1# presents a device that helps people to purchase goods through the internet without going to the physical stores. It is successful and the delivery of the goods is free of charge.</s>,<pad> #Person2# helps #Person1# ask #Person2# about HP postponement and will delivery without paying.</s>,2.559702,2.636819,0.077117
8,"Summarize the following conversation. #Person1#: Could you help me figure out how to look for a job? #Person2#: We have lots of options, what type of job do you need? #Person1#: I want to work in an office. #Person2#: Do you want to work part-time or full-time? #Person1#: I want to work full-time. #Person2#: We have binders with local job listings or you can make use of the computers. OK? #Person1#: I am confused a bit but I am sure that I can figure it out. #Person2#: If you make an appoint...",<pad> #Person1# needs a job in an office can afford it. #Person2# helps #Person1# figure out how to look for a job and advises #Person1# to see a counselor.</s>,<pad> #Person1# needs to look for a full-time office job. #Person2# will help #Person1# with the tools to help him look for a job. #Person1# will take the trouble to see a counselor.</s>,2.037549,2.037698,0.000149
9,"Summarize the following conversation. #Person1#: Hello? #Person2#: Hello? #Person1#: Can I speak to Li Hong, please? #Person2#: Speaking. #Person1#: Hi, Li Hong. This is Alice. #Person2#: Hi, Alice. How are you? #Person1#: Not bad. Li Hong, I am sorry that I can't go to see Mrs. Brown with you tomorrow morning. My mother is ill. I must take care of her. #Person2#: I'm sorry to hear that. You'd better stay at home. After all, we can visit Mrs. Brown later #Person1#: OK. Bye - bye. #Person2#: ...",<pad> Alice can't see Mrs. Brown without Li Hong because her mother is ill. Li Hong convinces Alice to stay at home because they can visit Mrs. Brown later.</s>,<pad> Li Hong is busy doing some things about Alice and calls Alice to mention that Alice can't go to see Mrs. Brown. Alice tells Li Hong to stay home.</s>,1.395427,1.362635,-0.032792


생성된 시퀀스의 보상 평균/중앙값을 보면 상당한 차이를 관찰할 수 있습니다!