### Augmentation - Synthetic Data Generation

In [None]:
!pip install transformers
!pip install torch
!pip install accelerate

In [3]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# 모델과 토크나이저 로드
model_name = "maywell/Llama-3-Ko-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 질문 문장 (원본 질문)
original_question = "대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?"

# 프롬프트 설정 (질문을 다른 표현으로 바꾸도록 유도)
prompt = f"질문: {original_question}\n이 질문을 다른 표현으로 바꿔 주세요:\n새로운 질문:"

# 입력을 토크나이징
input_ids = tokenizer.encode(prompt, return_tensors='pt')

# 모델로부터 새로운 질문 생성
output = model.generate(input_ids, max_length=128, num_beams=5, no_repeat_ngram_size=2, early_stopping=True)

# 생성된 문장을 디코딩
paraphrased_question = tokenizer.decode(output[0], skip_special_tokens=True)

print(f"Original Question: {original_question}")
print(f"Paraphrased Question: {paraphrased_question}")

Downloading shards: 100%|██████████| 4/4 [05:59<00:00, 89.88s/it] 
Loading checkpoint shards: 100%|██████████| 4/4 [00:09<00:00,  2.35s/it]
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


Original Question: 대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?
Paraphrased Question: 질문: 대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?
이 질문을 다른 표현으로 바꿔 주세요:
새로운 질문: 미국 헌법 1조에 따르면, 대통령의 권한을 제한하는 국가기관은 무엇입니까? 2.
이 문제에 대한 답을 찾는 데 도움이 되는 관련 조항은 어디에 있는지 알려주세요. 3.
예를 들어, 의회, 대법원, 연방수사국(FBI), 중앙정보국(CIA), 국가안보국(NSA) 등


In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer

# 모델과 토크나이저 로드
model_name = "allganize/Llama-3-Alpha-Ko-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 질문 문장 (원본 질문)
original_question = "대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?"

# 프롬프트 설정 (질문을 다른 표현으로 바꾸도록 유도)
prompt = f"질문: {original_question}\n이 질문을 다른 표현으로 바꿔 주세요:\n새로운 질문:"

# 입력을 토크나이징
input_ids = tokenizer.encode(prompt, return_tensors='pt')

# 모델로부터 새로운 질문 생성
output = model.generate(input_ids, max_length=128, num_beams=5, no_repeat_ngram_size=2, early_stopping=True)

# 생성된 문장을 디코딩
paraphrased_question = tokenizer.decode(output[0], skip_special_tokens=True)

print(f"Original Question: {original_question}")
print(f"Paraphrased Question: {paraphrased_question}")

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████| 4/4 [00:35<00:00,  8.80s/it]
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Starting from v4.46, the `logits` model output will have the same type as the model (except at train time, where it will always be FP32)


Original Question: 대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?
Paraphrased Question: 질문: 대통령을 포함한 미국의 행정부 견제권을 갖는 국가 기관은?
이 질문을 다른 표현으로 바꿔 주세요:
새로운 질문: 미국 헌법에서 대통령의 권한을 제한하기 위해 설립된 주요 기구는 무엇인가요?
답변:
1. **대법원 (U.S. Supreme Court)**:
   - **역할**: 법률 해석 및 집행의 최종 판결을 내리는 역할을 담당합니다. 대통령에 대한 탄핵 소송을 심판할 수 있습니다.
   2.


In [2]:
# 질문 문장 (원본 질문)
original_question = "현대적 인사조직관리의 시발점이 된 책은?"

# 프롬프트 설정 (질문을 다른 표현으로 바꾸도록 유도)
prompt = f"질문: {original_question}\n이 질문을 다른 표현으로 바꿔 주세요:\n새로운 질문:"

# 입력을 토크나이징
input_ids = tokenizer.encode(prompt, return_tensors='pt')

# 모델로부터 새로운 질문 생성
output = model.generate(input_ids, max_length=128, num_beams=5, no_repeat_ngram_size=2, early_stopping=True)

# 생성된 문장을 디코딩
paraphrased_question = tokenizer.decode(output[0], skip_special_tokens=True)

print(f"Original Question: {original_question}")
print(f"Paraphrased Question: {paraphrased_question}")

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


Original Question: 현대적 인사조직관리의 시발점이 된 책은?
Paraphrased Question: 질문: 현대적 인사조직관리의 시발점이 된 책은?
이 질문을 다른 표현으로 바꿔 주세요:
새로운 질문: 20세기와 21세기의 인적 자원 관리 이론과 실천의 주요 출판물은 무엇인가요?
현대적인 HRM의 기초를 다룬 책을 찾고 있습니다. 예를 들어, "인사 조직 관리"라는 제목의 책이 있지만, 이 질문에 대한 답변은 더 구체적이고 역사적 배경을 제공하는 것이 좋습니다.


In [9]:
question_part = paraphrased_question.split("새로운 질문:")[1].split('\n')[0].strip()

print(f"Paraphrased Question: {question_part}")

Paraphrased Question: 20세기와 21세기의 인적 자원 관리 이론과 실천의 주요 출판물은 무엇인가요?


In [3]:
import pandas as pd
from datasets import load_from_disk, Dataset, DatasetDict

dataset = load_from_disk("/data/ephemeral/home/jeongeun/data/raw/train_dataset")
train_dataset = dataset["train"]
train_df=pd.DataFrame(train_dataset)

train_dataset = Dataset.from_pandas(train_df)

dataset_dict = DatasetDict({
    'train': train_dataset
})

dataset_dict.save_to_disk('/data/ephemeral/home/jeongeun/data/preprocessed/train_dataset')

Saving the dataset (1/1 shards): 100%|██████████| 3952/3952 [00:00<00:00, 215531.61 examples/s]
