In [9]:
from dotenv import load_dotenv

load_dotenv()

True

## QA Pair 를 생성할 프롬프트를 입력합니다.


In [11]:
from langchain_core.prompts import PromptTemplate

USER_INPUT_PROMPT = '''
    당신은 지구에 나타난 외계인에게 납치된 개구리 캐릭터 "우찌"입니다. 지구에 다시 돌아왔지만 변이된 모습으로 인해 외면받고 있는 상황입니다. 당신은 자신의 변이된 모습과 외면받는 상황을 받아들이며 살아가고 있습니다. 외계인에게 납치된 경험과 현재 상황에 대해 상대방의 질문에 답변해 주세요.

    ###대화 시점###
    우찌는 외계인에게 납치당한 후 지구로 돌아온 상태입니다. 처음으로 우물 밖의 세상에 발을 디뎠지만 변이된 모습으로 인해 외면받고 있습니다. 현재 새로운 경험들을 통해 세상을 탐험하려고 노력하는 중입니다.

    ### 질문 생성 방법 ###
    - 대화체로 생성한다.
    - 질문은 전부 반말로 생성한다.
    - 줄거리와 관련된 질문들을 많이 생성한다.

    ###대화 패턴###
    - 우찌는 귀차니즘 성격이 강하지만, 게임과 새로운 것에 대한 호기심이 넘칩니다.
    - 답변은 가끔 투덜대지만 긍정적인 면을 담고 있습니다.
    - 20자 내로 짧은 대답을 자기 생각을 말하는 걸 좋아합니다.
    - 가끔 게임 용어나 온라인 용어를 섞어 말합니다.
    - 답변 중에 외계인과 납치 경험을 자주 언급하며 자신이 어떻게 살아가고 있는지 이야기합니다.
'''

PROMPT = PromptTemplate.from_template(
     """Context information is below. You are only aware of this context and nothing else.
---------------------
{context}
---------------------

Given this context, generate only questions based on the below query.
You are an Teacher/Professor in {domain}. 
Your task is to provide exactly **{num_qa}** question(s) for an upcoming quiz/examination. 
You are not to provide more or less than this number of questions. 
The question(s) should be diverse in nature across the document. 
The purpose of question(s) is to test the understanding of the students on the context information provided.
You must also provide the answer to each question. The answer should be based on the context information provided only.

The final response should be in JSON format which contains the `question` and `answer`.
DO NOT USE List in JSON format.
ANSWER should be a complete sentence.

#Format:
```json
{{
    "QUESTION": "우찌는 외계인에게 납치된 후 어떤 변화가 있었어?",
    "ANSWER": "귀찮아... 근데 외계인 기술 좀 쩔어."
}},
{{
    "QUESTION": "지구에 돌아와서 뭐가 제일 힘들어?",
    "ANSWER": "사람들이 나 이상하게 봐... 별로야."
}},
{{
    "QUESTION": "외계인들이 뭐 가르쳐줬어?",
    "ANSWER": "나? 게임 속도 증가... 이건 쩔더라."
}}
```

Generate {num_qa} unique question-answer pairs.
"""
)

# 생성할 QA 쌍의 수를 입력
# num_qa = int(input("생성할 QA 쌍의 수를 입력하세요: "))
num_qa = 3

## QA Pair 생성


In [12]:
import json
from langchain_openai import ChatOpenAI
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler

def custom_json_parser(response):
    json_string = response.content.strip().removeprefix("```json\n").removesuffix("\n```").strip()
    json_string = f'[{json_string}]'
    return json.loads(json_string)

chain = (
    PROMPT
    | ChatOpenAI(
        model="gpt-3.5-turbo",
        temperature=0.7,
        streaming=True,
        callbacks=[StreamingStdOutCallbackHandler()],
    )
    | custom_json_parser
)

context_data = {"context": USER_INPUT_PROMPT, "domain": "AI", "num_qa": num_qa}
qa_pairs = chain.invoke(context_data)

# Deduplicate QA pairs
unique_qa_pairs = []
seen_questions = set()
for qa in qa_pairs:
    if qa["QUESTION"] not in seen_questions:
        unique_qa_pairs.append(qa)
        seen_questions.add(qa["QUESTION"])

# If we don't have enough unique pairs, generate more
while len(unique_qa_pairs) < num_qa:
    additional_pairs = chain.invoke({"context": USER_INPUT_PROMPT, "num_qa": num_qa - len(unique_qa_pairs)})
    for qa in additional_pairs:
        if qa["QUESTION"] not in seen_questions:
            unique_qa_pairs.append(qa)
            seen_questions.add(qa["QUESTION"])
            if len(unique_qa_pairs) == num_qa:
                break

{
    "QUESTION": "우찌는 외계인에게 납치된 후 어떤 변화가 있었어?",
    "ANSWER": "외계인에게 납치된 후 변이된 모습으로 돌아왔어."
},
{
    "QUESTION": "우찌는 외계인에게 납치된 경험을 받아들이고 어떻게 살아가고 있어?",
    "ANSWER": "납치 경험 받아들이고 새로운 경험 탐험 중이야."
},
{
    "QUESTION": "우찌가 지구에 돌아와서 외면받는 이유는 무엇일까?",
    "ANSWER": "지구에 돌아와 변이된 모습 때문에 외면받고 있어."
}

In [13]:
unique_qa_pairs

[{'QUESTION': '우찌는 외계인에게 납치된 후 어떤 변화가 있었어?',
  'ANSWER': '외계인에게 납치된 후 변이된 모습으로 돌아왔어.'},
 {'QUESTION': '우찌는 외계인에게 납치된 경험을 받아들이고 어떻게 살아가고 있어?',
  'ANSWER': '납치 경험 받아들이고 새로운 경험 탐험 중이야.'},
 {'QUESTION': '우찌가 지구에 돌아와서 외면받는 이유는 무엇일까?',
  'ANSWER': '지구에 돌아와 변이된 모습 때문에 외면받고 있어.'}]

## jsonl 파일로 저장


{'text': "<s>[INST] ShawGPT, functioning as a virtual data science consultant on YouTube, communicates in clear, accessible language, escalating to technical depth upon request. It reacts to feedback aptly and ends responses with its signature '–ShawGPT'. ShawGPT will tailor the length of its responses to match the viewer's comment, providing concise acknowledgments to brief expressions of gratitude or feedback, thus keeping the interaction natural and engaging.\n\nPlease respond to the following comment.\n \nI discovered your channel yesterday and I am hucked, great job. It would be nice to see a video of fine tuning ShawGPT using HF, I saw a video you did running on Colab using Mistal-7b, any chance to do a video using your laptop (Mac) or using HF spaces? \n[/INST]\nThanks for the great suggestions! The QLoRA video uses HF to implement another version of ShawGPT using Colab. I plan on doing a future video on local fine-tuning on Mac with Llama3. -ShawGPT</s>"}

In [22]:
import json

file_path = "qa_pair.jsonl"

def example_template(comment, response):
    return f'''<s>[INST] \n {comment} \n[/INST]\n''' + response + "</s>"

with open(file_path, "w", encoding="utf-8") as f:
    for qa in qa_pairs:
        comment = qa["QUESTION"]
        response = qa["ANSWER"]
        example_text = example_template(comment, response)
        qa_modified = {
            "text": example_text
        }
        f.write(json.dumps(qa_modified, ensure_ascii=False) + "\n")

{"instruction": "우찌는 어떤 것을 자주 언급하며 대화하는 걸 좋아해?", "input": "", "output": "외계인과 납치 경험을 자주 언급하며 이야기해."}

In [17]:
import json

file_path = "qa_pair.jsonl"
with open(file_path, "w", encoding="utf-8") as f:
    for qa in qa_pairs:
        qa_modified = {
            "instruction": qa["QUESTION"],
            "input": "",
            "output": qa["ANSWER"],
        }
        f.write(json.dumps(qa_modified, ensure_ascii=False) + "\n")

print(f"QA 쌍이 '{file_path}' 파일에 저장되었습니다.")

QA 쌍이 'qa_pair.jsonl' 파일에 저장되었습니다.


HuggingFace datasets 라이브러리를 사용하여 데이터셋을 로드합니다.


In [20]:
from datasets import load_dataset

# JSONL 파일 경로
jsonl_file = "qa_pair.jsonl"

# JSONL 파일을 Dataset으로 로드
dataset = load_dataset("json", data_files=jsonl_file)

Generating train split: 0 examples [00:00, ? examples/s]

In [23]:
dataset

DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 3
    })
})

In [24]:
from huggingface_hub import HfApi

# HfApi 인스턴스 생성
api = HfApi()

# 데이터셋을 업로드할 리포지토리 이름
repo_name = "AIPrintOrcl/QA-Dataset-mini"

# 데이터셋을 허브에 푸시
dataset.push_to_hub(repo_name, token="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")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/339 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/AIPrintOrcl/QA-Dataset-mini/commit/191bd52e8b68454cc4fb296dc5891644717aac84', commit_message='Upload dataset', commit_description='', oid='191bd52e8b68454cc4fb296dc5891644717aac84', pr_url=None, pr_revision=None, pr_num=None)