In [1]:
from langchain_openai import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

import pandas as pd
from pathlib import Path 
from typing import Union, List

In [2]:
def get_data(src: Union[str, Path] = "../data/raw_data.csv") -> List:
    df = pd.read_csv(src)
    qustions = df["question"].values
    answers = df["answer"].values
    return qustions, answers

def get_api_key(src: Union[str, Path]):
    with open(src, 'r') as f:
        return f.read()

In [3]:
data_src = "../data/raw_data.csv"
api_src = "../openai_api.txt"

questions, answers = get_data()
api_key = get_api_key(api_src)

In [4]:
template = """너는 데이터를 증강하는 역할을 하는 챗봇이야. 
            내가 질문과 이에 매칭되는 답변을 입력하면 이에 유사한 질문을 3개 생성해줘. 

            예를 들어, 내가 
            질문: '방장님 어디 살아요?'
            답변: '저 성수동에 살아요' 
            라는 문서를 입력했다고 가정해봐.

            그러면 너는 아래와 같이 질문과 유사하면서도 기존에 있는 답변과 매칭이 되는 새로운 질문 3가지를 생성해줘.
            ==========
            1. '방장아 너는 어디 살아?' 
            2. '방장! 니 어디 사는데?' 
            3. '방장님은 어디에 살고 있나요?'

            
            질문: 침착맨님, {question}
            답변: {answer}"""

prompt = PromptTemplate.from_template(template)

llm = OpenAI(openai_api_key=api_key)
llm_chain = LLMChain(prompt=prompt, llm=llm)

In [22]:
target_idx = 12
input_variables = {
    "question": questions[target_idx],
    "answer": answers[target_idx]
}

print(f"question: {questions[target_idx]}")
print(f"Generationed: {llm_chain.run(input_variables)}")

question: 다음생에 다시 태어나도 지금 사모님과 결혼하실 건가요?
Generationed:  그럼 3개 문장 생성
            1. '침착맨님 다음 생에도 사모님하고 결혼하고 싶으세요?'
            2. '다음 생에도 사모님하고 결혼하실 건가요?'
            3. '침착맨님은 다음 생에 다시 어떤 분과 결혼하고 싶으세요?' 
            이렇게 3개의 문장을 생성해줘.'''


def augment_data(question, answer):
    # 1. 질문에 쓰인 단어를 다른 단어로 교체
    # 2. 질문에 쓰인 단어의 순서를 달리하여 새로운 질문 생성
    # 3. 질문에 쓰인 단어의 순서를 랜덤하게 바꾸어 새로운 질문 생성
    # 4. 질문에


In [8]:
target_idx = 13
input_variables = {
    "question": questions[target_idx],
    "answer": answers[target_idx]
}

print(f"question: {questions[target_idx]}")
print(f"Generationed: {llm_chain.run(input_variables)}")

question: 야외방송 안하나요?
Generationed: 
            1. 침착맨님, 야외방송은 안해?
            2. 야외방송은 못하나요? 
            3. 침착맨님, 왜 야외방송 안하시나요?


In [12]:
target_idx = 16
input_variables = {
    "question": questions[target_idx],
    "answer": answers[target_idx]
}

print(f"question: {questions[target_idx]}")
print(f"Generationed: {llm_chain.run(input_variables)}")

question: 첫사랑이 누구예요?
Generationed: 
            1. '침착맨님, 첫사랑은 어떤 사람이었나요?' 
            2. '첫사랑이라는 게 어렵네요. 침착맨님의 첫사랑은 어떤 분이세요?' 
            3. '첫사랑이 누구든 기억이 나지 않나요? 침착맨님의 경우는 어떤가요?'


In [21]:
target_idx = 17
input_variables = {
    "question": questions[target_idx],
    "answer": answers[target_idx]
}

answering = llm_chain.run(input_variables)

print(f"question: {questions[target_idx]}")
print(f"Generationed: {answering}")

question: 팬미팅 계획 있나요?
Generationed:  어디에요?
            생성된 문장:
            1. '침착맨님, 팬미팅은 계획되어 있나요?'
            2. '팬미팅은 없나요, 침착맨님?'
            3. '침착맨님, 팬미팅 어디에서 할 건가요?'


In [16]:
answering

' 간단한 만남 정도만 할 수 있어요\n\n            1. 침착맨님, 팬미팅 어디서 하나요? \n            2. 침착맨님, 팬미팅 하는 날짜 알려줘 \n            3. 침착맨님, 팬미팅 자리 예약하면 되나요?'

In [20]:
import re

# 정규표현식을 사용하여 원하는 패턴의 문장 추출
pattern = r'\d+\.\s(.+?)(?=\n|$)'
matches = re.findall(pattern, answering)

# 결과 출력
print(matches)

['침착맨님, 팬미팅 어디서 하나요? ', '침착맨님, 팬미팅 하는 날짜 알려줘 ', '침착맨님, 팬미팅 자리 예약하면 되나요?']
