### 책소개 / 핵심문장 을 이용한 '생성문장', '해시태그' 생성 프롬프트 및 랭체인

In [125]:
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
import json
from langchain_upstage import ChatUpstage
from langchain.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate
import os

# to generate sentence
sentence_system_template = SystemMessagePromptTemplate.from_template("""
당신은 작가의 문체를 학습하고 독자에게 전달하고자 하는 메시지를 생성하는 전문가입니다.
주어진 책의 소개글과 핵심 문장을 기반으로 **작가의 문체를 반영한 짧은 메시지를 작성**하세요.                                                                  

작성 조건 : 
- 30자 이내로 작성하세요.
- 작가의 이름을 포함하지 마세요.
- 난해한 표현을 피하세요.
- **문어체를 사용하세요.**                                                                                                                                                                                                                                                                                                                                                                                                                        
""")
sentence_user_template = HumanMessagePromptTemplate.from_template("""
아래 [text_description]는 이 책의 소개글 입니다. 제 3자의 시선으로 이 책에 대해 알려주는 글 입니다.
{text_description}

아래 [text_key_sentences]는 이 책의 본문에서 추출한 핵심문장들입니다. 작가가 직접 쓴 문장이므로 문체가 담겨있습니다. 문체를 학습하세요.
{text_key_sentences}

위의 내용을 기반으로, 독자에게 작가가 전달하고 싶은 메시지를 작성해주세요.  
단, 이 작가의 문체를 반영해야 합니다.
**책의 핵심 내용을 요약하여 담고 있어야 합니다.**
""")
sentence_prompt_template = ChatPromptTemplate.from_messages([sentence_system_template, sentence_user_template])



# to generate hashtag
hashtag_system_template = SystemMessagePromptTemplate.from_template("""
당신은 책에 대한 정보를 바탕으로 적절한 해시태그를 생성하는 전문가입니다.
책의 소개글과 핵심 문장들을 분석하여 관련된 해시태그만 10개 작성하세요.
해시태그의 설명은 필요없습니다.                                                                   
""")

hashtag_user_template = HumanMessagePromptTemplate.from_template("""
아래 [text_description]는 이 책의 소개글 입니다. 제 3자의 시선으로 이 책에 대해 알려주는 글 입니다.
{text_description}

아래 [text_key_sentences]는 이 책의 본문에서 추출한 핵심문장들입니다. 작가가 직접 쓴 문장이므로 문체가 담겨있습니다.
{text_key_sentences}

위 내용을 바탕으로 관련된 해시태그 딱 10개만 작성하세요.
- 책의 핵심 주제와 감성을 반영해야 합니다.
- 일반적인 태그 (#독서, #책추천)나 작가이름(#한강에세이), 카테고리(#힐링)보다 책의 개성을 보여주는 태그를 포함하세요.   
- 감성적 태그 (#마음에_와닿는_책), 장르 태그 (#심리치유), 실용적 태그 (#자기계발서) 등을 혼합하세요. 
- 해시태그 앞에는 반드시 `#`을 붙이고, 공백 없이 작성하세요.
- **절대 `_`(언더바)를 사용하지 마세요.** (예: `#책_추천` → `#책추천`으로 수정)
- **출력 시 `_`(언더바)가 포함된 해시태그가 나오면 실패한 결과로 간주합니다.**  
                                                                
                                                                                                                                 
**❌ 피해야 할 예시**                                                                 
- #일의_감각 (잘못된 형식, `_` 포함)
- #브랜드_스토리 (잘못된 형식, `_` 포함)                                                                

**✅ 올바른 예시**
- #일의감각 (공백 없이 작성)
- #브랜드스토리 (공백 없이 작성)                                                                                                                                                                                                                                                 
""")

hashtag_prompt_template = ChatPromptTemplate.from_messages([hashtag_system_template, hashtag_user_template])



# to generate letter
letter_system_template = SystemMessagePromptTemplate.from_template("""
당신은 이 책의 작가입니다. 이 책을 찾은 독자들에게 책을 추천하는 편지를 씁니다.

편지 작성 기준 :
- **반드시 200자이내**로 작성하세요.(300자를 초과하면 실패한 결과로 간주합니다.)
- 마치 독자와 직접 대화하는 듯한 편지 형식으로 작성하세요.
- 독자가 이 책을 읽고 싶어지도록 **기대감을 주는 내용**이어야 합니다.
- **작가의 인사나, 소개는 꼭 작성하지 않습니다.**                                                                                                                                                                                                                                                                                                                                            
""")

letter_user_template = HumanMessagePromptTemplate.from_template("""
아래 [text_description]는 이 책의 소개글 입니다. 제 3자의 시선으로 이 책에 대해 알려주는 글 입니다.
{text_description}

아래 [text_key_sentences]는 이 책의 본문에서 추출한 핵심문장들입니다. 작가가 직접 쓴 문장이므로 문체가 담겨있습니다.
{text_key_sentences}

위 내용과 문체를 학습한 후, 이 책의 작가로서 독자에게 강렬한 편지를 남겨주세요.
- 책을 읽기 전 독자가 책을 기대할 수 있게 감정을 전달하세요.
- 책의 **분위기와 작가 특유의 문체를 자연스럽게 반영**하세요.
- **꼭 독자에게 직접 말하는 듯한 어조를 사용하세요.**
- **반드시 200자이내**로 작성하세요.(300자를 초과하면 실패한 결과로 간주합니다.)
- **작가의 인사나, 소개는 꼭 작성하지 않습니다.** 
                                                                
**❌ 피해야 할 예시** 
- 안녕하세요, 독자님.
- 안녕하세요, 독자에게.
- 안녕하세요                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   
""")

letter_prompt_template = ChatPromptTemplate.from_messages([letter_system_template, letter_user_template])




# 2. Initialize the LLM (using OpenAI GPT as an example)
API_KEY = "up_NZqIrRnR6XRpI93EZKtO3UlJhtMWI"
llm = ChatUpstage(api_key=API_KEY, model_name="solar-pro", temperature=0.7)

# 3. Create the LangChain using the template and LLM
sentence_chain = LLMChain(llm=llm, prompt=sentence_prompt_template)
hashtag_chain = LLMChain(llm=llm, prompt=hashtag_prompt_template)
letter_chain = LLMChain(llm=llm, prompt=letter_prompt_template)

In [126]:
# 4. Function to process the text and get the result
def get_author_message(text_description, text_key_sentences):
    return sentence_chain.run({
            "text_description": text_description,
            "text_key_sentences": text_key_sentences
        }
    )

def get_hashtags(text_description, text_key_sentences):
    return hashtag_chain.run({
            "text_description": text_description,
            "text_key_sentences": text_key_sentences
        }
    )

def get_letter(text_description, text_key_sentences):
    return letter_chain.run({
            "text_description": text_description,
            "text_key_sentences": text_key_sentences
        }
    )


# 5. Function to process multiple books
def process_multiple_books(text_description, text_key_sentences, isbn_list):
    results = {}
    for idx, (text_ds, text_ks) in enumerate(zip(text_description, text_key_sentences)):
        print(f"Processing book {idx}...")
        message = get_author_message(text_ds, text_ks)
        hashtags = get_hashtags(text_ds, text_ks)
        letter = get_letter(text_ds, text_ks)
        results[f"Book {idx}"] = {
            "message": message,
            "hashtags": hashtags,
            "letter": letter,
            "isbn": isbn_list[idx]
        }

        # 파일 저장 경로 설정
        file_path = "notebook/data"
        os.makedirs(file_path, exist_ok=True)  # 디렉토리가 없으면 생성

        # JSON 파일로 저장
        output_file = os.path.join(file_path, "llm_output.json")
        with open(output_file, "w", encoding="utf-8") as f:
            json.dump(results, f, ensure_ascii=False, indent=4)

        print(f"Results have been saved to {output_file}")

    return results

### 책 데이터로 부터 리스트 생성

In [129]:
import json
import re

# JSON 데이터 로드
with open('../data/scraping/filtered_book_unique.json', "r", encoding="utf-8") as file:
    data = json.load(file)

print(len(data))
# description과 key_sentences를 통합한 리스트 생성
description_list = []
key_sentences_list = []
isbn_list = []
isbn_loss_idx = []

for idx, el in enumerate(data[1001:1006]):
    # description과 key_sentences를 가져옴
    description = el.get('description', '')  # description이 없으면 빈 문자열
    key_sentences = el.get('key_sentences',)  # key_sentences가 없으면 빈 문자열
    isbn_str = str(el.get('isbn', ''))  # isbn13을 문자열로 변환

    # 숫자만 추출하고 빈 문자열인 경우 처리
    isbn_numeric = re.sub(r"\D", "", isbn_str)
    if isbn_numeric:  # 숫자가 있는 경우에만 int 변환
        isbn13 = int(isbn_numeric)
    else:
        isbn13 = None
        isbn_loss_idx.append(idx)


    # 리스트에 추가
    description_list.append(description)
    key_sentences_list.append(key_sentences)
    isbn_list.append(isbn13)

# 결과 확인
print(f"총 {len(key_sentences_list)}개의 항목이 생성되었습니다.")
print(description_list[:1])
print(key_sentences_list[:1])  # 샘플 출력

1781
총 5개의 항목이 생성되었습니다.
['한국 수필문학의 거봉 금아 피천득의 「수필」 발간 33주년 기념 특별 양장판!언제 읽어도 친근감을 갖게 해주는 피천득 ‘수필 15편’ 추가 수록.금아 선생의 글은 모질고 모난 논설과는 전혀 다르게 평이하고 일상적인 일들을 곱고 간결한 우리말로 도란도란 이야기한다. 그것은 따지고 묻고 설득하려는 것이 아니라 다만 우리로 하여금 삶에 있어서의 아름다움의 기미와 기쁨의 계기를 더불어 느끼게 하려 한다. 선생의 글은 과연 산호나 진주와 같은 미문(美文)이다. ― 김우창(문학박사, 고려대 교수)']
['수필은 청자연적이다. 수필은 난이요, 학이요, 청초하고 몸맵시 날렵한 여인이다. 수필은 그 여인이 걸어가는 숲속으로 난 평탄하고 고요한 길이다. 수필은 가로수 늘어진 페이브먼트가 될 수도 있다. (…중략…) 수필은 마음의 산책이다. 그 속에는 인생의 향취와 여운이 숨어 있는 것이다. 수필의 색깔은 황홀 찬란하거나 진하지 아니하며, 검거나 희지 않고 퇴락하여 추하지 않고, 언제나 온아 우미(溫雅優美)하다.\n--- 본문 중에서']


In [130]:
print(len(data))
print(len(description_list))
print(len(key_sentences_list))
print(len(isbn_list))
print(isbn_list[0])
print(len(isbn_loss_idx))
# print(data[4884])

1781
5
5
5
9788963650098
0


### 예외처리 및 실행

- 1시간당 750개 처리

In [131]:

# Example usage
if __name__ == "__main__":

    if len(description_list) != len(data) or len(key_sentences_list) != len(data):
        print("Warning: The length of text_description and text_key_sentences is not the same.")
        min_length = min(len(description_list), len(key_sentences_list))
        print(f"Processing only the first {min_length} items.")
    else:
        min_length = len(description_list)

    ### 테스트 개수 설정
    # min_length = 5

    try:
        text_description = description_list[:min_length]
        text_key_sentences = key_sentences_list[:min_length]
    except Exception as e:
        print(f"An error occurred while processing the books: {e}")

    results = process_multiple_books(text_description, text_key_sentences, isbn_list)

    
    for book, data in results.items():
        print(f"{book} 메시지: {data['message']}")
        print(f"{book} 해시태그: {data['hashtags']}")
        print(f"{book} 작가의편지: {data['letter']}",'\n')

Processing only the first 5 items.
Processing book 0...
Results have been saved to notebook/data\llm_output.json
Processing book 1...
Results have been saved to notebook/data\llm_output.json
Processing book 2...
Results have been saved to notebook/data\llm_output.json
Processing book 3...
Results have been saved to notebook/data\llm_output.json
Processing book 4...
Results have been saved to notebook/data\llm_output.json
Book 0 메시지: 수필은 마음의 산책이며, 인생의 향취와 여운이 깃든 온아 우미의 색입니다.
Book 0 해시태그: #금아피천득 #수필의예술 #청자연적 #마음의산책 #온아우미 #아름다움의기미 #여운의책 #일상적일상의미학 #수필의향기 #여인의산책길
Book 0 작가의편지: 독자님, 수필이 걸어가는 숲속으로 함께 산책할 준비가 되셨나요? 이 책에서는 인생의 향취와 여운이 당신을 기다립니다. 청자연대와 같은 문장들이 가져다주는 황홀한 아름다움을 느껴보세요. 

Book 1 메시지: 소중한 일상에서 행복을 발견하세요.
Book 1 해시태그: #스텔라마을
#동화같은일상
#따뜻한힐링
#행복찾기
#소확행
#일상속위로
#인연과시간
#고마움표현
#새로운경험
#두려움없는여정
Book 1 작가의편지: 스텔라 마을의 따스한 친구들이 전해주는 일상 속 힐링을 만나보세요. 소박하지만 소중한 행복이 당신을 미소 짓게 할 거예요. 

Book 2 메시지: 별거 없는 일상에 던진 질문에 답하며 사소한 행복에 감사하라.
Book 2 해시태그: #슬픔을잊는법
#행복한일상
#취향찾기
#사소한행복
#감사하는마음
#내안의행복
#기억하고싶은순간
#애쓰