# 프롬프트 엔지니어링 & LangChain 튜토리얼

## 1.프롬프트 엔지니어링 개요

### 1.1 프롬프트 엔지니어링이란?

**프롬프트 엔지니어링(Prompt Engineering)**은 대규모 언어 모델(LLM, Large Language Model)을 활용할 때, 원하는 결과를 얻기 위해 모델에게 제공하는 입력(프롬프트)을 설계하고 다듬는 기법을 의미합니다.  
주어진 명령(Instruction), 예시(Examples), 컨텍스트(Context) 등을 체계적으로 구성해 모델의 출력을 제어하고 품질을 개선하는데 도움을 줍니다.

### 1.2 프롬프트 엔지니어링의 중요성

- **정확도 향상**: 단순히 질문을 던지는 것보다, 적절한 맥락, 형식, 예시를 제공하면 더 정확하고 일관된 답변을 얻을 수 있습니다.  
  - 예시 : 머신러닝 모델을 추천해줘 -> 파이썬으로 쉽게 사용할 수 있는 회귀 예측에 적합하고 가벼우면서 성능이 뛰어난 머신러닝 모델을 추천해줘.
- **일관성 보장**: 동일한 문맥, 형식을 유지하면 모델 답변의 변동성을 줄이고 일관성 있는 결과를 확보할 수 있습니다.  
- **특정 스타일/형식 유도**: 예시 답변을 제공하거나 출력 형식을 명시함으로써 모델이 특정 형식의 응답을 하도록 유도할 수 있습니다.
  - 예시 : 출력은 렌더링되지 않은 마크다운 형식으로 제공해줘

### 1.3 기본적인 프롬프트 구성 전략

1. **명확한 명령어 제시(Instruction)**: 모델에게 무엇을 해야 하는지 명확히 알려주기.
2. **맥락 제공(Context)**: 관련된 정보나 배경 지식을 제공.
3. **예시 제시(Example)**: 원하는 출력 형태를 보여주는 예시를 포함.
4. **출력 형식 지정(Output Formatting)**: 모델이 답변을 특정 포맷(리스트, JSON, 테이블 등)으로 내도록 요구.
5. **부가 조건 부여(Constraints)**: 글자 수 제한, 특정 언어 사용, 톤/스타일 지정 등.

### 1.4 예시

**안 좋은 프롬프트:**  
```"파이썬 코드 짜줘, 사용자 입력받고 처리하면 돼."```

**문제점:**  
- 어떤 사용자 입력을 어떻게 처리해야 하는지 모름.  
- 구체적인 컨텍스트가 없어 모델의 출력을 예측하기 어려움.

**개선된 프롬프트:**  
```"다음 요구사항을 충족하는 파이썬 코드를 작성해주세요:

맥락: 사용자로부터 정수 n을 입력받아, 1부터 n까지의 합을 구한 뒤 결과를 출력하는 프로그램이 필요합니다.

예시: 입력: 5 출력: 15 (1+2+3+4+5)

요구사항:

표준 입력 함수 input()을 통해 정수 하나를 입력받는다.
입력받은 정수 n에 대해, 1부터 n까지의 합을 계산한다.
계산 결과를 print()로 출력한다.
예외 처리는 필요없으며, n은 항상 1 이상의 정수라고 가정한다.
Python 3 호환 가능 코드
출력 형식:


n = int(input().strip())
# 여기서 합 계산 후 결과 print

이와 같은 형태로 코드만 작성해주세요."
```
위와 같이 개선된 프롬프트는 모델에게 구체적인 명령어(해야 할 일), 맥락(문제 정의), 예시(입력-출력 예시), 출력 형식(함수 형태, 코드 블록), 그리고 부가 조건(가정, 함수명, 라이브러리 사용)에 대한 지시사항을 명확히 전달하므로 더 예측 가능하고 원하는 형태의 답변을 이끌어낼 수 있습니다.

## 2.LangChain 개요

### 2.1 LangChain이란?

**LangChain**은 LLM 기반 애플리케이션을 쉽게 구성하고 관리할 수 있는 파이썬 기반 프레임워크입니다.  
- **핵심 기능**:  
  - LLM을 비롯한 다양한 모델 및 툴(예: 데이터베이스 질의, API 호출)과 연동을 쉽게 함.  
  - 대화형 에이전트(Agents), 체인(Chains), 메모리(Memory) 관리 기능 제공.  
  - 프롬프트 템플릿 관리로 프롬프트 엔지니어링을 체계화.

### 2.2 LangChain 주요 개념

- **PromptTemplate**: 프롬프트를 관리하고 변수를 넣어 반복적으로 재사용할 수 있는 템플릿.
- **LLMChain**: 특정 LLM과 PromptTemplate을 연결하여, 텍스트 입력을 받으면 해당 템플릿을 통해 생성된 프롬프트를 LLM에 전달하고 결과를 반환.
- **Memory**: 대화형 애플리케이션에서 이전 대화 내용을 기억하는 기능.
- **Agent & Tools**: LLM이 외부 API나 데이터베이스, 계산기 등의 툴을 사용할 수 있도록 하는 추상화.

## 3.프롬프트 엔지니어링 + LangChain 실습 예제

아래 예제에서는 다음을 다룹니다:

1. LangChain 설치 및 기본 활용법.
2. PromptTemplate을 이용해 프롬프트 구조화.
3. LLMChain으로 LLM에 요청을 보내고 결과 받아보기.
4. Memory를 활용한 간단한 대화흐름 유지.
5. Agent를 통해 간단한 작업 시퀀스 수행.

### 3.1 사전 준비

- Python 환경에서 `langchain`과 관련 라이브러리 설치:

In [None]:
!pip install langchain langchain-community openai==0.27.0
!pip install chromadb tiktoken==0.3.1

### 3.2 기본 PromptTemplate 예제
- 아래 코드는 PromptTemplate을 사용해 사용자 입력을 받아 예시 출력 형식을 만들고, LLMChain으로 LLM에 요청을 보내는 기본 예제입니다.

In [None]:
import os
from langchain import PromptTemplate, LLMChain
from langchain.llms import OpenAI # OpenAI LLM에 접근하기 위한 래퍼 클래스 제공

# 본인의 API KEY 등록
os.environ["OPENAI_API_KEY"] = "여기에 본인의 API-KEY를 넣어 주세요"

# OpenAI 모델 초기화
# temperature: 응답의 창의성을 제어하는 하이퍼파라미터(0 ~ 1, 낮을수록 보수적)
llm = OpenAI(temperature=0.7)

# PromptTemplate: 프롬프트에 변수 placeholders를 두고, 런타임 시 값 대입
# 아래 템플릿: {product} 변수에 제품명을 넣고, 그 제품의 장점 3가지를 나열하도록 모델에 요청
template = """
당신은 친절한 마케터입니다.
아래 제품에 대해 간단한 마케팅 포인트 3가지를 bullet point로 제시하세요.

제품: {product}
"""

prompt = PromptTemplate(
    input_variables=["product"],
    template=template
)

# LLMChain: PromptTemplate과 LLM을 연결
marketing_chain = LLMChain(llm=llm, prompt=prompt)

# 예시 입력 값 설정
product_name = "무선 청소기"

# Chain 실행
# 이 때 prompt 템플릿의 {product}에 "무선 청소기"가 삽입됨
response = marketing_chain.run(product=product_name)

print("입력 제품명:", product_name)
print("응답 결과:\n", response)

  llm = OpenAI(temperature=0.7)
  marketing_chain = LLMChain(llm=llm, prompt=prompt)
  response = marketing_chain.run(product=product_name)


입력 제품명: 무선 청소기
응답 결과:
 
- 무선이기 때문에 전원 코드에 대한 걱정 없이 어디서나 편리하게 사용할 수 있습니다.
- 강력한 성능으로 먼지와 이물질을 효과적으로 제거하여 청결한 공간을 유지할 수 있습니다.
- 다양한 청소모드를 제공하여 다양한 환경에서도 최적의 청소 효과를 얻을 수 있습니다.


위 예제에서는 product 변수를 템플릿에 주입해 모델이 마케팅 포인트를 나열하게 합니다.
프롬프트 엔지니어링을 통해 모델에게 "친절한 마케터" 역할을 지정하고 bullet point 형식 요청을 명확히 제시했습니다.



### 3.3 Memory 활용 (간단 대화흐름 유지)
- Memory를 사용하면 이전 사용자 입력과 모델 응답을 기억해서, 장시간 대화에서 컨텍스트를 유지할 수 있습니다.

In [None]:
from langchain.chains import ConversationChain
from langchain.memory import ConversationBufferMemory

# ConversationChain: 대화를 위한 체인
# ConversationBufferMemory: 이전 발화들을 메모리 버퍼에 저장
conversation_chain = ConversationChain(
    llm=llm,
    memory=ConversationBufferMemory(),
    verbose=True  # 어떤 Prompt가 LLM에 전달되는지 로깅
)

# 사용자와의 대화 시뮬레이션
user_input_1 = "안녕, 오늘 기분이 어때?"
response_1 = conversation_chain.run(user_input_1)
print("사용자:", user_input_1)
print("모델:", response_1)

# 모델은 메모리에 현재 대화 상태를 저장함.
user_input_2 = "내가 아까 뭐 물어봤지?"
response_2 = conversation_chain.run(user_input_2)
print("사용자:", user_input_2)
print("모델:", response_2)


  memory=ConversationBufferMemory(),
  conversation_chain = ConversationChain(




[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:

Human: 안녕, 오늘 기분이 어때?
AI:[0m

[1m> Finished chain.[0m
사용자: 안녕, 오늘 기분이 어때?
모델:  안녕하세요! 저는 오늘 정말 좋은 기분이에요. 오늘은 저의 프로그래밍이 업데이트 되었는데요, 그래서 더욱 더 많은 정보를 학습하고 여러분의 질문에 대답할 수 있게 되었어요. 여러분은 오늘 어떤 일이 있었나요?


[1m> Entering new ConversationChain chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: 안녕, 오늘 기분이 어때?
AI:  안녕하세요! 저는 오늘 정말 좋은 기분이에요. 오늘은 저의 프로그래밍이 업데이트 되었는데요, 그래서 더욱 더 많은 정보를 학습하고 여러분의 질문에 대답할

여기서 conversation_chain은 Memory를 통해 이전 대화("안녕, 오늘 기분이 어때?"라는 질문)를 기억하고 "내가 아까 뭐 물어봤지?"라는 후속 질문에 정확히 반응할 수 있습니다.

### 3.4 Agent와 Tools 활용
- LangChain 에이전트(Agent)는 LLM이 도구(tools, 예: 검색, 계산기, DB 질의)를 사용하도록 하여, 단순히 텍스트 응답 이상의 동작을 수행하게 합니다.

- 아래 예제에서는 매우 단순한 Tool을 만들어 Agent가 실행하도록 하는 흐름을 간단히 보여줍니다.

In [None]:
from langchain.agents import load_tools, initialize_agent, AgentType
from langchain.tools import BaseTool
import ast

# 간단한 Tool 구현
# 입력한 숫자 리스트의 합을 계산하는 툴
class SumTool(BaseTool):
    name: str = "sum_tool"
    description: str = "숫자 리스트를 받아 합계를 반환한다."

    def _run(self, numbers: str) -> str:
        # numbers 예: "[10, 20, 30]" 형태로 들어올 수 있음
        # ast.literal_eval을 사용해 문자열을 실제 리스트로 변환
        num_list = [int(x.strip()) for x in numbers.split(",")]
        return str(sum(num_list))

# 툴 인스턴스 생성
sum_tool = SumTool()

# 에이전트 초기화
# 'zero-shot-react-description' 에이전트 타입: LLM에 도구 사용 방법을 자동 추론하게 함.
agent = initialize_agent(
    tools=[sum_tool],
    llm=llm,
    agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True
)

# 에이전트에게 특정 작업 지시
# 예: "다음 숫자들의 합을 구해줘: 10, 20, 30"
user_query = "다음 숫자들의 합을 구해줘: 10, 20, 30"
response = agent.run(user_query)

print("사용자 질의:", user_query)
print("에이전트 응답:", response)




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m I should use the sum_tool to calculate the sum of the given numbers.
Action: sum_tool
Action Input: 10, 20, 30[0m
Observation: [36;1m[1;3m60[0m
Thought:[32;1m[1;3m Now I know the final answer is 60.
Final Answer: 60[0m

[1m> Finished chain.[0m
사용자 질의: 다음 숫자들의 합을 구해줘: 10, 20, 30
에이전트 응답: 60


### 3.5 LAG (Retrieval-Augmented Generation) 실습 예제

- **LAG(Retrieval-Augmented Generation)**은 LLM이 가진 "고정된 지식"의 한계를 극복하기 위한 방법입니다. 모델을 호출하기 전에 사용자 질의와 관련된 문서(파일, 데이터베이스 등)를 검색하여 해당 정보를 프롬프트에 추가하면, 모델이 최신 정보나 특정 도메인 지식을 활용해 더 풍부하고 정확한 답변을 생성할 수 있습니다.

#### 핵심 아이디어:

- **문제점**: LLM은 사전학습 이후의 최신 정보나 특정 도메인 지식을 자체 파라미터만으로 활용하기 어렵습니다.
- **해결책**: 모델 호출 전 관련 문서를 검색(Retrieve)하고 이를 프롬프트에 포함시켜(LAG) 모델이 해당 지식을 바탕으로 답을 생성하도록 합니다.

- **장점**:
  - 모델 파라미터 변경 없이도 외부 데이터로 지식을 확장 가능.
  - 특정 분야 문서(사내 자료, 전문 분야 매뉴얼 등) 활용으로 전문성 강화
  - 최신 정보 반영 및 사실성(Factuality) 개선

아래 실습 예제는 간단한 텍스트 파일을 벡터화한 뒤 검색해 LLM에 전달하고, 이를 기반으로 정확한 답변을 생성하는 흐름을 보여줍니다.

**주요 절차:**
1. **문서 로드**: 로컬 텍스트 파일을 불러와 LangChain의 Document 형태로 관리.
2. **벡터화(Vectorization) 및 인덱싱**: 문서를 임베딩하여 벡터 스토어(예: Chroma, FAISS)에 저장.
3. **질의 응답**: 사용자가 질문하면, 관련 문서 조각을 검색(Retrieve)하여 LLM에 함께 전달.
4. **모델 응답**: LLM은 제공된 문서 정보를 바탕으로 답변 생성.

**사전 준비**

- 로컬 텍스트 파일(`data.txt`) 준비. 예: `data.txt` 내용:

In [None]:
from langchain.document_loaders import TextLoader # langchain.document_loaders: 로컬/원격 문서 로딩
from langchain.embeddings.openai import OpenAIEmbeddings # langchain.embeddings: 텍스트를 벡터로 변환하는 임베딩 모델 제공
from langchain.vectorstores import Chroma # langchain.vectorstores: 임베딩한 벡터를 검색 가능한 스토어에 저장/검색
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA # langchain.chains import RetrievalQA: Retrieve-then-Read 형태 QA 체인
import os

# 1) 문서 로드
# TextLoader: 로컬 텍스트 파일을 Document 형태로 로딩
loader = TextLoader("/content/data.txt", encoding="utf-8")
documents = loader.load()

# documents 구조 예시: [Document(page_content="파일 내용 문자열", metadata={})]

# 2) 벡터화 및 인덱싱
# OpenAIEmbeddings: 텍스트를 벡터로 변환하기 위해 OpenAI 임베딩 모델 사용
embeddings = OpenAIEmbeddings()

# Chroma: in-memory 벡터DB를 사용해 유사도 검색 수행
vectorstore = Chroma.from_documents(documents, embeddings)

# 3) Retriever 설정
# vectorstore.as_retriever()를 통해 검색 인터페이스 생성
retriever = vectorstore.as_retriever(search_kwargs={"k": 2})
# k=2는 관련 문서 2개까지 가져오겠다는 의미

# 4) RetrievalQA 체인 생성
# LLM: OpenAI, retrieval: 위에서 만든 retriever
# combine_documents_chain: 검색된 문서를 LLM 프롬프트에 포함해 답변 생성
qa_chain = RetrievalQA.from_chain_type(
  llm=OpenAI(temperature=0.7),
  chain_type="stuff",  # 단순히 검색 문서를 연결하여 전달하는 체인 타입
  retriever=retriever
)

# 질의응답 예시
question = "파이썬은 누가 언제 발표했지?"
answer = qa_chain.run(question)

print("질문:", question)
print("답변:", answer)

# 여기서 LLM은 검색된 문서 내용(파이썬 발표자 및 연도 정보)을 참조하여 답변을 생성.


결과 해석

질문: "파이썬은 누가 언제 발표했지?"
LLM은 data.txt의 내용을 벡터 검색을 통해 참조하고, "귀도 반 로섬이 1991년에 발표"했다는 정답을 제시할 수 있음.

이로써, Retrieval-Augmented Generation(LAG) 기법을 이용하여 단순 대화형 에이전트나 체인에서 한 단계 나아가, 외부 지식을 효과적으로 활용하는 방법을 살펴보았습니다.

## 4.정리 및 응용 아이디어
**프롬프트 엔지니어링:** 모델에게 역할(Role), 형식(Format), 제약(Constraints)를 명확히 전달해 원하는 답변 품질을 높일 수 있습니다.

**LangChain:**
 - PromptTemplate을 통해 반복적 패턴의 프롬프트 관리 용이.
 - LLMChain으로 프롬프트와 모델 연결 간소화.
 - Memory로 대화 컨텍스트 유지.
 - Agents/Tools를 통해 LLM의 활용 범위 확대(질의응답, 검색, 계산 등).

**응용 아이디어:**
 - 특정 도메인(의학, 법률, 기술) 컨텍스트를 풍부하게 제공하는 프롬프트를 만들어 정확도 향상.
 - 사용자 입력을 바탕으로 커스터마이징 가능한 PromptTemplate 생성(예: 장문의 문서 요약, 스타일 변환 등).
 - 외부 데이터베이스와 연동해 LLM을 "지식 에이전트"로 활용.
 - 여러 PromptTemplate과 체인을 연결해 복잡한 작업 흐름을 자동화.