<a href="https://colab.research.google.com/github/sanghyun-ai/ktcloud_genai/blob/main/%EC%8B%A4%EC%8A%B5%EC%BD%94%EB%93%9C/401_LLM_%EA%B3%A0%EA%B8%89_%ED%85%8D%EC%8A%A4%ED%8A%B8_%EC%83%9D%EC%84%B1_%EA%B8%B0%EC%88%A0%EA%B3%BC_%EB%8F%84%EA%B5%AC_langchain.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **고급 텍스트 생성 기술과 도구**


---


- 💡 **NOTE**
    - 이 노트북의 코드를 실행하려면 GPU를 사용하는 것이 좋습니다. 구글 코랩에서는 **런타임 > 런타임 유형 변경 > 하드웨어 가속기 > T4 GPU**를 선택하세요.


---

## **모델을 미세튜닝하지 않고 LLM에서 얻은 출력과 경험을 더 향상시키려면 어떻게 해야 할까?**

- **생성 텍스트의 품질을 향상시키기 위한 몇 가지 기법과 개념**
    - **모델 I/O** : LLM을 로드하고 실행하기
    - **체인**(Chain) : 방법과 도구를 연결하기
    - **메모리** : LLM이 기억하도록 돕기
    - **에이전트**(Agent) : 복잡한 동작을 외부 도구와 연결하기



<img src="https://drive.google.com/uc?export=view&id=1LEVm8upycOb0PS454PVTH8tZtg7n0KqD" width="80%">




---



# **LangChain 소개**

### **LangChain이란?** :
- LangChain은 **LLM을 활용한 애플리케이션(에이전트, RAG 등)을 쉽게 만들 수 있도록 도와주는 <mark>오픈소스 프레임워크</mark>**
    - “**AI 파이프라인**”을 구축하도록 돕는 프레임워크
    - 추상화를 통해 LLM 작업을 단순화해 주는 프레임워크 (--> 최근 모듈화 진행)
    - LLM을 단순한 챗봇이 아니라, 데이터베이스·API·문서·도구들과 연동해 복잡한 작업을 수행할 수 있게 해주는 중간 플랫폼
- **개발자**: Harrison Chase (2022년 발표)
- **주요 목적** : LLM을 이용해 실제 “엔터프라이즈급” 애플리케이션을 쉽게 구축
- **주요 언어** : 	Python, JavaScript/TypeScript
- **공식 문서** : https://www.langchain.com
    - https://github.com/langchain-ai/langchain
    - https://docs.langchain.com/oss/python/langchain/overview
- **한국어 문서** : https://github.com/teddylee777/langchain-kr


### **LangChain 핵심 전략**
- 이러한 기술은 그 자체로 강력하지만 독립적으로 사용될 때는 진정한 가치를 발휘하지 못함
- 이런 기법을 **모두 연결해야 놀라운 성능의 LLM 기반 시스템을 얻을 수 있다**.
- 이런 기술이 최고조에 도달할 때 LLM이 진정한 빛을 발한다.

### **LangChain 핵심 구성 요소**

| 구성 요소 | 설명 | 예시 |
| ---  | --- | --- |
| **LLMs** | GPT, Claude, Gemini 등과 같은 대규모 언어 모델  | `OpenAI`, `HuggingFace`, `Ollama`, `VertexAI` |
| **Prompt Templates** | 일관성 있는 프롬프트 구조를 관리 | “{question}에 대해 전문가처럼 답변해줘” |
| **Chains** | 여러 LLM 호출 및 연산을 단계적으로 연결 | 질문 → 요약 →  데이터베이스 검색 → 결과 생성 |
| **Memory** | 대화 기록을 저장하여 문맥을 유지 | 챗봇이 이전 대화  기억하기 |
| **Retrievers / VectorStores** | 문서 검색 및 벡터 기반 임베딩 검색 | `FAISS`, `Chroma`, `Pinecone` |
| **Agents & Tools** | LLM이 “도구(계산기, API, 검색엔진 등)”를 스스로 호출하여 문제 해결 | “날씨 알려줘” → LLM이 OpenWeather API 호출 |
| **Callbacks** | 실행 과정을 추적하거나 시각화 | Streamlit, LangSmith 연동 |


### **LangChain의 동작 구조**
**Prompt → Model → Output**의 단순한 흐름을 확장하여 **다단계 파이프라인을 구성**

`User → PromptTemplate → LLMChain → (Memory + Retriever + Tools) → Output`

- **동작 예시**:
1. 사용자의 질문 수집
2. 프롬프트 템플릿에 질문 삽입
3. 벡터스토어에서 관련 문서 검색
4. 결과를 정리하여 LLM에게 전달
5. LLM이 최종 답변 생성

### **LangChain의 주요 응용 분야**

|분야| 설명| 예시|
| ---| ---| ---|
| **RAG (Retrieval-Augmented Generation)** | 외부 문서를 검색해 답변 정확도 향상   | 논문 기반 Q&A, 내부 문서 요약  |
| **LLM Agents**  | LLM이 스스로 툴을 선택하여 실행    | ChatGPT Plugins, AutoGPT   |
| **Workflow Automation** | 여러 LLM 호출을 파이프라인으로 자동화 | 이메일 요약 → 일정 등록 → 보고서 생성    |
| **Conversational Chatbot** | 기억 기반 대화형 시스템 구축 | 고객 상담 챗봇, 교육용 튜터 |
| **데이터 분석 자동화** | 자연어로 데이터 탐색  | “CSV 데이터 요약해줘” → Pandas 실행 |


### **LangChain의 발전 이력**

| 시기 | 주요 내용 |
| --- | --- |
| **2022년 초**  | Harrison Chase가 LangChain 공개 (LLM 연결을 위한 체인 기반 프레임워크) |
| **2023년 중반** | VectorStore 통합 및 Memory 기능 강화 → RAG 구조 대중화 |
| **2023년 말**  | LangSmith/LangServe 출시로 추적·디버깅·API 배포 가능 |
| **2024년 이후** | LangGraph(LLM 기반 상태 머신) 등장 — 복잡한 워크플로우 구현 강화 |



### **LangChain vs 다른 프레임워크**:
- **LlamaIndex** : 문서 인덱싱 및 검색 강화
    - LlamaIndex : https://www.llamaindex.ai/
- **Haystack**: RAG 중심의 검색엔진
    - https://github.com/deepset-ai/haystack
- **DSPy**: 프롬프트·파이프라인을 데이터로 최적화(“컴파일”)
    - https://github.com/stanfordnlp/dspy
    - “프롬프트 엔지니어링을 코드가 아니라 데이터와 지표로 최적화”하는 프레임워크.
    - 입력·출력 사양(Signature)과 작은 검증 데이터셋, 성능 지표를 주면, 내부 teleprompter/컴파일러가 적절한 프롬프트·설정(예: few-shot 예시, 도구 호출 방식 등)을 자동 탐색해 일관되게 재현 가능한 최적 파이프라인을 만들어


| 비교 항목  | **LangChain**  |**LlamaIndex** | **Haystack** |
| --- | --- | --- | --- |
| 주 목적   | LLM 파이프라인 구성   | 문서 인덱싱 및 검색 강화 | RAG 중심의 검색엔진 |
| 구조 | 모듈식 체인/에이전트 기반 | Graph 구조 기반 | Retriever + Generator 구조 |
| 학습 난이도 | 중간 | 쉬움 | 중간 |
| 강점 | 도구/에이전트 연동 | 문서 관계 모델링  | 대규모 데이터 처리 |
| --- | --- | https://www.llamaindex.ai/ | https://github.com/deepset-ai/haystack |




---



# **모델 I/O**

## **라이브러리 설치**


In [1]:
import warnings
import logging

# 1. 일반적인 Python 경고(DeprecationWarning 등) 숨기기
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

# 2. Transformers 라이브러리 로그 수준 조절 (Warning 이하는 숨기기)
logging.getLogger("transformers").setLevel(logging.ERROR)

In [2]:
# 깃허브에서 위젯 상태 오류를 피하기 위해 진행 표시줄을 나타내지 않도록 설정합니다.
import os
import tqdm
from transformers.utils import logging

# tqdm 비활성화
tqdm.tqdm = lambda *args, **kwargs: iter([])
tqdm.auto.tqdm = lambda *args, **kwargs: iter([])
tqdm.notebook.tqdm = lambda *args, **kwargs: iter([])
os.environ["DISABLE_TQDM"] = "1"

logging.disable_progress_bar()

In [3]:
# Phi-3 모델과 호환성 때문에 transformers 4.48.3 버전을 사용합니다.
!pip install transformers==4.48.3



In [4]:
# 라이브러리 설치
# 키워드를 넣으면 알아서 검색해주는 라이브러리
!pip install -U langchain langchain-openai langchain-community duckduckgo-search ddgs




In [5]:
# 라이브러리 버전 확인
%pip list | grep -E 'langchain|duckduckgo|ddgs'

ddgs                                     9.6.1
duckduckgo_search                        8.1.1
langchain                                1.0.2
langchain-classic                        1.0.0
langchain-community                      0.4
langchain-core                           1.0.0
langchain-openai                         1.0.1
langchain-text-splitters                 1.0.0


- **langchain_community** :
    - LangChain의 핵심 파트너사(OpenAI, Google 등) 외의 다양한 커뮤니티 기반 LLM, 벡터DB, 도구 연동 기능들을 모아놓은 라이브러리
- **langchain_openai** :
    - LangChain에서 ChatOpenAI (GPT-4o 등)나 OpenAIEmbeddings처럼 OpenAI 및 Azure OpenAI의 모델을 사용하기 위한 공식 통합 라이브러리
- **duckduckgo-search** :
    - API 키 없이도 파이썬 코드에서 DuckDuckGo 웹 검색을 실행하고 그 결과를 받아올 수 있게 해주는 간단한 독립 라이브러리
    - **duckduckgo** : 사용자의 개인정보 보호(프라이버시)를 최우선으로 하는 **검색 엔진**
    - https://duckduckgo.com/
    - 사용자의 검색 기록, IP 주소, 클릭한 링크 등 어떤 개인정보도 저장하거나 추적하지 X
    - DuckDuckGo는 추적을 안 하므로 모든 사용자에게 동일하고 객관적인 검색 결과를 보여짐
    - DuckDuckGo는 이 과정을 매우 단순화(사실상 무료 개방)해 주었기 때문에, LangChain 에이전트(Agent)에게 '실시간 정보 검색 능력'을 부여할 때 가장 기본적이고 인기 있는 도구(Tool)로 사용됨

In [6]:
# 파이썬 버전 확인(3.12)
!python --version

Python 3.12.12


In [7]:
# CUDA 버전 확인 (12.5)
!nvcc --version | grep cuda_

Build cuda_12.5.r12.5/compiler.34385749_0


- llama-cpp-python
    - C++로 작성된 고성능 대규모 언어 모델(LLM) 추론 엔진인 llama.cpp의 Python 바인딩(wrapper) 라이브러리
    - https://github.com/abetlen/llama-cpp-python/releases
    - llama_cpp_python-0.3.16-cp312-cp312-linux_x86_64.whl

In [6]:
%%capture
# 사용하는 파이썬과 CUDA 버전에 맞는 llama-cpp-python 패키지를 설치하세요.
!pip install https://github.com/abetlen/llama-cpp-python/releases/download/v0.3.16-cu124/llama_cpp_python-0.3.16-cp312-cp312-linux_x86_64.whl



---



## **LLM 로드하기**


### **일반 모델 로드하기**

In [8]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

# 모델과 토크나이저를 로드합니다.
model_id = "microsoft/Phi-3-mini-4k-instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    torch_dtype="auto",
    trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
print(f'\n✅ 사용된 모델:\n{model_id}')

# 파이프라인을 만듭니다.
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    return_full_text=False,
    max_new_tokens=500,
    do_sample=False,
)

# 프롬프트
messages = [
    {"role": "user", "content": "Create a funny joke about chickens."}
]

# 프롬프트 템플릿을 적용합니다.
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False)
print(f'\n✅ 사용된 프롬프트 템플릿:\n{prompt}')

# 출력을 생성합니다.
output = pipe(messages, do_sample=True, temperature=1)
print(f'\n✅ 출력결과:\n{output[0]["generated_text"]}')

Device set to use cuda
The `seen_tokens` attribute is deprecated and will be removed in v4.41. Use the `cache_position` model input instead.
`get_max_cache()` is deprecated for all Cache classes. Use `get_max_cache_shape()` instead. Calling `get_max_cache()` will raise error from v4.48



✅ 사용된 모델:
microsoft/Phi-3-mini-4k-instruct

✅ 사용된 프롬프트 템플릿:
<|user|>
Create a funny joke about chickens.<|end|>
<|endoftext|>





✅ 출력결과:
 Why do chickens make terrible singers? Because they can't seem to find the right note to cluck!


#### **예제: 대화형 챗봇으로 사용**

In [9]:
print("대화형 챗봇을 시작합니다. 종료하려면 'q'를 입력하세요.\n")

# 대화 히스토리
messages = []

# 메인 루프
while True:
    user_input = input("✅ You: ").strip()

    if user_input.lower() == 'q':
        print("챗봇을 종료합니다.")
        break

    if not user_input:
        continue

    # 사용자 메시지 추가
    messages.append({"role": "user", "content": user_input})

    # 응답 생성
    output = pipe(messages, do_sample=True, temperature=0.7)
    assistant_response = output[0]["generated_text"]

    # 어시스턴트 메시지 추가
    messages.append({"role": "assistant", "content": assistant_response})

    print(f"🤖 Bot: {assistant_response}\n")

대화형 챗봇을 시작합니다. 종료하려면 'q'를 입력하세요.

✅ You: 제주도에 있는 맛집 추천
🤖 Bot:  제주도에서 유명한 맛집 추천은 다음과 같습니다.


1. **저주한 맛집** - 제주도의 전통적인 음식 중 하나, 맛있는 샐러드를 제공합니다.

2. **해변 산뜻히 반쨌** - 해변 숲 속에 있는 예쁜 건물로, 저장소 및 맛집으로 전통적인 제주 음식을 처음으로 익히는 좋은 장소입니다.

3. **제주 해바라기** - 따뜻한 해바라기를 찾기 힘든 순간을 가져와 있습니다.

4. **더럽이 맛집** - 저주의 대표적인 음식점, 맛있는 전통 음식찾기입니다.

5. **델스타그램 오라크 해변** - 해변 골목 같은 풍선을 볼 수 있는 더 예쁜 해바라기 맛집입니다.


이 맛집들은 주로 저주의 전통 음식에 의해 유명하고 인기

✅ You: q
챗봇을 종료합니다.


#### **예제: 챗봇의 성능을 높여보자.**

1. **모델 4-bit 양자화 설정**
2. **torch.compile()로 모델 최적화** (PyTorch 2.0+) reduce overhead
3. **대화 길이 제한**

In [10]:
# 먼저 이 셀을 실행하세요
!pip install -U bitsandbytes accelerate



In [11]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, BitsAndBytesConfig

# 1.4-bit 양자화 설정
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4"
)

# 모델과 토크나이저 로드
model_id = "microsoft/Phi-3-mini-4k-instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="cuda",
    quantization_config=quantization_config,
    trust_remote_code=True,
    torch_dtype=torch.float16,
)

# torch.compile()로 모델 최적화 (PyTorch 2.0+)
try:
    model = torch.compile(model, mode="reduce-overhead")
    print("✅ torch.compile() 최적화 적용됨")
except:
    print("⚠️ torch.compile() 사용 불가 (PyTorch 2.0+ 필요)")

tokenizer = AutoTokenizer.from_pretrained(model_id)

# 파이프라인 생성
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    return_full_text=False,
    max_new_tokens=300,  # 500 -> 300으로 줄임
)


✅ torch.compile() 최적화 적용됨


Device set to use cuda
The model 'OptimizedModule' is not supported for text-generation. Supported models are ['AriaTextForCausalLM', 'BambaForCausalLM', 'BartForCausalLM', 'BertLMHeadModel', 'BertGenerationDecoder', 'BigBirdForCausalLM', 'BigBirdPegasusForCausalLM', 'BioGptForCausalLM', 'BlenderbotForCausalLM', 'BlenderbotSmallForCausalLM', 'BloomForCausalLM', 'CamembertForCausalLM', 'LlamaForCausalLM', 'CodeGenForCausalLM', 'CohereForCausalLM', 'Cohere2ForCausalLM', 'CpmAntForCausalLM', 'CTRLLMHeadModel', 'Data2VecTextForCausalLM', 'DbrxForCausalLM', 'DiffLlamaForCausalLM', 'ElectraForCausalLM', 'Emu3ForCausalLM', 'ErnieForCausalLM', 'FalconForCausalLM', 'FalconMambaForCausalLM', 'FuyuForCausalLM', 'GemmaForCausalLM', 'Gemma2ForCausalLM', 'GitForCausalLM', 'GlmForCausalLM', 'GPT2LMHeadModel', 'GPT2LMHeadModel', 'GPTBigCodeForCausalLM', 'GPTNeoForCausalLM', 'GPTNeoXForCausalLM', 'GPTNeoXJapaneseForCausalLM', 'GPTJForCausalLM', 'GraniteForCausalLM', 'GraniteMoeForCausalLM', 'JambaForCa

In [12]:
print("대화형 챗봇을 시작합니다. 종료하려면 'q'를 입력하세요.\n")

# 대화 히스토리 (최대 10개 메시지로 제한)
messages = []
MAX_HISTORY = 10      # 3. 대화 길이 제한

# 메인 루프
while True:
    user_input = input("✅ You: ").strip()

    if user_input.lower() == 'q':
        print("\n🔚 챗봇을 종료합니다.")
        break

    if not user_input:
        continue

    # 사용자 메시지 추가
    messages.append({"role": "user", "content": user_input})

    # 히스토리 제한 (최신 10개만 유지)
    if len(messages) > MAX_HISTORY:
        messages = messages[-MAX_HISTORY:]

    # 응답 생성
    output = pipe(
        messages,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.1
    )
    assistant_response = output[0]["generated_text"]

    # 어시스턴트 메시지 추가
    messages.append({"role": "assistant", "content": assistant_response})

    print(f"🤖 Bot: {assistant_response}\n")

대화형 챗봇을 시작합니다. 종료하려면 'q'를 입력하세요.

✅ You: 제주도에 있는 맛집 추천
🤖 Bot:  제주도의 네 가지 인기 축구가 있는 맛집은 다음과 같습니다:

1. **아이스크림 리스트** - 제주시의 맛집 중 하나, 아이스크림 리스트는 고기를 익히면서 만들어 주는 일종의 식사 매장입니다. 그들은 향수로 주택 내부에 산수 먹사를 시키고, 옷을 입하면 항상 좋은 음식으로 전통적인 한국식 음식으로 조롱해야 합니다.

2. **바다팀** - 이 맛집은 제주시의 인라인 메뉴셋을 엿보는 데에 경흅적입

✅ You: 무지개의 7가지 색은?
🤖 Bot:  무지개의 7가지 색은 다음과 같습니다:

1. 청닭 (초록색)

2. 코뿔 (노란색)

3. 솔잎 (빨강색)

4. 죽엿 (회색)

5. 마음 (남색)

6. 돌 (청색)

7. 쇠솟이 (빨간색)


무지개의 생선은 매년 여름 중에 첫 날부터 목욕 곡으로 분류됩니다. 이들은 대릴모통 등에 매우 최적의 수요가 있어 이전 목욕 곡에서는 더 많은 생선을 수여

✅ You: q

🔚 챗봇을 종료합니다.


### **랭체인으로 양자화된 모델 로드하기**

- **양자화된 모델** : **Phi-3-mini-4k-instruct-fp16.gguf**
- **GGUF**란? : (GPT-Generated Unified Format)
    - Phi-3, Llama-3, Mistral, Qwen, Gemma 같은 모델을 LangChain이나 Ollama, llama.cpp, LM Studio, GPT4All 등에서 쓸 때 자주 사용되는 포맷
        - ex:  **LM Studio**  https://lmstudio.ai/download
        - **LM Studio**는 로컬 LLM 실행용 GUI/엔진이며,
        - **GGUF**는 빠른 로딩/추론을 위한 바이너리 포맷
    - 개발자/배경** : 	llama.cpp 프로젝트(Georgi Gerganov) 팀에서 기존 GGML → GGUF로 확장한 새로운 포맷
    - 등장 배경 :	다양한 LLM(예: Llama2, Phi3, Mistral)을 CPU·GPU·모바일에서도 **빠르게 추론하기 위해 가볍게 저장하고 불러올 수 있는 공통 포맷이 필요**했기 때문
    - **주요 목적**	: **모델 가중치(weight)를 효율적으로 저장**하고, **로컬 디바이스에서 빠르게 불러와 추론**할 수 있도록 함
    - **Huggingface GGUF 관련** : https://huggingface.co/docs/hub/gguf
        - **gguf 모델 검색** : https://huggingface.co/models?library=gguf
        - **gguf 모델 변환** : https://huggingface.co/spaces/ggml-org/gguf-my-repo
        - 허깅페이스에서 모델 다운로드 링크 찾는 방법
            - 모델 검색 > 모델 페이지에서 File 탭 선택 > 해당 모델 클릭 > Copy download link


In [13]:
!wget https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf/resolve/main/Phi-3-mini-4k-instruct-fp16.gguf

--2025-10-22 02:18:05--  https://huggingface.co/microsoft/Phi-3-mini-4k-instruct-gguf/resolve/main/Phi-3-mini-4k-instruct-fp16.gguf
Resolving huggingface.co (huggingface.co)... 13.35.202.121, 13.35.202.97, 13.35.202.34, ...
Connecting to huggingface.co (huggingface.co)|13.35.202.121|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cas-bridge.xethub.hf.co/xet-bridge-us/662698108f7573e6a6478546/a9cdcf6e9514941ea9e596583b3d3c44dd99359fb7dd57f322bb84a0adc12ad4?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20251022%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251022T021806Z&X-Amz-Expires=3600&X-Amz-Signature=1487c1afc95cb5fa8bf036438e7cb23f56913ce24ea76574de1bdfe662253cf0&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=public&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27Phi-3-mini-4k-instruct-fp16.gguf%3B+filename%3D%22Phi-3-mini-4k-instruct-fp16.gguf%22%3B&x-id=GetObject&Expires=1761103086&Policy=

In [14]:
!pip install -U langchain langchain-core langchain-openai



In [15]:
# 라이브러리 버전 확인
%pip list | grep -E 'langchain'

langchain                                1.0.2
langchain-classic                        1.0.0
langchain-community                      0.4
langchain-core                           1.0.0
langchain-openai                         1.0.1
langchain-text-splitters                 1.0.0


#### **예제: 양자화된 모델 로드하기**




In [18]:
# ✅ 올바른 방식 (langchain v1.0.0+)
from langchain_community.llms import LlamaCpp
# c++로 된 라이브러리를 파이썬에서 가져와서 쓸수있게 함

# 여러분의 컴퓨터에 다운로드한 모델의 경로를 입력하세요!
llm = LlamaCpp(
    model_path="./Phi-3-mini-4k-instruct-fp16.gguf",  # 16비트 양자화된 모델
    n_gpu_layers=-1,
    max_tokens=500,
    n_ctx=4096,
    seed=42,
    verbose=False
)

llama_context: n_batch is less than GGML_KQ_MASK_PAD - increasing to 64


In [17]:
llm.invoke("Hi! My name is Maarten. What is 1 + 1?")

# 실행하면 아무것도 출력되지 않는다.
# 양자화된 모델은 그냥 사용할 수 없고
# 특별한 프롬프트 템플릿 방법인 '체인'을 사용해야 한다.

''

#### **[실습] LM Studio 사용하기**

- **LM Studio** : PC 에서 LLM 모델 사용/확인하기 위한 툴
LM Studio를 PC에 설치하고  LM Studio에서 모델 사용해보기
**굵은 텍스트**
1. LM Studio 설치
2. LM Studio에서 모델 사용
    - 모델 검색: LM Studio 실행 → Models 탭 → 검색창에 phi-3 mini gguf 입력
    - 모델 다운로드
    - 다운로드가 끝나면 Chat 탭에서 바로 사용



---



# **체인(Chain)**

- **체인**은 **랭체인의 가장 기본적인 형태**, **단일 체인**
- **체인을 사용해 LLM의 기능을 확장하거나 연결할 수 있다.**

## **단일 체인** : 프롬프트 템플릿

### **예제 : 변수를 가진 템플릿 사용**

In [19]:
# (LangChain v1.0.0+)
from langchain_core.prompts import PromptTemplate

# "input_prompt" 변수를 가진 프롬프트 템플릿을 만듭니다.
# |user|, |end| 등 = gpt계열에서 사용되는 특수 토큰들
template = """<|user|>
{input_prompt}<|end|>
<|assistant|>"""

prompt = PromptTemplate(
    template=template,
    input_variables=["input_prompt"]
)

In [20]:
# 첫 번째 체인 : 프롬프트 템플릿과 LLM을 연결
basic_chain = prompt | llm      # __or__() 메서드 로 | 연산자를 오버로딩하여 사용함

In [21]:
# 체인을 사용합니다.
basic_chain.invoke(
    {
        "input_prompt": "Hi! My name is Maarten. What is 1 + 1?",
    }
)

' Hello Maarten! The answer to 1 + 1 is 2.'

In [22]:
# 이름 생성을 위한 체인
template = "Create a funny name for a business that sells {product}."
name_template = PromptTemplate(
    template=template,
    input_variables=["product"],
)

# name_template 을 사용해서 체인 사용하기
name_chain = name_template | llm

# name_chain 실행하기
# name_chain.invoke({"product": "colorful socks"})
name_chain.invoke({"product": "Colorful polka dot socks"})


'\n<|assistant|> Polka Dots & Puns: The Sock-tacular Emporium!'

## **여러 템플릿을 가진 체인**

### **예제 : 프롬프트를 쪼개서 하위 작업을 순차적으로 실행**
- 이야기를 생성하는 과정(단계별 처리)
    - 제목
    - 주요 캐릭터에 대한 설명
    - 이야기 요약

In [23]:
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

# llm 객체는 이미 정의되어 있다고 가정
# 예: llm = ChatOpenAI(model="gpt-3.5-turbo")
# 또는: llm = LlamaCpp(model_path="...")

# 이야기 제목을 위한 프롬프트 템플릿
# ==========================================
# 1단계: 제목 생성 체인
# ==========================================
template = """<|user|>
Create a title for a story about {summary}. Only return the title.<|end|>
<|assistant|>"""

title_prompt = PromptTemplate(
    template=template,
    input_variables=["summary"]
)

# LCEL 체인 구성 (파이프 연산자)
title_chain = title_prompt | llm | StrOutputParser()

# 실행 (invoke 메서드 사용)
result = title_chain.invoke({"summary": "a brave knight fighting a dragon"})
print(f"생성된 제목: {result}")

생성된 제목:  "Sir Valor's Flame: The Dragon's Tale"


In [24]:
title_chain.invoke({"summary": "a girl that lost her mother"})

' "Finding Light in the Shadow: A Motherless Journey"'

In [25]:
# 요약과 제목을 사용하여 캐릭터 설명을 생성하는 체인을 만듭니다.
# ==========================================
# 2단계: 캐릭터 생성 체인
# ==========================================
template = """<|user|>
Describe the main character of a story about {summary} with the title {title}.
Use only two sentences.<|end|>
<|assistant|>"""

character_prompt = PromptTemplate(
    template=template, input_variables=["summary", "title"]
)

# 파이프 연산자로 체인 구성
character_chain = character_prompt | llm | StrOutputParser()


In [26]:
# 요약, 제목, 캐릭터 설명을 사용해 이야기를 생성하는 체인을 만듭니다.
# ==========================================
# 3단계: 이야기 생성 체인
# ==========================================
template = """<|user|>
Create a story about {summary} with the title {title}.
The main charachter is: {character}.
Only return the story and it cannot be longer than one paragraph<|end|>
<|assistant|>"""

story_prompt = PromptTemplate(
    template=template,
    input_variables=["summary", "title", "character"]
)

# 파이프 연산자로 체인 구성
story_chain = story_prompt | llm | StrOutputParser()

In [27]:
# 세 개의 요소를 연결하여 최종 체인을 만듭니다.
# ==========================================
# 전체 파이프라인 실행 함수
# ==========================================
def generate_complete_story(summary):
    """3단계 체인을 순차적으로 실행"""

    # 1단계: 제목 생성
    title = title_chain.invoke({"summary": summary})

    # 2단계: 캐릭터 생성 (summary + title 사용)
    character = character_chain.invoke({
        "summary": summary,
        "title": title
    })

    # 3단계: 이야기 생성 (summary + title + character 사용)
    story = story_chain.invoke({
        "summary": summary,
        "title": title,
        "character": character
    })

    return {
        "summary": summary,
        "title": title,
        "character": character,
        "story": story
    }

# 실행
result = generate_complete_story("a girl that lost her mother")

# 결과 출력
print(f"요약: {result['summary']}")
print(f"제목: {result['title']}")
print(f"캐릭터 설명: {result['character']}")
print(f"스토리: {result['story']}")

요약: a girl that lost her mother
제목:  "Losing Her Light: A Mother's Legacy in Emily's Heart"
캐릭터 설명:  Emily is a resilient and compassionate young girl, who struggles to come to terms with the loss of her mother. As she navigates through grief, she discovers strength in cherishing her mother's enduring love and wisdom that lives on within her heart.
스토리:  Emily's heart ached as the emptiness of her mother's absence consumed her, yet within that void shone a steadfast light - an undying love and wisdom passed down through generations. Each day became a journey to reconnect with her mother's legacy, finding solace in cherished memories and embracing strength born from the compassionate lessons she imparted. In this heart-wrenching voyage of loss, Emily discovered that though her mother's physical presence was gone, her light continued to guide her, igniting a resilience within her young soul that promised enduring hope and unbreakable love in the face of grief.


### **[실습] 한국어 지원 경량화 모델을 이용하여 이야기 만들기**
1. **한국어 지원 경량화 모델 다운로드 받기**
    - 허깅페이스 / LM studio 등
    - ex: llama-3-Korean-Bllossom-3B, Konan-LLM-OND-gguf 등 경량화 모델 사용
2. **3단계 체인 템플릿을 만들고 Story 출력하기**
    - 앞에서 사용한 여러 템플릿을 가진 체인 내용을 참고하여 3단계 체인 템플릿을 만들고 Story 출력하기
    - story = summary + title + character

In [28]:
!wget https://huggingface.co/Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M/resolve/main/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf

--2025-10-22 02:53:55--  https://huggingface.co/Bllossom/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M/resolve/main/llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf
Resolving huggingface.co (huggingface.co)... 13.35.202.97, 13.35.202.34, 13.35.202.40, ...
Connecting to huggingface.co (huggingface.co)|13.35.202.97|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cas-bridge.xethub.hf.co/xet-bridge-us/670664a02d3883ec801acb9a/2eca4ef8aad90644a92e57d6138d0fee3083d5f1bf970faf11c226ea7146b75a?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20251022%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251022T025356Z&X-Amz-Expires=3600&X-Amz-Signature=328b83bf3304d4736372a466577f491c3213dab5f9f93700fe820d50b9141da2&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=public&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf%3B+filename%3D%22llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.ggu

In [29]:
!wget !wget https://huggingface.co/mykor/Konan-LLM-OND-gguf/resolve/main/Konan-LLM-OND-Q4_K_M.gguf

--2025-10-22 02:54:04--  http://!wget/
Resolving !wget (!wget)... failed: Name or service not known.
wget: unable to resolve host address ‘!wget’
--2025-10-22 02:54:04--  https://huggingface.co/mykor/Konan-LLM-OND-gguf/resolve/main/Konan-LLM-OND-Q4_K_M.gguf
Resolving huggingface.co (huggingface.co)... 13.35.202.97, 13.35.202.34, 13.35.202.121, ...
Connecting to huggingface.co (huggingface.co)|13.35.202.97|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cas-bridge.xethub.hf.co/xet-bridge-us/68803db977925a8b83368521/ec9f7e7a45e6ae32b79e8928592791e61234cb8f26f1d08db9b88b4d5695db00?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=cas%2F20251022%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20251022T025404Z&X-Amz-Expires=3600&X-Amz-Signature=df20df24dda4155498cc83cb489f8da92d2ccc2d12bf140439f354ba2bf09c1a&X-Amz-SignedHeaders=host&X-Xet-Cas-Uid=public&response-content-disposition=inline%3B+filename*%3DUTF-8%27%27Konan

In [31]:
from langchain_community.llms import LlamaCpp
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 여러분의 컴퓨터에 다운로드한 모델의 경로를 입력하세요!
llm = LlamaCpp(
    # model_path="./Phi-3-mini-4k-instruct-fp16.gguf",  # 16비트 양자화된 모델
    # model_path = "llama-3.2-Korean-Bllossom-3B-gguf-Q4_K_M.gguf",
    model_path = "./Konan-LLM-OND-Q4_K_M.gguf",
    n_gpu_layers=-1,
    max_tokens=500,
    n_ctx=4096,
    seed=42,
    verbose=False
)


# 이야기 제목을 위한 프롬프트 템플릿
# ==========================================
# 1단계: 제목 생성 체인
# ==========================================
template = """<|user|>
{summary}에 대한 기사의 제목을 만듭니다. 제목만 반환합니다.<|end|>
<|assistant|>"""

title_prompt = PromptTemplate(
    template=template,
    input_variables=["summary"]
)

# LCEL 체인 구성 (파이프 연산자)
title_chain = title_prompt | llm | StrOutputParser()


# ==========================================
# 2단계: 캐릭터 생성 체인
# ==========================================
template = """<|user|>
{summary}에 대한 이야기의 주인공을 설명하세요. 제목은 {title}입니다.
두 문장만 사용하세요.<|end|>
<|assistant|>"""

character_prompt = PromptTemplate(
    template=template, input_variables=["summary", "title"]
)

# 파이프 연산자로 체인 구성
character_chain = character_prompt | llm | StrOutputParser()

# ==========================================
# 3단계: 이야기 생성 체인
# ==========================================
template = """<|user|>
{summary}에 대한 스토리를 {title}이라는 제목으로 작성하세요.
주인공은 {character}입니다.
스토리만 반환하며, 한 단락을 넘을 수 없습니다.<|end|>
<|assistant|>"""

story_prompt = PromptTemplate(
    template=template,
    input_variables=["summary", "title", "character"]
)

# 파이프 연산자로 체인 구성
story_chain = story_prompt | llm | StrOutputParser()


# ==========================================
# 전체 파이프라인 실행 함수
# ==========================================
def generate_complete_story(summary):
    """3단계 체인을 순차적으로 실행"""

    # 1단계: 제목 생성
    title = title_chain.invoke({"summary": summary})

    # 2단계: 캐릭터 생성 (summary + title 사용)
    character = character_chain.invoke({
        "summary": summary,
        "title": title
    })

    # 3단계: 이야기 생성 (summary + title + character 사용)
    story = story_chain.invoke({
        "summary": summary,
        "title": title,
        "character": character
    })

    return {
        "summary": summary,
        "title": title,
        "character": character,
        "story": story
    }

# 실행
result = generate_complete_story("어머니를 잃은 소녀")

# 결과 출력
print(f"✅ 요약: {result['summary']}")
print(f"✅ 제목: {result['title']}")
print(f"✅ 캐릭터 설명: {result['character']}")
print(f"✅ 스토리: {result['story']}")

llama_context: n_batch is less than GGML_KQ_MASK_PAD - increasing to 64
llama_context: n_ctx_per_seq (4096) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


✅ 요약: 어머니를 잃은 소녀
✅ 제목:  "어머니의 사랑을 품고, 소녀는 다시 일어섰다."
✅ 캐릭터 설명:  소녀는 어머니를 잃은 깊은 상처 속에서도 강인하게 성장했다. 그녀는 어머니의 사랑과 가르침을 가슴에 품고, 다시 일어나 세상을 향해 자신의 길을 걸어나갔다.
✅ 스토리:  어머니를 잃은 깊은 상처 속에서도 소녀는 강인하게 성장했다. 그녀는 어머니의 사랑과 가르침을 가슴에 품고, 다시 일어나 세상을 향해 자신의 길을 걸어나갔다.




---



# **메모리**
대화를 기억하도록 LLM 돕기

- **LLM을 그대로 사용하면대화의 내용을 기억하지 못한다.** --> **메모리가 없다.**


In [32]:
# LLM에게 이름을 알려 줍니다.
basic_chain.invoke({"input_prompt": "Hi! My name is Maarten. What is 1 + 1?"})

' Hello Maarten! The answer to 1 + 1 is 2.'

In [33]:
# LLM에게 이름을 묻습니다.
basic_chain.invoke({"input_prompt": "What is my name?"})

" I'm sorry, but as a digital assistant, I don't have the ability to know personal information about individuals unless it has been shared with me in the course of our conversation. To ensure your privacy and data protection, please do not share sensitive personal details."

- <mark>**LLM이 대화를 기억하도록 돕는 방법**</mark>
    - **대화 버퍼**(conversation buffer)
    - **대화 요약**(conversation summary)

### **대화 버퍼**

- **가장 간단한 LLM 메모리 형태**
- **과거의 대화를 그대로 전달** : 대화 이력을 모두 복사하여 프롬프트에 추가
- llangchain_community : **ChatMessageHistory**


In [34]:
# 대화 기록을 담을 수 있도록 프롬프트를 업데이트합니다.
template = """<|user|>Current conversation:{chat_history}

{input_prompt}<|end|>
<|assistant|>"""

prompt = PromptTemplate(
    template=template,
    input_variables=["input_prompt", "chat_history"]
)

In [35]:
from langchain_community.llms import LlamaCpp
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_community.chat_message_histories import ChatMessageHistory

# ==========================================
# 전역 설정
# ==========================================

# LlamaCpp 모델 초기화
llm = LlamaCpp(
    model_path="Konan-LLM-OND-Q4_K_M.gguf",
    n_gpu_layers=-1,
    max_tokens=500,
    n_ctx=4096,
    seed=42,
    verbose=False
)

# 기본 프롬프트 템플릿
template = """<|user|>이전 대화:
{chat_history}

현재 질문: {input_prompt}<|end|>
<|assistant|>"""

# 프롬프트와 체인 구성
prompt = PromptTemplate(
    template=template,
    input_variables=["input_prompt", "chat_history"]
)

chain = prompt | llm | StrOutputParser()

# 세션 저장소
sessions = {}

# ==========================================
# 핵심 함수들
# ==========================================

def get_history(session_id: str = "default") -> ChatMessageHistory:
    """세션 히스토리 가져오기"""
    if session_id not in sessions:
        sessions[session_id] = ChatMessageHistory()
    return sessions[session_id]

def format_history(messages) -> str:
    """메시지를 문자열로 변환"""
    if not messages:
        return "대화 기록 없음"
    return "\n".join(
        f"{'사용자' if msg.type == 'human' else 'AI'}: {msg.content}"
        for msg in messages
    )

def chat(user_input: str, session_id: str = "default") -> str:
    """대화 실행"""
    history = get_history(session_id)

    response = chain.invoke({
        "input_prompt": user_input,
        "chat_history": format_history(history.messages)
    })

    history.add_user_message(user_input)
    history.add_ai_message(response)

    return response

def get_chat_history(session_id: str = "default") -> list:
    """특정 세션의 대화 기록 반환"""
    history = get_history(session_id)
    return [
        {"role": msg.type, "content": msg.content}
        for msg in history.messages
    ]

def clear_history(session_id: str = "default"):
    """특정 세션의 대화 기록 초기화"""
    if session_id in sessions:
        sessions[session_id].clear()

def get_all_sessions() -> list:
    """모든 세션 ID 반환"""
    return list(sessions.keys())

# ==========================================
# 사용 예시
# ==========================================

# 대화 실행
response1 = chat("안녕하세요!", session_id="user_001")
response2 = chat("파이썬이란?", session_id="user_001")
response3 = chat("제가 처음에 뭐라고 했죠?", session_id="user_001")

# 대화 기록 확인
history = get_chat_history(session_id="user_001")

print(f"✅ 응답 1: {response1}")
print(f"✅ 응답 2: {response2}")
print(f"✅ 응답 3: {response3}")
print(f"\n✅ 대화 기록: {len(history)}개 메시지")
print(f"✅ 대화 기록: {history}")

# 대화 기록 삭제
clear_history(session_id="user_001")

llama_context: n_batch is less than GGML_KQ_MASK_PAD - increasing to 64
llama_context: n_ctx_per_seq (4096) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


✅ 응답 1: 안녕하세요! 어떻게 도와드릴까요?
✅ 응답 2: 파이썬(Python)은 1990년대 초에 귀도 반 로섬(Guido van Rossum)이 개발한 고급 프로그래밍 언어입니다.

### 파이썬의 주요 특징:
1. **쉬운 문법**: 파이썬은 읽기 쉽고 간결한 문법을 가지고 있어, 초보자부터 전문가까지 폭넓게 사용됩니다.

2. **인터프리터 언어**: 파이썬은 컴파일 없이 바로 실행할 수 있는 인터프리터 언어입니다.

3. **다양한 라이브러리와 프레임워크**: 파이썬은 데이터 분석, 머신러닝, 웹 개발 등 다양한 분야에서 사용할 수 있도록 풍부한 라이브러리와 프레임워크를 제공합니다.

4. **플랫폼 독립적**: 파이썬은 윈도우, 맥OS, 리눅스 등 다양한 운영체제에서 동일하게 실행될 수 있습니다.

### 파이썬의 주요 활용 분야:
- **웹 개발**: Django, Flask 등의 프레임워크를 사용하여 웹 애플리케이션을 개발할 수 있습니다.
- **데이터 분석 및 시각화**: Pandas, NumPy, Matplotlib, Seaborn 등의 라이브러리를 사용하여 데이터를 분석하고 시각화할 수 있습니다.
- **머신러닝 및 인공지능**: Scikit-learn, TensorFlow, PyTorch 등의 라이브러리와 프레임워크를 사용하여 머신러닝 모델을 개발하고 훈련시킬 수 있습니다.

### 결론:
파이썬은 그 간결한 문법과 풍부한 라이브러리 덕분에 초보자부터 전문가까지 폭넓게 사랑받는 프로그래밍 언어입니다.
✅ 응답 3: 

✅ 대화 기록: 6개 메시지
✅ 대화 기록: [{'role': 'human', 'content': '안녕하세요!'}, {'role': 'ai', 'content': '안녕하세요! 어떻게 도와드릴까요?'}, {'role': 'human', 'content': '파이썬이란?'}, {'role': 'ai', 'content': '파이썬(Python)은 1990년대 초에 귀도 반 로섬(Guido van Rossum)이 개발한 고

### **윈도 대화 버퍼**

- 대화가 늘어남에 따라 입력 **프롬프트의 크기도 커져 최대 토큰 개수를 초과할 수 있다**.
- 문맥 윈도 크기를 최소화하는  방법은 전체 채팅 기록을 사용하지 않고 **마지막 k개의 대화만 사용**하는 것이다.
- llangchain_community : **ChatMessageHistory**

In [36]:
from langchain_community.llms import LlamaCpp
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_community.chat_message_histories import ChatMessageHistory

# 모델 초기화
llm = LlamaCpp(
    model_path="Konan-LLM-OND-Q4_K_M.gguf",
    n_gpu_layers=-1,
    max_tokens=500,
    n_ctx=4096,
    seed=42,
    verbose=False
)


# 기본 프롬프트 템플릿
template = """<|user|>이전 대화:
{chat_history}

현재 질문: {input_prompt}<|end|>
<|assistant|>"""

# 프롬프트와 체인 구성
prompt = PromptTemplate(
    template=template,
    input_variables=["input_prompt", "chat_history"]
)

# 체인 구성
chain = prompt | llm | StrOutputParser()
# chain = (
#    PromptTemplate.from_template(
#        "<|user|>이전 대화:\n{chat_history}\n\n현재 질문: {input_prompt}<|end|>\n<|assistant|>"
#    )
#    | llm
#    | StrOutputParser()
#)

# 세션 저장소 (k 값 포함)
sessions = {}

def chat(user_input: str, session_id: str = "default", k: int = 2) -> str:
    """윈도우 메모리 대화 함수"""
    if session_id not in sessions:
        sessions[session_id] = {'history': ChatMessageHistory(), 'k': k}

    session = sessions[session_id]
    history = session['history']
    window_size = session['k']

    # 최근 k턴만 사용
    recent = history.messages[-(window_size * 2):] if history.messages else []
    chat_history = "\n".join(
        f"{'사용자' if m.type == 'human' else 'AI'}: {m.content}"
        for m in recent
    ) or "대화 기록 없음"

    response = chain.invoke({
        "input_prompt": user_input,
        "chat_history": chat_history
    })

    history.add_user_message(user_input)
    history.add_ai_message(response)

    return response

# 사용
response1 = chat("Hi! My name is Maarten and I am 33 years old. What is 1 + 1?", k=2)
response2 = chat("What is 3 + 3?")
history = sessions['default']['history'].messages

print(f"✅ 응답 1: {response1}")
print(f"✅ 응답 2: {response2}")
print(f"\n✅ 대화 기록: {len(history)}개 메시지")
print(f"✅ 대화 기록: {history}")



llama_context: n_batch is less than GGML_KQ_MASK_PAD - increasing to 64
llama_context: n_ctx_per_seq (4096) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


✅ 응답 1: 1 + 1 = 2.
✅ 응답 2: 3 + 3 = 6.

✅ 대화 기록: 4개 메시지
✅ 대화 기록: [HumanMessage(content='Hi! My name is Maarten and I am 33 years old. What is 1 + 1?', additional_kwargs={}, response_metadata={}), AIMessage(content='1 + 1 = 2.', additional_kwargs={}, response_metadata={}), HumanMessage(content='What is 3 + 3?', additional_kwargs={}, response_metadata={}), AIMessage(content='3 + 3 = 6.', additional_kwargs={}, response_metadata={})]


In [37]:
# 이름을 기억하는고 있는지 확인합니다.
response = chat("What is my name?")
print(f"✅ 응답 : {response}")

✅ 응답 : Your name is Maarten.


In [38]:
# 나이를 기억하는고 있는지 확인합니다.
response = chat("What is my age?")
print(f"✅ 응답 : {response}")

✅ 응답 :  It seems like there's no way for me to know your actual age. I only have the information we've exchanged so far, which does not include your age.

If you have any other questions or need further assistance, feel free to ask!


### **대화 요약**

- 문맥 윈도우가 큰 LLM을 사용하여 대화를 기억하는 기능을 어느정도 해결할 수 있지만 이 방법은 토큰을 생성하기 전에 대화 기록에 담긴 토큰을 처리해야 하므로 계산 시간이 늘어난다.
- **대화 기록을 입력으로 사용**하여 **다른 LLM에게 간결한 요약을 생성하라고 요청**한다.
- **LLM에게 질문할 때마다 두 번의 요청(호출)이 발생**한다.
    - **사용자 프롬프트**
    - **요약 프롬프트**

In [39]:
from langchain_community.llms import LlamaCpp
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_community.chat_message_histories import ChatMessageHistory

# 모델 초기화
llm = LlamaCpp(
    model_path="Konan-LLM-OND-Q4_K_M.gguf",
    n_gpu_layers=-1,
    max_tokens=500,
    n_ctx=4096,
    seed=42,
    verbose=False
)

# 프롬프트 템플릿
template = """<|user|>이전 대화 요약:
{summary}

최근 대화:
{chat_history}

현재 질문: {input_prompt}<|end|>
<|assistant|>"""

prompt = PromptTemplate(
    template=template,
    input_variables=["input_prompt", "summary", "chat_history"]
)

# 요약 템플릿
summary_prompt_template = """<|user|>Summarize the conversations and update with the new lines.

Current summary:
{summary}

new lines of conversation:
{new_lines}

New summary:<|end|>
<|assistant|>"""

summary_prompt = PromptTemplate(
    input_variables=["new_lines", "summary"],
    template=summary_prompt_template
)

# 체인 구성
chain = prompt | llm | StrOutputParser()
summary_chain = summary_prompt | llm | StrOutputParser()

# 세션 저장소
sessions = {}

def chat(user_input: str, session_id: str = "default", k: int = None) -> str:
    """
    대화 함수
    - k=None: Summary Memory 사용 (max_history=4)
    - k=숫자: Window Memory 사용
    """
    if session_id not in sessions:
        sessions[session_id] = {
            'history': ChatMessageHistory(),
            'summary': "",
            'k': k
        }

    session = sessions[session_id]
    history = session['history']
    window_size = k if k is not None else session['k']

    # Window Memory 모드
    if window_size is not None:
        recent = history.messages[-(window_size * 2):] if history.messages else []
        chat_history = "\n".join(
            f"{'사용자' if m.type == 'human' else 'AI'}: {m.content}"
            for m in recent
        ) or "대화 기록 없음"
        summary = "없음"

    # Summary Memory 모드
    else:
        max_history = 4

        # 메시지가 많으면 요약
        if len(history.messages) > max_history:
            messages_to_summarize = history.messages[:-max_history]
            new_lines = "\n".join(
                f"{'사용자' if m.type == 'human' else 'AI'}: {m.content}"
                for m in messages_to_summarize
            )

            session['summary'] = summary_chain.invoke({
                "summary": session['summary'] if session['summary'] else "없음",
                "new_lines": new_lines
            })

            recent = history.messages[-max_history:]
            history.clear()
            for msg in recent:
                if msg.type == "human":
                    history.add_user_message(msg.content)
                else:
                    history.add_ai_message(msg.content)

        chat_history = "\n".join(
            f"{'사용자' if m.type == 'human' else 'AI'}: {m.content}"
            for m in history.messages
        ) or "대화 기록 없음"

        summary = session['summary'] if session['summary'] else "없음"

    # 응답 생성
    response = chain.invoke({
        "input_prompt": user_input,
        "summary": summary,
        "chat_history": chat_history
    })

    history.add_user_message(user_input)
    history.add_ai_message(response)

    return response

# ==========================================
# 사용 예시
# ==========================================

# Summary Memory 모드 (k=None)
print("="*70)
print("📝 Summary Memory 모드")
print("="*70)
response1 = chat("Hi! My name is Maarten. What is 1 + 1?", session_id="user1")
response2 = chat("What is my name?", session_id="user1")

print(f"✅ 응답 1: {response1}")
print(f"✅ 응답 2: {response2}")
print(f"✅ 요약: {sessions['user1']['summary']}")
print(f"✅ 대화 기록: {len(sessions['user1']['history'].messages)}개 메시지")


llama_context: n_batch is less than GGML_KQ_MASK_PAD - increasing to 64
llama_context: n_ctx_per_seq (4096) < n_ctx_train (32768) -- the full capacity of the model will not be utilized


📝 Summary Memory 모드
✅ 응답 1:  Hi, Maarten! The answer to 1 + 1 is **2**. 😊
✅ 응답 2:  Your name is Maarten.
✅ 요약: 
✅ 대화 기록: 4개 메시지


In [40]:
# 지금까지 내용이 요약되어 있는지 확인합니다.
response = chat("What was the first question I asked?", session_id="user1")
print(f"✅ 응답 : {response}")
print(f"✅ 요약 : {sessions['user1']['summary']}")

✅ 응답 : 
✅ 요약 : 


In [41]:
# 여러 대화를 진행하여 요약 트리거
conversations = [
    "Hi! My name is Maarten.",
    "I am 33 years old.",
    "I live in Amsterdam.",
    "What is 1 + 1?",
    "What is my name?",  # 이 시점에서 요약 확인 가능
]

for i, conv in enumerate(conversations, 1):
    print(f"\n{'='*70}")
    print(f"대화 {i}: {conv}")
    print(f"{'='*70}")

    response = chat(conv, session_id="user_001")
    print(f"🤖 응답: {response[:150]}...")

    # 현재 세션 상태
    session = sessions['user_001']
    print(f"\n📊 현재 상태:")
    print(f"   - 현재 메시지 수: {len(session['history'].messages)}개")
    print(f"   - 요약 상태: {'있음' if session['summary'] else '없음'}")
    if session['summary']:
        print(f"   - 요약 내용: {session['summary'][:100]}...")

# ==========================================
# 최종 확인
# ==========================================

print("\n" + "="*70)
print("📄 최종 세션 상태")
print("="*70)

session = sessions['user_001']
history = session['history'].messages
summary = session['summary']

print(f"\n✅ 대화 기록: {len(history)}개 메시지")
for i, msg in enumerate(history, 1):
    print(f"   [{i}] {msg.type}: {msg.content[:60]}...")

print(f"\n✅ 요약:")
print(f"   {summary if summary else '(요약 없음)'}")


대화 1: Hi! My name is Maarten.
🤖 응답: Hello, Maarten! It's nice to meet you. How can I assist you today?...

📊 현재 상태:
   - 현재 메시지 수: 2개
   - 요약 상태: 없음

대화 2: I am 33 years old.
🤖 응답: I'm glad to hear that you've already taken some time for yourself. At 33, you're at a stage in life where personal growth and development are particul...

📊 현재 상태:
   - 현재 메시지 수: 4개
   - 요약 상태: 없음

대화 3: I live in Amsterdam.
🤖 응답:  It sounds like you're in a vibrant and culturally rich city. Amsterdam is known for its iconic landmarks, such as the Rijksmuseum or the Van Gogh Mus...

📊 현재 상태:
   - 현재 메시지 수: 6개
   - 요약 상태: 없음

대화 4: What is 1 + 1?
🤖 응답: 1 + 1 is equal to 2....

📊 현재 상태:
   - 현재 메시지 수: 6개
   - 요약 상태: 없음

대화 5: What is my name?
🤖 응답:  I don't have access to your personal information. However, I can say that you need to check the name field in your account settings or profile inform...

📊 현재 상태:
   - 현재 메시지 수: 6개
   - 요약 상태: 없음

📄 최종 세션 상태

✅ 대화 기록: 6개 메시지
   [1] human: I live in Amsterdam....
 



---



# **에이전트**
LLM 시스템 구축하기

- **에이전트**(**Agent**) : 언어 모델을 사용해 어떤 행동을 어떤 순서로 수행힐지 결정하는 시스템
- **에이전트 추가 핵심 구성 요소**
    - 에이전트가 스스로 수행할 수 없는 작업을 위해 사용할 도구(tool)
    - 수행할 행동 또는 사용할 도구를 계획하는 에이전트 유형(agent type)

- 에이전트는 목표를 달성하기 위한 로드맵을 만들고 스스로 수정하는 등의 고차원적 행동을 할 수 있습니다.
- 도구를 사용하기 위해 실세계와 상호작용을 할 수 있다. (--> 다양한 작업을 할 수 있다.)

- **ReAct**: 추론과 행동을 연결하는 강력한 프레임워크
    - Reasoning(추론) + Acting(행동)
- **ReAct의 사이클 단계**
    - 사고 : 생각하고 추론하는 과정 (Thought), 해야할 일
    - 행동 : 실제 행동을 취하는 과정 (Action), 할 일
    - 관측 : 해동의 결과
    - 추론과 행동을 번갈아가며 수행하여 문제 해결



### **랭체인의 ReACT**