# LangChain을 활용한 RAG 실습

LangChain은 LLM에 입력되는 프롬프트에 다양한 엔지니어링 요소(프롬프트 템플릿, 체인, 메모리, 툴 호출 등)를 결합하여 하나의 완성된 애플리케이션 형태로 구성할 수 있는 단계별 워크플로우 프레임워크입니다.

또한 OpenAI, Hugging Face 등 주요 LLM 플랫폼과 손쉽게 연동할 수 있어 확장성이 뛰어납니다.

### 필요 라이브러리 설치

In [1]:
!pip install langchain langchain-core langchain_community faiss-cpu tiktoken langchain-openai langchain-text-splitters datasets



## LangChain 프롬프트 엔지니어링

LangChain은 입력된 프롬프트를 탬플릿화 시키고 불러온 LLM 모델과 연결하여 단계별 워크플로우를 하나의 프로세스로 합쳐 줍니다.  



**단계별 워크플로우**:

    1. LLM 모델로드
    2. 프롬프트 템플릿 생성
    3. LLM 모델과 템플릿을 연결(Chains)
    4. 사용자 입력을 받아 모델에 입력
    5. 모델의 결과를 후처리

In [2]:
from getpass import getpass
from langchain_openai import ChatOpenAI
import os

# OpenAI API key
openai_api_key = getpass("Enter your OpenAI API key: ")

# API키 설정
os.environ["OPENAI_API_KEY"] = openai_api_key

In [3]:
# 모델 로드
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.0)

### 프롬프트 템플릿 생성

`langchain_core.prompts` 모듈은 `PromptTemplate` 객체를 제공하여 사용자가 입력한 프롬프트에 적절한 템플릿을 덮어 씌워 모델에 입력할수 있게 도와줍니다.  
이때 `PromptTemplate`에 입력되는 문자열 안에 `{변수이름}`형식으로 수정 가능한 변수를 할당할 수 있습니다.

In [4]:
from langchain_core.prompts import PromptTemplate

# 텍스트 요약 템플릿
summary_template = """
당신은 전문 요약가 입니다.
아래 주어진 텍스트를 50단어 이내로 간결하게 요약해 주세요.

텍스트:
{text_to_summarize}

요약:
"""

# PromptTemplate 구성
summary_prompt = PromptTemplate.from_template(summary_template)

### LLM - Prompt 체인 만들기 (LCEL 방식)

LangChain에서는 기존의 LLMChain.run() 방식 대신,
**LangChain Expression Language(LCEL)**을 사용해
프롬프트 → LLM → 출력 파싱 과정을 하나의 체인으로 간단히 구성할 수 있습니다.

summary_prompt | llm | StrOutputParser() 형태로 체인을 만들고,
.invoke()에 사용자 입력을 넣으면 최종 생성 텍스트가 반환됩니다.

In [5]:
from langchain_core.output_parsers import StrOutputParser

# Using LangChain Expression Language (LCEL) to create the chain
summary_chain = summary_prompt | llm | StrOutputParser()

# 사용자 프롬프트
text_to_summarize = """
[데일리안 = 조인영 기자] 우리나라 앱 개발자가 앱 마켓사업자에게서 경험하는 주요 불공정 사례는 심사 지연과 등록 거부이며, 앱 내 결제(인앱결제)의 가장 큰 문제점은 ‘과도한 수수료’라고 인식하고 있는 것으로 나타났다.

방송통신위원회와 한국인터넷진흥원은 11일 '전기통신사업법' 제22조의9(앱 마켓사업자의 의무 및 실태조사)에 따른 ‘2024년도 앱 마켓 실태조사 결과’를 발표했다.

2023년도 국내 ‘앱 마켓’ 규모는 거래액 기준으로 8조1952억원으로 2022년 8조 7598억원 대비 6.4% 감소했다

각 사업자별로 보면, 애플 앱스토어(10.1%)와 삼성전자 갤럭시스토어(6.3%)는 전년 대비 매출이 증가했으며, 구글 플레이(△10.1%)와 원스토어(△21.6%)는 감소했다.

4개 앱 마켓사업자의 거래액 대비 수수료 비중은 약 14~26% 수준이며, 앱 등록 매출의 경우 애플 앱스토어는 약 9.4% 증가했고 구글 플레이는 약 12.9% 감소했다.

또한 국내 앱 마켓에 등록된 전체 앱 수는 전년 대비 0.1% 증가한 531만8182개(각 앱 마켓별 중복 포함), 앱 개발자 수는 전년 대비 0.65% 적은 163만6655명(각 앱 마켓별 중복 포함)으로 나타났다.

분야별 앱 등록 비중은 사진‧도구(26.1%), 라이프스타일(15.6%), 미디어‧출판(14.5%) 관련 앱이 전체의 56.2%를 차지했다.

국내 앱 개발자가 이용하는 앱 마켓은 구글 플레이(96.4%), 애플 앱스토어(71.3%) 순(중복포함)이며, 매출액 비중도 구글 플레이가 67.5%로 가장 높았다. 그 를 애플 앱스토어(28.2%), 원스토어(2.9%), 갤럭시스토어(1.5%)가 따랐다.

앱 개발자가 느끼는 주요 불공정 사례로는 앱 심사지연 경험(애플 앱스토어 6.8%, 구글 플레이 26.2%)이 가장 높았으며, 앱 등록 거부 경험(애플 20%, 구글 3%)과 앱 삭제 경험(구글 8.2%, 애플 3.2%)이 그 뒤를 이었다.

앱 내 결제의 가장 큰 문제점은 ‘과도한 수수료’라고 답한 앱 개발자가 0.4%로 가장 높게 나타났으며, 다음으로 ‘환불 등 수익 정산의 불명확함’(11.6%), ‘결제 수단 선택 제한’(8.9%) 순으로 조사됐다.

앱 개발자가 느낀 앱 최초 등록 과정상의 어려움으로는 ‘심사 기준이 확하지 않음’(구글 플레이 29.8%, 애플 앱스토어 29.6%), ‘질의에 대한 드백 지연’(각각 26.1%, 25.3%) 등이 꼽혔다.

앱을 최초로 등록하기 위해 소요되는 심사기간은 구글 플레이는 등록 시 일 이내(25.6%)에 처리되는 경우가 많았으나, 애플 앱스토어는 6∼7일 이내(42.5%)로 나타났다.

우리나라 국민이 가장 자주 이용하는 앱 마켓은 구글 플레이(67.2%), 애플 스토어(29.7%) 순이었으며, 해당 앱 마켓을 자주 이용하는 이유로는 ‘사용이 편리해서’(67.7%), ‘설치되어 있어서’(61.3%), ‘상품 수가 많아서’(33,5%) 등 으로 나타났다.
"""

# 사용자 프롬프트를 체인에 입력
summary_result = summary_chain.invoke({"text_to_summarize": text_to_summarize})
print("[요약 결과]")
print(summary_result)

[요약 결과]
2024년도 앱 마켓 실태조사에 따르면, 한국 앱 개발자들은 심사 지연과 등록 거부, 과도한 수수료를 주요 불공정 사례로 인식하고 있다. 2023년 앱 마켓 규모는 8조1952억원으로 감소했으며, 구글 플레이와 애플 앱스토어가 가장 많이 사용된다.


### 롤 토큰 chat 템플릿

In [6]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# ChatPromptTemplate 생성: 시스템/사용자 메시지 정의
chat_template = ChatPromptTemplate([
    ("system", "당신은 질문의 상황에 적절한 인공지능 모델을 찾아주는 AI전문가 입니다."),
    ("user", "다음 상황에 맞는 모델을 찾아줘 \n{input}")
])

# LCEL( LangChain Expression Language )을 이용한 체인 구성
# 프롬프트 → LLM → 문자열 파서 로 이어지는 파이프라인 구성
chat_chain = chat_template | llm | StrOutputParser()

# 체인을 실행할 때는 딕셔너리 형태로 변수(input)을 전달
response = chat_chain.invoke({"input": "우리는 CCTV에 점죄 상황을 인지하기 위한 기능을 넣으려고 한다."})
print("[응답]\n", response)

[응답]
 CCTV에서 점죄 상황을 인지하기 위한 기능을 구현하려면, 다음과 같은 AI 모델을 고려할 수 있습니다:

1. **객체 탐지 모델**: YOLO (You Only Look Once), SSD (Single Shot MultiBox Detector), Faster R-CNN과 같은 모델을 사용하여 CCTV 영상에서 사람이나 특정 객체를 실시간으로 탐지할 수 있습니다.

2. **행동 인식 모델**: LSTM (Long Short-Term Memory) 또는 3D CNN (Convolutional Neural Network)과 같은 모델을 활용하여 사람의 행동을 분석하고 점죄와 같은 특정 행동을 인식할 수 있습니다. 

3. **이상 탐지 모델**: Autoencoder, Isolation Forest와 같은 비지도 학습 모델을 사용하여 정상적인 행동 패턴을 학습하고, 이를 기반으로 비정상적인 행동(예: 점죄)을 탐지할 수 있습니다.

4. **영상 처리 및 분석 라이브러리**: OpenCV와 같은 라이브러리를 사용하여 영상 전처리 및 기본적인 객체 탐지 기능을 구현할 수 있습니다.

이러한 모델들을 조합하여 CCTV 영상에서 점죄 상황을 효과적으로 인지할 수 있는 시스템을 구축할 수 있습니다.


### 메모리 활용

LLM은 **이전 대화 내용(히스토리)**을 함께 넣어주면 대화를 더 자연스럽게 이어갈 수 있습니다.

LangChain 최신 버전에서는
history라는 자리에 누적된 대화 메시지를 자동으로 넣어주는 기능을 제공합니다.
그래서 같은 세션 ID로 체인을 호출하면, 이전 질문·답변들이 자동으로 기억되고 → 다음 질문에 더 자연스러운 답변을 하게 됩니다.

In [10]:

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_core.chat_history import InMemoryChatMessageHistory

# 1) LLM
llm = ChatOpenAI(model="gpt-4o-mini")

# 2) history + user_input 프롬프트 템플릿
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "너는 친절한 AI 비서야."),
        MessagesPlaceholder(variable_name="history"),  # 이전 대화가 들어갈 자리
        ("human", "{user_input}"),                     # 새 사용자 입력
    ]
)

In [11]:
# 3) 기본 체인: 프롬프트 → LLM
base_chain = prompt | llm

# 4) 세션별로 메모리(대화 기록)를 관리할 저장소
store = {}

def get_session_history(session_id: str) -> InMemoryChatMessageHistory:
    if session_id not in store:
        store[session_id] = InMemoryChatMessageHistory()
    return store[session_id]

# 5) RunnableWithMessageHistory로 "메모리 있는 체인" 만들기
llm_chain_with_history = RunnableWithMessageHistory(
    base_chain,
    get_session_history,
    input_messages_key="user_input",  # 입력에서 어떤 key를 user 메시지로 쓸지
    history_messages_key="history",   # 프롬프트의 MessagesPlaceholder 이름
)


In [12]:
# 6) 체인 실행 (첫 대화)
response1 = llm_chain_with_history.invoke(
    {"user_input": "BERT 모델에 대하여 간략한 설명 부탁해"},
    config={"configurable": {"session_id": "session-1"}},  # 같은 session_id면 히스토리 공유
)
print("[응답 1]\n", response1.content)

[응답 1]
 BERT(Bidirectional Encoder Representations from Transformers)는 구글에서 개발한 자연어 처리(NLP) 모델로, 2018년에 발표되었습니다. BERT는 다양한 NLP 태스크에서 뛰어난 성능을 보여줍니다. 아래는 BERT의 주요 특징입니다.

1. **양방향성**: BERT는 문맥을 이해하기 위해 문장의 양쪽에서 정보를 수집합니다. 이는 일반적인 전통적인 방법들이 이전 단어들만 고려하는 것과 대조적입니다. 

2. **Transformer 구조**: BERT는 Transformer라는 신경망 아키텍처를 기반으로 하며, 주로 인코더 부분을 사용합니다. 이 구조는 Attention 메커니즘을 활용하여 단어 간의 관계를 효과적으로 모델링합니다.

3. **사전 학습**: BERT는 대규모 텍스트 데이터에서 사전 학습(pre-training)을 진행합니다. 이 과정에서 두 가지 주요 작업인 "마스킹된 언어 모델(Masked Language Model)"과 "다음 문장 예측(Next Sentence Prediction)"을 통해 언어의 일반적인 패턴과 관계를 학습합니다.

4. **미세 조정**: BERT는 다양한 특정 NLP 태스크(예: 질문 응답, 감정 분석 등)에 대해 미세 조정(fine-tuning)할 수 있습니다. 사전 학습된 BERT 모델을 사용하면 적은 데이터로도 높은 성능을 얻을 수 있습니다.

BERT는 텍스트의 의미와 문맥을 이해하는 데 탁월하며, 많은 NLP 모델들이 BERT를 기반으로 하거나 이를 참조하여 개발되고 있습니다.


In [13]:
# 체인 실행 (두 번째 대화) - 이전 대화가 history에 자동 저장/사용됨
response2 = llm_chain_with_history.invoke(
    {"user_input": "방금 설명한 모델과 GPT 모델의 차이점은?"},
    config={"configurable": {"session_id": "session-1"}},
)
print("\n[응답 2]\n", response2.content)


[응답 2]
 BERT와 GPT(Generative Pre-trained Transformer)는 모두 Transformer 아키텍처 기반의 자연어 처리 모델이지만, 그 구조와 사용 목적에서는 몇 가지 중요한 차이점이 있습니다. 아래는 두 모델의 주요 차이점입니다:

1. **방향성**:
   - **BERT**: 양방향(Bidirectional) 모델로, 문맥을 이해하기 위해 입력되는 텍스트의 양쪽(이전과 이후)의 단어들을 동시에 고려합니다. 이를 통해 문맥을 보다 깊이 있게 이해할 수 있습니다.
   - **GPT**: 단방향(Left-to-right) 모델로, 입력되는 텍스트의 이전 단어들만 참고하여 다음 단어를 예측합니다. 이 구조로 인해 텍스트 생성에서 자연스러운 흐름을 유지합니다.

2. **주요 목적**:
   - **BERT**: 주로 텍스트 이해(Task-specific) 문제(예: 질문 응답, 감정 분석)에 적합하게 설계되었습니다. 일반적으로 테스와 같은 구체적인 작업을 위해 미세 조정(fine-tuning)하여 사용됩니다.
   - **GPT**: 텍스트 생성(Generative) 작업에 초점을 맞추고 있으며, 사용자 입력에 대해 지속적으로 텍스트를 생성하는 데 강점을 가지고 있습니다.

3. **사전 학습과 미세 조정**:
   - **BERT**: 사전 학습 단계에서 마스킹된 언어 모델과 다음 문장 예측 작업을 통해 언어의 일반적인 패턴을 학습합니다. 이후 특정 태스크에 맞게 미세 조정됩니다.
   - **GPT**: 텍스트 생성을 위한 사전 학습을 진행하며, 주로 예측된 문맥을 기반으로 다음 단어를 생성하는 방식으로 학습됩니다. 특정 태스크에 대한 미세 조정 없이도 사용할 수 있으며, 특히 다양한 생성 작업에 유용합니다.

4. **용도**:
   - **BERT**: 주로 텍스트 분류, 감정 분석, 질문 응답 등 문장을 이해하는 데 필요한 작업에 많이 사용됩니다.
   - **GPT**: 대화형 AI, 이야기 생성, 텍스트 요약 등