# 1. 패키지 설치

In [1]:
# poetry add pypdf=">=4.2.0,<5.0.0"
# poetry add langchain-upstage

# 2. 환경변수 불러오기

- `.env` 파일에 `UPSTAGE_API_KEY` 등록

In [2]:
from dotenv import load_dotenv
import os
# .env 파일을 불러와서 환경 변수로 설정
load_dotenv()

UPSTAGE_API_KEY = os.getenv("UPSTAGE_API_KEY")
print(UPSTAGE_API_KEY[:4])

up_o


# 3. LLM 답변 생성

- Upstage Console에서 발급받은 API Key를 `UPSTAGE_API_KEY`라고 저장하면 별도의 설정 없이 `ChatUpstage`를 사용할 수 있음

In [3]:
from langchain_upstage import ChatUpstage

#llm = ChatUpstage(temperature=0.5)
llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )
print(llm)

client=<openai.resources.chat.completions.completions.Completions object at 0x127cdb310> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x155107350> model_name='solar-pro' temperature=0.5 model_kwargs={} upstage_api_key=SecretStr('**********') upstage_api_base='https://api.upstage.ai/v1'


In [4]:
ai_message=llm.invoke("LangChain은 무엇인가요?")
print(type(ai_message))
print(ai_message.content)

<class 'langchain_core.messages.ai.AIMessage'>
**LangChain**은 대규모 언어 모델(LLM, Large Language Model)을 활용한 애플리케이션 개발을 간소화하기 위한 오픈소스 프레임워크입니다. Python 기반으로, LLM의 기능을 확장하거나 다른 도구/데이터와 연결해 복잡한 작업을 처리할 수 있도록 설계되었습니다.

### 📌 **주요 개념 및 특징**
1. **모듈식 설계**  
   - LLM을 "체인(Chain)" 형태로 연결해 복잡한 작업(예: 질문 응답, 데이터 분석, 다단계 추론)을 구성할 수 있습니다.  
   - 예: `RetrievalQA` (문서 검색 → LLM 응답 생성) 또는 `SequentialChain` (다단계 작업).

2. **통합 기능**  
   - 다양한 LLM 제공업체(OpenAI, Anthropic, Hugging Face 등)와 호환됩니다.  
   - 외부 도구(벡터 데이터베이스, API, SQL 등)와 연동해 LLM의 한계를 보완합니다.  
     - 예: **FAISS**나 **ChromaDB**로 문서 검색 후 LLM이 답변 생성.

3. **메모리 및 에이전트 지원**  
   - 대화 기록을 유지하는 **메모리(Memory)** 기능으로 챗봇 개발에 유용합니다.  
   - **에이전트(Agent)**는 동적으로 도구를 선택해 작업을 수행하는 자율적 시스템입니다.  
     - 예: 계산 필요 시 계산기 도구 호출.

4. **사용 사례**  
   - 챗봇, 콘텐츠 생성, 문서 요약, 코드 작성, RAG(Retrieval-Augmented Generation) 등.

### 🔧 **주요 구성 요소**
- **LLM (Language Model)**  
  - OpenAI의 GPT, Meta의 Llama 등 다양한 모델 지원.
- **프롬프트 관리**  
  - PromptTemplate, FewShotPromptTemplate 등으로 입력 구조화.

In [5]:
# using chat stream
for chunk in llm.stream("LangChain은 무엇인가요?"):
    print(chunk.content, end="")

**LangChain**은 대규모 언어 모델(LLM, Large Language Model)을 활용해 복잡한 애플리케이션 개발을 용이하게 하는 **오픈소스 프레임워크**입니다. 2022년 Harrison Chase가 주도하여 개발되었으며, LLM의 기능을 확장하고 실제 서비스에 통합하는 데 필요한 도구들을 제공합니다.

### 📌 **LangChain의 주요 특징**
1. **모듈식 설계**  
   - LLM을 "체인(Chain)" 형태로 연결해 단계별 작업을 구성합니다.  
     (예: 사용자 입력 → 프롬프트 생성 → LLM 처리 → 결과 후처리)
   - 모듈(예: 메모리, 검색, 에이전트)을 조합해 유연한 파이프라인 구축이 가능합니다.

2. **핵심 기능**  
   - **모듈 조합**: 프롬프트 관리, 외부 도구(검색, 계산기 등) 연동, 상태 추적(메모리)을 지원합니다.  
   - **에이전트**: LLM이 동적으로 도구를 선택하고 작업을 분해하도록 설계됩니다.  
   - **데이터 통합**: PDF, DB, API 등 외부 데이터 소스와 연결해 컨텍스트를 보강합니다.  
   - **프레임워크 지원**: Python, JS, LangSmith(모니터링 도구) 등 다양한 환경을 제공합니다.

3. **사용 사례**  
   - 챗봇, 문서 분석, 개인화된 추천 시스템, 코드 생성 도구 등에 활용됩니다.  
   - 예: 사용자 질문 → 문서 검색 → LLM이 검색 결과를 기반으로 답변 생성.

4. **호환성**  
   - OpenAI, Anthropic, Meta(Llama), 로컬 LLM 등 다양한 모델과 연동 가능합니다.

### 🛠 **간단한 예시 (Python 코드)**
```python
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI

# 1. 프롬프트 템플릿 정의


In [6]:
from langchain_upstage import ChatUpstage
from langchain_core.prompts import ChatPromptTemplate

translation_prompt = ChatPromptTemplate.from_messages([
        ("system", "You are a professional translator specializing in Korean-English translation."),
        ("human", "Translate this from {source_lang} to {target_lang}: {text}")
    ])

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# 체인 실행
chain = translation_prompt | llm

response = chain.invoke({
    "source_lang": "English",
    "target_lang": "Korean", 
    "text": "LangChain is a powerful framework for building AI applications."
})

print("Upstage Response:")
print(response.content)
    

Upstage Response:
"LangChain은 AI 애플리케이션 개발을 위한 강력한 프레임워크입니다."

* 자연스러운 한국어 표현을 위해 다음과 같이 번역했습니다:
1. "framework" → "프레임워크" (기술 용어 그대로 사용)
2. "building AI applications" → "AI 애플리케이션 개발을 위한" (보다 자연스러운 한국어 어순 조정)
3. "powerful" → "강력한" (가장 일반적으로 사용되는 형용사 선택)

보다 공식적인 문서가 필요한 경우 "LangChain은 인공지능 애플리케이션 구축을 위한 강력한 프레임워크입니다."로 번역할 수도 있습니다.


In [7]:
from langchain_core.prompts import ChatPromptTemplate

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# using chain
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful assistant that translates English to Korean."),
        ("human", "Translate this sentence from English to Korean. {english_text}."),
    ]
)

llm = ChatUpstage()
chain = prompt | llm

ai_message=chain.invoke({"english_text": "Hello, How are you?"})
print(ai_message.content)

이 문장을 한국어로 번역해줘. Hello, How are you?.


#### Groundness Check
* Groundedness Check API는 사용자가 제공한 Context(컨텍스트)에 대한 AI 어시스턴트의 응답이 실제로 그 컨텍스트에 기반하고 있는지 여부를 확인합니다.

In [8]:
from langchain_upstage import UpstageGroundednessCheck

groundedness_check = UpstageGroundednessCheck()

request_input = {
    "context": "삼성전자는 연결 기준으로 매출 74.07조원, 영업이익 10.44조원의 2024년 2분기 실적을 발표했다. 전사 매출은 전분기 대비 3% 증가한 74.07조원을 기록했다. DS부문은 메모리 업황 회복으로 전분기 대비 23% 증가하고, SDC는 OLED 판매 호조로 증가했다.",
    "answer": "삼성전자의 2024년 2분기 매출은 약 74.07조원이다.",
}

response = groundedness_check.invoke(request_input)
print(response)  


grounded


#### UpstageEmbeddings

In [9]:
from langchain_upstage import UpstageEmbeddings

embeddings = UpstageEmbeddings(model="solar-embedding-1-large")
doc_result = embeddings.embed_documents(
    ["Sung is a professor.", "This is another document"]
)
print(doc_result)

query_result = embeddings.embed_query("What does Sung do?")
print(query_result)

[[-0.003814697265625, -0.028656005859375, 0.0061187744140625, 0.0158233642578125, -0.01361083984375, -0.01751708984375, 0.006534576416015625, -0.00797271728515625, 0.0011148452758789062, 0.01152801513671875, 0.0189971923828125, 0.021026611328125, -0.001941680908203125, 0.005397796630859375, 0.003856658935546875, -0.00197601318359375, 0.00621795654296875, 0.0005564689636230469, 0.0253448486328125, -0.006343841552734375, -0.0209197998046875, 0.0016603469848632812, -0.0010423660278320312, 0.009307861328125, -0.003879547119140625, 0.003246307373046875, 0.01067352294921875, 0.01032257080078125, 0.0037841796875, 0.01464080810546875, 0.01480865478515625, -0.00943756103515625, 0.017669677734375, 0.0029048919677734375, 0.004306793212890625, -0.007678985595703125, 0.00954437255859375, 0.034698486328125, -0.00206756591796875, 0.00994873046875, 0.0214691162109375, -0.0057373046875, 0.0005602836608886719, 0.0011844635009765625, -0.0033283233642578125, -0.0008630752563476562, -0.0024547576904296875,

#### UpstageDocumentParseLoader

In [11]:
from langchain_upstage import UpstageDocumentParseLoader

file_path = "../data/tutorial-korean.pdf"
layzer = UpstageDocumentParseLoader(file_path, split="page")

# For improved memory efficiency, consider using the lazy_load method to load documents page by page.
docs = layzer.load()  # or layzer.lazy_load()
print(len(docs)) #[Document, Document]

for doc in docs[:3]:
    print(type(doc)) #Document
    print(doc)

39
<class 'langchain_core.documents.base.Document'>
page_content='<figure id='0'><img alt="" data-coord="top-left:(557,309); bottom-right:(676,415)" /></figure> <br><h1 id='1' style='font-size:20px'>BlueJ 튜토리얼</h1> <br><h1 id='2' style='font-size:16px'>한국어 버전 2.0<br>BlueJ Version 2.0.x 用</h1> <h1 id='3' style='font-size:16px'>English Version 2.0.1</h1> <br><p id='4' data-category='paragraph' style='font-size:16px'>Michael Kölling<br>Mærsk Insitute<br>University of Southern Denmark</p> <h1 id='5' style='font-size:16px'>Korean Version 2.0</h1> <br><p id='6' data-category='paragraph' style='font-size:16px'>황석형 교수<br>Project Member<br>Ver. 1.0 : 강석진, 민상호, 오경묵, 유형순, 이승환.<br>Ver. 2.0 : 강원준<br>선문대학교 컴퓨터정보학부</p> <figure id='7'><img alt="" data-coord="top-left:(540,1327); bottom-right:(696,1472)" /></figure> <footer id='8' style='font-size:14px'>1</footer>' metadata={'page': 1, 'coordinates': [[{'x': 0.4498, 'y': 0.1766}, {'x': 0.5454, 'y': 0.1766}, {'x': 0.5454, 'y': 0.2365}, {'x': 0.4498, 'y'