# 1. 패키지 설치

In [None]:
# poetry add pypdf=">=4.2.0,<5.0.0"
# poetry add langchain-upstage

# 2. 환경변수 불러오기

- `.env` 파일에 `UPSTAGE_API_KEY` 등록

In [None]:
from dotenv import load_dotenv
import os
# .env 파일을 불러와서 환경 변수로 설정
load_dotenv(dotenv_path='../.env')

UPSTAGE_API_KEY = os.getenv("UPSTAGE_API_KEY")
print(UPSTAGE_API_KEY[:4])

up_5


# 3. LLM 답변 생성

- Upstage Console에서 발급받은 API Key를 `UPSTAGE_API_KEY`라고 저장하면 별도의 설정 없이 `ChatUpstage`를 사용할 수 있음

In [1]:
from langchain_upstage import ChatUpstage

#llm = ChatUpstage(temperature=0.5)
llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

In [2]:
ai_message=llm.invoke("LangChain은 무엇인가요?")
print(type(ai_message))
print(ai_message.content)

<class 'langchain_core.messages.ai.AIMessage'>
LangChain은 **대규모 언어 모델(LLM, Large Language Model)을 활용한 애플리케이션 개발을 위한 오픈소스 프레임워크**입니다. 복잡한 LLM 기반 시스템을 구축할 때 필요한 모듈화된 도구와 패턴을 제공하여, 개발자가 보다 효율적으로 애플리케이션을 설계할 수 있도록 돕습니다.

### 📌 **LangChain의 핵심 개념**
1. **모듈화된 구성 요소**  
   - **모델 I/O**: LLM(예: GPT, Claude, PaLM 등)과의 인터페이스를 표준화합니다.  
   - **프롬프트 관리**: 동적 프롬프트 생성, 체인 조합, 템플릿 관리를 지원합니다.  
   - **메모리(Memory)**: 채팅 기록이나 이전 컨텍스트를 저장해 대화 흐름을 유지합니다.  
   - **체인(Chain)**: 여러 LLM 호출과 논리 연산을 연결해 복잡한 작업(예: 요약 → 질의 응답)을 구성합니다.  
   - **에이전트(Agent)**: LLM이 자체적으로 도구를 선택하고 실행하도록 합니다(예: 계산기, 검색 엔진 연동).  
   - **데이터 연결**: 외부 데이터베이스, API, 벡터 스토어(FAISS, Pinecone 등)와 연동해 컨텍스트를 확장합니다.

2. **주요 사용 사례**  
   - **챗봇**: 대화 컨텍스트 유지와 도구 통합을 지원하는 지능형 챗봇.  
   - **문서 Q&A**: PDF/웹 문서에서 정보를 추출해 답변하는 시스템.  
   - **코드 생성**: GitHub Copilot과 같은 코드 보조 도구.  
   - **자동화**: LLM이 이메일 작성, 데이터 분석 등을 수행하는 워크플로.

3. **장점**  
   - **재사용성**: 미리 정의된 체인/컴포넌트를 조합해 빠르게 프로토타이핑 가능.  
   - **확장성**: 사용자 정의 모델이나 도구를 쉽게 통합할 수 있습니다.  
   - **커뮤니티**:

In [3]:
# using chat stream
for chunk in llm.stream("LangChain은 무엇인가요?"):
    print(chunk.content, end="")

LangChain은 **대규모 언어 모델(LLM, Large Language Model)을 활용한 애플리케이션 개발을 위한 오픈소스 프레임워크**입니다. 복잡한 LLM 기반 시스템을 구축할 때 필요한 도구와 패턴을 제공하여, 개발자가 보다 쉽게 **메모리, 검색, 체인(Chain), 에이전트(Agent)** 등의 기능을 통합할 수 있도록 설계되었습니다.

### 주요 특징 및 개념
1. **모듈성**  
   - LLM 호출, 데이터 검색, 사용자 입력 처리 등을 독립적인 모듈로 분리해 유연하게 조합할 수 있습니다.
   - 예: `LLMChain` (간단한 체인), `RetrievalQA` (검색 기반 QA), `Agent` (동적 의사결정).

2. **핵심 구성 요소**  
   - **Models**: OpenAI, Anthropic, HuggingFace 등 다양한 LLM과 연동.
   - **Prompts**: 템플릿, 퓨샷 학습(Few-shot), 체인 오브 사고(Chain-of-Thought) 등 프롬프트 엔지니어링 지원.
   - **Memory**: 대화 기록 유지 (대화형 애플리케이션에 필수).
   - **Retrieval**: 외부 데이터베이스나 벡터 스토어에서 정보 검색 (RAG: Retrieval-Augmented Generation).
   - **Chains**: 여러 컴포넌트를 연결해 복잡한 작업 흐름 구축 (예: "검색 → 요약 → 답변 생성").
   - **Agents**: 사용자 지정 논리나 반사(Reflection) 기능으로 동적 작업 수행.

3. **사용 사례**  
   - 챗봇, 문서 요약, 코드 생성, 데이터 분석, 맞춤형 지식 베이스 구축 등.

4. **지원 기술 스택**  
   - Python 중심이지만 JS/TS 버전도 존재.
   - LangSmith(모니터링 도구), LangServe(API 배포)와 통합 가능.

### 예시 코드 (간단한 체인)
```python
from langchain.cha

In [4]:
from langchain_upstage import ChatUpstage
from langchain_core.prompts import ChatPromptTemplate

translation_prompt = ChatPromptTemplate.from_messages([
        ("system", "You are a professional translator specializing in Korean-English translation."),
        ("human", "Translate this from {source_lang} to {target_lang}: {text}")
    ])

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# 체인 실행
chain = translation_prompt | llm

response = chain.invoke({
    "source_lang": "English",
    "target_lang": "Korean", 
    "text": "LangChain is a powerful framework for building AI applications."
})

print("Upstage Response:")
print(response.content)
    

Upstage Response:
"LangChain은 AI 애플리케이션을 구축하기 위한 강력한 프레임워크입니다."  

### 추가 설명:  
- "LangChain"은 기술 용어로 그대로 음차하여 표기했습니다.  
- "framework"는 "프레임워크"보다 자연스러운 "프레임워크" 또는 "기반 구조"로 번역할 수 있으나, 기술 분야에서는 "프레임워크"가 더 흔히 사용됩니다.  
- 필요에 따라 문맥을 반영해 "언어 모델 기반 AI 애플리케이션"과 같이 구체화할 수도 있습니다.  

예: *"LangChain은 언어 모델을 활용한 AI 애플리케이션 개발을 위한 강력한 프레임워크입니다."*


In [None]:
from langchain_core.prompts import ChatPromptTemplate

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# using chain
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful assistant that translates English to Korean."),
        ("human", "Translate this sentence from English to Korean. {english_text}."),
    ]
)

llm = ChatUpstage()
chain = prompt | llm

ai_message=chain.invoke({"english_text": "Hello, How are you?"})
print(ai_message.content)

#### Groundness Check
* Groundedness Check API는 사용자가 제공한 Context(컨텍스트)에 대한 AI 어시스턴트의 응답이 실제로 그 컨텍스트에 기반하고 있는지 여부를 확인합니다.

In [5]:
from langchain_upstage import UpstageGroundednessCheck

groundedness_check = UpstageGroundednessCheck()

request_input = {
    "context": "삼성전자는 연결 기준으로 매출 74.07조원, 영업이익 10.44조원의 2024년 2분기 실적을 발표했다. 전사 매출은 전분기 대비 3% 증가한 74.07조원을 기록했다. DS부문은 메모리 업황 회복으로 전분기 대비 23% 증가하고, SDC는 OLED 판매 호조로 증가했다.",
    "answer": "삼성전자의 2024년 2분기 매출은 약 74.07조원이다.",
}

response = groundedness_check.invoke(request_input)
print(response)  

grounded


#### UpstageEmbeddings

In [6]:
from langchain_upstage import UpstageEmbeddings

embeddings = UpstageEmbeddings(model="solar-embedding-1-large")
doc_result = embeddings.embed_documents(
    ["Sung is a professor.", "This is another document"]
)
print(doc_result)

query_result = embeddings.embed_query("What does Sung do?")
print(query_result)

[[-0.003772654104977846, -0.02863232046365738, 0.0060903835110366344, 0.015804920345544815, -0.013601856306195259, -0.017444061115384102, 0.006549041718244553, -0.007970131002366543, 0.0010977728525176644, 0.011519095860421658, 0.01897793635725975, 0.021098291501402855, -0.0019568176940083504, 0.005342243704944849, 0.0038346857763826847, -0.001994412625208497, 0.006180611439049244, 0.0005700335605069995, 0.025384116917848587, -0.006338510196655989, -0.020872721448540688, 0.0016945927636697888, -0.0010582981631159782, 0.00929347425699234, -0.003864761907607317, 0.003225647611543536, 0.010646892711520195, 0.010353651829063892, 0.003780173137784004, 0.014646995812654495, 0.014804895035922527, -0.009421296417713165, 0.01765459217131138, 0.0029324067290872335, 0.004278306383639574, -0.0076468149200081825, 0.009541600942611694, 0.03467759117484093, -0.0021297545172274113, 0.009910031221807003, 0.021459203213453293, -0.005733231082558632, 0.0005549956113100052, 0.0011607443448156118, -0.00333

#### UpstageDocumentParseLoader

In [7]:
from langchain_upstage import UpstageDocumentParseLoader

file_path = "../data/tutorial-korean.pdf"
layzer = UpstageDocumentParseLoader(file_path, split="page")

# For improved memory efficiency, consider using the lazy_load method to load documents page by page.
docs = layzer.load()  # or layzer.lazy_load()

for doc in docs[:3]:
    print(type(doc)) #Document
    print(doc)

<class 'langchain_core.documents.base.Document'>
page_content='<figure id='0'><img alt="" data-coord="top-left:(557,309); bottom-right:(676,415)" /></figure> <br><h1 id='1' style='font-size:20px'>BlueJ 튜토리얼</h1> <br><h1 id='2' style='font-size:16px'>한국어 버전 2.0<br>BlueJ Version 2.0.x 用</h1> <h1 id='3' style='font-size:16px'>English Version 2.0.1</h1> <br><p id='4' data-category='paragraph' style='font-size:16px'>Michael Kölling<br>Mærsk Insitute<br>University of Southern Denmark</p> <h1 id='5' style='font-size:16px'>Korean Version 2.0</h1> <br><p id='6' data-category='paragraph' style='font-size:16px'>황석형 교수<br>Project Member<br>Ver. 1.0 : 강석진, 민상호, 오경묵, 유형순, 이승환.<br>Ver. 2.0 : 강원준<br>선문대학교 컴퓨터정보학부</p> <figure id='7'><img alt="" data-coord="top-left:(540,1327); bottom-right:(696,1472)" /></figure> <footer id='8' style='font-size:14px'>1</footer>' metadata={'page': 1, 'coordinates': [[{'x': 0.4498, 'y': 0.1766}, {'x': 0.5454, 'y': 0.1766}, {'x': 0.5454, 'y': 0.2365}, {'x': 0.4498, 'y': 0