# 1. 패키지 설치

In [None]:
# poetry add pypdf=">=4.2.0,<5.0.0"
# poetry add langchain-upstage

# 2. 환경변수 불러오기

- `.env` 파일에 `UPSTAGE_API_KEY` 등록

In [None]:
from dotenv import load_dotenv
import os
# .env 파일을 불러와서 환경 변수로 설정
load_dotenv()

UPSTAGE_API_KEY = os.getenv("UPSTAGE_API_KEY")
print(UPSTAGE_API_KEY[:4])

up_5


# 3. LLM 답변 생성

- Upstage Console에서 발급받은 API Key를 `UPSTAGE_API_KEY`라고 저장하면 별도의 설정 없이 `ChatUpstage`를 사용할 수 있음

In [2]:
from langchain_upstage import ChatUpstage

#llm = ChatUpstage(temperature=0.5)
llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

In [3]:
ai_message=llm.invoke("LangChain은 무엇인가요?")
print(type(ai_message))
print(ai_message.content)

<class 'langchain_core.messages.ai.AIMessage'>
**LangChain**은 대규모 언어 모델(LLM, Large Language Model)을 활용해 복잡한 애플리케이션을 구축할 수 있도록 돕는 **오픈소스 프레임워크**입니다. 2022년 Harrison Chase가 개발했으며, LLM의 기능을 확장하거나 외부 도구/데이터와 연결하는 데 최적화되어 있습니다.

### **LangChain의 핵심 개념**
1. **모듈화 설계**  
   - LLM을 "체인(Chain)" 형태로 연결해 복잡한 작업을 처리합니다.  
     (예: 입력 → 프롬프트 생성 → LLM 호출 → 출력 후처리)  
   - 각 단계를 레고 블록처럼 조합할 수 있어 유연성이 높습니다.

2. **주요 구성 요소**  
   - **모델 I/O**: LLM과의 인터페이스 (OpenAI, Llama, Claude 등 지원).  
   - **프롬프트 관리**: 동적 프롬프트 생성, 템플릿, Few-shot 학습 지원.  
   - **메모리**: 채팅 기록이나 이전 컨텍스트를 저장해 일관성 유지.  
   - **체인과 에이전트**: 작업 자동화 (예: 웹 검색 후 요약 생성).  
   - **데이터 연결**: 데이터베이스, API, 벡터 스토어(FAISS, Pinecone 등)와 연동.  

3. **에이전트(Agent)**  
   - LLM이 스스로 도구를 선택해 작업을 수행하는 "자율적 에이전트"를 구현할 수 있습니다.  
     (예: "날씨 알려줘" → 날씨 API 호출 → 결과 반환)

4. **문서 처리**  
   - PDF, 웹 페이지 등 비정형 데이터를 청크로 분할해 벡터 DB에 저장하고, LLM이 검색/요약할 수 있게 합니다.

### **사용 사례 예시**
- **챗봇**: 이전 대화를 기억하며 응답하는 맞춤형 챗봇.  
- **콘텐츠 생성**: 블로그 글 초안 작성 → 이미지 생성 도구(GPT-4 + DALL·E) 연동.  


In [4]:
# using chat stream
for chunk in llm.stream("LangChain은 무엇인가요?"):
    print(chunk.content, end="")

**LangChain**은 대규모 언어 모델(LLM, Large Language Model)을 활용해 복잡한 애플리케이션을 구축할 수 있도록 돕는 **프레임워크**입니다. 주로 파이썬 기반으로 개발되었으며, LLM의 기능을 확장하거나 외부 도구/데이터와 연결해 실용적인 애플리케이션을 만들 때 유용합니다.

### 📌 **LangChain의 주요 개념**
1. **모듈식 설계**  
   - LLM을 "하나의 컴포넌트"로 취급하고, 프롬프트 관리, 메모리, 체인(Chain), 에이전트(Agent) 등 다양한 모듈과 조합해 유연하게 사용할 수 있습니다.

2. **주요 구성 요소**  
   - **Models**: OpenAI, Anthropic, 로컬 LLM(예: Llama) 등 다양한 언어 모델 지원.  
   - **Prompts**: 동적 프롬프트 템플릿 생성 (예: `PromptTemplate`, `FewShotPromptTemplate`).  
   - **Chains**: 여러 단계를 연결해 작업 흐름 구성 (예: 질문 → 검색 → 답변 생성).  
   - **Memory**: 채팅 기록이나 상태를 유지해 컨텍스트 제공 (예: 대화 에이전트).  
   - **Agents**: LLM이 스스로 도구를 선택해 작업 수행 (예: 계산기, 검색 엔진 활용).  
   - **Retrievers**: 외부 데이터베이스나 문서에서 관련 정보 검색 (예: FAISS, Pinecone).  
   - **Output Parsers**: LLM 출력을 구조화된 데이터로 변환 (예: JSON 파싱).

3. **사용 사례**  
   - **챗봇**: 메모리 기능으로 대화 컨텍스트 유지.  
   - **문서 Q&A**: 검색(retrieval) + 생성(generation) 조합.  
   - **자동화**: 에이전트가 API나 도구를 호출해 복잡한 작업 수행.  
   - **코드 생성**: LLM 출력을 파싱해 실행 가능한 코드 생성.

### 🛠 **예시 

In [5]:
from langchain_upstage import ChatUpstage
from langchain_core.prompts import ChatPromptTemplate

translation_prompt = ChatPromptTemplate.from_messages([
        ("system", "You are a professional translator specializing in Korean-English translation."),
        ("human", "Translate this from {source_lang} to {target_lang}: {text}")
    ])

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# 체인 실행
chain = translation_prompt | llm

response = chain.invoke({
    "source_lang": "English",
    "target_lang": "Korean", 
    "text": "LangChain is a powerful framework for building AI applications."
})

print("Upstage Response:")
print(response.content)
    

Upstage Response:
"LangChain은 AI 애플리케이션 구축을 위한 강력한 프레임워크입니다."  

(더 자연스러운 표현을 위해 "강력한"을 "강력한" 대신 "매우 효과적인" 또는 "고성능의"로 대체할 수도 있지만, 기술 문서에서는 "강력한"이 자주 사용되는 표현입니다.)  

예시 변형:  
- "LangChain은 AI 애플리케이션 개발에 매우 효과적인 프레임워크입니다."  
- "LangChain은 고성능 AI 애플리케이션 구축을 위한 프레임워크입니다."  

원문의 간결함과 기술적 뉘앙스를 고려해 기본 번역문을 권장합니다.


In [6]:
from langchain_core.prompts import ChatPromptTemplate

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# using chain
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful assistant that translates English to Korean."),
        ("human", "Translate this sentence from English to Korean. {english_text}."),
    ]
)

llm = ChatUpstage()
chain = prompt | llm

ai_message=chain.invoke({"english_text": "Hello, How are you?"})
print(ai_message.content)

이 문장을 한국어로 번역해줘. Hello, How are you?.


### Groundness Check
+ Groundedness Check API는 사용자가 제공한 Context(컨텍스트)에 대한 AI 어시스턴트의 응답이 실제로 그 컨텍스트에 기반하고 있는지 여부를 확인합니다.

In [7]:
from langchain_upstage import UpstageGroundednessCheck

groundedness_check = UpstageGroundednessCheck()

request_input = {
    "context": "삼성전자는 연결 기준으로 매출 74.07조원, 영업이익 10.44조원의 2024년 2분기 실적을 발표했다. 전사 매출은 전분기 대비 3% 증가한 74.07조원을 기록했다. DS부문은 메모리 업황 회복으로 전분기 대비 23% 증가하고, SDC는 OLED 판매 호조로 증가했다.",
    "answer": "삼성SDS의 2024년 2분기 매출은 약 74.07조원이다.",
}

response = groundedness_check.invoke(request_input)
print(response)  

notGrounded


### UpstageEmbeddings

In [8]:
from langchain_upstage import UpstageEmbeddings

embeddings = UpstageEmbeddings(model="solar-embedding-1-large")
doc_result = embeddings.embed_documents(
    ["Sung is a professor.", "This is another document"]
)
print(doc_result)

query_result = embeddings.embed_query("What does Sung do?")
print(query_result)

[[-0.003772654104977846, -0.02863232046365738, 0.0060903835110366344, 0.015804920345544815, -0.013601856306195259, -0.017444061115384102, 0.006549041718244553, -0.007970131002366543, 0.0010977728525176644, 0.011519095860421658, 0.01897793635725975, 0.021098291501402855, -0.0019568176940083504, 0.005342243704944849, 0.0038346857763826847, -0.001994412625208497, 0.006180611439049244, 0.0005700335605069995, 0.025384116917848587, -0.006338510196655989, -0.020872721448540688, 0.0016945927636697888, -0.0010582981631159782, 0.00929347425699234, -0.003864761907607317, 0.003225647611543536, 0.010646892711520195, 0.010353651829063892, 0.003780173137784004, 0.014646995812654495, 0.014804895035922527, -0.009421296417713165, 0.01765459217131138, 0.0029324067290872335, 0.004278306383639574, -0.0076468149200081825, 0.009541600942611694, 0.03467759117484093, -0.0021297545172274113, 0.009910031221807003, 0.021459203213453293, -0.005733231082558632, 0.0005549956113100052, 0.0011607443448156118, -0.00333

### UpstageDocumentParseLoader

In [9]:
from langchain_upstage import UpstageDocumentParseLoader

file_path = "../data/tutorial-korean.pdf"
layzer = UpstageDocumentParseLoader(file_path, split="page")

# For improved memory efficiency, consider using the lazy_load method to load documents page by page.
docs = layzer.load()  # or layzer.lazy_load()

for doc in docs[:3]:
    print(doc)

page_content='<figure id='0'><img alt="" data-coord="top-left:(557,309); bottom-right:(676,415)" /></figure> <br><h1 id='1' style='font-size:20px'>BlueJ 튜토리얼</h1> <br><h1 id='2' style='font-size:16px'>한국어 버전 2.0<br>BlueJ Version 2.0.x 用</h1> <h1 id='3' style='font-size:16px'>English Version 2.0.1</h1> <br><p id='4' data-category='paragraph' style='font-size:16px'>Michael Kölling<br>Mærsk Insitute<br>University of Southern Denmark</p> <h1 id='5' style='font-size:16px'>Korean Version 2.0</h1> <br><p id='6' data-category='paragraph' style='font-size:16px'>황석형 교수<br>Project Member<br>Ver. 1.0 : 강석진, 민상호, 오경묵, 유형순, 이승환.<br>Ver. 2.0 : 강원준<br>선문대학교 컴퓨터정보학부</p> <figure id='7'><img alt="" data-coord="top-left:(540,1327); bottom-right:(696,1472)" /></figure> <footer id='8' style='font-size:14px'>1</footer>' metadata={'page': 1, 'coordinates': [[{'x': 0.4498, 'y': 0.1766}, {'x': 0.5454, 'y': 0.1766}, {'x': 0.5454, 'y': 0.2365}, {'x': 0.4498, 'y': 0.2365}], [{'x': 0.3678, 'y': 0.2565}, {'x': 0.630