# 1. 패키지 설치

In [None]:
# poetry add pypdf=">=4.2.0,<5.0.0"
# poetry add langchain-upstage

# 2. 환경변수 불러오기

- `.env` 파일에 `UPSTAGE_API_KEY` 등록

In [1]:
from dotenv import load_dotenv
import os
# .env 파일을 불러와서 환경 변수로 설정
load_dotenv(dotenv_path='../.env')

UPSTAGE_API_KEY = os.getenv("UPSTAGE_API_KEY")
print(UPSTAGE_API_KEY[:4])

up_3


# 3. LLM 답변 생성

- Upstage Console에서 발급받은 API Key를 `UPSTAGE_API_KEY`라고 저장하면 별도의 설정 없이 `ChatUpstage`를 사용할 수 있음

In [2]:
from langchain_upstage import ChatUpstage

#llm = ChatUpstage(temperature=0.5)
llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )
print(llm)

client=<openai.resources.chat.completions.completions.Completions object at 0x0000023B7320A180> async_client=<openai.resources.chat.completions.completions.AsyncCompletions object at 0x0000023B7322A1B0> model_name='solar-pro' temperature=0.5 model_kwargs={} upstage_api_key=SecretStr('**********') upstage_api_base='https://api.upstage.ai/v1'


In [3]:
ai_message=llm.invoke("LangChain은 무엇인가요?")
print(type(ai_message))
print(ai_message.content)

<class 'langchain_core.messages.ai.AIMessage'>
**LangChain**은 대규모 언어 모델(LLM, Large Language Model)을 활용해 응용 프로그램을 구축하기 위한 **오픈소스 프레임워크**입니다. 복잡한 LLM 기반 애플리케이션을 더 쉽게 개발할 수 있도록 다양한 도구와 모듈을 제공합니다.

### 📌 **LangChain의 핵심 개념**
1. **모듈식 설계**  
   - LLM 호출, 프롬프트 관리, 메모리, 체인(작업 흐름), 데이터 소스 통합 등을 모듈화해 유연하게 조합할 수 있습니다.

2. **주요 구성 요소**  
   - **Models**: OpenAI, Anthropic, Hugging Face 등 다양한 LLM과 연결 가능.  
   - **Prompts**: 동적 프롬프트 템플릿(`PromptTemplate`) 및 몇 가지 샷 학습(Few-shot Learning) 지원.  
   - **Memory**: 채팅 기록이나 이전 상호작용을 저장해 컨텍스트 유지 (예: `ConversationChain`).  
   - **Chains**: 여러 단계를 조합해 복잡한 작업 처리 (예: 검색 → 요약 → 답변 생성).  
   - **Agents**: LLM이 자체적으로 도구(계산기, 검색 엔진 등)를 선택해 작업 수행.  
   - **Document Loaders & Retrievers**: PDF, 웹 페이지 등 외부 데이터를 로드하고 검색 가능.

3. **사용 사례**  
   - 챗봇, 문서 요약, 코드 생성, 데이터 분석, 개인화된 추천 시스템 등.

4. **지원 언어**  
   - 주로 Python으로 개발되었지만, JavaScript/TypeScript 버전도 있습니다.

### 💡 **간단한 예시 (Python)**
```python
from langchain.chains import LLMChain
from langchain.prompts import PromptTem

In [4]:
# using chat stream
for chunk in llm.stream("LangChain은 무엇인가요?"):
    print(chunk.content, end="")

**LangChain**은 대규모 언어 모델(LLM, Large Language Model)을 기반으로 한 애플리케이션 개발을 간소화하기 위한 **오픈소스 프레임워크**입니다. 2022년 Harrison Chase가 주도하여 개발되었으며, LLM의 능력을 활용해 복잡한 작업을 처리하는 모듈을 조합하는 데 중점을 둡니다.

### 📌 **LangChain의 핵심 개념**
1. **모듈식 설계**  
   - LLM을 "체인의 구성 요소"로 활용해 복잡한 작업을 분해합니다.  
   - 예: 검색 → 요약 → QA 답변 생성 같은 다단계 파이프라인 구축.

2. **주요 구성 요소**  
   - **Models**: OpenAI, Anthropic, HuggingFace 등 다양한 LLM 지원.  
   - **Prompts**: 동적 프롬프트 템플릿 및 출력 파서 제공.  
   - **Memory**: 채팅 기록이나 상태 유지 기능 (예: ConversationBufferMemory).  
   - **Chains**: 모듈 조합 (예: `LLMChain`, `SequentialChain`).  
   - **Agents**: LLM이 자체적으로 도구(검색, 계산기 등)를 선택해 작업 수행.  
   - **Document Loaders & Retrievers**: PDF, 웹 데이터 등 외부 지식 통합.  
   - **Callbacks**: 스트리밍 출력 또는 로깅 지원.

3. **사용 사례**  
   - 챗봇, 문서 분석, 코드 생성, 개인화된 추천 시스템 등.  
   - 예: 사용자 질문 → 관련 문서 검색 → LLM이 답변 생성.

### 🛠️ **장점**
- **유연성**: 다양한 LLM 및 도구와 호환.  
- **확장성**: 커스텀 체인/에이전트 쉽게 구현 가능.  
- **생산성**: 반복적인 코드 작성을 줄여 빠른 프로토타이핑 지원.

### 📦 **예시 코드 (간단한 체인)**
```python
from langchain.chains

In [5]:
from langchain_upstage import ChatUpstage
from langchain_core.prompts import ChatPromptTemplate

translation_prompt = ChatPromptTemplate.from_messages([
        ("system", "You are a professional translator specializing in Korean-English translation."),
        ("human", "Translate this from {source_lang} to {target_lang}: {text}")
    ])

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# 체인 실행
chain = translation_prompt | llm

response = chain.invoke({
    "source_lang": "English",
    "target_lang": "Korean", 
    "text": "LangChain is a powerful framework for building AI applications."
})

print("Upstage Response:")
print(response.content)


Upstage Response:
"LangChain은 AI 애플리케이션 개발을 위한 강력한 프레임워크입니다."  

### 추가 설명 (필요시 참고):
- "LangChain"은 기술 용어로 그대로 음차 처리했습니다.  
- "강력한 프레임워크"는 "powerful framework"의 자연스러운 번역입니다.  
- "AI 애플리케이션"은 한국어에서도 통용되는 표현이지만, 필요에 따라 "인공지능 애플리케이션"으로도 번역 가능합니다.  

예: *"LangChain은 인공지능 애플리케이션 구축을 위한 강력한 프레임워크입니다."*  

문맥에 따라 선택하시면 됩니다.


In [6]:
from langchain_core.prompts import ChatPromptTemplate

llm = ChatUpstage(
        model="solar-pro",
        base_url="https://api.upstage.ai/v1",
        temperature=0.5
    )

# using chain
prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are a helpful assistant that translates English to Korean."),
        ("human", "Translate this sentence from English to Korean. {english_text}."),
    ]
)

llm = ChatUpstage()
chain = prompt | llm

ai_message=chain.invoke({"english_text": "Hello, How are you?"})
print(ai_message.content)

이 문장을 한국어로 번역해줘. Hello, How are you?.


#### Groundness Check
* Groundness Check API는 사용자가 제공한 Context(컨텍스트)에 대한 AI 어시스턴트의 응답이 실제로 그 컨텍스트에 기반하고 있는지 여부를 확인합니다.

In [8]:
from langchain_upstage import UpstageGroundednessCheck

groundedness_check = UpstageGroundednessCheck()

request_input = {
    "context": "삼성전자는 연결 기준으로 매출 74.07조원, 영업이익 10.44조원의 2024년 2분기 실적을 발표했다. 전사 매출은 전분기 대비 3% 증가한 74.07조원을 기록했다. DS부문은 메모리 업황 회복으로 전분기 대비 23% 증가하고, SDC는 OLED 판매 호조로 증가했다.",
    "answer": "삼성전자의 2024년 2분기 매출은 약 74.07조원이다.",
}

response = groundedness_check.invoke(request_input)
print(response)

grounded


#### UpstageEmbeddings

In [9]:
from langchain_upstage import UpstageEmbeddings

embeddings = UpstageEmbeddings(model="solar-embedding-1-large")
doc_result = embeddings.embed_documents(
    ["Sung is a professor.", "This is another document"]
)
print(doc_result)

query_result = embeddings.embed_query("What does Sung do?")
print(query_result)

[[-0.003814697265625, -0.028656005859375, 0.0061187744140625, 0.0158233642578125, -0.01361083984375, -0.01751708984375, 0.006534576416015625, -0.00797271728515625, 0.0011148452758789062, 0.01152801513671875, 0.0189971923828125, 0.021026611328125, -0.001941680908203125, 0.005397796630859375, 0.003856658935546875, -0.00197601318359375, 0.00621795654296875, 0.0005564689636230469, 0.0253448486328125, -0.006343841552734375, -0.0209197998046875, 0.0016603469848632812, -0.0010423660278320312, 0.009307861328125, -0.003879547119140625, 0.003246307373046875, 0.01067352294921875, 0.01032257080078125, 0.0037841796875, 0.01464080810546875, 0.01480865478515625, -0.00943756103515625, 0.017669677734375, 0.0029048919677734375, 0.004306793212890625, -0.007678985595703125, 0.00954437255859375, 0.034698486328125, -0.00206756591796875, 0.00994873046875, 0.0214691162109375, -0.0057373046875, 0.0005602836608886719, 0.0011844635009765625, -0.0033283233642578125, -0.0008630752563476562, -0.0024547576904296875,

#### UpstageDocumentParseLoader

In [11]:
from langchain_upstage import UpstageDocumentParseLoader

file_path = "../data/tutorial-korean.pdf"
layzer = UpstageDocumentParseLoader(file_path, split="page")

# For improved memory efficiency, consider using the lazy_load method to load documents page by page.
docs = layzer.load()  # or layzer.lazy_load()
print(len(docs))

for doc in docs[:3]:
    print(type(doc))
    print(doc)

39
<class 'langchain_core.documents.base.Document'>
page_content='<figure id='0'><img alt="" data-coord="top-left:(557,309); bottom-right:(676,415)" /></figure> <br><h1 id='1' style='font-size:20px'>BlueJ 튜토리얼</h1> <br><h1 id='2' style='font-size:16px'>한국어 버전 2.0<br>BlueJ Version 2.0.x 用</h1> <h1 id='3' style='font-size:16px'>English Version 2.0.1</h1> <br><p id='4' data-category='paragraph' style='font-size:16px'>Michael Kölling<br>Mærsk Insitute<br>University of Southern Denmark</p> <h1 id='5' style='font-size:16px'>Korean Version 2.0</h1> <br><p id='6' data-category='paragraph' style='font-size:16px'>황석형 교수<br>Project Member<br>Ver. 1.0 : 강석진, 민상호, 오경묵, 유형순, 이승환.<br>Ver. 2.0 : 강원준<br>선문대학교 컴퓨터정보학부</p> <figure id='7'><img alt="" data-coord="top-left:(540,1327); bottom-right:(696,1472)" /></figure> <footer id='8' style='font-size:14px'>1</footer>' metadata={'page': 1, 'coordinates': [[{'x': 0.4498, 'y': 0.1766}, {'x': 0.5454, 'y': 0.1766}, {'x': 0.5454, 'y': 0.2365}, {'x': 0.4498, 'y'