# Langchain
- 대규모 언어 모델(LLM) 기반 애플리케이션 개발을 위한 프레임워크
- 모델을 API를 통해 호출하는 것 뿐만 아니라 외부 데이터를 인식하거나, 타 시스템과 상호작용하는 애플리케이션 개발이 가능
1. 실시간 데이터 보강 (Real-time data augmentation)
  - LLM을 다양한 데이터 소스나 내·외부 시스템에 손쉽게 연결
  - 모델 제공업체, 각종 도구, 벡터 스토어, 리트리버(검색 도구) 등의 방대한 통합 라이브러리
2. 모델 상호 운용성 (Model interoperability)
  - 간단하게 모델 교체 가능



랭체인(LangChain) 프레임워크는 LLM 애플리케이션 개발에 도움이 되는 여러 구성 요소로 이루어져 있습니다.  
특히 개발자들이 다양한 LLM 작업을 신속하게 구축하고 배포할 수 있도록 설계되었습니다.  
랭체인의 주요 구성 요소는 다음과 같습니다.

1. 랭체인 라이브러리(LangChain Libraries)
  - 파이썬과 자바스크립트 라이브러리를 포함하며, 다양한 컴포넌트의 인터페이스와 통합, 이 컴포넌트들을 체인과 에이전트로 결합할 수 있는 기본 런타임, 그리고 체인과 에이전트의 사용 가능한 구현이 가능합니다.

2. 랭체인 템플릿(LangChain Templates)
  - 다양한 작업을 위한 쉽게 배포할 수 있는 참조 아키텍처 모음입니다. 이 템플릿은 개발자들이 특정 작업에 맞춰 빠르게 애플리케이션을 구축할 수 있도록 돕습니다.

3. 랭서브(LangServe)
 - 랭체인 체인을 REST API로 배포할 수 있게 하는 라이브러리입니다. 이를 통해 개발자들은 자신의 애플리케이션을 외부 시스템과 쉽게 통합할 수 있습니다.

4. 랭스미스(LangSmith)
  - 개발자 플랫폼으로, LLM 프레임워크에서 구축된 체인을 디버깅, 테스트, 평가, 모니터링할 수 있으며, 랭체인과의 원활한 통합을 지원합니다.

## 1. 필수 라이브러리 설치
LangChain을 설치하면 langchain-core, langchain-community, langsmith 등이 함께 설치되어 프로젝트 수행에 필수적인 라이브러리들은 한번에 설치됩니다.  
다만, 최소한의 기본적인 요구 사항만 충족되는 것이고, 다양한 외부 모델 제공자와 데이터 저장소 등과의 통합을 위해서는 개별적으로 의존성 설치가 필요합니다.  
예를 들면, OpenAI에서 제공하는 LLM을 사용하려면 langchain-openai 의존성 라이브러리를 설치해야 합니다.  
실습에서 OpenAI LLM을 사용할 것이기 때문에 `langchain-openai`와 `tiktoken` 설치가 필요합니다.   
본 실습 환경에는 미리 설치가 되어 있으니 import 하여 사용하시면 됩니다.     

In [None]:
import os
from dotenv import load_dotenv

# .env 파일 로드, 환경 변수에서 API 키 읽기
load_dotenv()
os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")

API 키가 설정되었습니다.


## 2. 기본 LLM 체인 (Prompt+LLM)
우리가 ChatGPT 같은 LLM에게 프롬프트를 넣고 답을 얻는 것처럼 프롬프트를 LLM 모델에게 전달하고 답변을 반환받는 과정을 langchain으로 구현해봅시다.  
`invoke()`는 입력에 대해 체인을 호출하는 함수입니다.  

In [4]:
from langchain_openai import ChatOpenAI

# model
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# chain 실행
llm.invoke("strawberry 에 r이 몇 개 들어있어?")

AIMessage(content='"strawberry"에는 \'r\'이 2개 들어 있습니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 16, 'prompt_tokens': 19, 'total_tokens': 35, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_560af6e559', 'id': 'chatcmpl-C8zKV7uZopfax2LujE6PrLKQ79VfK', 'finish_reason': 'stop', 'logprobs': None}, id='run-f0e25d5e-9d23-4f0a-9ec9-7238e6d21df8-0', usage_metadata={'input_tokens': 19, 'output_tokens': 16, 'total_tokens': 35, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

In [5]:
llm.invoke("9.11과 9.9 중에 어떤 숫자가 더 커?")

AIMessage(content='9.11이 9.9보다 더 큽니다. 소수점 아래 숫자를 비교할 때, 9.11의 소수점 아래 첫 번째 자리인 1이 9.9의 소수점 아래 첫 번째 자리인 9보다 작기 때문에 9.11이 더 큰 숫자입니다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 70, 'prompt_tokens': 23, 'total_tokens': 93, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_560af6e559', 'id': 'chatcmpl-C8zKYOHZPYjndNZZTy9FLAT06JDOi', 'finish_reason': 'stop', 'logprobs': None}, id='run-d1a137a9-8f9e-4c02-a6cb-610d6dad1aa9-0', usage_metadata={'input_tokens': 23, 'output_tokens': 70, 'total_tokens': 93, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'reasoning': 0}})

### 프롬프트 템플릿 적용
1일차에서 실습했던 여러가지 프롬프트 엔지니어링 기법을 이용하여 템플릿을 작성해봅시다.  
이렇게 템플릿을 사용한 답변과 사용하지 않은 답변을 비교해봅시다.    
`ChatPromptTemplate.from_template()` 메소드는 문자열 형태의 템플릿을 인자로 받아, 해당 형식에 맞는 프롬프트 객체를 생성합니다.  
예제에서는 'Self Consistency' 기법을 사용하므로 템플릿 문자열은 다음과 같이 입력합니다.  
`"Show the solution step by step and clearly present the final answer. <Question>: {input}"`  
`<Question>: {input}` 부분에서 실제 질문을 받아 답변하도록 요청합니다.  


In [6]:
from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_template("Show the solution step by step and clearly present the final answer. <Question>: {input}")
prompt

ChatPromptTemplate(input_variables=['input'], input_types={}, partial_variables={}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['input'], input_types={}, partial_variables={}, template='Show the solution step by step and clearly present the final answer. <Question>: {input}'), additional_kwargs={})])

### Prompt + LLM : Chain 연결 (LCEL)
위에서 우리가 만든 `prompt` 객체의 `<Question>: {input}` 부분의 `{input}`에 처음에 했던 질문이 들어가야 프롬프트가 완성됩니다.  
이렇게 chain을 구성 하는 방법 중 하나로 `LCEL`이 있습니다.  
`LCEL`은 langCHain Expression Language의 약자입니다.  
LCEL은 LangChain의 모든 컴포넌트(Model, Prompt, Parser, Retriever 등)를 Runnable 이라는 표준 인터페이스로 취급합니다.  
Runnable을 파이프(|) 연산자를 통해 연결할 수 있습니다.  
마치 리눅스의 파이프라인과 같습니다.  
이렇게 연결되어 완성된 프롬프트는 LLM에 전달되어, 모델이 입력된 질문에 대한 답변을 생성하게 됩니다.  

In [7]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o-mini")

# chain 연결 (LCEL)
chain = prompt | llm

# chain 호출
chain.invoke({"input": "strawberry 에 r이 몇 개 들어있어?"})

AIMessage(content='단어 "strawberry"에는 모음과 자음이 포함되어 있습니다. 여기에 있는 모든 "r"의 개수를 세어보겠습니다.\n\n1. **단어 확인**: strawberry\n2. **r 찾기**: \n   - 첫 번째 "r": strawberry\n   - 두 번째 "r": strawb**r**y\n\n"strawberry"에는 2개의 "r"이 포함되어 있습니다.\n\n**최종 답변**: strawberry에는 r이 2개 들어있다.', additional_kwargs={'refusal': None}, response_metadata={'token_usage': {'completion_tokens': 110, 'prompt_tokens': 33, 'total_tokens': 143, 'completion_tokens_details': {'accepted_prediction_tokens': 0, 'audio_tokens': 0, 'reasoning_tokens': 0, 'rejected_prediction_tokens': 0}, 'prompt_tokens_details': {'audio_tokens': 0, 'cached_tokens': 0}}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_560af6e559', 'id': 'chatcmpl-C8zKfGEQ77u4v0SBkaM3XwYQPttgl', 'finish_reason': 'stop', 'logprobs': None}, id='run-fe73b445-bbef-43a3-9084-c87c4a97af27-0', usage_metadata={'input_tokens': 33, 'output_tokens': 110, 'total_tokens': 143, 'input_token_details': {'audio': 0, 'cache_read': 0}, 'output_token_details': {'audio': 0, 'r

### StrOutputParser
현재 `llm.invoke()`의 결과가 AIMessage 객체이기 때문에 메타데이터까지 섞이면서 가독성이 좋지 않아 답변 비교가 어렵습니다.  
LangChain이 제공하는 Output Parser 중 `SreOutputParser`는 AIMessage를 순수 문자열로 자동 변환해 줍니다.  
모델과 파서를 파이프(|)로 연결하면, 답변이 문자열로 반환됩니다.  

In [8]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# prompt + model + output parser
prompt = ChatPromptTemplate.from_template("Show the solution step by step and clearly present the final answer. <Question>: {input}")
llm   = ChatOpenAI(model="gpt-4o-mini")
output_parser = StrOutputParser()

# LCEL chaining
chain = prompt | llm | output_parser            # 프롬프트 ↦ 모델 ↦ 파서 체인

# chain 호출
chain.invoke({"input": "strawberry 에 r이 몇 개 들어있어?"})


'"strawberry"라는 단어에 포함된 \'r\'의 개수를 세어보겠습니다.\n\n1. **단어 확인**: 단어는 "strawberry"입니다.\n2. **각 글자 확인**: \n   - s\n   - t\n   - r (1개)\n   - a\n   - w\n   - b\n   - e\n   - r (2개)\n   - r (3개)\n   - y\n\n3. **r의 개수 세기**: \'r\'이 나타나는 개수를 세겠습니다.\n   - 첫 번째 \'r\' \n   - 두 번째 \'r\' \n   - 세 번째 \'r\' \n\n결과적으로, "strawberry"에는 \'r\'이 **3개** 포함되어 있습니다.\n\n최종 답변: strawberry에는 r이 **3개** 들어있습니다.'

답변을 보면 AIMessage(content='') 형식에서 문자열만 남은 걸 볼 수 있습니다.  
GPT 계열 모델은 웹 인터페이스에서 바로 보이도록 Markdown으로 응답하도록 학습이 되어 있으므로 Text Cell에 복사 붙여넣기하여 답변을 확인해보면 결과가 잘 나온 것을 확인할 수 있습니다.

"Strawberry"라는 단어에 포함된 "r"의 개수를 세어 보겠습니다.\n\n1. "strawberry"라는 단어를 적어봅니다:\n   - "strawberry"\n\n2. 단어를 한 글자씩 나누어서 "r"이 몇 번 나타나는지 셉니다:\n   - s - t - r - a - w - b - e - r - r - y\n\n3. 위의 글자들 중에서 "r"을 찾아봅니다:\n   - 첫 번째 "r" (3번째 글자)\n   - 두 번째 "r" (8번째 글자)\n   - 세 번째 "r" (9번째 글자)\n\n4. 총 세 개의 "r"이 존재하는 것을 확인했습니다.\n\n결론적으로, "strawberry"라는 단어에는 "r"이 **3개** 들어있습니다.

## 실습
`OutputParser`에는 `StrOputputParser`외에도 출력을 JSON 형식으로 파싱하는 `JsonOutputParser`, 출력을 Pydantic 모델로 변환하는 `PydanticOutputParser`, 쉼표로 구분된 리스트로 파싱하는 `CommaSeparatedListOutputParser`도 있습니다.  
Input과 Prompt Template, OutputParser를 바꿔가며 답변을 직접 확인해봅시다.

In [9]:
# your code
from langchain_core.output_parsers import JsonOutputParser, PydanticOutputParser

json_prompt = ChatPromptTemplate.from_template("""
문장에서 '인물', '장소', '시간' 정보를 추출하여 JSON으로 출력해줘.
'인물' 이름에서 호칭은 떼고 순 이름만 저장해.
문장: {sentance}
JSON 출력:
""")
json_chain = json_prompt | llm | JsonOutputParser()
json_out = json_chain.invoke({"sentance": "내일 오후 3시에 서울역에서 김갑수씨를 만나기로 했어요."})
print(json_out)

{'인물': '김갑수', '장소': '서울역', '시간': '내일 오후 3시'}


In [10]:
from typing import List, Optional
from pydantic import BaseModel, Field
from langchain_core.output_parsers import PydanticOutputParser

# Parser class
class EmailParser(BaseModel):
    location: Optional[str] = Field(description="회의가 열리는 장소")
    time: Optional[str] = Field(description="회의 시작 시간")
    attendee: List[str] = Field(description="회의 참석자들의 이름 목록", default=[])
        
# 인스턴스
pydantic_parser = PydanticOutputParser(pydantic_object=EmailParser)

# Prompt Template
prompt = ChatPromptTemplate.from_template("""
주어진 이메일을 읽고 회의 정보를 추출해
email: {email_body}
{format_instructions}
""")
chain = prompt | llm | pydantic_parser
sample_email = """
하이, 담당자님
다음주 프로젝트 회의 일정을 공유합니다.
- 일시 : 25년 8월27일 오후 3ㅣ
- 장소 : 서울시 강남구 개포3동 SH 2층 대강당
- 참석자: 김상성, 이전자, 윤수일
감사합니다.
"""

pyd_out = chain.invoke({"email_body": sample_email,                        
                       "format_instructions": pydantic_parser.get_format_instructions()})
print(pyd_out)

location='서울시 강남구 개포3동 SH 2층 대강당' time='25년 8월27일 오후 3ㅣ' attendee=['김상성', '이전자', '윤수일']


## 3. Runnable 프로토콜
LangChain의 `Runnable` 프로토콜은 사용자가 사용자 정의 체인을 쉽게 생성하고 관리할 수 있도록 설계된 핵심적인 개념입니다.  
이 프로토콜을 통해, 일관된 인터페이스를 사용하여 다양한 타입의 컴포넌트를 조합하고, 복잡한 데이터 처리 파이프라인을 구성할 수 있습니다.  
  
`Runnable` 프로토콜 주요 메서드는 다음과 같습니다.  
- `invoke`
  - 주어진 입력에 대해 체인을 호출하고, 결과를 반환
  - 단일 입력에 대해 동기적으로 작동

- `batch`
  - 입력 리스트에 대해 체인을 호출하고, 각 입력에 대한 결과를 리스트로 반환
  - 여러 입력에 대해 동기적으로 작동하며, 효율적인 배치 처리를 가능하게 함

- `stream`
  - 입력에 대해 체인을 호출하고, 결과를 스트리밍    
  - 대용량 데이터 처리나 실시간 데이터 처리에 유용  

- 비동기
  - 각 메서드의 앞에 'a'을 붙이면 비동기 메서드
  - `ainvoke`, `abatch`, `astream`
  
LangChain의 `Runnable` 프로토콜을 사용하면, 보다 유연하고 확장 가능한 방식으로 데이터 처리 작업을 설계하고 구현할 수 있으며, 복잡한 언어 처리 작업을 보다 쉽게 관리할 수 있습니다.  

### invoke()

In [11]:
from langchain.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain.schema.output_parser import StrOutputParser

# 1. 컴포넌트 정의
prompt = ChatPromptTemplate.from_template("지구과학에서 {topic}에 대해 간단히 설명해주세요.")
model = ChatOpenAI(model="gpt-4o-mini")
output_parser = StrOutputParser()

# 2. 체인 생성
chain = prompt | model | output_parser

# 3. invoke 메소드 사용
result = chain.invoke({"topic": "지구 자전"})
print("invoke 결과:", result)

invoke 결과: 지구 자전은 지구가 자전 축을 중심으로 하루에 한 바퀴 도는 운동을 말합니다. 이 자전은 서쪽에서 동쪽으로 진행되며, 지구의 자전 주기는 약 24시간입니다. 이 자전 운동으로 인해 낮과 밤이 발생하게 되며, 지구의 자전 속도는 적도에서 약 시속 1,670킬로미터에 달합니다.

지구 자전은 여러 가지 중요한 현상에 영향을 미칩니다. 예를 들어, 코리올리 효과는 지구 자전에 의해 발생하며, 이는 대기와 해양의 흐름에 영향을 미치는 중요한 요소입니다. 또한, 자전 운동은 주기적인 계절 변화와 같은 자연 현상에도 영향을 미칩니다. 지구의 자전은 또한 지구의 형태에 영향을 미쳐, 적도 부근이 부풀어 오르고 극지방이 수축하는 현상을 만들어 냅니다.


### batch()

In [12]:
# batch 메소드 사용
topics = ["지구 공전", "화산 활동", "대륙 이동"]
results = chain.batch([{"topic": t} for t in topics])
for topic, result in zip(topics, results):
    print(f"{topic} 설명: {result[:50]}...")  # 결과의 처음 50자만 출력

지구 공전 설명: 지구 공전은 지구가 태양 주위를 한 바퀴 도는 운동을 말합니다. 지구는 약 365.25일을...
화산 활동 설명: 화산 활동은 지구 내부의 마그마가 지표로 발산하는 현상을 말합니다. 화산은 마그마가 지구 ...
대륙 이동 설명: 대륙 이동이론은 지구의 표면이 여러 개의 큰 판으로 나누어져 있으며, 이들이 서서히 이동한...


### stream()
주피터 노트북이나 코랩에서는 이미 내부적으로 이벤트 루프(asyncio)가 돌고 있습니다.  
따라서 현재 돌아가는 이벤트 루프 위에 중첩 실행이 가능하도록 `nest_asyncio.apply()`로 패치하여 `asyncio.run()`이 문제없이 실행되도록 합니다.  

In [13]:
import nest_asyncio
import asyncio

# nest_asyncio 적용 (구글 코랩 등 주피터 노트북에서 실행 필요)
nest_asyncio.apply()

# 비동기 메소드 사용 (async/await 구문 필요)
async def run_async():
    result = await chain.ainvoke({"topic": "해류"})
    print("ainvoke 결과:", result[:50], "...")

asyncio.run(run_async())

ainvoke 결과: 해류는 바다에서 물이 일정한 방향으로 흐르는 현상을 말합니다. 이러한 해류는 여러 가지 요 ...


## Ollama

Ollama는 로컬 환경에서 대규모 언어 모델을 쉽게 실행할 수 있는 오픈소스 도구입니다. 
LangChain과 연동하여 로컬 LLM을 사용할 수 있으며, API 키 없이도 모델을 실행할 수 있습니다.

### 주요 특징:
- 로컬 실행으로 데이터 프라이버시 보장
- 다양한 오픈소스 모델 지원
- 간편한 설치와 사용
- REST API 제공

In [14]:
%%bash --bg
ollama serve

In [None]:
# 모델 다운로드
!ollama pull gemma:2b

[?2026h[?25l[1Gpulling manifest ⠙ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠹ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠹ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠸ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠴ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠴ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠦ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠧ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠏ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠋ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠋ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠙ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠸ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠸ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠼ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠦ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠧ [K[?25h[?2026l[?2026h[?25l[1Gpulling manifest ⠧ [K[?25h[?2026l[?2026h[?25l[1Gpulling ma

pulling c1864a5eb193:  49% ▕████████          ▏ 825 MB/1.7 GB  166 MB/s      5s[K[?25h[?2026l[?2026h[?25l[A[1Gpulling manifest [K
pulling c1864a5eb193:  49% ▕████████          ▏ 826 MB/1.7 GB  166 MB/s      5s[K[?25h[?2026l

In [None]:
from langchain_community.chat_models import ChatOllama

# model
llm = ChatOllama(model="gemma:2b")

# chain 실행
llm.invoke("지구의 자전 주기는?")


## 배치 및 병렬화를 통한 성능 최적화

### 배치 처리

배치 처리는 여러 요청을 하나의 API 호출로 묶어서 처리하는 방법입니다.

#### 배치 처리의 특징:
- **하나의 API 호출**로 여러 요청을 묶어서 처리
- **순차적으로 내부 처리**하지만 외부에서는 하나의 요청
- **메모리 효율적**: 한 번에 처리하므로 오버헤드 적음
- **단순함**: 코드가 간단하고 이해하기 쉬움

#### 동작 방식:
사용자 → [요청1, 요청2, 요청3] → 모델 → [응답1, 응답2, 응답3] → 사용자

In [None]:
# Ollama 배치 처리 기본 실습
from langchain_community.chat_models import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

# 모델 및 체인 설정
llm = ChatOllama(model="gemma:2b")
prompt = ChatPromptTemplate.from_template("지구과학에서 {topic}에 대해 간단히 설명해주세요.")
output_parser = StrOutputParser()

chain = prompt | llm | output_parser

# 배치 처리 실행
topics = ["지구 자전", "화산 활동", "대륙 이동", "해류", "지진"]

print("=== 배치 처리 실습 ===")
results = chain.batch([{"topic": topic} for topic in topics])

for i, (topic, result) in enumerate(zip(topics, results), 1):
    print(f"{i}. 주제: {topic}")
    print(f"   답변: {result[:100]}...")
    print()

### 병렬 처리 (ThreadPoolExecutor)

병렬 처리는 여러 스레드를 사용하여 요청을 동시에 처리하는 방법입니다.

#### 병렬 처리의 특징:
- **여러 스레드**가 동시에 각각의 요청을 처리
- **실제 동시 실행**: CPU 코어를 여러 개 사용
- **네트워크 병렬화**: 여러 API 호출이 동시에 발생
- **I/O 대기 시간 최소화**: 한 요청이 대기하는 동안 다른 요청 처리

#### 동작 방식:
- 스레드1: 요청1 → 모델 → 응답1
- 스레드2: 요청2 → 모델 → 응답2  (동시 실행)
- 스레드3: 요청3 → 모델 → 응답3

#### 성능:
- 네트워크 지연이 큰 경우: 가장 빠름 (실제 동시 실행)    
- CPU 집약적인 경우: 가장 빠름 (실제 멀티코어 활용)


In [None]:
import time
from concurrent.futures import ThreadPoolExecutor

# 단일 요청 처리 함수
def single_request(prompt):
    """단일 요청 처리"""
    return llm.invoke(prompt)

def parallel_processing(prompts, max_workers=4):
    """ThreadPoolExecutor를 사용한 병렬 처리"""
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        start_time = time.time()
        futures = [executor.submit(single_request, prompt) for prompt in prompts]
        results = [future.result() for future in futures]
        end_time = time.time()
    return results, end_time - start_time

# 병렬 처리 실행
prompts = [
    "지구의 자전 주기는?",
    "화산 활동의 원인은?",
    "대륙 이동 이론이란?",
    "해류의 역할은?",
    "지진의 발생 원인은?"
]

print("=== 병렬 처리 실습 (ThreadPoolExecutor) ===")
parallel_results, parallel_time = parallel_processing(prompts, max_workers=4)

for i, (prompt, result) in enumerate(zip(prompts, parallel_results), 1):
    print(f"{i}. 질문: {prompt}")
    print(f"   답변: {result.content[:100]}...")  # .content 추가
    print()

print(f"병렬 처리 시간: {parallel_time:.2f}초")

### 비동기 병렬 처리 (asyncio)

비동기 병렬 처리는 단일 스레드에서 이벤트 루프를 사용하여 논리적으로 동시에 처리하는 방법입니다.

#### 비동기 병렬 처리의 특징:
- **단일 스레드**에서 **이벤트 루프**를 사용한 비동기 처리
- **논리적 동시성**: 실제로는 번갈아가며 실행하지만 동시에 실행되는 것처럼 보임
- **메모리 효율적**: 스레드 생성 오버헤드 없음
- **I/O 바운드 작업에 최적**: 네트워크 대기 시간을 효율적으로 활용

#### 동작 방식:
이벤트 루프: 요청1 → 대기 → 요청2 → 대기 → 요청3 → 대기
                    ↓ 응답1    ↓ 응답2    ↓ 응답3

#### 성능:
- 네트워크 지연이 큰 경우: 빠름 (논리적 동시 실행)
- CPU 집약적인 경우: 느림 (단일 스레드 제약)
- 메모리 사용량: 효율적 (스레드 오버헤드 없음)



In [None]:
import asyncio
import time

async def async_single_request(prompt):
    """비동기 단일 요청"""
    return await llm.ainvoke(prompt)

async def async_parallel_processing(prompts):
    """asyncio를 사용한 비동기 병렬 처리"""
    start_time = time.time()
    tasks = [async_single_request(prompt) for prompt in prompts]
    results = await asyncio.gather(*tasks)
    end_time = time.time()
    return results, end_time - start_time

# 비동기 병렬 처리 실행
async def run_async_parallel():
    prompts = [
        "지구의 자전 주기는?",
        "화산 활동의 원인은?",
        "대륙 이동 이론이란?",
        "해류의 역할은?",
        "지진의 발생 원인은?"
    ]
    
    print("=== 비동기 병렬 처리 실습 (asyncio) ===")
    parallel_results, parallel_time = await async_parallel_processing(prompts)
    
    for i, (prompt, result) in enumerate(zip(prompts, parallel_results), 1):
        print(f"{i}. 질문: {prompt}")
        print(f"   답변: {result.content[:100]}...")  # .content 추가
        print()
    
    print(f"비동기 병렬 처리 시간: {parallel_time:.2f}초")

# 실행
asyncio.run(run_async_parallel())

### 성능 비교 실습

네 가지 처리 방법의 성능을 비교하여 각각의 장단점을 확인해보겠습니다.

#### 비교 대상:
1. **순차 처리**: 요청을 하나씩 순서대로 처리
2. **배치 처리**: 여러 요청을 하나의 API 호출로 묶어서 처리
3. **병렬 처리**: ThreadPoolExecutor를 사용한 멀티스레드 처리
4. **비동기 병렬 처리**: asyncio를 사용한 비동기 처리

#### 성능 비교 기준:
- **처리 시간**: 전체 요청 처리에 걸리는 시간
- **성능 향상**: 순차 처리 대비 개선 정도
- **메모리 사용량**: 처리 과정에서 사용되는 메모리

#### 선택 가이드:
- **간단한 처리**: 배치 처리
- **네트워크 지연이 큰 경우**: 병렬 처리
- **메모리가 제한적인 경우**: 비동기 병렬 처리
- **최대 성능이 필요한 경우**: 병렬 처리

In [None]:
async def compare_all_methods():
    prompts = [
        "지구의 자전 주기는?",
        "화산 활동의 원인은?",
        "대륙 이동 이론이란?",
        "해류의 역할은?",
        "지진의 발생 원인은?"
    ]
    
    print("=== 성능 비교 실습 ===")
    
    # 1. 순차 처리
    start_time = time.time()
    sequential_results = [single_request(prompt) for prompt in prompts]
    sequential_time = time.time() - start_time
    
    # 2. 배치 처리
    start_time = time.time()
    batch_results = llm.batch(prompts)
    batch_time = time.time() - start_time
    
    # 3. 병렬 처리
    parallel_results, parallel_time = parallel_processing(prompts, max_workers=4)
    
    # 4. 비동기 병렬 처리
    async_start_time = time.time()
    async_parallel_results, async_parallel_time = await async_parallel_processing(prompts)
    
    print(f"순차 처리: {sequential_time:.2f}초")
    print(f"배치 처리: {batch_time:.2f}초")
    print(f"병렬 처리: {parallel_time:.2f}초")
    print(f"비동기 병렬 처리: {async_parallel_time:.2f}초")
    
    print(f"\n=== 성능 향상 ===")
    print(f"배치 vs 순차: {sequential_time/batch_time:.1f}배 향상")
    print(f"병렬 vs 순차: {sequential_time/parallel_time:.1f}배 향상")
    print(f"비동기 병렬 vs 순차: {sequential_time/async_parallel_time:.1f}배 향상")
    
    # 최적 방법 찾기
    methods = [
        ("순차", sequential_time),
        ("배치", batch_time),
        ("병렬", parallel_time),
        ("비동기 병렬", async_parallel_time)
    ]
    best_method = min(methods, key=lambda x: x[1])
    print(f"\n최적 방법: {best_method[0]} 처리")

# 실행
asyncio.run(compare_all_methods())

### 배치 크기 최적화

In [None]:
# 배치 크기 최적화 실습
batch_sizes = [1, 3, 5, 10]
performance_results = []

for batch_size in batch_sizes:
    start_time = time.time()
    test_topics = [f"주제{i}" for i in range(batch_size)]
    results = chain.batch([{"topic": topic} for topic in test_topics])
    end_time = time.time()
    
    avg_time_per_item = (end_time - start_time) / batch_size
    performance_results.append((batch_size, avg_time_per_item))
    print(f"배치 크기 {batch_size}: 평균 {avg_time_per_item:.2f}초/항목")

# 최적 배치 크기 찾기
optimal_batch_size = min(performance_results, key=lambda x: x[1])
print(f"\n최적 배치 크기: {optimal_batch_size[0]}")

### 실습
OpenAI API를 이용해서 langchain의 기본적인 사용법을 익히고,  
Ollama를 이용하여 로컬 LLM을 사용하는 방법까지 익혔습니다.  
지금까지 배운 내용을 바탕으로 Ollama 에서 지원하는 다른 모델을 다운받고  
prompt template, output parser, 메서드를 바꿔가며 원하는 답을 얻어보세요.  
지원하는 모델은 올라마 웹사이트에서 확인할 수 있습니다.  
모델명을 잘 확인하세요 !   
https://ollama.com/search

#### 📌 주의
새로운 모델을 다운받을 때 `ollama run <모델 이름>` 이 아니라 `ollama pull <모델 이름>`을 사용해야 합니다.
`ollama pull <모델 이름>` : 모델 가중치만 다운로드

In [None]:
# your code