# LangChain 소개

- 프롬프트 템플릿과 로더를 사용하여 체인 구성  
- 실행 가능한 프로토콜과 LangChain 표현 언어  
- 벡터스토어 지원 리트리버 생성  
- RAG 체인 구축  
- 체인이 달린 도구 사용  
- 도구에 액세스할 수 있는 에이전트 구축

## 1. LangChain 개요

LangChain으로 개발된 애플리케이션은 일반적으로 세 가지 범주로 나뉩니다.

- 챗봇 : LLM을 이용하여 보다 지능적인 마케팅, 고객 지원, 교육 상호작용 구현.
- 검색 증강 생성(RAG) Q&A : 대용량 문서 요약, 데이터 분석, 외부 소스를 참조하여 코드 생성에 사용.
- 에이전트 시스템은 다중 에이전트 설정과 인간 상호작용을 포함하며 복잡한 워크플로우를 위해 LangGraph를 활용. 공급망 관리 및 운영 최적화와 같은 분야에 적용 가능.

LangChain은 자연어를 실행 가능한 프로그램으로 변환하는 파이프라인을 생성할 수 있게 합니다. 이러한 체인을 활용함으로써 사용자는 자연어를 입력하고 보고서, 분석 또는 컴퓨터 프로그램과 같은 출력을 받을 수 있습니다.

In [1]:
!pip install -qU \
python-dotenv \
langchain \
langchain-community \
openai \
anthropic \
langchain-openai \
langchain-anthropic \
langchain-google-genai



In [2]:
from dotenv import load_dotenv
load_dotenv()

True

env 파일에서 API 키를 로드하고 OpenAI 및 Anthropic API에 연결합니다. 원하는 모델을 지정하여 ChatOpenAI 및 ChatAnthropic 클래스의 인스턴스를 만듭니다. llm_claude3 인스턴스를 사용하여 간단한 쿼리를 호출하여 설정을 확인합니다.

## LLM 연결

In [3]:
from langchain_openai import ChatOpenAI
from langchain_anthropic import ChatAnthropic
from langchain_google_genai import ChatGoogleGenerativeAI

llm_gpt4 = ChatOpenAI(model="gpt-4o-mini-2024-07-18")

llm_claude3 = ChatAnthropic(model="claude-3-opus-20240229")

llm_gemini = ChatGoogleGenerativeAI(model="gemini-1.5-pro-latest")

In [4]:
llm_gpt4.invoke("한국어로 LangChain 에 대해서 설명해줘").content

'LangChain은 언어 모델을 활용하여 다양한 애플리케이션을 개발하기 위한 프레임워크입니다. 이 프레임워크는 언어 모델을 기반으로 한 작업을 쉽게 구축하고 관리할 수 있도록 도와줍니다. LangChain의 주요 기능은 다음과 같습니다:\n\n1. **모델 연결**: LangChain은 OpenAI, Hugging Face 등 다양한 언어 모델과 쉽게 연결할 수 있는 인터페이스를 제공합니다.\n\n2. **체인 구조**: LangChain은 작업을 체인 형태로 구성할 수 있도록 지원합니다. 이를 통해 여러 단계를 거치는 복잡한 작업을 간단하게 구현할 수 있습니다.\n\n3. **데이터 연결**: LangChain은 데이터베이스, API 등 다양한 데이터 소스와 통합할 수 있는 기능을 제공하여, 언어 모델이 더 많은 맥락을 이해하고 활용할 수 있도록 합니다.\n\n4. **응용 프로그램 개발**: LangChain을 사용하면 챗봇, 질문 답변 시스템, 정보 검색 시스템 등 다양한 언어 기반 애플리케이션을 쉽게 개발할 수 있습니다.\n\n5. **유연한 확장성**: 개발자는 LangChain을 기반으로 자신만의 맞춤형 기능을 추가하거나 기존 기능을 확장할 수 있습니다.\n\nLangChain은 이러한 기능을 통해 개발자들이 언어 모델을 활용하여 창의적이고 유용한 애플리케이션을 만들 수 있도록 지원합니다.'

In [5]:
llm_claude3.invoke("한국어로 LangChain 에 대해서 설명해줘").content

'LangChain은 자연어 처리와 언어 모델을 활용하여 다양한 애플리케이션을 구축할 수 있도록 도와주는 파이썬 라이브러리입니다. 이 라이브러리는 대화형 AI 시스템, 질의응답 시스템, 문서 요약 도구 등 다양한 자연어 처리 작업을 간편하게 수행할 수 있도록 설계되었습니다.\n\nLangChain의 주요 기능은 다음과 같습니다:\n\n1. 프롬프트 템플릿: 사용자는 프롬프트 템플릿을 정의하여 언어 모델에 입력할 내용을 쉽게 구성할 수 있습니다. 이를 통해 일관성 있고 구조화된 입력을 생성할 수 있습니다.\n\n2. 에이전트: LangChain은 에이전트 시스템을 제공하여 언어 모델과 외부 도구를 연결할 수 있습니다. 에이전트는 사용자의 질의를 분석하고, 필요한 정보를 수집하기 위해 외부 도구와 상호 작용합니다.\n\n3. 메모리: 대화형 시스템에서 이전 대화 내용을 기억하고 활용할 수 있도록 메모리 기능을 제공합니다. 이를 통해 문맥을 이해하고 이전 대화를 참조하여 더 나은 응답을 생성할 수 있습니다.\n\n4. 문서 로더: 다양한 형식의 문서(PDF, 웹 페이지, 워드 문서 등)를 로드하고 분석할 수 있는 기능을 제공합니다. 이를 통해 문서 기반의 질의응답 시스템을 구축할 수 있습니다.\n\n5. 벡터 스토어: 대규모 문서 집합에서 유사한 문서를 빠르게 검색할 수 있도록 벡터 스토어를 활용합니다. 이는 효율적인 정보 검색과 추천 시스템 구축에 유용합니다.\n\nLangChain은 OpenAI의 GPT 모델, Hugging Face의 Transformers 라이브러리 등 다양한 언어 모델과 호환되며, 사용자가 선호하는 모델을 선택하여 활용할 수 있습니다.\n\nLangChain을 사용하면 복잡한 자연어 처리 작업을 보다 쉽게 구현할 수 있으며, 대화형 AI 시스템, 챗봇, 지식 기반 질의응답 시스템 등 다양한 애플리케이션을 효과적으로 개발할 수 있습니다.'

In [6]:
llm_gemini.invoke("한국어로 LangChain 에 대해서 설명해줘").content

'## LangChain: 한국어 설명\n\nLangChain은 **대규모 언어 모델 (LLM)**을 사용하여 애플리케이션을 구축하기 위한 강력한 도구입니다. 쉽게 말해, **인공지능으로 구동되는 챗봇, 요약 도구, 질의응답 시스템 등을 만들 수 있도록 도와주는 도구**라고 할 수 있습니다. \n\nLangChain은 단순히 LLM을 사용하는 것 이상의 기능을 제공합니다. \n\n**LangChain의 주요 기능:**\n\n* **데이터 연동:** LLM이 외부 데이터와 상호 작용하도록 연결합니다. 즉, LLM이 특정 문서, 데이터베이스, API 등에서 정보를 가져와서 답변에 활용할 수 있도록 돕습니다.\n* **체이닝:** 여러 LLM 호출을 순차적으로 연결하여 복잡한 작업을 수행합니다. 예를 들어, 텍스트를 요약하고, 번역하고, 질문에 답변하는 등의 작업을 하나의 체인으로 연결할 수 있습니다.\n* **프롬프트 템플릿:** LLM에 입력으로 제공되는 프롬프트를 효율적으로 관리하고 최적화합니다. \n* **에이전트:** LLM이 도구를 사용하고 환경과 상호 작용하여 작업을 완료하도록 합니다. 예를 들어, 계산기, 검색 엔진, 코드 실행기 등을 LLM이 필요에 따라 사용할 수 있도록 설정할 수 있습니다.\n\n**LangChain의 장점:**\n\n* **사용 편의성:** Python으로 작성되어 사용하기 쉬우며, 다양한 LLM 및 도구와의 통합을 지원합니다.\n* **유연성:** 다양한 애플리케이션 요구 사항에 맞게 사용자 정의할 수 있는 유연한 프레임워크를 제공합니다.\n* **확장성:**  LangChain을 사용하면 간단한 챗봇부터 복잡한 인공지능 시스템까지 다양한 규모의 애플리케이션을 구축할 수 있습니다.\n\n**LangChain 활용 예시:**\n\n* **챗봇:** 고객 지원, FAQ 답변, 개인 비서 등 다양한 용도의 챗봇을 구축할 수 있습니다.\n* **요약 도구:** 긴 문서를 요약하거나, 뉴스 기사에서 주요 내용을 추출하는 등의 작업을 자

In [7]:
# system과 human/user 메시지를 이용한 기본 요청

system_prompt = """
마치 다섯살 먹은 어린아이에게 설명하듯이 한국어로 쉽게 설명해 주세요.
"""

user_prompt = """
LangChain이 무엇인가요?
"""

from langchain_core.messages import HumanMessage, SystemMessage

message = [
    SystemMessage(content=system_prompt),
    HumanMessage(content=user_prompt),
]

response = llm_gpt4.invoke(message)
response

AIMessage(content='LangChain은 컴퓨터가 언어를 이해하고 대화할 수 있도록 도와주는 도구예요. 예를 들어, 우리가 친구와 이야기할 때 사용하는 언어처럼, LangChain은 컴퓨터가 사람과 대화할 수 있도록 도와주는 여러 가지 방법과 규칙을 가지고 있답니다. 그래서 LangChain을 사용하면 컴퓨터가 질문에 대답하거나 이야기를 나누는 것이 더 쉬워져요. 마치 친구와 놀 때 사용하는 장난감처럼, LangChain은 언어를 다루는 재미있는 도구예요!', response_metadata={'token_usage': {'completion_tokens': 121, 'prompt_tokens': 43, 'total_tokens': 164}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_661538dc1f', 'finish_reason': 'stop', 'logprobs': None}, id='run-8c866f2b-f5f9-49f4-ad3f-2649865e3225-0', usage_metadata={'input_tokens': 43, 'output_tokens': 121, 'total_tokens': 164})

In [8]:
response.content

'LangChain은 컴퓨터가 언어를 이해하고 대화할 수 있도록 도와주는 도구예요. 예를 들어, 우리가 친구와 이야기할 때 사용하는 언어처럼, LangChain은 컴퓨터가 사람과 대화할 수 있도록 도와주는 여러 가지 방법과 규칙을 가지고 있답니다. 그래서 LangChain을 사용하면 컴퓨터가 질문에 대답하거나 이야기를 나누는 것이 더 쉬워져요. 마치 친구와 놀 때 사용하는 장난감처럼, LangChain은 언어를 다루는 재미있는 도구예요!'

In [9]:
import textwrap

#텍스트를 지정된 너비에 맞게 줄 바꿈하여 하나의 문자열로 반환
answer = textwrap.fill(response.content, width=100)
print(answer)

LangChain은 컴퓨터가 언어를 이해하고 대화할 수 있도록 도와주는 도구예요. 예를 들어, 우리가 친구와 이야기할 때 사용하는 언어처럼, LangChain은 컴퓨터가 사람과
대화할 수 있도록 도와주는 여러 가지 방법과 규칙을 가지고 있답니다. 그래서 LangChain을 사용하면 컴퓨터가 질문에 대답하거나 이야기를 나누는 것이 더 쉬워져요. 마치 친구와
놀 때 사용하는 장난감처럼, LangChain은 언어를 다루는 재미있는 도구예요!


In [10]:
response = llm_claude3.invoke(message)

answer = textwrap.fill(response.content, width=100)

print(answer)

LangChain은 우리가 인공지능 도우미를 만드는 걸 도와주는 도구 상자라고 생각하면 돼요.  여기엔 여러 가지 블록들이 있어요. 이 블록들을 맞추면 우리가 원하는 인공지능
도우미를 만들 수 있죠.  예를 들어, 어떤 블록은 우리가 쓴 글을 이해할 수 있게 해줘요. 또 어떤 블록은 이해한 내용으로 답변을 만들어 내죠.  이런 블록들을 연결해서 우리가
물어보면 알맞은 대답을 해주는 똑똑한 인공지능 친구를 만들 수 있어요.  이 블록들은 마치 장난감 블록처럼 서로 잘 맞물려요. 그래서 우리는 블록을 바꿔가며 다양한 능력을 가진
인공지능 도우미를 쉽게 만들 수 있죠.  LangChain이 바로 이런 블록들을 모아놓은 도구 상자에요. 우리는 LangChain 안에 있는 블록을 가지고 놀면서 멋진 인공지능
친구를 만들 수 있답니다!


## 2. Chain, Prompt 및 Loader

- LLM에서의 Chain 은 Data Processing 에서의 Pipeline 과 유사한 개념


### 체인의 구성 요소 - Runnables
- 프롬프트 : LLM의 응답을 안내하는 템플릿  
- LLM 또는 채팅 모델 : 프롬프트에 따라 응답을 생성하는 엔진  
- 출력 파서 : LLM의 출력을 파싱하는 도구  
- 도구 : LLM이 API에서 추가 정보를 추출하거나 코드를 실행하여 LLM을 에이전트로 전환할 수 있게 해주는 확장 기능  
- 일반 함수 : 서로 연결될 수 있는 추가적인 일반 함수

In [15]:
from langchain.prompts import PromptTemplate

# simple prompt template 생성
# {topic} 변수에서 사용자의 query 가 대체된다.
prompt_template = """
    You are a helpful assistant that explains AI topics. Given the following input:
    {topic}
    Provide an explanation of the given topic.
"""

# prompt template 을 이용하여 prompt 생성
prompt = PromptTemplate(
    input_variables=["topic"],
    template=prompt_template,
)

In [16]:
# pipe operator "|"" 를 이용하여 하나 이상의 chain 을 결합
chain = prompt | llm_gpt4

chain.invoke({"topic": "LangChain이 뭐예요?"}).content

'LangChain은 자연어 처리(NLP)와 관련된 애플리케이션을 개발하기 위한 프레임워크입니다. 주로 대화형 AI 시스템, 챗봇, 그리고 기타 언어 기반 애플리케이션을 만드는 데 사용됩니다. LangChain은 다양한 언어 모델과 통합하여, 사용자가 원하는 기능을 쉽게 구현할 수 있도록 돕습니다.\n\nLangChain의 주요 특징은 다음과 같습니다:\n\n1. **모듈화**: LangChain은 다양한 구성 요소로 나뉘어 있어, 개발자가 필요에 따라 특정 모듈만 선택하여 사용할 수 있습니다. 예를 들어, 텍스트 생성, 대화 관리, 데이터베이스 연동 등의 기능을 모듈별로 구현할 수 있습니다.\n\n2. **다양한 언어 모델 지원**: LangChain은 OpenAI의 GPT 계열 모델, Hugging Face의 Transformers 등 여러 언어 모델과 연동될 수 있어, 개발자는 원하는 AI 모델을 쉽게 선택할 수 있습니다.\n\n3. **유연성**: LangChain은 사용자 정의 로직을 추가할 수 있는 유연성을 제공하여, 특정 비즈니스 요구사항이나 사용자 경험에 맞게 기능을 커스터마이즈할 수 있습니다.\n\n4. **데이터 소스 통합**: LangChain은 외부 데이터 소스와의 통합을 지원하여, AI 모델이 더 많은 정보를 바탕으로 답변할 수 있도록 합니다. 예를 들어, 데이터베이스, API 등을 통해 실시간 정보를 제공받을 수 있습니다.\n\n5. **커뮤니티와 지원**: LangChain은 오픈 소스 프로젝트로, 활발한 커뮤니티가 있어 문서, 튜토리얼, 예제 코드 등을 통해 개발자들이 쉽게 배울 수 있도록 돕습니다.\n\n이와 같은 특징 덕분에 LangChain은 다양한 산업 분야에서 사용자 맞춤형 언어 기반 솔루션을 구축하는 데 널리 사용되고 있습니다.'

더 고급 체인을 만들기 위해 LangChain을 사용하여 YouTube 비디오를 필사합니다. 먼저 YouTube Transcript API를 설치합니다. 그런 다음 LangChain의 커뮤니티 문서 로더에서 YouTube Loader를 가져옵니다. 로더에 비디오 URL을 전달하면 필사본을 추출할 수 있으며, 이는 문서 목록으로 반환됩니다. 원시 필사본을 얻으려면 이러한 문서에서 페이지 콘텐츠를 추출하거나 문서를 체인에 직접 전달하기만 하면 됩니다.

In [None]:
!pip install --upgrade --quiet youtube-transcript-api

In [17]:
# LangChain 커뮤니티에서 제공하는 Youtube Loader를 임포트
from langchain_community.document_loaders import YoutubeLoader

# YoutubeLoader를 사용하여 유튜브 URL에서 로더를 생성
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=AOEGOhkGtjI", add_video_info=False
)

# 비디오의 자막을 문서로 로드
docs = loader.load()

In [18]:
docs

[Document(metadata={'source': 'AOEGOhkGtjI'}, page_content="so now we have Lama 3 from meta and this model is definitely going to be a GameChanger when it comes to analyzing data with llms here I have L 3 on gr cloud and not only are the text to SQL chains blazing fast they're also capable of generating quite Advanced SQL and almost on par with the high IQ llms if we Implement one additional tweak so in this video I'm going to show you how we can tweak the SQL chains to maximize the performance of Lama 3 we're going to have a look at some of the insights that Lama three is capable of extracting and finally I'm going to briefly discuss some of the implications for llm based data analysis on l.a. comom you can read about Lama 3 and some of the capabilities of the model you can see how the model compares to other popular llms specifically the 70b model that I'm going to be using in this video is compared to Gemini and CLA 3 Sunnet and there's also a link that lets you request access to La

In [19]:
transcript = docs[0].page_content
transcript

"so now we have Lama 3 from meta and this model is definitely going to be a GameChanger when it comes to analyzing data with llms here I have L 3 on gr cloud and not only are the text to SQL chains blazing fast they're also capable of generating quite Advanced SQL and almost on par with the high IQ llms if we Implement one additional tweak so in this video I'm going to show you how we can tweak the SQL chains to maximize the performance of Lama 3 we're going to have a look at some of the insights that Lama three is capable of extracting and finally I'm going to briefly discuss some of the implications for llm based data analysis on l.a. comom you can read about Lama 3 and some of the capabilities of the model you can see how the model compares to other popular llms specifically the 70b model that I'm going to be using in this video is compared to Gemini and CLA 3 Sunnet and there's also a link that lets you request access to Lama 3 but this is not what I'll be doing I'm going to be usi

이제, 대본이 주어진 YouTube 비디오를 요약하는 체인을 설정해 보겠습니다. 비디오 대본을 입력 변수로 프롬프트 템플릿에 주입한 다음 파이프 연산자를 사용하여 체인을 설정합니다. 비디오 대본으로 호출하면 원시 텍스트를 수동으로 추출하지 않고도 간결한 요약을 얻을 수 있습니다.

In [20]:
# 전사된 내용을 chain에 사용합니다.
# prompt template 생성
prompt_template = """
    You are a helpful assistant that explains YT videos. Given the following video transcript:
    {video_transcript}
    한국어로 요약해 주세요.
"""

# prompt instance 생성
prompt = PromptTemplate(
    input_variables=["video_transcript"],
    template=prompt_template,
)
prompt

PromptTemplate(input_variables=['video_transcript'], template='\n    You are a helpful assistant that explains YT videos. Given the following video transcript:\n    {video_transcript}\n    한국어로 요약해 주세요.\n')

In [21]:
# chain 생성
chain = prompt | llm_gpt4

In [22]:
answer = chain.invoke({"video_transcript": docs}).content

print(answer)

이 비디오에서는 Meta의 Lama 3 모델을 사용하여 데이터 분석에서 LLM(대형 언어 모델)의 성능을 극대화하는 방법에 대해 설명하고 있습니다. 사용자는 Gro Cloud에서 Lama 3를 설정하고 SQL 체인을 구축하며, SQL 코드 생성을 최적화하는 추가 조치를 취합니다. 비디오는 Lama 3가 매우 빠르고 고급 SQL을 생성할 수 있으며, 이를 통해 데이터 인사이트를 추출하는 과정도 보여줍니다.

사용자는 e-commerce 데이터 세트를 사용하여 SQL 쿼리를 실행하고, 오류가 발생할 경우 이를 모델에 피드백하여 체인을 자동으로 수정하는 방법을 설명합니다. 이를 통해 사용자는 고객 리스트, 수익 분석 등 다양한 인사이트를 성공적으로 생성합니다.

이 비디오의 결론은 Lama 3와 같은 오픈 소스 LLM이 데이터 분석에서 유용하게 사용될 수 있으며, 특히 민감한 고객 데이터를 다룰 때 유용하다는 점입니다. 데이터 분석가나 데이터 엔지니어는 이러한 새로운 기술을 배우는 것이 중요하다고 강조합니다.


### Built-in Chains

In [26]:
from langchain.chains.combine_documents import create_stuff_documents_chain

# create_stuff_documents_chain은 문서 목록을 받아 모두 하나의 프롬프트로 형식화합니다.
# create_stuff_documents_chain 의 input variable 이름은 context 여야 합니다.
prompt_template = """
    You are a helpful assistant that explains YT videos. Given the following video transcript:
    {context}
    한국어로 요약해 주세요.
"""

# prompt instance 생성
prompt = PromptTemplate(
    input_variables=["context"],
    template=prompt_template,
)

# chain 생성
chain = create_stuff_documents_chain(llm_gpt4, prompt)

In [27]:
chain.invoke({"context": docs})

'이 영상에서는 메타의 새로운 모델인 Lama 3에 대해 설명하고 있습니다. 이 모델은 LLM(대형 언어 모델)을 사용한 데이터 분석에 있어 혁신적인 변화를 가져올 것으로 기대됩니다. 영상에서는 Lama 3를 Gro Cloud에서 사용하여 SQL 체인을 최적화하는 방법을 보여주고, 이 모델이 추출할 수 있는 통찰력에 대해 설명합니다.\n\n주요 내용은 다음과 같습니다:\n\n1. **Lama 3의 성능**: Lama 3는 텍스트에서 SQL로의 변환이 매우 빠르며, 고급 SQL을 생성할 수 있습니다. 추가적인 조정을 통해 성능을 극대화할 수 있습니다.\n\n2. **환경 설정**: Python 환경을 설정하고 필요한 라이브러리를 설치한 뒤, 데이터셋의 스키마 정보를 가져옵니다. 이 데이터셋은 고객, 주문, 제품 및 고객 세금 관련 테이블로 구성되어 있습니다.\n\n3. **SQL 체인 설정**: Lang Chain을 사용하여 Lama 3를 Gro Cloud에 연결하고, SQL 코드를 생성합니다. 에러가 발생할 경우 이를 처리하여 체인을 수정하는 방법을 사용합니다.\n\n4. **데이터 분석 예시**: 여러 SQL 쿼리를 실행하며, 오류를 피드백하여 성공적인 실행을 도와주는 방법을 시연합니다. 예를 들어, 고객 목록을 생성하거나 최근 30일간의 수익을 분석하는 쿼리를 실행합니다.\n\n5. **미래 전망**: Lama 3와 같은 오픈 소스 LLM을 통해 데이터 분석에서의 통찰력을 생성할 수 있는 가능성이 제시됩니다. 이는 프라이버시가 중요한 경우나 쿼리 집약적인 응용 프로그램에서 유용할 것입니다.\n\n영상은 데이터 분석가나 데이터 엔지니어에게 LLM 기술을 학습할 것을 권장하며 마무리됩니다.'

## 3 LangChain Expression Language(LCEL) & Runnables

- LCEL(LangChain Expression Language) 는 Runnables 를 chain 으로 구성하는 방법

LCEL은 기본 구성 요소에서 복잡한 체인을 구축하는 것을 간소화합니다. 파이프 연산자(|)를 사용하여 다양한 구성 요소를 체인으로 연결하고 한 요소에서 다음 요소로 출력을 공급합니다. 이런 방식으로 구성된 체인의 간단한 예로는 모델과 출력 파서가 결합된 프롬프트가 있습니다.  이러한 구성 요소들을 runnables 라고 부릅니다.  

`chain=prompt | model | output_parser`

- Chain 구성  
    - 체인에 대한 입력(일반적으로 사전)
    - 입력은 프롬프트로 전송됩니다.
    - 프롬프트 값은 LLM 또는 채팅 모델로 전송됩니다.
    - Chatmodel이 채팅 메시지를 반환합니다.
    - 파서는 채팅 메시지에서 문자열을 추출합니다.
    - 문자열은 체인의 출력입니다

- LangChain의 runnable 객체들:

    - RunnableSequence : 여러 runnable 구성 요소를 연결하여 각 구성 요소가 입력을 처리하고 출력을 다음 구성 요소에 전달
    - RunnableLambda : Python의 호출 가능한 요소(함수 등)를 실행 가능한 구성 요소로 바꿔서 체인으로 통합
    - RunnablePassthrough : 입력을 변경하지 않고 통과시키거나 출력에 추가 키를 추가. placeholder 역할을 하거나 시퀀스에 유연하게 통합할 수 있다.
    - RunnableParallel : 여러 개의 실행 파일을 동시에 실행하여 두 개의 체인이 동일한 입력에서 실행되지만 다른 출력을 반환하는 분기를 허용.

In [29]:
from langchain.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser

summarize_prompt_template = """
    You are a helpful assistant that summarizes AI concepts:
    {context}
    context를 한국어로 요약해 주세요.
"""

summarize_prompt = PromptTemplate.from_template(summarize_prompt_template)

###  "|" 연산자를 이용하여 Runnable Sequence chain 생성

In [30]:
output_parser = StrOutputParser()

chain = summarize_prompt | llm_gpt4 | output_parser

print(type(chain))

<class 'langchain_core.runnables.base.RunnableSequence'>


In [31]:
chain.invoke({"context": "LangChain 에 대해 설명해 줘."})

'LangChain은 자연어 처리(NLP)와 관련된 다양한 애플리케이션을 구축하기 위해 설계된 프레임워크입니다. 이 프레임워크는 언어 모델을 사용하여 대화형 에이전트, 챗봇, 정보 검색 시스템 등을 개발하는 데 도움을 줍니다. LangChain은 다양한 구성 요소를 통합하여 최적의 사용자 경험을 제공하며, 데이터 소스와의 상호작용, 사용자 입력 처리, 출력 생성 등을 효율적으로 관리합니다.\n\n주요 기능으로는 언어 모델과의 연결, 데이터베이스 쿼리, API 호출, 메모리 관리 등을 포함하며, 이를 통해 개발자들은 복잡한 NLP 시스템을 보다 쉽게 구축할 수 있습니다. LangChain은 모듈화된 접근 방식을 취하고 있어, 필요에 따라 각 구성 요소를 조정하거나 확장할 수 있습니다.'

### RunnableLambda 사용

In [32]:
# RunnableLambda를 사용하여 Python 함수를 체인에 삽입합니다.
from langchain_core.runnables import RunnableLambda

summarize_chain = summarize_prompt | llm_gpt4 | output_parser
print(type(summarize_chain))

# 사용자 정의 람다 함수를 정의하고 이를 RunnableLambda에 래핑합니다.
length_lambda = RunnableLambda(lambda summary: f"Summary length: {len(summary)} characters")
print(type(length_lambda))

lambda_chain = summarize_chain | length_lambda
print(type(lambda_chain))

<class 'langchain_core.runnables.base.RunnableSequence'>
<class 'langchain_core.runnables.base.RunnableLambda'>
<class 'langchain_core.runnables.base.RunnableSequence'>


In [33]:
lambda_chain.invoke({"context": "LangChain 에 대해 설명해 줘"})

'Summary length: 503 characters'

In [34]:
for step in lambda_chain.steps:
    print(step)

input_variables=['context'] template='\n    You are a helpful assistant that summarizes AI concepts:\n    {context}\n    context를 한국어로 요약해 주세요.\n'
client=<openai.resources.chat.completions.Completions object at 0x000001F7866375E0> async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x000001F7866495E0> model_name='gpt-4o-mini-2024-07-18' openai_api_key=SecretStr('**********') openai_proxy=''

RunnableLambda(lambda summary: f'Summary length: {len(summary)} characters')


함수를 명시적으로 RunnableLambda로 변환하지 않고도 체인에서 함수를 사용할 수 있습니다

In [35]:
# RunnableLambda로 변환하지 않고 체인에서 함수 사용
chain_without_function = summarize_chain | (lambda summary: f"Summary Length: {len(summary)} characters")

chain_without_function.steps[-1]

RunnableLambda(lambda summary: f'Summary Length: {len(summary)} characters')

In [36]:
chain_without_function.invoke({"context": "LangChain 에 대해 설명해 줘"})

'Summary Length: 310 characters'

### placeholder 로 사용되는 RunnablePassthrough

체인 내에서 데이터를 변경하지 않고 다음 단계로 전달하는 데 사용됩니다. 주로 디버깅하거나 체인의 특정 부분을 테스트할 때 유용합니다.

In [37]:
from langchain_core.runnables import RunnablePassthrough

summarize_chain = summarize_prompt | llm_gpt4 | output_parser

# RunnablePassthrough instance 생성
passthrough = RunnablePassthrough()

# 요약 및 길이 계산과 함께 파이프 연산자를 사용하여 시퀀스 생성
placeholder_chain = summarize_chain | passthrough | length_lambda

placeholder_chain.invoke({"context": "LangChain 에 대해 설명해 줘"})

'Summary length: 272 characters'

In [38]:
placeholder_chain.steps

[PromptTemplate(input_variables=['context'], template='\n    You are a helpful assistant that summarizes AI concepts:\n    {context}\n    context를 한국어로 요약해 주세요.\n'),
 ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x000001F7866375E0>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x000001F7866495E0>, model_name='gpt-4o-mini-2024-07-18', openai_api_key=SecretStr('**********'), openai_proxy=''),
 StrOutputParser(),
 RunnablePassthrough(),
 RunnableLambda(lambda summary: f'Summary length: {len(summary)} characters')]

### RunnablePassthrough for assignment

In [39]:
# 요약을 dictionary로 변환하는 사용자 정의 람다 함수 정의
wrap_summary_lambda = RunnableLambda(lambda summary: {"summary": summary})

# Dict 입력에 mapping argument를 merge RunnablePassthrough 인스턴스 생성
assign_passthrough = RunnablePassthrough.assign(length=lambda x: len(x['summary']))

# summarization chain 생성
summarize_chain = summarize_prompt | llm_gpt4 | output_parser | wrap_summary_lambda

# 요약과 assign_passthrough를 결합하여 전체 체인을 생성
assign_chain = summarize_chain | assign_passthrough

# Use the chain
result = assign_chain.invoke({"context": "LangChain 에 대해 설명해 줘"})
result

{'summary': 'LangChain은 자연어 처리(NLP) 및 인공지능(AI) 애플리케이션을 구축하기 위한 프레임워크입니다. 이 프레임워크는 다양한 언어 모델과 데이터 소스를 통합하여 복잡한 작업을 수행할 수 있도록 돕습니다. LangChain의 주요 구성 요소는 다음과 같습니다:\n\n1. **체인(Chain)**: 여러 작업을 연결하여 복잡한 프로세스를 생성하는 구조입니다.\n2. **프롬프트(Prompt)**: 언어 모델에 주어지는 입력입니다. 프롬프트를 잘 설계하는 것이 결과의 품질에 큰 영향을 미칩니다.\n3. **메모리(Memory)**: 대화의 맥락을 유지하기 위해 사용되는 구성 요소로, 이전의 대화 내용을 기억합니다.\n4. **데이터 소스(Data Sources)**: 외부 데이터베이스나 API와 연결하여 정보를 검색하거나 활용하는 기능입니다.\n\nLangChain은 이러한 요소들을 조합하여 대화형 AI, 질문 응답 시스템, 텍스트 생성 등 다양한 애플리케이션을 쉽게 개발할 수 있도록 지원합니다.',
 'length': 501}

In [41]:
print(type(assign_chain.steps[-1]))

<class 'langchain_core.runnables.passthrough.RunnableAssign'>


### RunnableParallel 사용 예

In [42]:
from langchain_core.runnables import RunnableParallel

#summarization chain 생성
summarization_chain = summarize_prompt | llm_gpt4 | output_parser

# summary 와 길이 계산을 병렬로 처리하기 위해 RunnableParallel 인스턴스를 만듭니다.
parallel_runnable = RunnableParallel(
    summary=lambda x: x,  # 현재의 summary 전달
    length=lambda x: len(x)   # summary의 길이 계산
)

# parellel runnable과 summarization 결합
parallel_chain = summarize_chain | parallel_runnable

parallel_chain.invoke({"context": "LangChain 에 대해 설명해 줘"})

{'summary': {'summary': 'LangChain은 자연어 처리(NLP) 애플리케이션을 구축하기 위한 프레임워크로, 다양한 언어 모델과 데이터 소스를 통합하여 복잡한 작업을 수행할 수 있도록 돕습니다. 이 프레임워크는 언어 모델을 사용하여 질문에 답하거나 정보를 생성하는 등의 작업을 쉽게 구현할 수 있게 해줍니다. LangChain은 데이터 체인, 프롬프트 템플릿, 메모리 관리 등 여러 기능을 제공하여 개발자들이 더 효율적으로 작업할 수 있도록 지원합니다. \n\n이러한 기능들은 AI 기반 애플리케이션을 개발하는 데 있어 유연성과 확장성을 제공하며, 다양한 비즈니스 요구에 맞춰 활용될 수 있습니다. LangChain은 특히 대화형 AI, 챗봇, 자동화된 고객 서비스 등 다양한 분야에서 사용될 수 있습니다.'},
 'length': 1}

### 4. Splitter & Retrievers

LangChain은 검색기 및 분할기를 포함하여 문서 작업을 위한 강력한 도구를 제공합니다. 검색기는 주어진 쿼리에 따라 관련 문서를 검색하고 검색하는 데 사용되는 반면, 분할기는 큰 문서를 더 작고 관리하기 쉬운 청크로 나누는 데 사용됩니다.

In [43]:
!pip install --upgrade --quiet redis



In [44]:
#  YoutubeLoader는 YouTube 비디오의 자막을 가져와서 문서로 변환합니다.
from langchain_community.document_loaders import YoutubeLoader

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=AOEGOhkGtjI", add_video_info=False
)

docs = loader.load()
docs

[Document(metadata={'source': 'AOEGOhkGtjI'}, page_content="so now we have Lama 3 from meta and this model is definitely going to be a GameChanger when it comes to analyzing data with llms here I have L 3 on gr cloud and not only are the text to SQL chains blazing fast they're also capable of generating quite Advanced SQL and almost on par with the high IQ llms if we Implement one additional tweak so in this video I'm going to show you how we can tweak the SQL chains to maximize the performance of Lama 3 we're going to have a look at some of the insights that Lama three is capable of extracting and finally I'm going to briefly discuss some of the implications for llm based data analysis on l.a. comom you can read about Lama 3 and some of the capabilities of the model you can see how the model compares to other popular llms specifically the 70b model that I'm going to be using in this video is compared to Gemini and CLA 3 Sunnet and there's also a link that lets you request access to La

In [45]:
# 텍스트를 재귀적으로 분할하여 지정된 길이의 청크로 분할
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex=False
)

In [46]:
docs_split = text_splitter.split_documents(docs)
docs_split

[Document(metadata={'source': 'AOEGOhkGtjI'}, page_content='so now we have Lama 3 from meta and this model is definitely going to be a GameChanger when it comes'),
 Document(metadata={'source': 'AOEGOhkGtjI'}, page_content='when it comes to analyzing data with llms here I have L 3 on gr cloud and not only are the text to'),
 Document(metadata={'source': 'AOEGOhkGtjI'}, page_content="are the text to SQL chains blazing fast they're also capable of generating quite Advanced SQL and"),
 Document(metadata={'source': 'AOEGOhkGtjI'}, page_content='Advanced SQL and almost on par with the high IQ llms if we Implement one additional tweak so in'),
 Document(metadata={'source': 'AOEGOhkGtjI'}, page_content="tweak so in this video I'm going to show you how we can tweak the SQL chains to maximize the"),
 Document(metadata={'source': 'AOEGOhkGtjI'}, page_content="to maximize the performance of Lama 3 we're going to have a look at some of the insights that Lama"),
 Document(metadata={'source': 'AOEGO

### 벡터 스토어 설정
분할된 문서를 효율적으로 저장하고 검색하려면 벡터 스토어를 사용할 수 있습니다. 이 예에서는 Redis를 벡터 스토어로 사용합니다. 먼저 Redis 연결을 설정해야 합니다.

In [47]:
import os
import redis

REDIS_HOST="redis-18231.c91.us-east-1-3.ec2.redns.redis-cloud.com"
REDIS_PASSWORD=os.environ["REDIS_PASSWORD"]
REDIS_PORT="18231"
REDIS_URL = "redis://default:" + REDIS_PASSWORD + "@" + REDIS_HOST + ":" + REDIS_PORT

r = redis.Redis(
    host=REDIS_HOST,
    port=REDIS_PORT,
    password=REDIS_PASSWORD
)

In [48]:
# 연결 확인
r.ping()

True

In [49]:
# 현재 선택된 Redis 데이터베이스의 모든 키를 삭제/초기화
r.flushdb()

True

Hugging Face 임베딩을 사용하여 문서의 벡터 표현을 생성

In [50]:
!pip install --upgrade --quiet sentence-transformers



In [51]:
from langchain.embeddings import HuggingFaceEmbeddings
embeddings  = HuggingFaceEmbeddings()

  warn_deprecated(


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [52]:
from langchain_community.vectorstores.redis import Redis

# Redis 벡터스토어 인스턴스 생성
rds = Redis.from_documents(
    docs_split,
    embeddings,
    redis_url=REDIS_URL,
    index_name="youtube",
)

In [55]:
# 벡터스토어 인스턴스에서 사용되는 인덱스의 이름
rds.index_name

'youtube'

In [56]:
# Redis 벡터스토어에서 검색을 위한 retriever 객체 생성
# search_type: "similarity"로 설정하여 유사도 검색을 수행
# search_kwargs: 검색 결과에서 상위 10개의 결과를 반환하도록 설정

retriever = rds.as_retriever(search_type="similarity", search_kwargs={"k": 10})
retriever

RedisVectorStoreRetriever(tags=['Redis', 'HuggingFaceEmbeddings'], vectorstore=<langchain_community.vectorstores.redis.base.Redis object at 0x000001F7F6F31FA0>, search_kwargs={'k': 10})

In [57]:
 #검색 쿼리로 "data analysis"를 사용하여 가장 관련성 높은 상위 10개 문서 청크 반환
retriever.invoke("data analysis")

[Document(metadata={'id': 'doc:youtube:cce0287777f348129314b680a9a31a6f', 'source': 'AOEGOhkGtjI'}, page_content="this in a customer data platform now let's try a different one I'll do a classical one show me the"),
 Document(metadata={'id': 'doc:youtube:e99aeb6d5a3b494ba6427b76577ec329', 'source': 'AOEGOhkGtjI'}, page_content='a data analyst or data engineer you should really pay attention to this and learn this new'),
 Document(metadata={'id': 'doc:youtube:8e3c7cdf698d4ea095e0be9f91819cec', 'source': 'AOEGOhkGtjI'}, page_content='we can then have a look at the data frame and this is essentially an audience that you could use'),
 Document(metadata={'id': 'doc:youtube:f1a60abf531d41759f234bbe6dcf86dd', 'source': 'AOEGOhkGtjI'}, page_content='discuss some of the implications for llm based data analysis on l.a. comom you can read about Lama'),
 Document(metadata={'id': 'doc:youtube:b8ef35f485d24b1b86dba324d1a5fbc6', 'source': 'AOEGOhkGtjI'}, page_content='the last video in the dashboard 

## 5. RAG Chain 만들기

RAG는 외부 데이터로 대형 언어 모델(LLM)의 지식을 증강하는 기술입니다. RAG 애플리케이션은 두 단계로 구축할 수 있습니다:   
   
1) 외부 데이터 색인화   
2) 검색 및 출력 생성.

In [58]:
from langchain.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

template = """
    Answer the question based only on the following context:
    {context}
    Question: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

output_parser = StrOutputParser()

In [59]:
chain = (
    # "context"는 입력 데이터에서 'question' 값을 가져오고, 이를 retriever에 전달하여 유사한 문서 검색
    {"context": (lambda x: x['question']) | retriever,
     "question": (lambda x: x['question'])}  # "question"은 입력 데이터에서 'question' 값을 그대로 반환
    | prompt    # 검색된 문서를 이용해 프롬프트를 생성함
    | llm_gpt4   # 프롬프트를 기반으로 GPT-4 모델을 사용해 응답을 생성
    | StrOutputParser()    # LLM의 출력을 문자열로 파싱
)

In [60]:
answer = chain.invoke({"question": "Llama3를 이용하여 할 수 있는 일이 뭐야?"})
print(answer)

Llama 3를 이용하여 데이터 분석, 인사이트 생성, 그리고 LLM 기반의 데이터 분석에 대한 논의를 할 수 있습니다. 또한, 모델의 성능을 극대화하고 다양한 기능을 활용할 수 있습니다.


### 6. Tools / Toolkits

- 도구는 에이전트, 체인 또는 대형 언어 모델(LLM)이 세상과 상호 작용할 수 있게 하는 인터페이스입니다.
    - Python REPL, Wikipdedia, YouTube, Zapier, Gradio, etc

- 툴킷은 특정 작업을 위해 함께 사용하도록 설계된 도구들의 모음입니다.
    - Airbyte, Github, Gitlab, Jira, Slack, etc

### 6. Chain with a Tool

In [62]:
!pip install --upgrade --quiet youtube_search



In [65]:
from langchain_community.tools import YouTubeSearchTool

# YouTubeSearchTool 인스턴스 생성
youtube_tool = YouTubeSearchTool()

# "Andrej Karpathy"라는 키워드로 유튜브 검색 실행
results = youtube_tool.run("Rabbitmetrics")
print(results)

['https://www.youtube.com/watch?v=AOEGOhkGtjI&pp=ygUNUmFiYml0bWV0cmljcw%3D%3D', 'https://www.youtube.com/watch?v=rOfg-nbkk8A&pp=ygUNUmFiYml0bWV0cmljcw%3D%3D']


In [74]:
# YouTube 도구를 LLM에 바인딩
llm_with_tools = llm_gpt4.bind_tools([youtube_tool])

msg = llm_with_tools.invoke("Rabbitmetrics YT videos")
msg

AIMessage(content='', additional_kwargs={'tool_calls': [{'id': 'call_ewQ88czEIZXYwRgv1F0wUJOw', 'function': {'arguments': '{"query":"Rabbitmetrics"}', 'name': 'youtube_search'}, 'type': 'function'}]}, response_metadata={'token_usage': {'completion_tokens': 15, 'prompt_tokens': 95, 'total_tokens': 110}, 'model_name': 'gpt-4o-mini-2024-07-18', 'system_fingerprint': 'fp_661538dc1f', 'finish_reason': 'tool_calls', 'logprobs': None}, id='run-f86447bb-b174-4182-9283-1178ae83e229-0', tool_calls=[{'name': 'youtube_search', 'args': {'query': 'Rabbitmetrics'}, 'id': 'call_ewQ88czEIZXYwRgv1F0wUJOw', 'type': 'tool_call'}], usage_metadata={'input_tokens': 95, 'output_tokens': 15, 'total_tokens': 110})

In [75]:
msg.tool_calls

[{'name': 'youtube_search',
  'args': {'query': 'Rabbitmetrics'},
  'id': 'call_ewQ88czEIZXYwRgv1F0wUJOw',
  'type': 'tool_call'}]

In [78]:
# LLM의 출력에서 첫 번째 도구 호출의 "__arg1" 인수를 추출
# YouTubeSearchTool을 사용하여 추출된 인수로 유튜브 검색 실행
chain = llm_with_tools | (lambda x: x.tool_calls[0]["args"]) | youtube_tool
chain

RunnableBinding(bound=ChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x000001F7866375E0>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x000001F7866495E0>, model_name='gpt-4o-mini-2024-07-18', openai_api_key=SecretStr('**********'), openai_proxy=''), kwargs={'tools': [{'type': 'function', 'function': {'name': 'youtube_search', 'description': 'search for youtube videos associated with a person. the input to this tool should be a comma separated list, the first part contains a person name and the second a number that is the maximum number of video results to return aka num_results. the second part is optional', 'parameters': {'type': 'object', 'properties': {'query': {'type': 'string'}}, 'required': ['query']}}}]})
| RunnableLambda(lambda x: x.tool_calls[0]['args'])
| YouTubeSearchTool()

In [79]:
response = chain.invoke("Find some Rabbitmetrics videos on langchain")
response

"['https://www.youtube.com/watch?v=aywZrzNaKjs&pp=ygUXUmFiYml0bWV0cmljcyBsYW5nY2hhaW4%3D', 'https://www.youtube.com/watch?v=8BV9TW490nQ&pp=ygUXUmFiYml0bWV0cmljcyBsYW5nY2hhaW4%3D']"

In [80]:
import ast

ast.literal_eval(response)

['https://www.youtube.com/watch?v=aywZrzNaKjs&pp=ygUXUmFiYml0bWV0cmljcyBsYW5nY2hhaW4%3D',
 'https://www.youtube.com/watch?v=8BV9TW490nQ&pp=ygUXUmFiYml0bWV0cmljcyBsYW5nY2hhaW4%3D']