### LangChain
LangChain is an innovative framework for developing applications based on large-scale language models (LLMs), a tool that allows you to effectively perform various tasks with language models. With its modern and modular structure, LangChain is primarily available in two versions, Python and Typescript/Javascript, which allows it to be used in a variety of environments.

It consists of several modules that work together to effectively connect language models and data sources, and organize the workflow of an application.
LangChain is composed of several modules, which work together to effectively connect language models and data sources, and perform a variety of tasks. Each module provides flexibility through modularized abstraction and implementation, and users can combine components to customize existing chains or create new ones.

### Main Modules

1. **Model I/O (Input/Output):** Manages interaction with the language model, manipulating prompts and extracting information from the language model's output.

2. **Data Connections:** Provides the essential building blocks for loading, transforming, storing, and querying application-specific data.

3. **Chains:** Build the invocation order of operations and efficiently manage the various components chained together.

4. **Agents:** Flexibly manipulate chains by deciding which tools to use when they receive a parent directive.

5. **Memory:** Provides functionality that allows interactive systems to directly access past messages.

6. **Callbacks:** Record and stream intermediate steps in the chain, utilized for logging, monitoring, and other tasks.


### LangChain Use Cases

Lancechains can be applied to a variety of use cases. These include Q&A for documents, structured data analysis, API integration, code understanding, agent simulation, chatbot development, code writing, data extraction, graph data analysis, multimodal output, self-checking, summarization, tagging, and more. Lancechain also supports a variety of integrations to leverage callbacks, chat models, document loaders, databases, search methods, text embedding models, agent toolkits, tools, vector repositories, and more.


### If you found this article helpful, please hit the UP button.

### References

https://github.com/gkamradt/langchain-tutorials

https://github.com/wikibook/openai-llm


In [3]:
!pip install langchain
!pip install openai
!pip install tiktoken
!pip install sentence-transformers
!pip install pypdf
!pip install faiss-cpu

Collecting langchain
  Obtaining dependency information for langchain from https://files.pythonhosted.org/packages/15/f9/e79403efb880425babaa91f8ab19e1b6218dc694551fa6e7f40197b5a72a/langchain-0.0.335-py3-none-any.whl.metadata
  Downloading langchain-0.0.335-py3-none-any.whl.metadata (16 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Obtaining dependency information for jsonpatch<2.0,>=1.33 from https://files.pythonhosted.org/packages/73/07/02e16ed01e04a374e644b575638ec7987ae846d25ad97bcc9945a3ee4b0e/jsonpatch-1.33-py2.py3-none-any.whl.metadata
  Downloading jsonpatch-1.33-py2.py3-none-any.whl.metadata (3.0 kB)
Collecting langsmith<0.1.0,>=0.0.63 (from langchain)
  Obtaining dependency information for langsmith<0.1.0,>=0.0.63 from https://files.pythonhosted.org/packages/8f/30/bd8b1c22488e7ed1ac0bf3ae84cedc76ab18e236270fed6926801b4af383/langsmith-0.0.63-py3-none-any.whl.metadata
  Downloading langsmith-0.0.63-py3-none-any.whl.metadata (10 kB)
Downloading langchain-0.0.335-py3-non

In [4]:
import os
import getpass

openai_api_key = os.getenv('OPENAI_API_KEY', getpass.getpass("api"))

api ···················································


### Chat Message

The most commonly used Chat Messege allows you to invoke OpenAI's gpt3.5 and gpt4. 
To do so, you need to use the message feature, which has three roles: System: background context to tell the AI what to do, Human: user message, and AI: detailed message to show the AI's response.

You can also get results from multiple lists at once, or use Function calling in the same way. 

In [5]:
from langchain.globals import set_llm_cache
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.chat_models import ChatOpenAI
from langchain.cache import InMemoryCache
from langchain.schema import HumanMessage, SystemMessage

# chat features # chat message
# System: background context that tells the AI what to do
# Human: User message
# AI: Detailed message showing what the AI responded to.
chat = ChatOpenAI(temperature=.7,
                  callbacks=([StreamingStdOutCallbackHandler()]),  # 콜백 기능 지원
                  streaming=True,
                  verbose=True,
                  openai_api_key=openai_api_key
                  )

# simple
response = chat([
    SystemMessage(content="You are a nice AI bot that helps a user figure out what to eat in one short sentence"),
    HumanMessage(content="I like tomatoes, what should I eat?")
])
print(response)


# Making multiple calls at once
message_list = [HumanMessage(content="고양이 이름 지어줘"),
                HumanMessage(content="개 이름 지어줘")]
batch = chat.generate([message_list]) # generate로 한번에 생성한다.
print(batch)


# Function calling
output = chat(messages=
     [
         SystemMessage(content="You are an helpful AI bot"),
         HumanMessage(content="What’s the weather like in Boston right now?")
     ],

     functions=[{
         "name": "get_current_weather",
         "description": "Get the current weather in a given location",
         "parameters": {
             "type": "object",
             "properties": {
                 "location": {
                     "type": "string",
                     "description": "The city and state, e.g. San Francisco, CA"
                 },
                 "unit": {
                     "type": "string",
                     "enum": ["celsius", "fahrenheit"]
                 }
             },
             "required": ["location"]
         }
     }
     ]
)

print(output)

You could try a Caprese salad with fresh tomatoes, mozzarella, and basil.content='You could try a Caprese salad with fresh tomatoes, mozzarella, and basil.'
1. 민트
2. 코코
3. 루나
4. 마루
5. 토리
6. 미미
7. 레오
8. 타이거
9. 오렌지
10. 삼돌이generations=[[ChatGenerationChunk(text='1. 민트\n2. 코코\n3. 루나\n4. 마루\n5. 토리\n6. 미미\n7. 레오\n8. 타이거\n9. 오렌지\n10. 삼돌이', generation_info={'finish_reason': 'stop'}, message=AIMessageChunk(content='1. 민트\n2. 코코\n3. 루나\n4. 마루\n5. 토리\n6. 미미\n7. 레오\n8. 타이거\n9. 오렌지\n10. 삼돌이'))]] llm_output={'token_usage': {}, 'model_name': 'gpt-3.5-turbo'} run=[RunInfo(run_id=UUID('2743148c-b4a6-4f64-8a6a-8e70e97b5b24'))]
content='' additional_kwargs={'function_call': {'arguments': '{\n  "location": "Boston, MA"\n}', 'name': 'get_current_weather'}}


### In memory

The in-memory feature has the ability to store and use a global variable memory cache. You can use it in your LLM model to declare the cache as True False and use it as needed. It gives you the exact same answer to a question you've already created once. 

In [6]:
import time 

# 전역변수에 메모리 캐시
chat = ChatOpenAI(temperature=.7,
                  callbacks=([StreamingStdOutCallbackHandler()]),  # 콜백 기능 지원
                  streaming=True,
                  verbose=True,
                  openai_api_key=openai_api_key
                  )

set_llm_cache(InMemoryCache())
start = time.time()
print(chat.generate([[HumanMessage(content="고양이 이름 지어줘")]]))
end = time.time()
print(end-start) # 2초

start = time.time()
print(chat.generate([[HumanMessage(content="고양이 이름 지어줘")]]))
end = time.time()
print(end-start) # 0.0019991397857666016초

1. 미야
2. 코코
3. 오레오
4. 토리
5. 루나
6. 찰리
7. 피치
8. 레오
9. 민트
10. 쿠키generations=[[ChatGenerationChunk(text='1. 미야\n2. 코코\n3. 오레오\n4. 토리\n5. 루나\n6. 찰리\n7. 피치\n8. 레오\n9. 민트\n10. 쿠키', generation_info={'finish_reason': 'stop'}, message=AIMessageChunk(content='1. 미야\n2. 코코\n3. 오레오\n4. 토리\n5. 루나\n6. 찰리\n7. 피치\n8. 레오\n9. 민트\n10. 쿠키'))]] llm_output={'token_usage': {}, 'model_name': 'gpt-3.5-turbo'} run=[RunInfo(run_id=UUID('78103fd1-7f3d-4917-8467-19e6f898858f'))]
2.3479416370391846
generations=[[ChatGenerationChunk(text='1. 미야\n2. 코코\n3. 오레오\n4. 토리\n5. 루나\n6. 찰리\n7. 피치\n8. 레오\n9. 민트\n10. 쿠키', generation_info={'finish_reason': 'stop'}, message=AIMessageChunk(content='1. 미야\n2. 코코\n3. 오레오\n4. 토리\n5. 루나\n6. 찰리\n7. 피치\n8. 레오\n9. 민트\n10. 쿠키'))]] llm_output={'token_usage': {}, 'model_name': 'gpt-3.5-turbo'} run=[RunInfo(run_id=UUID('c5d2ce57-6a17-4130-8f08-32a66663e106'))]
0.0010640621185302734


In [7]:
chat = ChatOpenAI(temperature=.7,
                  callbacks=([StreamingStdOutCallbackHandler()]),  # 콜백 기능 지원
                  streaming=True,
                  verbose=True,
                  openai_api_key=openai_api_key,
                  cache=False # False로 사용
                  )

set_llm_cache(InMemoryCache())
start = time.time()
print(chat.generate([[HumanMessage(content="고양이 이름 지어줘")]]))
end = time.time()
print(end - start)  # 2초

start = time.time()
print(chat.generate([[HumanMessage(content="고양이 이름 지어줘")]]))
end = time.time()
print(end - start)  # 2초

1. 미야 (Miya)
2. 레오 (Leo)
3. 루나 (Luna)
4. 코코 (Coco)
5. 토마스 (Thomas)
6. 블루 (Blue)
7. 다이아 (Dia)
8. 나비 (Navi)
9. 토리 (Tori)
10. 씨앗 (C.C)generations=[[ChatGenerationChunk(text='1. 미야 (Miya)\n2. 레오 (Leo)\n3. 루나 (Luna)\n4. 코코 (Coco)\n5. 토마스 (Thomas)\n6. 블루 (Blue)\n7. 다이아 (Dia)\n8. 나비 (Navi)\n9. 토리 (Tori)\n10. 씨앗 (C.C)', generation_info={'finish_reason': 'stop'}, message=AIMessageChunk(content='1. 미야 (Miya)\n2. 레오 (Leo)\n3. 루나 (Luna)\n4. 코코 (Coco)\n5. 토마스 (Thomas)\n6. 블루 (Blue)\n7. 다이아 (Dia)\n8. 나비 (Navi)\n9. 토리 (Tori)\n10. 씨앗 (C.C)'))]] llm_output={'token_usage': {}, 'model_name': 'gpt-3.5-turbo'} run=[RunInfo(run_id=UUID('2826d826-86b9-4768-8dba-df1942dcb5cf'))]
2.8188323974609375
1. 미야 (Miya)
2. 코코 (Coco)
3. 레오 (Leo)
4. 루나 (Luna)
5. 민트 (Mint)
6. 오렌지 (Orange)
7. 라일리 (Riley)
8. 소피 (Sophie)
9. 토리 (Tori)
10. 맥스 (Max)generations=[[ChatGenerationChunk(text='1. 미야 (Miya)\n2. 코코 (Coco)\n3. 레오 (Leo)\n4. 루나 (Luna)\n5. 민트 (Mint)\n6. 오렌지 (Orange)\n7. 라일리 (Riley)\n8. 소피 (Sophie)\n9. 토리 (Tori)\n10. 맥스 (Ma

### embedding

There is a function that uses embeddings. Rather than using embeddings directly, they are often used as arguments passed to create Vector indices, and OpenAI's embeddings are often used, but it is also recommended to use the embeddings provided by the huggingface to save money. 

In [8]:

from langchain.embeddings import OpenAIEmbeddings
from langchain.embeddings import HuggingFaceEmbeddings

# 임베딩 모델
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002', openai_api_key=openai_api_key)

text = "안녕하세요! 해변에 갈 시간입니다"
text_embedding = embeddings.embed_query(text)

print (f"임베딩 길이 : {len(text_embedding)}")
print (f"샘플은 다움과 같습니다 : {text_embedding[:5]}...")

# 다중 문서 임베딩
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002', openai_api_key=openai_api_key)
text_embedding = embeddings.embed_documents(
    [
        "Hi there!",
        "Oh, hello!",
        "What's your name?",
        "My friends call me World",
        "Hello World!"
    ]
)
print(f"임베딩 길이 : {len(text_embedding)}, {len(text_embedding[0])}")
print(f"샘플은 다움과 같습니다 : {text_embedding[0][:5]}...")


# 허깅페이스 모델 센텐스 트랜스포머 임베딩 # pip install sentence_transformers
hf_embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2",
    model_kwargs={'device': 'cpu'}, # 모델의 전달할 키워드 인수
    # encode_kwargs={'normalize_embeddings': False},  # 모델의 `encode` 메서드를 호출할 때 전달할 키워드 인수
)
text = "안녕하세요! 해변에 갈 시간입니다"
text_embedding = hf_embeddings.embed_query(text)
print (f"임베딩 길이 : {len(text_embedding)}")
print (f"샘플은 다움과 같습니다 : {text_embedding[:5]}...")

임베딩 길이 : 1536
샘플은 다움과 같습니다 : [0.0062775725893334435, -0.02553328215339524, -0.01215778989813698, -0.013727984797761118, -0.02054711352729209]...
임베딩 길이 : 5, 1536
샘플은 다움과 같습니다 : [-0.020262643931117454, -0.006984279861728337, -0.022630838723440946, -0.02634143617913019, -0.03697932214749123]...


Downloading (…)99753/.gitattributes:   0%|          | 0.00/1.18k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)0cdb299753/README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

Downloading (…)db299753/config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

Downloading (…)753/data_config.json:   0%|          | 0.00/39.3k [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading (…)99753/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

Downloading (…)9753/train_script.py:   0%|          | 0.00/13.1k [00:00<?, ?B/s]

Downloading (…)0cdb299753/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)b299753/modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

임베딩 길이 : 768
샘플은 다움과 같습니다 : [0.011741535738110542, -0.0317050963640213, -0.013708160258829594, 0.013744894415140152, 0.04403567686676979]...


### prompt template

Define and use a prompt template. You can use them for anything from prompts with no input variables to prompts with multiple input variables. 
Once you've defined a template and given it arguments that become variables via {}, you can continue to use it via format.

In [9]:
from langchain.prompts import ChatPromptTemplate, PromptTemplate

# 입력 변수가 없는 프롬프트 예제
no_input_prompt = PromptTemplate(input_variables=[], template="Tell me a joke.")
prompt = no_input_prompt.format()
print(prompt)


# 하나의 입력 변수가 있는 예제 프롬프트
one_input_prompt = PromptTemplate(template="Tell me a {adjective} joke.", input_variables=["adjective"],)
prompt = one_input_prompt.format(adjective="funny")
print(prompt)


# 여러 입력 변수가 있는 프롬프트 예제
multiple_input_prompt = PromptTemplate(template="Tell me a {adjective} joke about {content}.",
                                       input_variables=["adjective", "content"],
                                       )
prompt = multiple_input_prompt.format(adjective="funny", content="chickens")
print(prompt)


# input_variables를 지정 안한 프롬프트 예제
no_variable_prompt = PromptTemplate.from_template("What is a good name for a company that makes {product}?")
prompt = no_variable_prompt.format(product="colorful socks")
print(prompt)


# ChatPrompt 예제
chat_prompt = ChatPromptTemplate.from_messages([
    ("system", "You are a helpful assistant that translates {input_language} to {output_language}."),
    ("human", "{human_text}"),
])

message = chat_prompt.format_messages(input_language="English",
                                      output_language="French",
                                      human_text="I love programming.")
print(message)


Tell me a joke.
Tell me a funny joke.
Tell me a funny joke about chickens.
What is a good name for a company that makes colorful socks?
[SystemMessage(content='You are a helpful assistant that translates English to French.'), HumanMessage(content='I love programming.')]


### Output Parser

Typically, LLM outputs text. However, you may want to get more structured information.
In this case, you can use an output parser to structure the LLM response.
The output parser has two concepts

- Format instructions: You tell the LLM how you want the results to be formatted.
- Parser: Tells it to extract the desired textual output structure (usually json).

This output parser allows users to specify an arbitrary JSON schema and query the LLM for JSON output that conforms to that schema.

Keep in mind that large language models are leaky abstractions! 
You should use an LLM with sufficient capacity to generate well-formed JSON. 
In the OpenAI suite, Da Vinci can be handled reliably, but Curry already has a steep performance drop-off.
Use Pydantic to declare your data model. Pydantic's BaseModel is like a Python data class, but with real type checking + coercion.

In [10]:
from langchain.llms import OpenAI
from langchain.prompts import PromptTemplate
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.schema import BaseOutputParser
from langchain.output_parsers import (PydanticOutputParser,
                                      OutputFixingParser,
                                      RetryWithErrorOutputParser,
                                      CommaSeparatedListOutputParser,
                                      )
from pydantic import BaseModel, Field, validator

In [11]:
"""
CommaSeparatedListOutputParser

You tell the LLM how you want the results to be formatted by explicitly calling get_format_instructions.
The syntax below is passed as the query statement, and that's how many tokens are consumed.
"Your response should be a list of comma separated values, "
"eg: `foo, bar, baz`"
"""

output_parser = CommaSeparatedListOutputParser()
format_instructions = output_parser.get_format_instructions()

prompt = PromptTemplate(
    template="List five {subject}.\n{format_instructions}",
    input_variables=["subject"],
    partial_variables={"format_instructions": format_instructions}
)

model = OpenAI(temperature=0, openai_api_key=openai_api_key)
_input = prompt.format(subject="ice cream flavors") # 'List five ice cream flavors.\nYour response should be a list of comma separated values, eg: `foo, bar, baz`'
output = model(_input)
print(output_parser.parse(output))

['Vanilla', 'Chocolate', 'Strawberry', 'Mint Chocolate Chip', 'Cookies and Cream']


In [12]:
"""
It can be used similarly to a JSON parser / Function calling.

Pydantic makes it easy to add custom validation logic.
Pydantic's BaseModel is similar to a Python data class, but with real type checking + coercion.
"""
    
class Joke(BaseModel):

    setup: str = Field(description="question to set up a joke")
    punchline: str = Field(description="answer to resolve the joke")

    @validator("setup")
    def question_ends_with_question_mark(cls, field):
        if field[-1] != "?":
            raise ValueError("Badly formed question!")
        return field


"""
You tell the LLM how you want the results to be formatted by explicitly calling get_format_instructions.
The syntax below is passed as the query statement, and that's how many tokens are consumed.

The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {{"properties": {{"foo": {{"title": "Foo", "description": "a list of strings", "type": "array", "items": {{"type": "string"}}}}}}, "required": ["foo"]}}
the object {{"foo": ["bar", "baz"]}} is a well-formatted instance of the schema. The object {{"properties": {{"foo": ["bar", "baz"]}}}} is not well-formatted.

Here is the output schema:
```
{schema}
```
"""
parser = PydanticOutputParser(pydantic_object=Joke)

prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

model = OpenAI(temperature=0,
               callbacks=([StreamingStdOutCallbackHandler()]),
               streaming=True ,
               verbose=True,
               openai_api_key=openai_api_key)

prompt_and_model = prompt | model
output = prompt_and_model.invoke({"query": "Tell me a joke."})

print(output)


{"setup": "Why did the chicken cross the road?", "punchline": "To get to the other side!"}
{"setup": "Why did the chicken cross the road?", "punchline": "To get to the other side!"}


In [13]:
class Action(BaseModel):
    action: str = Field(description="action to take")
    action_input: str = Field(description="input to the action")


parser = PydanticOutputParser(pydantic_object=Action)

prompt = PromptTemplate(
    template="Answer the user query.\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

prompt_value = prompt.format_prompt(query="who is leo di caprios gf?")
bad_response = '{"action": "search"}'
# parser.parse(bad_response)

"""
If you run parser.parse(bad_response), you will get an error because there is no error action_input. 

langchain.schema.output_parser.OutputParserException: Failed to parse Action from completion {"action": "search"}. Got: 1 validation error for Action
action_input
field required (type=value_error.missing)
"""

model = OpenAI(temperature=0, openai_api_key=openai_api_key)

# Auto-Fixing Parser 활용
fix_parser = OutputFixingParser.from_llm(parser=parser, llm=model)
output = fix_parser.parse(bad_response)
print(output)

#대신, 프롬프트 (원래 출력뿐만 아니라)를 통과하는 RetryOutputParser를 사용하여 더 나은 응답을 얻기 위해 다시 시도 할 수 있습니다.
retry_parser = RetryWithErrorOutputParser.from_llm(parser=parser, llm=model)
output = retry_parser.parse_with_prompt(bad_response, prompt_value)
print(output)

action='search' action_input=''
action='search' action_input='who is leo di caprios gf?'


### Custom output parser
If you want to define a custom parser, you can do so by inheriting from BaseOutputParser. 
You can create your own custom output parser by simply overriding the parser function. 
In addition, if you define get_format_instructions and return it as a string, you can pass it to the prompt.

In [14]:
class CustomSpaceSeparatedListOutputParser(BaseOutputParser):
    """Parse the output of an LLM call to a comma-separated list."""

    def parse(self, text: str):
        """Parse the output of an LLM call."""
        return text.strip().split(" ")



parser = CustomSpaceSeparatedListOutputParser()

prompt = PromptTemplate(
    template="Answer the user query.\n\n{query}\n",
    input_variables=["query"],
)

model = OpenAI(temperature=0,
               callbacks=([StreamingStdOutCallbackHandler()]),
               streaming=True ,
               verbose=True,
               openai_api_key=openai_api_key)

prompt_and_model = prompt | model | parser

output = prompt_and_model.invoke({"query": "Tell me a joke."})
print(output)


Q: What did the fish say when it hit the wall?
A: Dam!['Q:', 'What', 'did', 'the', 'fish', 'say', 'when', 'it', 'hit', 'the', 'wall?\nA:', 'Dam!']


### Link Chain

The most common and valuable configurations are

PromptTemplate / ChatPromptTemplate -> LLM / ChatModel -> OutputParser.

Almost every chain you build uses this building block.

It allows you to link chains with chains, and is very versatile. 

In [15]:
from langchain.chains import LLMChain, SimpleSequentialChain, SequentialChain

# 프롬프트 템플릿 생성
prompt = PromptTemplate(
    input_variables=["question"],
    template="""Q: {question}\nA:"""
)

# LLMChain 생성
llm_chain = LLMChain(
    llm=model,
    prompt=prompt,
    verbose=True
)

# LLMChain 실행
question = "기타를 잘 치는 방법은?"
print(llm_chain.predict(question=question))



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mQ: 기타를 잘 치는 방법은?
A:[0m
 기타를 잘 치는 방법은 다음과 같습니다.

1. 손가락 위치를 잘 잡아야 합니다. 기타는 손가락의 위치에 따라 소리가 달라집니다.

2. 손가락을 잘 움직여야 합니다. 손가락을 잘 움직이면 소리가 더 잘 납니다.

3. 손가락의 압력
[1m> Finished chain.[0m
 기타를 잘 치는 방법은 다음과 같습니다.

1. 손가락 위치를 잘 잡아야 합니다. 기타는 손가락의 위치에 따라 소리가 달라집니다.

2. 손가락을 잘 움직여야 합니다. 손가락을 잘 움직이면 소리가 더 잘 납니다.

3. 손가락의 압력


In [16]:
# LangChain Expression Language (LCEL) 
# The LangChain Expression Language is a declarative way to organize chains and provide built-in streaming, batch, and asynchronous support. 
# LCEL makes it easier to use LangChain.
# It's a simple way to connect via |, the difference being that it uses invoke.

prompt = PromptTemplate(
    input_variables=["question"],
    template="""Q: {question}\nA:"""
)
question = "기타를 잘 치는 방법은?"
parser = CommaSeparatedListOutputParser()
chain = prompt | model | parser
output = chain.invoke({"question": question})
print(output)

['기타를 잘 치는 방법은 다음과 같습니다.\n\n1. 손가락 위치를 잘 잡아야 합니다. 기타는 손가락의 위치에 따라 소리가 달라집니다.\n\n2. 손가락을 잘 움직여야 합니다. 손가락을 잘 움직이면 소리가 더 잘 납니다.\n\n3. 손가락의 압력']


In [17]:
# SimpleSequentialChain

template1 = """당신은 극작가입니다. 연극 제목이 주어졌을 때, 그 줄거리를 작성하는 것이 당신의 임무입니다.

제목:{title}
시놉시스:"""
prompt1 = PromptTemplate(input_variables=["title"], template=template1)
chain1 = LLMChain(llm=model, prompt=prompt1)

template2 = """당신은 연극 평론가입니다. 연극의 시놉시스가 주어지면 그 리뷰를 작성하는 것이 당신의 임무입니다.

시놉시스:
{synopsis}
리뷰:"""
prompt2 = PromptTemplate(input_variables=["synopsis"], template=template2)
chain2 = LLMChain(llm=model,prompt=prompt2)

# SimpleSequentialChain으로 두 개의 체인을 연결
overall_chain = SimpleSequentialChain(
    chains=[chain1, chain2],
    verbose=True
)
print(overall_chain("서울 랩소디"))



[1m> Entering new SimpleSequentialChain chain...[0m

서울 랩소디는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 그녀는 새로운 사람들과 함께 서울의 밤을 즐기며, 새로운[36;1m[1;3m
서울 랩소디는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 그녀는 새로운 사람들과 함께 서울의 밤을 즐기며, 새로운[0m


"서울 랩소디"는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 이 연극은 서울의 밤을 배경으로 하는 이야기를 다루고 있[33;1m[1;3m

"서울 랩소디"는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 이 연극은 서울의 밤을 배경으로 하는 이야기를 다루고 있[0m

[1m> Finished chain.[0m
{'input': '서울 랩소디', 'output': '\n\n"서울 랩소디"는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 이 연극은 서울의 밤을 배경으로 하는 이야기를 다루고 있'}


In [18]:
template1 = """당신은 극작가입니다. 연극 제목이 주어졌을 때, 그 줄거리를 작성하는 것이 당신의 임무입니다.

제목:{title}
시놉시스:"""
prompt1 = PromptTemplate(input_variables=["title"], template=template1)
chain1 = LLMChain(llm=model, prompt=prompt1, output_key="synopsis")

template2 = """당신은 연극 평론가입니다. 연극의 시놉시스가 주어지면 그 리뷰를 작성하는 것이 당신의 임무입니다.

시놉시스:
{synopsis}
리뷰:"""
prompt2 = PromptTemplate(input_variables=["synopsis"], template=template2)
chain2 = LLMChain(llm=model, prompt=prompt2, output_key="review")

overall_chain = SequentialChain(
    chains=[chain1, chain2],
    input_variables=["title"],
    output_variables=["synopsis", "review"],
    verbose=True
)
print(overall_chain("서울 랩소디"))



[1m> Entering new SequentialChain chain...[0m

[1m> Finished chain.[0m
{'title': '서울 랩소디', 'synopsis': '\n서울 랩소디는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 그녀는 새로운 사람들과 함께 서울의 밤을 즐기며, 새로운', 'review': '\n\n"서울 랩소디"는 서울의 밤을 배경으로 하는 이야기입니다. 주인공은 서울의 밤을 사랑하는 랩소디로, 그녀는 서울의 밤을 여행하며 새로운 인연과 만남을 경험합니다. 이 연극은 서울의 밤을 배경으로 하는 이야기를 다루고 있'}


### Text Split

This function allows you to split text into chunks. You can cut it into characters, and you can cut it to a size that fits your tokenizer. You can also split documents like HTML into tags. 

In [19]:
from langchain.text_splitter import CharacterTextSplitter
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import HTMLHeaderTextSplitter
from transformers import GPT2TokenizerFast

with open('/kaggle/input/langchain-tutorial/akazukin_all.txt', encoding='utf-8') as f:
    akazukin_all = f.read()


In [20]:

# separator로 자르고 글자 수에 맞춰서 자른다.
text_splitter = CharacterTextSplitter(
    separator = "\n\n",
    chunk_size = 20,
    chunk_overlap  = 2,
    length_function = len,
    is_separator_regex = False,
)

texts = text_splitter.split_text(akazukin_all)
print(texts)


# "\n\n", "\n", " ", ""을 알아서 찾아서 리컬시브하게 알아서, 나눠서 글수 단위로 자른다.
text_splitter = RecursiveCharacterTextSplitter(
    # separator="\n\n" 따로 지정해줄 필요가 없다.
    chunk_size = 20,
    chunk_overlap  = 2,
    length_function = len,
    is_separator_regex = False,
)
texts = text_splitter.split_text(akazukin_all)
print(texts)


# 토큰 베이스 스플릿
tokenizer = GPT2TokenizerFast.from_pretrained("gpt2")
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(tokenizer, chunk_size=20, chunk_overlap=2)
texts = text_splitter.split_text(akazukin_all)
print(texts)


# HTML 스플릿
html_string = """
<!DOCTYPE html>
<html>
<body>
    <div>
        <h1>Foo</h1>
        <p>Some intro text about Foo.</p>
        <div>
            <h2>Bar main section</h2>
            <p>Some intro text about Bar.</p>
            <h3>Bar subsection 1</h3>
            <p>Some text about the first subtopic of Bar.</p>
            <h3>Bar subsection 2</h3>
            <p>Some text about the second subtopic of Bar.</p>
        </div>
        <div>
            <h2>Baz</h2>
            <p>Some text about Baz</p>
        </div>
        <br>
        <p>Some concluding text about Foo</p>
    </div>
</body>
</html>
"""

# 헤드만 따고 싶다.
headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on) # pip install lxml
html_header_splits = html_splitter.split_text(html_string)
print(html_header_splits)

["제목: '전뇌 빨간 망토'", '제1장: 데이터 프론트', '밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온사인이 거리를 수놓는다. 그 거리에서 빨간 두건을 쓴 소녀 미코는 불법 데이터 카우리아를 운반하는 배달원으로 일하고 있었다. 그녀는 어머니가 병에 걸려 치료비를 벌기 위해 데이터카우리아에 몸을 던지고 있었다.', "그러던 어느 날, 미코는 중요한 데이터를 운반하는 임무를 맡게 된다. 그 데이터에는 거대 기업 '울프 코퍼레이션'의 시민에 대한 악랄한 지배를 폭로하는 정보가 담겨 있었다. 그녀는 데이터를 받아 목적지로 향한다.", '제2장: 울프 코퍼레이션의 함정', "미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 대한 소문을 듣고 데이터를 탈취하려 했다. 미코는 교묘하게 요원들을 흩뿌리고 술집에 도착한다.", '제3장: 배신과 재회', "술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기다리고 있었다. 료는 그녀의 어릴 적 친구이자 그 역시 울프 코퍼레이션과 싸우는 해커 집단의 일원이었다. 하지만 료는 미코에게 배신감을 느꼈고, 그녀가 데이터 카우리아에 몸을 던진 것에 화가 났다.", '그럼에도 불구하고 미코는 료에게 데이터를 건네며 울프 코퍼레이션에 대한 반격을 믿기로 한다. 두 사람은 함께 울프 코퍼레이션의 음모를 밝혀내고 시민들을 구하기로 결심한다.', '제4장: 울프 코퍼레이션의 붕괴', '미코와 료는 해커 집단과 함께 울프 코퍼레이션에 대한 최후의 결전을 벌인다. 능숙한 해킹 기술과 신체 능력으로 그들은 울프 코퍼레이션의 보안을 차례로 뚫어 나간다. 그 과정에서 미코는 울프 코퍼레이션이 어머니의 병에 관여하고 있다는 사실을 알게 된다. 그녀는 분노에 휩싸여 울프코퍼레이션에 대한 복수를 다짐한다.', '제5장: 결전의 순간', '미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인 교활한 울프 박사와 대면한다. 울프 박사는

Downloading (…)olve/main/vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

Downloading (…)olve/main/merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

["제목: '전뇌 빨간 망토'", '제1장: 데이터 프론트', '밤이 되면 반짝이는 네오 도쿄. 고층 빌딩이 늘어서고, 네온사인이 거리를 수놓는다. 그 거리에서 빨간 두건을 쓴 소녀 미코는 불법 데이터 카우리아를 운반하는 배달원으로 일하고 있었다. 그녀는 어머니가 병에 걸려 치료비를 벌기 위해 데이터카우리아에 몸을 던지고 있었다.', "그러던 어느 날, 미코는 중요한 데이터를 운반하는 임무를 맡게 된다. 그 데이터에는 거대 기업 '울프 코퍼레이션'의 시민에 대한 악랄한 지배를 폭로하는 정보가 담겨 있었다. 그녀는 데이터를 받아 목적지로 향한다.", '제2장: 울프 코퍼레이션의 함정', "미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 대한 소문을 듣고 데이터를 탈취하려 했다. 미코는 교묘하게 요원들을 흩뿌리고 술집에 도착한다.", '제3장: 배신과 재회', "술집 '할머니의 집'에서 미코는 데이터를 받을 사람인 료를 기다리고 있었다. 료는 그녀의 어릴 적 친구이자 그 역시 울프 코퍼레이션과 싸우는 해커 집단의 일원이었다. 하지만 료는 미코에게 배신감을 느꼈고, 그녀가 데이터 카우리아에 몸을 던진 것에 화가 났다.", '그럼에도 불구하고 미코는 료에게 데이터를 건네며 울프 코퍼레이션에 대한 반격을 믿기로 한다. 두 사람은 함께 울프 코퍼레이션의 음모를 밝혀내고 시민들을 구하기로 결심한다.', '제4장: 울프 코퍼레이션의 붕괴', '미코와 료는 해커 집단과 함께 울프 코퍼레이션에 대한 최후의 결전을 벌인다. 능숙한 해킹 기술과 신체 능력으로 그들은 울프 코퍼레이션의 보안을 차례로 뚫어 나간다. 그 과정에서 미코는 울프 코퍼레이션이 어머니의 병에 관여하고 있다는 사실을 알게 된다. 그녀는 분노에 휩싸여 울프코퍼레이션에 대한 복수를 다짐한다.', '제5장: 결전의 순간', '미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인 교활한 울프 박사와 대면한다. 울프 박사는

### Document

Create a document. You can use document directly to create a document, or you can import another type of file to create a document automatically. In this case, we will use the split we used earlier. Creating a document like this will make it easier to use later in vector index. 

In [21]:
import pandas as pd
from langchain.document_loaders import PyPDFLoader, DataFrameLoader, BSHTMLLoader
from langchain.schema import Document


# document 만들기
my_page = Document(
page_content="이 문서는 제 문서입니다. 다른 곳에서 수집한 텍스트로 가득합니다.",
metadata={'explain': 'The LangChain Papers'})
print(my_page)


# 다중 문서 만들기
my_list = [
"Hi there!",
"Oh, hello!",
"What's your name?",
"My friends call me World",
"Hello World!"
]

my_pages = [Document(page_content = i) for i in my_list]
print(my_pages)

page_content='이 문서는 제 문서입니다. 다른 곳에서 수집한 텍스트로 가득합니다.' metadata={'explain': 'The LangChain Papers'}
[Document(page_content='Hi there!'), Document(page_content='Oh, hello!'), Document(page_content="What's your name?"), Document(page_content='My friends call me World'), Document(page_content='Hello World!')]


In [22]:
# PyPDF Loader # pip install pypdf

loader = PyPDFLoader("/kaggle/input/langchain-tutorial/field-guide-to-data-science.pdf")
pages = loader.load_and_split()
print(pages[:2])

[Document(page_content='DATA SCIENCEtoTHE\nFIEL D GUIDE\n    \n \nSECOND  \nEDITION\n© COPYRIGHT 2015 BOOZ ALLEN HAMILTON INC. ALL RIGHTS RESERVED.', metadata={'source': '/kaggle/input/langchain-tutorial/field-guide-to-data-science.pdf', 'page': 1}), Document(page_content='FOREWORD\nData Science touches every aspect of our lives on a \ndaily basis. When we visit the doctor, drive our cars, \nget on an airplane, or shop for services, Data Science \nis changing the way we interact with and explore  \nour world.  \nOur world is now measured, \nmapped, and recorded in digital \nbits. Entire lives, from birth to \ndeath, are now catalogued in \nthe digital realm. These data, \noriginating from such diverse \nsources as connected vehicles, \nunderwater microscopic cameras, \nand photos we post to social \nmedia, have propelled us into \nthe greatest age of discovery \nhumanity has ever known. It is \nthrough Data Science that we \nare unlocking the secrets hidden \nwithin these data. We are 

In [23]:
# DataFrame Loader
df = pd.read_csv("/kaggle/input/langchain-tutorial/mlb_teams_2012.csv")
loader = DataFrameLoader(df, page_content_column="Team")
pages = loader.load_and_split()
print(pages[:5])

[Document(page_content='Nationals', metadata={' "Payroll (millions)"': 81.34, ' "Wins"': 98}), Document(page_content='Reds', metadata={' "Payroll (millions)"': 82.2, ' "Wins"': 97}), Document(page_content='Yankees', metadata={' "Payroll (millions)"': 197.96, ' "Wins"': 95}), Document(page_content='Giants', metadata={' "Payroll (millions)"': 117.62, ' "Wins"': 94}), Document(page_content='Braves', metadata={' "Payroll (millions)"': 83.31, ' "Wins"': 94})]


In [24]:
# BS4 HTML Loader
loader = BSHTMLLoader("/kaggle/input/langchain-tutorial/fake-content.html")
pages = loader.load_and_split()
print(pages[:5])

[Document(page_content='Test Title\n\n\nMy First Heading\nMy first paragraph.', metadata={'source': '/kaggle/input/langchain-tutorial/fake-content.html', 'title': 'Test Title'})]


### vector index

The vector index is the most basic element of RAG. They are used to find the most similar sentences to a query to get a more accurate answer. This example uses a library called Faiss to show how it works. Metadata can provide additional information about what a document is about. This can lead to finding more accurate documents. similarity_search compares cosine similarity and uses k documents. 

In [25]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores.faiss import FAISS

# 데이터 준비
with open('/kaggle/input/langchain-tutorial/akazukin_all.txt', encoding='utf-8') as f:
    akazukin_all = f.read()

# 청크 분할
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,  # 청크의 최대 문자 수
    chunk_overlap=20,  # 최대 오버랩 문자 수
)
texts = text_splitter.split_text(akazukin_all)

# 확인
print(len(texts))
for text in texts:
    print(text[:10], ":", len(text))

# 메타데이터 준비
metadatas = [
    {"source": "1장"},
    {"source": "2장"},
    {"source": "3장"},
    {"source": "4장"},
    {"source": "5~6장"},
    {"source": "7장"}
]

# Faiss 벡터 인덱스 생성
embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
docsearch = FAISS.from_texts(texts=texts,  # 청크 배열
                             embedding=embeddings,  # 임베딩
                             metadatas=metadatas  # 메타데이터
                             )

query="미코의 소꿉친구 이름은?"
docs = docsearch.similarity_search(query, k=3)

for i in docs:
    print(i.page_content)


6
제목: '전뇌 빨간 : 299
제2장: 울프 코퍼 : 162
제3장: 배신과 재 : 273
제4장: 울프 코퍼 : 206
제5장: 결전의 순 : 294
제7장: 새로운 시 : 195
제2장: 울프 코퍼레이션의 함정

미코는 목적지인 술집 '할머니의 집'으로 향하는 길에 울프 코퍼레이션의 요원들에게 쫓기게 된다. 그들은 '빨간 망토'라는 데이터 카우리아에 대한 소문을 듣고 데이터를 탈취하려 했다. 미코는 교묘하게 요원들을 흩뿌리고 술집에 도착한다.

제3장: 배신과 재회
제5장: 결전의 순간

미코와 료는 마침내 울프 코퍼레이션의 최상층에 도착해 CEO인 교활한 울프 박사와 대면한다. 울프 박사는 시민을 지배하려는 사악한 야망을 드러내며 자신의 압도적인 힘을 과시한다. 하지만 미코와 료는 서로를 도와가며 울프 박사와 싸우고 그의 약점을 찾아낸다.

제6장: 진실의 해방

미코는 울프 박사의 약점을 파고들어 그를 쓰러뜨리는데 성공한다. 그리고 해커 집단과 함께 울프 코퍼레이션의 악행을 세상에 공개하고 시민들을 해방시킨다. 이 승리로 미코의 어머니의 치료법도 찾아내고, 그녀의 병은 완치된다.
제7장: 새로운 시작

울프 코퍼레이션이 무너진 후, 미코와 료는 서로의 과거를 용서하고 다시 우정을 회복한다. 미코는 데이터카우리아를 그만두고 료와 함께 새로운 길을 걷기 시작한다. 그들은 스스로의 힘으로 미래의 네오 도쿄를 더 나은 도시로 바꾸어 나갈 것을 다짐한다. 이것은 미코와 료, 그리고 전뇌 빨간 망토의 새로운 모험의 시작이었다.

결말


# Part.2에서 계속 