# Langchain 소개
LLM을 원동력으로 하는 애플리케이션을 구축하기 위해서는 당연하게도 단순 언어 모델 개발 이상의 작업이 요구됩니다. 
- 특히 언어 모델을 활용한 서비스 개발 시 가장 까다로운 부분은 언어 모델과 여러 기능 간의 연결입니다. 
- 랭체인(LangChain)은 이러한 통합을 간소화하도록 설계된 일종의 SDK(Software Development Kit)이자 다양한 언어 모델을 기반으로 하는 애플리케이션 개발을 위한 프레임워크

### Langchain의 목적
1. 개발 용이성 증진: Langchain은 복잡한 언어 모델을 쉽게 통합하고 활용할 수 있도록 설계되었습니다. 이를 통해 개발자들은 언어 모델의 기능을 빠르고 효율적으로 탐색하고, 이를 다양한 애플리케이션에 적용할 수 있습니다.

2. 응용 프로그램 개발 가속화: Langchain은 다양한 언어 처리 기능을 제공함으로써, 개발자들이 복잡한 언어 기반 애플리케이션을 더 빠르게 구축할 수 있도록 돕습니다.

3. 혁신 촉진: 이 프레임워크는 새로운 아이디어와 실험을 쉽게 시도할 수 있는 환경을 제공함으로써, 언어 기술의 혁신적인 사용을 장려합니다.

### 중요성
1. 접근성 향상: Langchain은 복잡한 기술적 지식이 없는 개발자들도 고급 언어 모델을 활용할 수 있게 함으로써, 인공지능 기술의 접근성을 높입니다.

2. 다양한 응용: 이 프레임워크는 챗봇, 자동 번역, 콘텐츠 생성, 데이터 분석 등 다양한 분야에서의 응용을 가능하게 합니다.

3. 협업 및 공유 촉진: Langchain을 사용함으로써 개발자들은 자신의 작업을 쉽게 공유하고, 다른 프로젝트와 협업할 수 있습니다.

### 핵심 개념
1. 모듈화: Langchain은 다양한 언어 처리 기능을 모듈로 제공합니다. 이를 통해 개발자들은 필요한 기능을 선택하고 조합하여 사용할 수 있습니다.

2. 확장성: 이 프레임워크는 사용자가 필요에 따라 새로운 기능을 추가하거나 기존 기능을 수정할 수 있도록 설계되었습니다.

3. 사용자 친화적 인터페이스: Langchain은 직관적이고 사용하기 쉬운 인터페이스를 제공하여, 비전문가도 쉽게 사용할 수 있습니다.

4. 통합 및 호환성: 다양한 언어 모델과 기존 시스템, 데이터 소스와의 통합을 지원합니다.


![랭체인](https://miro.medium.com/v2/resize:fit:1400/1*rHnOl_6hxUNoLGyIfBlZgQ.png)

<!-- # 랭체인의 핵심 개념
1. 상황 인식 응용 프로그램
  - 사용자의 현재 상황과 맥락을 이해하고, 이를 바탕으로 보다 관련성 높고 적절한 반응을 제공하는 애플리케이션을 의미
  - Langchain을 사용하면, 언어 모델이 사용자의 질문이나 요청, 그리고 주어진 상황의 맥락을 더 잘 파악 
  예를 들어, 사용자가 특정 주제에 대해 질문할 때, Langchain은 그 질문의 배경, 사용자의 의도, 그리고 그 순간의 특정 상황을 고려하여 보다 정확하고 유용한 답변을 생성

2. 언어 모델을 이용한 추론
  - 언어 모델이 데이터를 분석하고, 그 안에서 패턴을 찾아내며, 이를 바탕으로 결론을 도출하거나 예측하는 과정
  - Langchain은 이러한 추론 과정을 강화하고 최적화
  예를 들어, 어떤 텍스트에서 주요 주제를 파악하거나, 사용자의 질문에 대한 답변을 생성할 때 복잡한 문제 해결, 의사결정 지원, 창의적인 아이디어 생성 등 다양한 분야에서 활용
  
3. 언어모델 역량 강화를 위한 Langchain의 역할
  - Langchain은 언어 모델의 역량을 강화하는 데 중요한 역할을 합니다. 
  예를 들어, Langchain은 언어 모델이 더 정확하게 정보를 추출하고, 사용자의 요구에 맞춘 맞춤형 답변을 제공하며, 심지어 창의적인 콘텐츠를 생성하는 데 도움 -->

# 랭체인 사용하기
All about the Langchian
- PromptTemplate + LLM
- RAG
- Multiple chains
- Querying a SQL DB
- Agents

### 1. PromptTemplate + LLM
프롬프트와 모델을 결합하여 사용자 입력을 받아 프롬프트에 추가하고 모델에 전달

In [1]:
"""
Basic Example
"""

from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

from dotenv import load_dotenv
load_dotenv()

# prompt = ChatPromptTemplate.from_template("{something}에 관련하여 재밌는 농담을 만들워줘!")
prompt = ChatPromptTemplate.from_template("Make a funny joke about {something}!")
model = ChatOpenAI()
chain = prompt | model

In [2]:
chain.invoke({"something": "AI"})

AIMessage(content='Why did the AI go on a diet?\n\nBecause it heard it needed to byte-size its algorithms!')

In [9]:
"""
Attaching Stop Sequences
"""

chain = prompt | model.bind(stop=["\n"])
chain.invoke({"something": "AI"})

AIMessage(content='당신: "AI, 심심한데 농담 좀 해줄래?"')

In [10]:
"""
Attaching Function Call information
"""

functions = [
    {
        "name": "joke",
        "description": "A joke",
        "parameters": {
            "type": "object",
            "properties": {
                "setup": {"type": "string", "description": "The setup for the joke"},
                "punchline": {
                    "type": "string",
                    "description": "The punchline for the joke",
                },
            },
            "required": ["setup", "punchline"],
        },
    }
]
chain = prompt | model.bind(function_call={"name": "joke"}, functions=functions)

In [11]:
chain.invoke({"something": "AI"})

AIMessage(content='', additional_kwargs={'function_call': {'arguments': '{\n  "setup": "왜 AI는 학교에 가지 않을까요?",\n  "punchline": "AI는 학교에 가면 \'놀랍습니다!\'라는 말을 듣지 못하기 때문입니다!"\n}', 'name': 'joke'}})

In [12]:
"""
PromptTemplate + LLM + OutputParser
"""

from langchain_core.output_parsers import StrOutputParser

chain = prompt | model | StrOutputParser()
chain.invoke({"something": "AI"})

'당신은 AI를 좋아하는구나! 재밌는 농담을 하나 만들어줄게요:\n\n왜 AI가 학교에 가지 않았을까요?\n- 왜냐하면 그는 이미 모든 것을 알고 있으니까요!'

In [13]:
"""
Functions Output Parser
"""

from langchain.output_parsers.openai_functions import JsonOutputFunctionsParser

chain = (
    prompt
    | model.bind(function_call={"name": "joke"}, functions=functions)
    | JsonOutputFunctionsParser()
)

In [14]:
chain.invoke({"something": "AI"})

{'setup': '왜 AI는 학교를 가지 않을까요?', 'punchline': '너무 똑똑해서 AI는 이미 모든 것을 알고 있으니까요!'}

In [15]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = (
    prompt
    | model.bind(function_call={"name": "joke"}, functions=functions)
    | JsonKeyOutputFunctionsParser(key_name="setup")
)

chain.invoke({"something": "AI"})

'왜 AI는 학교에 가지 않을까요?'

### 2. RAG(Retrieval-Augmented Generation)
대규모 언어 모델의 출력을 최적화하여 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 프로세스

[테크크런치 뉴스기사: 기술, 스타트업등의 전문 뉴스](https://techcrunch.com) 에서 발췌한 내용으로 RAG 테스트

In [1]:
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA
from langchain.document_loaders import TextLoader
from langchain.document_loaders import DirectoryLoader

from dotenv import load_dotenv
load_dotenv()

True

In [2]:
"""
뉴스기사가 있는 파일을 로드한다
Load a file with a news story
"""

loader = DirectoryLoader('./assets/techcrunch-articles', glob="*.txt", loader_cls=TextLoader)
documents = loader.load()
len(documents)

21

In [3]:
documents[:2]

[Document(page_content='ChatGPT: Everything you need to know about the AI-powered chatbot\n\nChatGPT, OpenAI’s text-generating AI chatbot, has taken the world by storm. It’s able to write essays, code and more given short text prompts, hyper-charging productivity. But it also has a more…nefarious side.\n\nIn any case, AI tools are not going away — and indeed has expanded dramatically since its launch just a few months ago. Major brands are experimenting with it, using the AI to generate ad and marketing copy, for example.\n\nAnd OpenAI is heavily investing in it. ChatGPT was recently super-charged by GPT-4, the latest language-writing model from OpenAI’s labs. Paying ChatGPT users have access to GPT-4, which can write more naturally and fluently than the model that previously powered ChatGPT. In addition to GPT-4, OpenAI recently connected ChatGPT to the internet with plugins available in alpha to users and developers on the waitlist.\n\nHere’s a timeline of ChatGPT product updates and

In [4]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
texts = text_splitter.split_documents(documents)

In [5]:
print(len(texts));
print(texts[0]);

233
page_content='ChatGPT: Everything you need to know about the AI-powered chatbot\n\nChatGPT, OpenAI’s text-generating AI chatbot, has taken the world by storm. It’s able to write essays, code and more given short text prompts, hyper-charging productivity. But it also has a more…nefarious side.\n\nIn any case, AI tools are not going away — and indeed has expanded dramatically since its launch just a few months ago. Major brands are experimenting with it, using the AI to generate ad and marketing copy, for example.\n\nAnd OpenAI is heavily investing in it. ChatGPT was recently super-charged by GPT-4, the latest language-writing model from OpenAI’s labs. Paying ChatGPT users have access to GPT-4, which can write more naturally and fluently than the model that previously powered ChatGPT. In addition to GPT-4, OpenAI recently connected ChatGPT to the internet with plugins available in alpha to users and developers on the waitlist.' metadata={'source': 'assets/techcrunch-articles/05-03-ch

##### Vector Database: Chroma DB

1. Text -> Embbedings
2. `db` 폴더에 데이터 저장
3. DB 초기화
4. `db` 폴더로부터 DB 로드

In [6]:
"""
1. 위에서 로드한 뉴스기사들을 OpenAIEmbeddings 이용하여 백터화
2. db 폴더에 저장
"""

persist_directory = 'db'

embedding = OpenAIEmbeddings()

vectordb = Chroma.from_documents(
    documents=texts, 
    embedding=embedding,
    persist_directory=persist_directory)

  warn_deprecated(


In [7]:
vectordb.persist()
vectordb = None

In [8]:
"""
백터화 시킨 데이터들을 db폴더에서 로드
"""

vectordb = Chroma(
    persist_directory=persist_directory, 
    embedding_function=embedding)

In [9]:
retriever = vectordb.as_retriever()

docs = retriever.get_relevant_documents("What is Generative AI?")

for doc in docs:
    print(doc.metadata["source"])

assets/techcrunch-articles/05-04-slack-updates-aim-to-put-ai-at-the-center-of-the-user-experience.txt
assets/techcrunch-articles/05-03-nova-is-building-guardrails-for-generative-ai-content-to-protect-brand-integrity.txt
assets/techcrunch-articles/05-04-hugging-face-and-servicenow-release-a-free-code-generating-model.txt
assets/techcrunch-articles/05-03-spawning-lays-out-its-plans-for-letting-creators-opt-out-of-generative-ai-training.txt


In [10]:
"""
관련 문서의 개수를 제한
"""

retriever = vectordb.as_retriever(search_kwargs={"k": 3})

In [11]:
docs = retriever.get_relevant_documents("What is Generative AI?")

for doc in docs:
    print(doc.metadata["source"])

assets/techcrunch-articles/05-04-slack-updates-aim-to-put-ai-at-the-center-of-the-user-experience.txt
assets/techcrunch-articles/05-03-nova-is-building-guardrails-for-generative-ai-content-to-protect-brand-integrity.txt
assets/techcrunch-articles/05-04-hugging-face-and-servicenow-release-a-free-code-generating-model.txt


In [12]:
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(), 
    chain_type="stuff", 
    retriever=retriever, 
    return_source_documents=True)

  warn_deprecated(


In [13]:
def process_llm_response(llm_response):
    print(llm_response['result'])
    print('\n\nSources:')
    for source in llm_response["source_documents"]:
        print(source.metadata['source'])

In [14]:
query = "What is Generative AI?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

  warn_deprecated(



Generative AI refers to the use of artificial intelligence (AI) techniques, such as language models, to generate new content or ideas. This can be incorporated into workflows and apps to assist with tasks and produce new content or experiences.


Sources:
assets/techcrunch-articles/05-04-slack-updates-aim-to-put-ai-at-the-center-of-the-user-experience.txt
assets/techcrunch-articles/05-03-nova-is-building-guardrails-for-generative-ai-content-to-protect-brand-integrity.txt
assets/techcrunch-articles/05-04-hugging-face-and-servicenow-release-a-free-code-generating-model.txt


In [16]:
query = "생성 AI란 무엇입니까?"
llm_response = qa_chain(query)

process_llm_response(llm_response)



Generative AI refers to artificial intelligence algorithms and models that can generate new content or creations, such as images, text, or code. These models are trained on large datasets of existing content and can then use that knowledge to produce new, unique outputs. However, there have been legal disputes over the use of copyrighted material in training these models.


Sources:
assets/techcrunch-articles/05-04-microsoft-doubles-down-on-ai-with-new-bing-features.txt
assets/techcrunch-articles/05-05-google-and-openai-are-walmarts-besieged-by-fruit-stands.txt
assets/techcrunch-articles/05-03-spawning-lays-out-its-plans-for-letting-creators-opt-out-of-generative-ai-training.txt


In [17]:
"""
RetrievalQA Chain
"""

qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(), 
    chain_type="stuff", 
    retriever=retriever, 
    return_source_documents=True)

In [20]:
query = "How much money did Pando raise?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 Pando raised $30 million in its Series B round, bringing its total raised to $45 million.


Sources:
assets/techcrunch-articles/05-03-ai-powered-supply-chain-startup-pando-lands-30m-investment.txt
assets/techcrunch-articles/05-03-ai-powered-supply-chain-startup-pando-lands-30m-investment.txt
assets/techcrunch-articles/05-03-ai-powered-supply-chain-startup-pando-lands-30m-investment.txt


In [21]:
query = "Who led the round in Pando?"
llm_response = qa_chain(query)
process_llm_response(llm_response)

 Iron Pillar and Uncorrelated Ventures.


Sources:
assets/techcrunch-articles/05-03-ai-powered-supply-chain-startup-pando-lands-30m-investment.txt
assets/techcrunch-articles/05-03-ai-powered-supply-chain-startup-pando-lands-30m-investment.txt
assets/techcrunch-articles/05-03-ai-powered-supply-chain-startup-pando-lands-30m-investment.txt


In [22]:
query = "What did Databricks acquire?"
llm_response = qa_chain(query)
process_llm_response(llm_response)


Databricks acquired Okera, a data governance platform focused on AI.


Sources:
assets/techcrunch-articles/05-03-databricks-acquires-ai-centric-data-governance-platform-okera.txt
assets/techcrunch-articles/05-03-databricks-acquires-ai-centric-data-governance-platform-okera.txt
assets/techcrunch-articles/05-03-databricks-acquires-ai-centric-data-governance-platform-okera.txt


### 3. Multiple chains

- Langchain에서는 복잡한 작업을 수행하기 위해 여러 체인을 결합하거나 병렬로 실행할 수 있습니다. 
- 이를 통해 데이터 검색 및 언어 처리와 같은 다양한 기능을 통합하여 더 정교한 AI 애플리케이션을 만들 수 있습니다.

In [23]:
from operator import itemgetter

from langchain.schema import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

prompt1 = ChatPromptTemplate.from_template("what is the city {person} is from?")
prompt2 = ChatPromptTemplate.from_template(
    "what country is the city {city} in? respond in {language}"
)

model = ChatOpenAI()

chain1 = prompt1 | model | StrOutputParser()

chain2 = (
    {"city": chain1, "language": itemgetter("language")}
    | prompt2
    | model
    | StrOutputParser()
)

chain2.invoke({"person": "obama", "language": "korean"})

'바락 오바마, 미국 44대 대통령이 태어난 도시는 하와이의 혼룰루입니다.'

In [35]:
"""
Branching and Merging


- (1) planner: {topic}을 인풋으로 받으면 논쟁거리를 생성합니다. 
- (2) arguments_for: planner가 생성한 {topic}의 논쟁거리에 대한 찬성 입장을 생성합니다. 
- (3) agruments_against: planner가 생성한 {topic}의 논쟁거리에 대한 반대 입장을 생성합니다.
- (4) final_responder: (1) 최초 논쟁거리, (2) 찬성 입장, (3) 반대 입장을 모두 고려해서 최종 입장을 생성합니다.
"""

from langchain_core.runnables import RunnablePassthrough

planner = (
    ChatPromptTemplate.from_template("Generate an argument about: {topic}")
    | model
    | StrOutputParser()
    | {"base_response": RunnablePassthrough()}
)

In [36]:
planner.invoke({"topic": "AI"})

{'base_response': "AI, or artificial intelligence, has become an increasingly significant aspect of our lives. While some may argue that AI poses a threat to humanity, it is important to recognize the numerous benefits it brings to society.\n\nOne of the primary advantages of AI is its ability to enhance efficiency and productivity across various industries. AI-powered machines and algorithms can perform complex tasks at a much faster rate than humans, leading to increased output and reduced costs. For example, in the manufacturing sector, robots equipped with AI can assemble products with precision and speed, resulting in higher production rates and improved quality control.\n\nMoreover, AI has the potential to revolutionize healthcare. With its ability to analyze vast amounts of medical data, AI algorithms can support doctors in diagnosing diseases, identifying patterns, and recommending personalized treatment plans. This not only saves time but also improves accuracy, ultimately lea

In [37]:
# 찬성입장
arguments_for = (
    ChatPromptTemplate.from_template(
        "List the pros or positive aspects of {base_response}"
    )
    | ChatOpenAI()
    | StrOutputParser()
)

# 반대입장
arguments_against = (
    ChatPromptTemplate.from_template(
        "List the cons or negative aspects of {base_response}"
    )
    | ChatOpenAI()
    | StrOutputParser()
)

# 최종 입장
final_responder = (
    ChatPromptTemplate.from_messages(
        [
            ("ai", "{original_response}"),
            ("human", "Pros:\n{results_1}\n\nCons:\n{results_2}"),
            ("system", "Generate a final response given the critique"),
        ]
    )
    | ChatOpenAI()
    | StrOutputParser()
)

In [38]:
chain = (
    planner
    | {
        "results_1": arguments_for,
        "results_2": arguments_against, 
        "original_response": itemgetter("base_response"),
    }
    | final_responder
)

chain.invoke({"topic": "AI"})

'While AI has the potential to bring about numerous benefits, it is important to carefully consider and address the potential negative aspects and implications to ensure that the technology is used ethically and responsibly.\n\n1. Job displacement: It is crucial to acknowledge the potential job displacement caused by AI. However, history has shown that technological advancements create new job opportunities that were previously unimaginable. While certain jobs may become automated, new roles will emerge to manage and maintain AI systems, ensuring their smooth operation and ethical use.\n\n2. Ethical concerns: The ethical considerations surrounding AI, such as privacy and data security, are valid concerns. It is essential to establish regulations and guidelines to address these issues, ensuring that AI technologies are developed and used in a responsible and ethical manner.\n\n3. Lack of human judgment and intuition: While AI may lack human judgment and intuition, it is important to not

인공지능은 수많은 이점을 가져올 수 있는 잠재력을 가지고 있지만, 기술이 윤리적으로 그리고 책임감 있게 사용되도록 보장하기 위해 잠재적인 부정적인 측면과 암시를 신중하게 고려하고 해결하는 것이 중요합니다.

1. 직업 이동: 인공지능에 의해 야기된 잠재적인 직업 이동을 인정하는 것은 중요합니다. 그러나 역사는 기술 발전이 이전에는 상상할 수 없었던 새로운 직업 기회를 창출한다는 것을 보여주었습니다. 특정 직업이 자동화될 수 있지만, 인공지능 시스템을 관리하고 유지하는 새로운 역할이 등장하여 원활한 작동과 윤리적 사용을 보장할 것입니다.

2. 윤리적 우려: 개인 정보 보호 및 데이터 보안과 같은 인공지능을 둘러싼 윤리적 고려 사항은 유효한 우려 사항입니다. 인공지능 기술이 책임감 있고 윤리적인 방식으로 개발되고 사용되도록 보장하면서 이러한 문제를 해결하기 위한 규정과 지침을 수립하는 것이 필수적입니다.

3. 인간의 판단과 직관의 부족: 인공지능은 인간의 판단과 직관이 부족할 수 있지만, 인공지능은 인간을 대체하기 위한 것이 아니라 그들의 능력을 증가시키기 위한 것이라는 점에 주목하는 것이 중요합니다. 인공지능과 인간 지능의 강점을 결합함으로써, 우리는 더 나은 결과를 달성하고 더 많은 정보에 입각한 결정을 내릴 수 있습니다.

4. 인공지능에 대한 의존: 인공지능에 대한 과도한 의존은 인간의 기술과 능력의 손실을 초래할 수 있는 것은 사실입니다. 그러나, 인공지능의 한계를 인식하고 균형 잡힌 접근을 촉진함으로써, 우리는 인공지능이 그것들을 대체하기보다 인간의 능력을 향상시키는 도구로 사용되도록 할 수 있습니다.

5. 불평등의 잠재력은 유효한 우려 사항입니다. 이를 해결하기 위해, 인공지능 기술에 대한 동등한 접근을 보장하고 뒤처질 위험이 있을 수 있는 개인과 지역 사회에 훈련과 지원을 제공하기 위해 노력해야 합니다.

6. 예측 불가능성과 투명성의 부족: 신뢰와 책임을 구축하기 위해 투명하고 설명할 수 있는 인공지능 시스템을 개발하는 것이 중요합니다. 연구와 규제는 인공지능 시스템이 이해할 수 있고 인공지능 알고리즘에 의한 결정이 설명되고 정당화될 수 있도록 보장하는 데 초점을 맞춰야 합니다.

7. 특정 산업의 일자리에 대한 위협: 특정 산업의 일자리에 대한 인공지능의 영향은 무시되어서는 안 됩니다. 그러나 인공지능 시스템을 관리하고 유지하는 데 있어서 인공지능이 새로운 직업 기회를 창출할 수 있다는 것을 강조하는 것이 중요합니다. 변화하는 직업 시장에 적응하기 위해 개인을 다시 훈련시키고 기술을 향상시키는 노력이 이루어져야 합니다.

8. 비용과 접근성: 인공지능 기술의 비용과 접근성은 불평등이 악화되는 것을 피하기 위해 해결되어야 합니다. 특히 소규모 조직과 자원이 제한된 국가의 경우 비용을 줄이고 접근성을 높이기 위한 노력이 이루어져야 합니다.

결론적으로, 인공지능은 수많은 이점을 가져올 수 있는 잠재력을 가지고 있지만, 규제, 윤리적 고려 및 일자리와 불평등에 대한 영향을 완화하려는 노력을 통해 잠재적인 부정적인 측면과 함의를 해결하는 것이 중요합니다. 그렇게 함으로써, 우리는 결과를 낳을 수 있습니다

### 4. Querying a SQL DB
- Langchain은 언어 모델을 SQL 쿼리 생성과 통합하여 SQL 데이터베이스를 쿼리할 수 있습니다. 
- 이를 통해 응용 프로그램은 자연어 질문을 SQL 쿼리로 변환하여 관계형 데이터베이스에서 효율적인 데이터 검색을 용이하게 합니다.

In [48]:
from langchain_community.utilities import SQLDatabase
from langchain_experimental.sql import SQLDatabaseChain
from langchain_openai import OpenAI
from langchain.chains import create_sql_query_chain
from langchain.agents import create_sql_agent
from langchain.agents.agent_types import AgentType
from langchain_community.agent_toolkits import SQLDatabaseToolkit

import os

from dotenv import load_dotenv
load_dotenv()


db_conn_url = os.environ['DB_URL']

db = SQLDatabase.from_uri(db_conn_url)

llm = OpenAI(temperature=0, model="gpt-4-32k")

toolkit = SQLDatabaseToolkit(db=db, llm=llm)

In [39]:
# sql_chain = create_sql_query_chain(OpenAI(temperature=0), db)
# sql_result = sql_chain.invoke({"question": "create customers table"})
# print(sql_result)
db.get_table_names()

['customers', 'invoices']

In [49]:
# sql_chain = create_sql_query_chain(llm, db)
# sql_result = sql_chain.invoke({"question": "How many users are there"})
# print(sql_result)

agent_executor = create_sql_agent(
    llm=OpenAI(temperature=0),
    toolkit=toolkit,
    verbose=True,
    agent_type=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
)

In [50]:
agent_executor.run("Describe the customer table")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: sql_db_list_tables
Action Input: [0m
Observation: [38;5;200m[1;3mcustomers, invoices[0m
Thought:[32;1m[1;3m I should query the schema of the customers table.
Action: sql_db_schema
Action Input: customers[0m
Observation: [33;1m[1;3m
CREATE TABLE customers (
	id BIGINT GENERATED BY DEFAULT AS IDENTITY (INCREMENT BY 1 START WITH 1 MINVALUE 1 MAXVALUE 9223372036854775807 CACHE 1 NO CYCLE), 
	name TEXT NOT NULL, 
	email TEXT NOT NULL, 
	country TEXT, 
	city TEXT, 
	created_at TIMESTAMP WITH TIME ZONE DEFAULT now() NOT NULL, 
	CONSTRAINT customers_pkey PRIMARY KEY (id)
)

/*
3 rows from customers table:
id	name	email	country	city	created_at
1	Alice Johnson	alicej@example.com	UK	London	2024-01-18 05:18:36.893370+00:00
2	Bob Smith	bobsmith@example.com	USA	New York	2024-01-18 05:18:36.893370+00:00
3	Carol White	carolw@example.com	Australia	Sydney	2024-01-18 05:18:36.893370+00:00
*/[0m
Thought:[32;1m[1;3m I now know

'CREATE TABLE customers (\n\tid BIGINT GENERATED BY DEFAULT AS IDENTITY (INCREMENT BY 1 START WITH 1 MINVALUE 1 MAXVALUE 9223372036854775807 CACHE 1 NO CYCLE), \n\tname TEXT NOT NULL, \n\temail TEXT NOT NULL, \n\tcountry TEXT, \n\tcity TEXT, \n\tcreated_at TIMESTAMP WITH TIME ZONE DEFAULT now() NOT NULL, \n\tCONSTRAINT customers_pkey PRIMARY KEY (id)\n)\n\n/*\n3 rows from customers table:\nid\tname\temail\tcountry\tcity\tcreated_at\n1\tAlice Johnson\talicej@example.com\tUK\tLondon\t2024-01-18 05:18:36.893370+00:00\n2\tBob Smith\tbobsmith@example.com\tUSA\tNew York\t2024-01-18 05:18:36.893370+00:00\n3\tCarol White\tcarolw@example.com\tAustralia\tSydney\t2024-01-18 05:18:36.893370+00:00\n*/'

In [52]:
agent_executor.run(
    "Look at the invoices, List the total sales per country. Which city's customers spent the most?"
)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mAction: sql_db_list_tables
Action Input: [0m
Observation: [38;5;200m[1;3mcustomers, invoices[0m
Thought:[32;1m[1;3m I should query the invoices table to get the total sales per country.
Action: sql_db_schema
Action Input: invoices[0m
Observation: [33;1m[1;3m
CREATE TABLE invoices (
	id BIGINT GENERATED BY DEFAULT AS IDENTITY (INCREMENT BY 1 START WITH 1 MINVALUE 1 MAXVALUE 9223372036854775807 CACHE 1 NO CYCLE), 
	customer_id BIGINT NOT NULL, 
	billing_address TEXT, 
	billing_city TEXT, 
	billing_country TEXT, 
	billing_postcode TEXT, 
	total BIGINT, 
	created_at TIMESTAMP WITH TIME ZONE DEFAULT now() NOT NULL, 
	CONSTRAINT invoices_pkey PRIMARY KEY (id), 
	CONSTRAINT invoices_customer_id_fkey FOREIGN KEY(customer_id) REFERENCES customers (id) ON DELETE CASCADE
)

/*
3 rows from invoices table:
id	customer_id	billing_address	billing_city	billing_country	billing_postcode	total	created_at
1	1	456 Market St	San Francisco

'San Francisco'

### 5. Agents
AI 애플리케이션에서 복잡한 의사 결정 및 작업 실행을 가능하게 합니다.

In [53]:
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from langchain.agents import AgentType
from langchain.llms import OpenAI

llm = OpenAI(temperature=0)
tool_names = ["serpapi"]
tools = load_tools(tool_names)
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

  warn_deprecated(
  warn_deprecated(


In [54]:
agent.run("한국의 대통령은 누구야?")



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m I should use a search engine to find the answer.
Action: Search
Action Input: South Korea president[0m
Observation: [36;1m[1;3mYoon Suk Yeol[0m
Thought:[32;1m[1;3m I should double check to make sure this is the correct answer.
Action: Search
Action Input: Yoon Suk Yeol[0m
Observation: [36;1m[1;3m[{'title': "South Korea's Yoon pledges to extend tax benefits for chip investments", 'link': 'https://www.reuters.com/technology/south-koreas-yoon-pledges-extend-tax-benefits-chip-investments-2024-01-15/', 'source': 'Reuters', 'date': '3 days ago', 'thumbnail': 'https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcS2SloQ2IlpwBbC3KeZNmUa6gAehH7dE05Xpf2R_V9AvAvJYCLr_qQ63m8&usqp=CAI&s'}, {'title': "South Korea's global geopolitical pivot", 'link': 'https://asiatimes.com/2024/01/south-koreas-global-geopolitical-pivot/', 'source': 'Asia Times', 'date': '1 day ago', 'thumbnail': 'https://encrypted-tbn0.gstatic.com/images?q=tbn:AN

'Yoon Suk Yeol'

[tool 목록 리스트](https://python.langchain.com/docs/integrations/tools/)

- Bing Search
- DuckDuckGo Search
- ArXiv
- Google Serper
- Wikipedia
- YouTube Search 
- Reddit Search
- Yahoo Finance News

...

In [61]:
# agent2 = initialize_agent(tools, llm, agent="zero-shot-react-description", verbose=True, return_intermediate_steps=True)
agent({"input":"what was the first album name of the black pink?"})



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m I should search for the answer using a search engine.
Action: Search
Action Input: "Black Pink first album name"[0m
Observation: [36;1m[1;3m['BLACKPINK Arena Tour 2018 "Special Final in Kyocera Dome Osaka" is the first Japanese live album by BLACKPINK. It was released on March 22, 2019 and consists of footage from their final concert during the BLACKPINK Arena Tour 2018 at the Kyocera Dome Osaka on December 24, 2018.', 'BLACKPINK ARENA TOUR 2018 "SPECIAL FINAL IN KYOCERA DOME OSAKA" type: Album by BLACKPINK.', 'BLACKPINK ARENA TOUR 2018 "SPECIAL FINAL IN KYOCERA DOME OSAKA" cite_name: BLACKPINK Arena Tour 2018 "Special Final in Kyocera Dome ....', 'BLACKPINK ARENA TOUR 2018 "SPECIAL FINAL IN KYOCERA DOME OSAKA" artist: BLACKPINK.', 'On June 15, 2018, the group released their first Korean EP, Square Up, which debuted atop the Gaon Album Chart and was certified 2× platinum for selling 500,000 ...', 'The Album is the debut s

{'input': 'what was the first album name of the black pink?',
 'output': 'The first album name of Black Pink was "Square One".'}

In [68]:
"""
DuckDuckGo Search
"""

from langchain.tools import DuckDuckGoSearchResults


In [79]:
search = DuckDuckGoSearchResults()
search_result = search.run("블랙핑크")
print(search_result)

[snippet: #BLACKPINK #블랙핑크 #ShutDown #Coachella #CoachellaOnYouTube #YOUTUBE #YG, title: BLACKPINK - 'Shut Down' Live at Coachella 2023 - YouTube, link: https://www.youtube.com/watch?v=NpVJidAKOqc], [snippet: 재판매 및 DB 금지] (서울=연합뉴스) 이태수 기자 = 걸그룹 블랙핑크의 네 멤버 제니, 리사, 로제, 지수가 모두 소속사 YG엔터테인먼트를 떠난다. 이들은 블랙핑크 팀 활동만 YG에서 이어 나갈 예정이다. YG는 29일 "개별 활동에 대한 별도의 추가 계약은 진행하지 ..., title: 블랙핑크 4명 전원 Yg 떠난다…팀 활동만 함께 하기로 | 연합뉴스, link: https://www.yna.co.kr/view/AKR20231229071800005], [snippet: 로제 (BLACKPINK) - 나무위키 로제 (BLACKPINK) 최근 수정 시각: 2024-01-10 14:04:30 로제 (BLACKPINK) 지수 제니 로제 리사 [ 한국 음반 ] [ 일본 음반 ] [ 참여 음반 ] [ 관련 문서 ] [ 솔로 음반 ] R 싱글 1집 2021. 3. 12. [ 참여 음반 ] 결국 피처링 2012. 9. 1. [ 관련 문서 ] 음반 여담 커버곡 캐릭터 직캠 1. 개요 2. 데뷔 전 3. 데뷔 후 3.1. BLACKPINK 활동 3.2. 솔로 활동 4. 포지션 4.1., title: 로제(Blackpink) - 나무위키, link: https://namu.wiki/w/로제(BLACKPINK)], [snippet: 블랙핑크는 '뚜두뚜두' 뮤직비디오가 21억뷰, '킬 디스 러브'(Kill This Love)가 19억뷰를 기록하는 등 유튜브 영향력에 있어서는 국내를 넘어 세계 최정상 아티스트로 평가받는다. 블랙핑크 공식 유튜브 채널의 구독자 수는 9천230만명에 달해 전 세계 가수 1위다., 

In [80]:
search = DuckDuckGoSearchResults(backend="news")
news_search_result = search.run("블랙핑크")
print(news_search_result)

[snippet: 블랙핑크 제니가 엄마와의 끈끈한 모녀관계를 자랑했다.지난 17일 제니가 자신의 SNS에 "01.16"이라는 문구와 함께 생일날 일상 사진을 게재했다.공개된 사진 속 제니는 지인들에게 받은 생일 케이크와 선물을 자랑했다. 그중 '사랑하는 우리 딸 생일 축하해'라는 메시지가 담긴 푸른 장미 꽃다발이 눈길을 끌었다. 특히 제니는 매 생일 때마다 파란 꽃다발 사진, title: 블랙핑크 제니 생일 때마다 파란 장미 꽃다발 주는 사람의 정체, link: https://www.msn.com/ko-kr/news/other/블랙핑크-제니-생일-때마다-파란-장미-꽃다발-주는-사람의-정체/ar-AA1na9s9, date: 2024-01-18T07:48:00+00:00, source: 픽콘 on MSN.com], [snippet: 블랙핑크 지수가 몽환적인 비주얼을 자랑했다.지난 17일 매거진 데이즈드 측이 공식 SNS에 "우리에게 JISOO"라는 글과 함께 블랙핑크 지수와 함께한 화보 여러 장을 게재했다.공개된 화보 속 지수는 청초한 메이크업을 한 채 카메라를 바라보며 그윽한 눈빛을 발산하고 있다. 지수는 원피스를 입고 바닥에 앉아 요정미를 발산하는 가 하면 특유의 몽환적인 분위기에, title: 블랙핑크 지수, 가까이서 봐도 무결점 미모…몽환 여신 아우라[화보], link: https://www.msn.com/ko-kr/news/other/블랙핑크-지수-가까이서-봐도-무결점-미모-몽환-여신-아우라-화보/ar-AA1n9QS5, date: 2024-01-18T06:04:00+00:00, source: 픽콘 on MSN.com], [snippet: 그룹 블랙핑크(BLACKPINK) 리사가 새로운 도약의 갈림길에 섰다. YG엔터테인먼트와의 개인 활동 계약 종료 이후 변곡점을 맞은 리사가 글로벌 음악 시장을 넘어 할리우드까지 활동 저변을 확대할까. 최근 보그 등 해외 언론을 중심으로 리사가 미국 AMC 드라마 '워킹데드'의 스핀오프 시리즈인 '워킹데드 : 대릴 딕슨'에

#### Extraction

블랙핑크의 최신곡에 대한 정보를 DuckDuckGo 에서 검색 후 특정 형태로 데이터 추출

In [76]:
from langchain.output_parsers import StructuredOutputParser, ResponseSchema
# The schema I want out
response_schemas = [
    ResponseSchema(name="artist", description="The name of the musical artist"),
    ResponseSchema(name="song", description="The name of the song that the artist plays")
]

# The parser that will look for the LLM output in my schema and return it back to me
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)

format_instructions = output_parser.get_format_instructions()
print(format_instructions)

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"artist": string  // The name of the musical artist
	"song": string  // The name of the song that the artist plays
}
```


In [89]:
search = DuckDuckGoSearchResults()
search_result = search.run("what is the BLACKPINK's latest song?")
print(search_result)

[snippet: Blackpink are back with their first new song of the year, "the Girls," a track the group crafted for their recently released mobile game.. The song itself is an infectious blast of brash ..., title: Blackpink Release New Song 'The Girls,' First Since 'Born Pink', link: https://www.rollingstone.com/music/music-news/blackpink-new-song-the-girls-1234812282/], [snippet: Blackpink's new music also comes just one day prior to the foursome's final tour date of their World Tour Encore on Aug. 26 at Dodgers Stadium in Los Angeles. The extended run, which kicked off ..., title: Blackpink Releases First New Song of 2023 with 'The Girls' - People.com, link: https://people.com/blackpink-releases-first-new-song-of-2023-with-the-girls-7852825], [snippet: Blackpink's Jisoo, Jennie, Lisa, and Rosé released "The Girls" on August 25, a song first teased on their mobile phone game The Game way back in May as a 16-second snippet nestled in the ..., title: Blackpink Releases New Song 'The Girls' f

In [90]:
from langchain.schema import HumanMessage
from langchain.prompts import PromptTemplate, ChatPromptTemplate, HumanMessagePromptTemplate

prompt = ChatPromptTemplate(
    messages=[
        HumanMessagePromptTemplate.from_template("Given content from the user, extract the artist and song names \n \
                                                    {format_instructions}\n{user_prompt}")  
    ],
    input_variables=["user_prompt"],
    partial_variables={"format_instructions": format_instructions}
)

In [91]:
query = prompt.format_prompt(user_prompt=search_result)
print (query.messages[0].content)

Given content from the user, extract the artist and song names 
                                                     The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"artist": string  // The name of the musical artist
	"song": string  // The name of the song that the artist plays
}
```
[snippet: Blackpink are back with their first new song of the year, "the Girls," a track the group crafted for their recently released mobile game.. The song itself is an infectious blast of brash ..., title: Blackpink Release New Song 'The Girls,' First Since 'Born Pink', link: https://www.rollingstone.com/music/music-news/blackpink-new-song-the-girls-1234812282/], [snippet: Blackpink's new music also comes just one day prior to the foursome's final tour date of their World Tour Encore on Aug. 26 at Dodgers Stadium in Los Angeles. The extended run, which kicked off ..., title: Blackpink Releases First New 

In [92]:
from langchain.chat_models import ChatOpenAI

chat_model = ChatOpenAI(temperature=0, model_name='gpt-3.5-turbo')

fruit_output = chat_model(query.to_messages())
output = output_parser.parse(fruit_output.content)

print (output)

{'artist': 'Blackpink', 'song': 'The Girls'}
