# LangChain + Web Data
**2024 삼성전자 무선사업부 생성형 AI 교육**

1. 기본 패키지 설정
2. 소스 링크 수집
3. 데이터 불러오기
4. 데이터 Split
5. 데이터 Embedding
6. LLM 생성
7. Chain 연결

In [1]:
# 1. 패키지 설치

%pip install chromadb
%pip install unstructured

Collecting chromadb
  Downloading chromadb-0.5.3-py3-none-any.whl.metadata (6.8 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.1-py3-none-any.whl.metadata (4.3 kB)
Collecting chroma-hnswlib==0.7.3 (from chromadb)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.111.0-py3-none-any.whl.metadata (25 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.30.1-py3-none-any.whl.metadata (6.3 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.5.0-py2.py3-none-any.whl.metadata (2.0 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.18.0-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.3 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.25.0-py3-none-a

In [1]:
# 2. 기본 패키지 설정 & AzureOpenAI 환경설정

# 환경 변수 설정!! 
import os
import langchain

from config_azure import (
    AZURE_OPENAI_API_VERSION,
    AZURE_OPENAI_ENDPOINT,
    AZURE_OPENAI_KEY
)
# lagchain 사용시 반드시 환경변수 값 사용!!
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["AZURE_OPENAI_API_KEY"] = AZURE_OPENAI_KEY
os.environ["AZURE_OPENAI_ENDPOINT"] = AZURE_OPENAI_ENDPOINT
os.environ["OPENAI_API_VERSION"] = AZURE_OPENAI_API_VERSION

In [2]:
# 3. 소스 링크 수집
# [링크 바로가기](https://www.xn--hq1bn9iz0nvzar4a.net/%ec%95%a0%ec%9b%94-%ed%98%91%ec%9e%ac-%eb%a7%9b%ec%a7%91-best-10/")

urls = [
    "https://www.xn--hq1bn9iz0nvzar4a.net/%ec%95%a0%ec%9b%94-%ed%98%91%ec%9e%ac-%eb%a7%9b%ec%a7%91-best-10/",
    "https://www.xn--hq1bn9iz0nvzar4a.net/%ec%95%a0%ec%9b%94-%eb%a7%9b%ec%a7%91-best-10/",
    "https://m.blog.naver.com/miya75kr/223390881363",
    "https://m.blog.naver.com/kongmistar/223444031844",
    "https://m.blog.naver.com/psmr1234/223188197427",
    "https://www.xn--hq1bn9iz0nvzar4a.net/%ec%a0%9c%ec%a3%bc-%ea%b3%b5%ed%95%ad-%ea%b7%bc%ec%b2%98-%eb%a7%9b%ec%a7%91-best-10/",
    "https://www.xn--hq1bn9iz0nvzar4a.net/%ec%a0%9c%ec%a3%bc%eb%8f%84-%eb%a8%b9%ea%b1%b0%eb%a6%ac-best-10/"
]


In [3]:
# 4. URL loader 생성-데이터 읽어오기
from langchain.document_loaders import UnstructuredURLLoader

loader = UnstructuredURLLoader(urls=urls)
data = loader.load()
data

[nltk_data] Downloading package punkt to /home/azureuser/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/azureuser/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[Document(page_content='123 Main Street, New York, NY 10001\n\n123-456-7890\n\n제주도 맛집\n\n제주 맛집\n\n제주공항 맛집\n\n애월 맛집\n\n협재 맛집\n\n서귀포 맛집\n\n중문 맛집\n\n성산 맛집\n\n제주도 먹거리\n\n제주도 추천 정보\n\nMenu\n\n제주도 맛집\n\n제주 맛집\n\n제주공항 맛집\n\n애월 맛집\n\n협재 맛집\n\n서귀포 맛집\n\n중문 맛집\n\n성산 맛집\n\n제주도 먹거리\n\n제주도 추천 정보\n\n애월 협재 맛집 BEST 10\n\nadmin\n\n9월 7, 2023\n\n제주도 하면 떠오르는 것중에 하나가 올레길이죠. 그 중 애월 해안 도로가 쭉 이어지며 협재 한림공원까지 이어지는 드라이브 코스가 있어 자전거를 타거나 차를 타고 드라이브를 즐기며 제주도 특유의 푸른 바다와 검은 바위들이 줄지어 해안을 이어주는 풍경을 즐기며 힐링할 수 있습니다.\n\n그렇게 애월 협재에 도달하게되면 마찬가지로 맛집을 찾아 먹거리 힐링 또한 즐겨볼만 합니다.이번 포스팅에서는 협재 카페 BEST 10에 이어 애월 협재 맛집 BEST 10을 알아보도록 하겠습니다.\n\n※ 순서는 맛집 순위가 아니니 참고하시길 바랍니다.\n\n목차\n\n1.협재섬바다\n\n2.정직한돈 한림협재점\n\n3. 협재칼국수\n\n4. 협재수우동 협재점\n\n5. 문쏘 제주협재점\n\n6. 제갈양 제주협재점\n\n7. 별돈별 협재해변점\n\n8. 오만정성 제주협재점\n\n9. 안녕협재씨 제주협재점\n\n10. 혼저 제주협재점\n\n1.협재섬바다\n\n해안이 보이는 뷰가 아니지만 탁 트이고 넓은 내부에 전체적으로 통유리로 인테리어가 되어있으며 바깥쪽으로는 푸른 나무들과 하늘이 조화를 이뤄 쾌적하고 시원한 느낌을 줍니다.\n\n갈치구이, 갈치조림이 맛있다는 평이 자자하며 생각보다 가격이 그리 비싸지 않아 가성비 맛집으로도 추천됩니다.\n\n단품메뉴와 세트, 코스요리 등 다양하게 메뉴가 구비되어 있어 

In [4]:
# 6. Text Split(GPT API Token Limit)

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, 
                                               chunk_overlap=100,
                                               separators=["\n\n", "\n", "(?<=\. )", " ", ""],)
doc = text_splitter.split_documents(data)
doc

[Document(page_content='123 Main Street, New York, NY 10001\n\n123-456-7890\n\n제주도 맛집\n\n제주 맛집\n\n제주공항 맛집\n\n애월 맛집\n\n협재 맛집\n\n서귀포 맛집\n\n중문 맛집\n\n성산 맛집\n\n제주도 먹거리\n\n제주도 추천 정보\n\nMenu\n\n제주도 맛집\n\n제주 맛집\n\n제주공항 맛집\n\n애월 맛집\n\n협재 맛집\n\n서귀포 맛집\n\n중문 맛집\n\n성산 맛집\n\n제주도 먹거리\n\n제주도 추천 정보\n\n애월 협재 맛집 BEST 10\n\nadmin\n\n9월 7, 2023\n\n제주도 하면 떠오르는 것중에 하나가 올레길이죠. 그 중 애월 해안 도로가 쭉 이어지며 협재 한림공원까지 이어지는 드라이브 코스가 있어 자전거를 타거나 차를 타고 드라이브를 즐기며 제주도 특유의 푸른 바다와 검은 바위들이 줄지어 해안을 이어주는 풍경을 즐기며 힐링할 수 있습니다.\n\n그렇게 애월 협재에 도달하게되면 마찬가지로 맛집을 찾아 먹거리 힐링 또한 즐겨볼만 합니다.이번 포스팅에서는 협재 카페 BEST 10에 이어 애월 협재 맛집 BEST 10을 알아보도록 하겠습니다.\n\n※ 순서는 맛집 순위가 아니니 참고하시길 바랍니다.\n\n목차\n\n1.협재섬바다\n\n2.정직한돈 한림협재점\n\n3. 협재칼국수\n\n4. 협재수우동 협재점\n\n5. 문쏘 제주협재점\n\n6. 제갈양 제주협재점\n\n7. 별돈별 협재해변점\n\n8. 오만정성 제주협재점\n\n9. 안녕협재씨 제주협재점\n\n10. 혼저 제주협재점\n\n1.협재섬바다\n\n해안이 보이는 뷰가 아니지만 탁 트이고 넓은 내부에 전체적으로 통유리로 인테리어가 되어있으며 바깥쪽으로는 푸른 나무들과 하늘이 조화를 이뤄 쾌적하고 시원한 느낌을 줍니다.\n\n갈치구이, 갈치조림이 맛있다는 평이 자자하며 생각보다 가격이 그리 비싸지 않아 가성비 맛집으로도 추천됩니다.\n\n단품메뉴와 세트, 코스요리 등 다양하게 메뉴가 구비되어 있어 

### 참고 링크
* [Understanding LangChain's RecursiveCharacterTextSplitter](https://dev.to/eteimz/understanding-langchains-recursivecharactertextsplitter-2846)  
* [Chunkerizer 테스터기](https://chunkerizer.streamlit.app)

In [5]:
# 6. Vetor Store에 텍스트 벡터값 저장(검색가능함)

from langchain_openai import AzureOpenAIEmbeddings
from langchain.vectorstores import Chroma

# 임베딩 모델 생성
embedding_model = AzureOpenAIEmbeddings(
    azure_deployment="text-embedding-ada-002",
)

# 문서 -> 벡터 변환
vectorstore = Chroma.from_documents(doc, embedding_model) # 숫자, 벡터 형태
#리트리버가 유사한 문서를 찾아서 벡터가 아닌 문자 형태로 변황!
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k":3})

# retriever = vectorstore.as_retriever(
#     search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.33}
# )

In [6]:
vectorstore.similarity_search_with_score("두부")

[(Document(page_content='같이 곁들이는 반찬 또한 일품으로 보통 사람들은 메인 메뉴를 말하지만, 꽁순이네는 반찬 조차도 맛집이라고 합니다.\n\n푸짐한 양과 친절한 서비스는 덤입니다.\n\n7.신의 한모\n\n가게 이름으로 알 수 있듯이, 두부로 유명한 애월 맛집 입니다.\n\n제주의 맑은 물과 국내산 콩으로 만든 두부요리는 방부제도 없이 아주 건강한 먹거리 입니다.\n\n아게다시도후, 모두부, 오보로두부, 모찌리두부, 마파두부덮밥, 비건세트, 신의한모 세트로 메뉴가 구성되어 있으며, 두부로 먹을 수 있는 최고의 음식을 제공하는 곳이 아닐까 싶습니다.\n\n두부를 좋아하지 않아도 먹게되는 맛입니다.\n\n8.닻\n\n제주 공항에서 1km 정도 가면 있는 시드니 호텔 바닷가 근처 애월 맛집 닻 입니다.\n\n노키즈존으로 주류도 판매하고 있으며, 딱새우회가 일품입니다.\n\n포장도 가능하니 숙소에서 드시기에도 좋습니다.\n\n사장님 추천 메뉴로는 딱새우사시미, 숙성사시미, 나가사끼 짬뽕탕 등 신선한 회를 맛볼 수 있습니다.\n\n9.인디언키친\n\n제주에서 만날 수 있는 정통 인도 음식점으로 도민들도 자주 애용하는 애월 맛집 입니다.\n\n현지인 셰프가 직접 탄두리 화덕에서 요리를 하고 이쁜 정원과 인테리어는 입도 즐거울 뿐만 아니라 눈도 행복해지는 곳입니다.\n\n주차걱정 없이 이용 가능합니다.\n\n10.하갈비\n\n오션뷰가 아름다운 정육 식당으로 흑돼지가 유명한 애월 맛집 입니다.\n\n제주산 숙성 흑돼지를 취급하는 곳으로 한우도 맛보실 수 있습니다.\n\n제주도민들도 자주 방문하는 곳으로, 제주에 방문한다면 꼭 한번은 먹어야 하는 흑돼지를 하갈비에서 드신다면 눈과 입이 즐거운 여행이 될 것입니다.\n\n같이보면 좋은글\n\n협재 맛집 BEST 10\n\n성산 일출봉 맛집 BEST 10\n\n제주공항 맛집 BEST 10\n\nNext\n\nShare the Post:\n\nShare on facebook\n\nShare on twitter

In [7]:
# 7. OpenAI LLM(Chat Model 연결)

from langchain_openai import AzureChatOpenAI

chat_llm = AzureChatOpenAI(
    deployment_name="gpt-35-turbo",
    max_tokens=512,
    temperature=0.2,
)

In [8]:
# 8. Chain 연결 without LCEL

from langchain.chains import RetrievalQA

qa_chain = RetrievalQA.from_chain_type(
    llm=chat_llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=False)

In [9]:
# 9. 질의
query1 = {"query" : "갈치 식당 소개해줘"}
query2 = {"query" : "두부 요리 파는 곳 있어?"}
query3 = {"query" : "제갈양 식당 유명해?"}

queries = [query1, query2, query3]


from langchain.callbacks import get_openai_callback

with get_openai_callback() as cb:
    result = qa_chain.batch(queries)
    print(result)
    print(cb)

[{'query': '갈치 식당 소개해줘', 'result': '제주 갈치 맛집으로는 해녀세자매, 제주예찬, 갈치옥, 갈치공장 등이 유명합니다. 이 중 해녀세자매는 협재에 위치하고 있으며, 일몰을 보며 갈치요리를 즐길 수 있는 곳입니다. 또한 네이버 예약을 하면 할인 혜택도 받을 수 있습니다. 제주예찬은 제주공항 근처에 위치하고 있으며, 돔베고기와 국수가 유명한 곳입니다. 갈치옥은 제주시에 위치하고 있으며, 갈치구이와 갈치조림이 인기 있는 식당입니다. 갈치공장은 성산일출봉 근처에 위치하고 있으며, 갈치구이와 갈치조림, 전복구이 등이 인기 있는 곳입니다.'}, {'query': '두부 요리 파는 곳 있어?', 'result': "네, '신의 한모'는 애월에서 유명한 두부 요리 맛집 중 하나입니다. 제주의 맑은 물과 국내산 콩으로 만든 두부 요리를 제공하며, 방부제 없이 건강한 먹거리를 즐길 수 있습니다. 두부로 먹을 수 있는 다양한 메뉴가 있으며, 두부를 좋아하지 않아도 먹게 되는 맛이 있습니다."}, {'query': '제갈양 식당 유명해?', 'result': '제갈양은 제주에서 갈치 요리를 전문으로 하는 식당 중 하나로, 맛과 양 모두 좋은 평가를 받고 있습니다. 또한, 양이 풍부하다는 이름에 걸맞게 모든 사람들이 양이 많다고 평가하고 있어서 유명한 식당 중 하나입니다.'}]
Tokens Used: 9081
	Prompt Tokens: 8582
	Completion Tokens: 499
Successful Requests: 3
Total Cost (USD): $0.013870999999999998


In [12]:
qa_chain.invoke("서울에서 제주도 가려면 어떻게 해?")

{'query': '서울에서 제주도 가려면 어떻게 해?',
 'result': '서울에서 제주도로 가는 방법은 비행기, 배, 자동차, 기차 등이 있습니다. 가장 빠르고 편리한 방법은 비행기를 이용하는 것이며, 서울에서 제주공항으로 약 1시간 10분 정도 소요됩니다. 배는 부산, 여수, 마산 등에서 출발하여 제주도까지 이동할 수 있으며, 자동차는 서울에서 부산까지 운전한 후, 부산에서 배를 이용하여 제주도로 이동할 수 있습니다. 기차는 서울에서 부산까지 운행되며, 부산에서 배를 이용하여 제주도로 이동할 수 있습니다.'}

In [13]:
qa_chain

RetrievalQA(combine_documents_chain=StuffDocumentsChain(llm_chain=LLMChain(prompt=ChatPromptTemplate(input_variables=['context', 'question'], messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context'], template="Use the following pieces of context to answer the user's question. \nIf you don't know the answer, just say that you don't know, don't try to make up an answer.\n----------------\n{context}")), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['question'], template='{question}'))]), llm=AzureChatOpenAI(client=<openai.resources.chat.completions.Completions object at 0x7f0d4eb00190>, async_client=<openai.resources.chat.completions.AsyncCompletions object at 0x7f0d4dfd3040>, temperature=0.2, openai_api_key=SecretStr('**********'), openai_proxy='', max_tokens=512, azure_endpoint='https://aoai-31-cgy.openai.azure.com/', deployment_name='gpt-35-turbo', openai_api_version='2024-02-15-preview', openai_api_type='azure')), document_variable_na

In [10]:
# 10. Custom Prompt

from langchain.prompts import PromptTemplate

custom_template = '''아래 자료를 기반으로 사용자 질문에 답변한다.
자료에 내용이 없는 경우 모른다고하고, 내용을 지어내지 않는다.

* 자료 : {context}
* 사용자 질문 : {question}
'''
custom_prompt = PromptTemplate(
    template=custom_template,
    input_variables=[
        'context',
        'question',
    ]
)

new_chain = RetrievalQA.from_chain_type(llm=chat_llm,
                                        chain_type="stuff",
                                        retriever=retriever,
                                        return_source_documents=False,
                                        chain_type_kwargs={"prompt": custom_prompt})

new_result = new_chain.batch(queries)
print(new_result)

[{'query': '갈치 식당 소개해줘', 'result': '일몰을 감상하며 갈치요리를 즐길 수 있는 제주 갈치 맛집으로 해녀세자매 협재본점을 추천합니다. 네이버 예약을 하면 할인 혜택도 받을 수 있으며, 1층에서는 해산물과 갈치요리를, 2층에서는 갈치와 기념품을 살 수 있는 소품샵과 커피숍을 즐길 수 있습니다. 또한, 제주시에 위치한 이금돈지나 삼대국수회관 본점도 제주 갈치 맛집으로 유명합니다.'}, {'query': '두부 요리 파는 곳 있어?', 'result': '위 자료에서는 두부 요리를 파는 맛집에 대한 정보가 나오지 않습니다. 죄송합니다.'}, {'query': '제갈양 식당 유명해?', 'result': '네, 제갈양은 제주에서 유명한 갈치 요리 전문 식당 중 하나입니다. 갈치조림이 대표 메뉴로 유명하며, 양도 풍부하고 맛도 좋은 평이 자자합니다. 또한, 별돈별, 문쏘 등과 함께 협재해변 근처 맛집으로 소문이 나 있습니다.'}]


In [14]:
new_chain.invoke("서울에서 제주도 가려면 어떻게 해?")

{'query': '서울에서 제주도 가려면 어떻게 해?',
 'result': '저는 AI 어시스턴트이기 때문에 서울에서 제주도 가는 방법에 대한 정보는 제공할 수 없습니다. 하지만, 대중교통을 이용하거나 비행기를 이용하는 등 다양한 방법이 있으니 인터넷 검색이나 여행사에 문의하시면 도움이 될 것입니다.'}

In [11]:
# 11. Chain 연결(LCEL)
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# 검색된 문서를 string으로 변환 
def format_docs(docs):
    return "\n\n".join([d.page_content for d in docs])

lcel_chain = (
        {
        "context": retriever | format_docs,
        "question": RunnablePassthrough() # RunnablePassthrough : 데이터를 그대로 전달
    }
    | custom_prompt
    | chat_llm
    | StrOutputParser()
)

lcel_chain.invoke("서울 맛집 알려줘")

'죄송하지만, 제가는 제주도 맛집 정보만 가지고 있습니다. 서울 맛집 정보를 찾으시려면 다른 검색 엔진을 이용하시거나 서울 맛집 관련 블로그나 맛집 앱 등을 참고하시면 도움이 될 것입니다.'

In [16]:
# 여러개 질문 한번에 하기

lcel_queries = ["갈치 식당 소개해줘", "두부 요리 파는 곳 있어?", "제갈양 식당 유명해?"]

lcel_chain.batch(lcel_queries)

['일몰을 감상하며 맛있는 갈치요리를 즐길 수 있는 제주 갈치 맛집으로 해녀세자매 협재본점을 추천합니다. 네이버 예약을 하면 할인 혜택도 받을 수 있으며, 1층에서는 해산물과 갈치요리를, 2층에서는 갈치와 기념품을 살 수 있는 소품샵과 카페를 즐길 수 있습니다. 또한, 제주시에 위치한 이금돈지나 삼대국수회관 본점도 제주 갈치 맛집으로 유명합니다.',
 '위 자료에서는 두부 요리를 파는 곳에 대한 정보는 나오지 않습니다. 죄송합니다.',
 '네, 제갈양은 제주에서 유명한 갈치 요리 전문 식당 중 하나입니다. 갈치조림이 대표 메뉴이며, 양도 많고 맛도 좋다는 평가를 받고 있습니다. 또한, 별돈별, 문쏘 등과 함께 협재해변 근처 맛집으로 소문이 나 있습니다.']