In [1]:
import bs4
from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import PromptTemplate
from dotenv import load_dotenv


load_dotenv()

loader = WebBaseLoader(
    web_paths=("https://n.news.naver.com/article/437/0000416134",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            "div",
            attrs={"class": ["newsct_article _article_body","media_end_head go_trans"]}
        )
    )
)

docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=20)

splits = text_splitter.split_documents(docs)

vectorstore = FAISS.from_documents(documents=splits, embedding=OpenAIEmbeddings())

retriver = vectorstore.as_retriever()

prompt = PromptTemplate.from_template(
"""
당신은 질문-답변을 수행하는 AI 어시스턴트이다.
주어진 문맥에 검색된 다음문맥(context)를 사용해 질문에 답하세요
만약 주어진 문멕에서 답을 찾을 수 없을경우, 모른다고 이야기하세요.
한글로 답변해주세요.

#Question
{question}

#Context:
{context}

#Answer:"""
)

llm = ChatOpenAI(model="gpt-4", temperature=0)

news_chain = (
    {"context":retriver, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

answer = news_chain.invoke("로제의 소감은 뭐래?")

print(answer)

USER_AGENT environment variable not set, consider setting it to identify your requests.


"세상에 무슨 일이 일어나고 있나. 이건 미쳤다"며 "넘버원(로제 팬덤), 블링크(블랙핑크 팬덤), 모든 이들에게 감사하다. 내 꿈이 이뤄졌다"라고 소감을 전했습니다.
