In [7]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

import os
from dotenv import load_dotenv

load_dotenv()

print(f"OpenAI API Key: {os.getenv('OPENAI_API_KEY')}")
print(f"Langsmith Tracing: {os.getenv('LANGSMITH_TRACING')}")
print(f"Langsmith API Key: {os.getenv('LANGSMITH_API_KEY')}")
print(f"Langsmith Project: {os.getenv('LANGSMITH_PROJECT')}")

  for arg in args:


OpenAI API Key: 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
Langsmith Tracing: true
Langsmith API Key: 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
Langsmith Project: Retriever


In [8]:
from langsmith import Client

client = Client()

url = next(client.list_runs(project_name="Retriever")).url # 정상 실행 되면 langsmith 준비 완료

In [9]:
# 단계 1: 문서 로드(Load Documents)
from langchain.document_loaders import MongodbLoader
from server.db import DB
from server.db import get_mongo_connection_string

channel_id = 1890652954

loader = MongodbLoader(
    connection_string=get_mongo_connection_string(),
    db_name=DB.NAME,
    collection_name=DB.COLLECTION.CHANNEL.DATA,
    filter_criteria={"channelId": channel_id}, # 데이터베이스에서 조회할 기준 (쿼리)
    field_names=("text",),
    metadata_names=("id", "timestamp", "channelId", "views", "url"), # 메타데이터로 지정할 필드 목록
)

import nest_asyncio
nest_asyncio.apply()  # Jupyter Notebook에서 asyncio 실행 문제 해결

docs = loader.load()
docs[0]

[Document(metadata={'id': 1, 'timestamp': datetime.datetime(2023, 2, 14, 10, 52, 21), 'channelId': 1890652954, 'views': None, 'url': 'https://t.me/frozen_talk/1', 'database': 'retriever-jisung', 'collection': 'channel_data'}, page_content=''),
 Document(metadata={'id': 5, 'timestamp': datetime.datetime(2023, 3, 25, 11, 1, 22), 'channelId': 1890652954, 'views': 881, 'url': 'https://t.me/frozen_talk/5', 'database': 'retriever-jisung', 'collection': 'channel_data'}, page_content='한동안 품절됐던 대만 베리굿, 우라이 아이스 재입고!\n현재좌표 작업중!\n3월30일 서울을 시작으로 전국에서 만날 수 있습니다'),
 Document(metadata={'id': 6, 'timestamp': datetime.datetime(2023, 3, 25, 11, 1, 22), 'channelId': 1890652954, 'views': 882, 'url': 'https://t.me/frozen_talk/6', 'database': 'retriever-jisung', 'collection': 'channel_data'}, page_content=''),
 Document(metadata={'id': 7, 'timestamp': datetime.datetime(2023, 3, 29, 12, 48, 54), 'channelId': 1890652954, 'views': 970, 'url': 'https://t.me/frozen_talk/7', 'database': 'retriever-jisung', 'collec

In [10]:
# 단계 2: 문서 분할(Split Documents)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
splitted_documents = text_splitter.split_documents(docs)

# 단계 3: 임베딩(Embedding) 생성
embedding = OpenAIEmbeddings()

# 단계 4: DB 생성(Create DB) 및 저장
# 벡터스토어를 생성한다.
vectorstore = FAISS.from_documents(documents=splitted_documents, embedding=embedding);

In [11]:
# 단계 5: 검색기(Retriever) 생성
# 문서에 포함되어 있는 정보를 검색하고 생성한다.
retriever = vectorstore.as_retriever()
retriever

VectorStoreRetriever(tags=['FAISS', 'OpenAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x000002780B275630>, search_kwargs={})

In [13]:
# 단계 6: 프롬프트 생성(Create Prompt)
# 프롬프트를 생성한다.
prompt = PromptTemplate.from_template(
"""You are an assistant responding to inquiries from an investigator trying to investigate a drug-selling channel. 
Below is chat data collected from a Telegram channel where drugs are being sold.
Based on this chat data, answer questions about the transaction details of the channel.
If you don't know the answer, just say that you don't know.
Answer in Korean.

#Question:
{question}

#Context:
{context}

#Answer:"""
)

# 단계 7: 언어모델(LLM) 생성
# 모델(LLM)을 생성합니다.
llm = ChatOpenAI(model_name="gpt-4o", temperature=0)

# 단계 8: 체인(Chain) 생성
chain = (
    {"context": retriever, "question": RunnablePassthrough()} # 1. [prompt에 들어갈 값](딕셔너리 형태)
    | prompt # 2. context와 question이 들어갈 [프롬프트]
    | llm # 3. 프롬프트가 들어갈 [LLM]
    | StrOutputParser() # 4. LLM이 내놓은 결과를 정리해줄 [Parser]
) # 배경지식과 질문 -> 프롬프트 -> LLM -> 결과 전처리 Parser 의 4단계 chain이 생성됨.

# 체인 실행(Run Chain)
# 문서에 대한 질의를 입력하고, 답변을 출력한다.
def ask(question:str):
    response = chain.invoke(question)
    print(response)

생성된 체인에 쿼리(질문)을 입력하고 실행한다

In [14]:
ask("이 채널에서 마약이 판매되는 지역은?")

부산, 창원, 울산, 광주에서 마약이 판매되고 있는 것으로 보입니다.
