In [2]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings

import os
from dotenv import load_dotenv

load_dotenv()

print(f"OpenAI API Key: {os.getenv('OPENAI_API_KEY')}")
print(f"Langsmith Tracing: {os.getenv('LANGSMITH_TRACING')}")
print(f"Langsmith API Key: {os.getenv('LANGSMITH_API_KEY')}")
print(f"Langsmith Project: {os.getenv('LANGSMITH_PROJECT')}")

OpenAI API Key: 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
Langsmith Tracing: true
Langsmith API Key: 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
Langsmith Project: Retriever


In [3]:
from langsmith import Client

client = Client()

url = next(client.list_runs(project_name="Retriever")).url # 정상 실행 되면 langsmith 준비 완료

In [4]:
from langchain.document_loaders import MongodbLoader
from server.db import DB
from server.db import get_mongo_connection_string
import nest_asyncio
nest_asyncio.apply()  # Jupyter Notebook에서 asyncio 실행 문제 해결

class Watson:
    prompt_template = PromptTemplate.from_template(
        """
        You are an assistant responding to inquiries from an investigator trying to investigate a drug-selling channel. 
        Below is chat data collected from a Telegram channel where drugs are being sold.
        Based on this chat data, answer questions about the transaction details of the channel.
        If you don't know the answer, just say that you don't know.
        Answer in Korean.
        
        #Question:
        {question}
        
        #Context:
        {context}
        
        #Answer:
        """
    )
    def __init__(self, channel_id):
        self.channel_id = channel_id
        # 단계 1: 문서 로드(Load Documents)
        self.loader = MongodbLoader(
            connection_string=get_mongo_connection_string(),
            db_name=DB.NAME,
            collection_name=DB.COLLECTION.CHANNEL.DATA,
            filter_criteria={"channelId": channel_id}, # 데이터베이스에서 조회할 기준 (쿼리)
            field_names=("text",),
            metadata_names=("id", "timestamp", "channelId", "views", "url"), # 메타데이터로 지정할 필드 목록
        )
        docs = self.loader.load()
        
        # 단계 2: 문서 분할(Split Documents)
        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
        splitted_documents = text_splitter.split_documents(docs)
        
        # 단계 3: 임베딩(Embedding) 생성
        embedding = OpenAIEmbeddings()
        
        # 단계 4: DB 생성(Create DB) 및 저장
        # 벡터스토어를 생성한다.
        vectorstore = FAISS.from_documents(documents=splitted_documents, embedding=embedding)
        
        # 단계 5: 검색기(Retriever) 생성
        # 문서에 포함되어 있는 정보를 검색하고 생성한다.
        retriever = vectorstore.as_retriever()
        
        # 단계 6: 프롬프트 생성(Create Prompt)
        # 프롬프트를 생성한다.
        prompt = self.prompt_template

        # 단계 7: 언어모델(LLM) 생성
        # 모델(LLM)을 생성합니다.
        llm = ChatOpenAI(model_name="gpt-4o", temperature=0)
        
        # 단계 8: 체인(Chain) 생성
        self.chain = (
            {"context": retriever, "question": RunnablePassthrough()} # 1. [prompt에 들어갈 값](딕셔너리 형태)
            | prompt # 2. context와 question이 들어갈 [프롬프트]
            | llm # 3. 프롬프트가 들어갈 [LLM]
            | StrOutputParser() # 4. LLM이 내놓은 결과를 정리해줄 [Parser]
        ) # 배경지식과 질문 -> 프롬프트 -> LLM -> 결과 전처리 Parser 의 4단계 chain이 생성됨.
        
        # 체인 실행(Run Chain)
        # 문서에 대한 질의를 입력하고, 답변을 출력한다.
        
    def ask(self, question:str):
        response = self.chain.invoke(question)
        print(response)

In [5]:
test_channel_id = 1890652954
watson = Watson(test_channel_id)
watson.ask("이 채널에서 주로 마약이 판매되는 지역은 어디지?")

이 채널에서 주로 마약이 판매되는 지역은 부산, 창원, 울산, 그리고 광주입니다.


In [8]:
watson.ask("이 채널에서 마약이 어느 정도 가격으로 판매되지?")

이 채널에서 마약은 지역에 따라 가격이 다르게 판매되고 있습니다. 서울 및 수도권에서는 한 통에 280만 원, 광주 및 천안에서는 일지에 45만 원으로 판매되고 있습니다. 또한, 아프간 쿠쉬라는 제품은 5지에 55만 원, 10지에 95만 원으로 판매되고 있습니다.


In [9]:
watson.ask("너가 바로 전에 말했던 대답을 다시 말해봐.")

모르겠습니다.
