In [1]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain.embeddings import OllamaEmbeddings
from langchain_chroma import Chroma
#from langchain_community.llms import Ollama
#from langchain_community.chat_models import ChatOllama
from langchain_ollama import ChatOllama
from langchain_core.tools import tool
from langchain.agents import initialize_agent, AgentType
#from langchain_ollama import OllamaEmbeddings
import os
from langgraph.prebuilt import ToolNode
from typing import Literal
#from langgraph.graph import END
from langgraph.graph import START, END
from langgraph.graph import MessagesState, StateGraph


In [None]:
# model cell

embeddings = OllamaEmbeddings(
    model="bge-m3"
    )

llm = ChatOllama(
    model="qwen3:4b"
)

In [None]:
# 1. 문서 로드
loader = TextLoader("./docs/RFP_requirements.md", encoding="utf-8")
documents = loader.load()

# 2. 문서 나누기
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
splits = text_splitter.split_documents(documents)

persist_directory = "./chroma_db"
vectorstore = Chroma.from_documents(documents=splits, embedding=embeddings, persist_directory=persist_directory)
#vectorstore.persist()

print(f"✅ Chroma DB에 {len(splits)}개의 문서를 임베딩하여 저장 완료.")

AttributeError: 'Chroma' object has no attribute 'persist'

In [None]:




if os.path.exists('./fastmcp-server/requirments_collection') and len(os.listdir('./fastmcp-server/requirments_collection')) > 0:
    vector_store = Chroma(
        embedding_function=embeddings,
        collection_name = 'requirments_collection',
        persist_directory = './requirments_collection'
    )
else:
    print("⚙️ Chroma DB not found. Creating new DB...")

    # ① 문서 로드
    loader = TextLoader("docs.txt", encoding="utf-8")
    documents = loader.load()

    # ② 텍스트 분할
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=50,
    )
    split_docs = text_splitter.split_documents(documents)

    # ③ Chroma DB 생성 및 persist
    vectorstore = Chroma.from_documents(
        split_docs,
        embedding=embeddings,
        persist_directory='./requirments_collection'
    )
    print("✅ Chroma DB created and persisted.")

In [None]:
from langchain.schema import HumanMessage, SystemMessage, AIMessage
#from utils.config import get_llm
from workflow.state import AgentState
from langchain import hub
from typing import Literal
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
import os
from dotenv import load_dotenv
from langchain_openai import AzureChatOpenAI
from langchain_chroma import Chroma
from langchain_openai import AzureOpenAIEmbeddings
from langchain_core.tools import tool
from langgraph.prebuilt import create_react_agent
from langgraph.types import Command
from bs4 import BeautifulSoup


AOAI_DEPLOY_EMBED_3_LARGE=os.getenv("AOAI_DEPLOY_EMBED_3_LARGE")
AOAI_API_KEY=os.getenv("AOAI_API_KEY")
AOAI_ENDPOINT=os.getenv("AOAI_ENDPOINT")

embeddings = AzureOpenAIEmbeddings(
    model=AOAI_DEPLOY_EMBED_3_LARGE,
    openai_api_version="2024-02-01",
    api_key= AOAI_API_KEY,
    azure_endpoint=AOAI_ENDPOINT
    )

if os.path.exists('./income_tax_collection') and len(os.listdir('./income_tax_collection')) > 0:
    vector_store = Chroma(
        embedding_function=embeddings,
        collection_name = 'income_tax_collection',
        persist_directory = './income_tax_collection'
    )
else:
    print("⚙️ Chroma DB not found. Creating new DB...")

    # ① 문서 로드
    loader = TextLoader("example.txt", encoding="utf-8")
    documents = loader.load()

    # ② 텍스트 분할
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=50,
    )
    split_docs = text_splitter.split_documents(documents)

    # ③ Chroma DB 생성 및 persist
    vectorstore = Chroma.from_documents(
        split_docs,
        embedding=embeddings,
        persist_directory='./income_tax_collection'
    )
    print("✅ Chroma DB created and persisted.")

retriever = vector_store.as_retriever(search_kwargs={'k': 3})

# RAG 프롬프트를 가져옵니다.
generate_prompt = hub.pull("rlm/rag-prompt")

# .env 파일에서 환경 변수 로드
load_dotenv()

# LangChain Azure OpenAI 설정
llm = AzureChatOpenAI(
    openai_api_key=os.getenv("AOAI_API_KEY"),
    azure_endpoint=os.getenv("AOAI_ENDPOINT"),
    azure_deployment=os.getenv("AOAI_DEPLOY_GPT4O"),
    api_version=os.getenv("AOAI_API_VERSION"),
    temperature=0.7,
)




def retrieve(state: AgentState) -> AgentState:
    """
    사용자의 질문에 기반하여 벡터 스토어에서 관련 문서를 검색합니다.

    Args:
        state (AgentState): 사용자의 질문을 포함한 에이전트의 현재 state.

    Returns:
        AgentState: 검색된 문서가 추가된 state를 반환합니다.
    """
    query = state.query  # state에서 사용자의 질문을 추출합니다.
    docs = retriever.invoke(query)  # 질문과 관련된 문서를 검색합니다.
    #return {'context': docs}  # 검색된 문서를 포함한 state를 반환합니다.

    return AgentState(
            query=state.query,
            context=docs,
            rewrite_count=state.rewrite_count
        )

def generate(state: AgentState) -> AgentState:
    """
    주어진 state를 기반으로 RAG 체인을 사용하여 응답을 생성합니다.

    Args:
        state (AgentState): 사용자의 질문과 문맥을 포함한 에이전트의 현재 state.

    Returns:
        AgentState: 생성된 응답을 포함하는 state를 반환합니다.
    """
    context = state.context  # state에서 문맥을 추출합니다.
    query = state.query      # state에서 사용자의 질문을 추출합니다.
    
    # RAG 체인을 구성합니다.
    rag_chain = generate_prompt | llm
    
    # 질문과 문맥을 사용하여 응답을 생성합니다.
    response = rag_chain.invoke({'question': query, 'context': context})
    
    #return {'answer': response}  # 생성된 응답을 포함하는 state를 반환합니다.

    return AgentState(
        query=state.query,
        context=state.context,
        answer=response.content,
        rewrite_count=state.rewrite_count
    )



# 문서 관련성 판단을 위한 프롬프트를 가져옵니다.
doc_relevance_prompt = hub.pull("langchain-ai/rag-document-relevance")

def check_doc_relevance(state: AgentState) -> Literal['generate', 'rewrite']:
    """
    주어진 state를 기반으로 문서의 관련성을 판단합니다.

    Args:
        state (AgentState): 사용자의 질문과 문맥을 포함한 에이전트의 현재 state.

    Returns:
        Literal['generate', 'rewrite']: 문서가 관련성이 높으면 'generate', 그렇지 않으면 'rewrite'를 반환합니다.
    """
    query = state.query  # state에서 사용자의 질문을 추출합니다.
    context = state.context  # state에서 문맥을 추출합니다.

    # 문서 관련성 판단 체인을 구성합니다.
    doc_relevance_chain = doc_relevance_prompt | llm
    
    # 질문과 문맥을 사용하여 문서의 관련성을 판단합니다.
    response = doc_relevance_chain.invoke({'question': query, 'documents': context})

    if state.rewrite_count >= 3:
        return "generate"
        
    # 관련성이 높으면 'generate'를 반환하고, 그렇지 않으면 'rewrite'를 반환합니다.
    if response['Score'] == 1:
        return 'generate'
    else:
        state.rewrite_count += 1
        return 'rewrite'




# 사전 정의: 특정 표현을 다른 표현으로 변환하기 위한 사전입니다.
dictionary = ['사람과 관련된 표현 -> 거주자']

# 프롬프트 템플릿을 생성합니다. 사용자의 질문을 사전을 참고하여 변경합니다.
rewrite_prompt = PromptTemplate.from_template(f"""
사용자의 질문을 보고, 우리의 사전을 참고해서 사용자의 질문을 변경해주세요 
사전: {dictionary}                                           
질문: {{query}}
""")

def rewrite(state: AgentState) -> AgentState:
    """
    사용자의 질문을 사전을 참고하여 변경합니다.

    Args:
        state (AgentState): 사용자의 질문을 포함한 에이전트의 현재 state.

    Returns:
        AgentState: 변경된 질문을 포함하는 state를 반환합니다.
    """
    query = state.query  # state에서 사용자의 질문을 추출합니다.
    
    # 리라이트 체인을 구성합니다. 프롬프트, LLM, 출력 파서를 연결합니다.
    rewrite_chain = rewrite_prompt | llm | StrOutputParser()

    # 질문을 변경합니다.
    response = rewrite_chain.invoke({'query': query})
    
    #return {'query': response}  # 변경된 질문을 포함하는 state를 반환합니다.

    return AgentState(
        query=response,
        context=state.context,
        answer=state.answer,
        rewrite_count=state.rewrite_count
    )



@tool
def web_search(query: str) -> str:
    """
    DuckDuckGo를 이용한 간단한 웹 검색.
    """
    url = f"https://html.duckduckgo.com/html/?q={query}"
    try:
        resp = requests.get(url, timeout=5)
        soup = BeautifulSoup(resp.text, "html.parser")
        results = soup.find_all("a", class_="result__a")
        snippets = [a.text for a in results[:3]]
        return "\n".join(snippets) if snippets else "검색 결과가 없습니다."
    except Exception as e:
        print(e)
        return "검색 중 오류가 발생했습니다."

# 추가 한거
web_agent = create_react_agent(
    llm,
    tools=[web_search],
    prompt="당신은 최신 정보를 찾기 위해 웹 검색을 수행하는 웹봇입니다. 사용자 질문을 검색해서 답변하세요."
)

def web_node(state: AgentState) -> AgentState:
    # DuckDuckGo tool 호출
    search_result = web_search(state.query)

    web_prompt = f"""
    당신은 최신 정보를 찾기 위해 웹 검색을 수행하는 웹봇입니다.
    아래 검색 결과를 참고하여 사용자 질문에 답변하세요.

    검색결과:
    {search_result}

    질문: {state.query}
    """

    response = llm.invoke([HumanMessage(content=web_prompt)])
    text = getattr(response, "content", str(response))

    return AgentState(
        query=state.query,
        context=state.context,
        answer=text,
        rewrite_count=state.rewrite_count
    )


#def web_node(state: AgentState) -> AgentState:
#    result = web_agent.invoke(state)
#    return Command(
#        update={
#            "messages": [
#                HumanMessage(
#                    content=result["messages"][-1].content,
#                    name="web_search"
#                )
#            ]
#        },
#        goto="supervisor",
#    )