### Testing

In [7]:
%pip install nest_asyncio

Note: you may need to restart the kernel to use updated packages.


In [1]:
from langsmith import wrappers, Client
from pydantic import BaseModel, Field
from openai import OpenAI

client = Client()
openai_client = wrappers.wrap_openai(OpenAI())

examples = [
    {
        "question": "2024년에 LangGraph 에이전트를 가장 많이 채택한 회사들은 어디인가요?",
        "answer": "2025년 LangGraph 주요 채택 기업은 Replit, Elastic, LinkedIn, AppFolio, Uber 등으로, 다양한 업무에 에이전트를 활용하고 있습니다. :cite[3]"
    },
    {
        "question": "Replit은 LangGraph를 사용하면서 어떤 개선을 이루었나요?",
        "answer": "Replit은 LangGraph 도입으로 멀티 에이전트 흐름을 안정적으로 관리하고, 디버깅과 사용자 상호작용 추적을 대폭 개선했습니다. :cite[4]"
    },
    {
        "question": "2025년 LLM 인프라 트렌드는 어떤 것이 있었나요?",
        "answer": "2025년 LLM 인프라는 멀티모달 역량, 자율 에이전트, 실시간 정보 통합 추론, 효율 중심 소형 모델, 하이브리드/엣지 배포, 분산 학습 방식, 효율 및 지속가능성 중심 프레임워크 등 다방면에서 진화하고 있습니다. :cite[2]:cite[5]"
    },
    {
        "question": "LangGraph는 2024년과 비교해 에이전트 워크플로를 어떻게 개선했나요?",
        "answer": "LangGraph는 에이전트 상태 제어, human‑in‑the‑loop 워크플로 강화, 동적 멀티‑에이전트 흐름 구성, 의미 기반 기억 검색, 정적 타입 안정성, 그리고 스트리밍 및 checkpoint 효율성 향상 등 다방면에서 에이전트 워크플로 설계와 운영을 크게 진화시켰습니다. :cite[2]:cite[7]"
    },
    {
        "question": "Elastic의 LangGraph 구현은 무엇이 다른가요?",
        "answer": "Elastic은 보안 중심 자동화 기능과 Elasticsearch 기반 RAG 에이전트 구현을 위한 종합 템플릿/툴킷을 제공함으로써, 일반적인 LangGraph 사용보다 도메인 특화, 검색 최적화, 운영 강조 측면에서 확연히 구분됩니다.  :cite[3]"
    }
]


inputs = [{"question": example["question"]} for example in examples]
outputs = [{"answer": example["answer"]} for example in examples]

# LangSmith의 Dataset을 생성
dataset = client.create_dataset(
    dataset_name="langgraph-blogs-qa", description="LangGraph blogs QA."
)

# dataset에 example 데이터 추가
client.create_examples(inputs=inputs, outputs=outputs, dataset_id=dataset.id)

print(
    f"Dataset created in langsmith with ID: {dataset.id}\n Navigate to {dataset.url}.")


Dataset created in langsmith with ID: 2f20aae8-fe4b-48ff-a0d9-82642ab726c3
 Navigate to https://smith.langchain.com/o/131371ab-0bf2-4ad3-88cd-3b2d53ea1af9/datasets/2f20aae8-fe4b-48ff-a0d9-82642ab726c3.


In [None]:
from typing import List, TypedDict
from langchain_community.document_loaders import WebBaseLoader
from langchain.schema import Document
from langgraph.graph import END, StateGraph, START
from langchain_community.vectorstores import InMemoryVectorStore
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain import hub
from langchain_openai import ChatOpenAI


class GraphState(TypedDict):
    """
    Represents the state of our graph.

    Attributes:
        question: question
        scraped_documents: list of documents
        vectorstore: vectorstore
    """

    question: str
    scraped_documents: List[str]
    vectorstore: InMemoryVectorStore
    answer: str


def scrape_blog_posts(state) -> List[Document]:
    """
    Scrape the blog posts and create a list of documents
    """

    urls = [
        "https://blog.langchain.dev/top-5-langgraph-agents-in-production-2024/",
        "https://blog.langchain.dev/langchain-state-of-ai-2024/",
        "https://blog.langchain.dev/introducing-ambient-agents/",
    ]

    docs = [WebBaseLoader(url).load() for url in urls]
    docs_list = [item for sublist in docs for item in sublist]

    return {"scraped_documents": docs_list}


def indexing(state):
    """
    Index the documents
    """
    text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
        chunk_size=250, chunk_overlap=0
    )
    doc_splits = text_splitter.split_documents(state["scraped_documents"])

    # Add to vectorDB
    vectorstore = InMemoryVectorStore.from_documents(
        documents=doc_splits,
        embedding=OpenAIEmbeddings(),
    )
    return {"vectorstore": vectorstore}


def retrieve_and_generate(state):
    """
    Retrieve documents from vectorstore and generate answer
    """
    question = state["question"]
    vectorstore = state["vectorstore"]

    retriever = vectorstore.as_retriever()

    prompt = hub.pull("rlm/rag-prompt")
    llm = ChatOpenAI(model_name="gpt-4o-mini", temperature=0)

    # fetch relevant documents
    docs = retriever.invoke(question)  # format prompt
    formatted = prompt.invoke(
        {"context": docs, "question": question})  # generate answer
    answer = llm.invoke(formatted)
    return {"answer": answer}


# Graph
workflow = StateGraph(GraphState)

# Define the nodes
workflow.add_node("retrieve_and_generate", retrieve_and_generate)  # retrieve
workflow.add_node("scrape_blog_posts", scrape_blog_posts)  # scrape web
workflow.add_node("indexing", indexing)  # index

# Build graph
workflow.add_edge(START, "scrape_blog_posts")
workflow.add_edge("scrape_blog_posts", "indexing")
workflow.add_edge("indexing", "retrieve_and_generate")

workflow.add_edge("retrieve_and_generate", END)

# Compile
graph = workflow.compile()


In [12]:
from typing import Optional

from langchain_openai import ChatOpenAI
from langsmith import Client, evaluate, aevaluate
from langsmith.evaluation import EvaluationResults
from pydantic import BaseModel, Field
from typing_extensions import Annotated, TypedDict
# from rag_graph import graph
from dotenv import load_dotenv
import nest_asyncio

load_dotenv()
client = Client()

DEFAULT_DATASET_NAME = "langgraph-blogs-qa"

llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)

EVALUATION_PROMPT = f"""당신은 퀴즈를 채점하는 선생님입니다.

                        질문, 정답(정답), 학생 답안이 주어집니다.

                        채점 기준은 다음과 같습니다.
                        (1) 정답 대비 사실적 정확성만을 기준으로 학생 답안을 채점합니다.
                        (2) 학생 답안에 상충되는 진술이 없는지 확인합니다.
                        (3) 정답 대비 사실적 정확성을 유지하는 한, 학생 답안에 정답보다 더 많은 정보가 포함되어 있어도 괜찮습니다.

                        정확성(Correctness):
                        참은 학생의 답안이 모든 기준을 충족함을 의미합니다.
                        거짓은 학생의 답안이 모든 기준을 충족하지 못함을 의미합니다.

                        추론과 결론이 정확한지 확인하기 위해 단계별로 추론 과정을 설명하십시오."""

# LLM-as-judge output schema


class Grade(TypedDict):
    """Compare the expected and actual answers and grade the actual answer."""
    reasoning: Annotated[str, ...,
                         "실제 응답이 맞는지 아닌지에 대한 추론을 설명하세요."]
    is_correct: Annotated[bool, ...,
                          "학생의 응답이 대부분 또는 정확히 맞으면 참이고, 그렇지 않으면 거짓입니다."]


grader_llm = llm.with_structured_output(Grade)
# PUBLIC API


def transform_dataset_inputs(inputs: dict) -> dict:
    """Transform LangSmith dataset inputs to match the agent's input schema before invoking the agent."""
    return inputs


def transform_agent_outputs(outputs: dict) -> dict:
    """Transform agent outputs to match the LangSmith dataset output schema."""
    return {"info": outputs["info"]}

# Evaluator function


async def evaluate_agent(inputs: dict, outputs: dict, reference_outputs: dict) -> bool:
    """Evaluate if the final response is equivalent to reference response."""
    
    user = f"""QUESTION: {inputs['question']}
                GROUND TRUTH RESPONSE: {reference_outputs['answer']}
                STUDENT RESPONSE: {outputs['answer']}"""

    grade = await grader_llm.ainvoke([{"role": "system", "content": EVALUATION_PROMPT}, {"role": "user", "content": user}])
    is_correct = grade["is_correct"]
    return is_correct


# Target function
async def run_graph(inputs: dict) -> dict:
    """Run graph and track the trajectory it takes along with the final response."""
    result = await graph.ainvoke({
        "question": inputs["question"]
    })
    return {"answer": result["answer"].content}

# run evaluation


async def run_eval(
    dataset_name: str,
    experiment_prefix: Optional[str] = None,
) -> EvaluationResults:
    dataset = client.read_dataset(dataset_name=dataset_name)
    results = await aevaluate(
        run_graph,
        data=dataset,
        evaluators=[evaluate_agent],
        experiment_prefix=experiment_prefix,
    )
    return results


async def main():
    experiment_results = await run_eval(dataset_name=DEFAULT_DATASET_NAME,
                                        experiment_prefix="langgraph-blogs-qa-evals")

#if __name__ == "__main__":
#    import asyncio
#    asyncio.run(main())

await main()



View the evaluation results for experiment: 'langgraph-blogs-qa-evals-8a9fc4b8' at:
https://smith.langchain.com/o/131371ab-0bf2-4ad3-88cd-3b2d53ea1af9/datasets/2f20aae8-fe4b-48ff-a0d9-82642ab726c3/compare?selectedSessions=dc3c4fda-898c-4d08-bcc5-8c7fe0e6eec6




0it [00:00, ?it/s]

In [None]:
from langchain import hub
from langchain.chat_models import init_chat_model
from langsmith import evaluate

# See the prompt: https://smith.langchain.com/hub/langchain-ai/pairwise-evaluation-2
prompt = hub.pull("langchain-ai/pairwise-evaluation-2")
model = init_chat_model("gpt-4o-mini")
chain = prompt | model

def ranked_preference(inputs: dict, outputs: list[dict]) -> list:
    # Assumes example inputs have a 'question' key and experiment
    # outputs have an 'answer' key.
    response = chain.invoke({
        "question": inputs["question"],
        "answer_a": outputs[0].get("answer", "N/A"),
        "answer_b": outputs[1].get("answer", "N/A"),
    })

    if response["Preference"] == 1:
        scores = [1, 0]
    elif response["Preference"] == 2:
        scores = [0, 1]
    else:
        scores = [0, 0]
    return scores

evaluate(
    ("langgraph-blogs-qa-evals-2-e5e3746f", "langgraph-blogs-qa-evals-2-e5e3746f"),  # Replace with the names/IDs of your experiments
    evaluators=[ranked_preference],
    randomize_order=True,
    max_concurrency=4,
)