In [None]:
import os
from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_postgres import PGVector
from langchain.prompts import PromptTemplate

connection_string = "postgresql+psycopg2://play:123@localhost:5432/play"


In [10]:
connection_string = "postgresql+psycopg2://play:123@localhost:5432/play"
collection_name = 'skn15'


from langchain_openai import OpenAIEmbeddings


embedding = OpenAIEmbeddings()

vectorstore = PGVector(
    embeddings=embedding,
    collection_name=collection_name,
    connection=connection_string,
    use_jsonb=True)


In [12]:
documents = [
    Document(page_content="RAG는 Retrieval-Augmented Generation의 약자입니다."),
    Document(page_content="pgvector는 PostgreSQL에서 벡터 검색을 지원하는 확장 기능입니다."),
    Document(page_content="LangChain은 LLM을 활용한 애플리케이션 개발을 돕는 프레임워크입니다."),
    Document(page_content="한국의 수도는 서울입니다."),
]

vectorstore.add_documents(documents)



['9e886d3d-d34d-4c73-b9c1-47d573778867',
 'b3e91d2f-3e46-45ce-bda9-8456127df5fe',
 '99c7c394-9e89-4778-a7df-37786ce08c0a',
 'fc62e8cb-5569-456b-9520-dc85eb866681']

## mcp

In [14]:
pip install mcp

Note: you may need to restart the kernel to use updated packages.


In [15]:
pip install arxiv

Note: you may need to restart the kernel to use updated packages.


In [21]:
import arxiv


client = arxiv.Client()
topic = 'llm'
search = arxiv.Search(
    query= topic,
    max_results=5,
    sort_by= arxiv.SortCriterion.Relevance
)
papers = client.results(search=search)

for paper in papers:
    print(paper)

http://arxiv.org/abs/2412.18022v1
http://arxiv.org/abs/2406.10300v1
http://arxiv.org/abs/2405.19888v1
http://arxiv.org/abs/2311.10372v2
http://arxiv.org/abs/2411.15764v1


NameError: name 'List' is not defined

In [24]:
import os, json
from typing import List

PAPER_DIR = "./papers"
def search_papers(topic: str, max_results: int = 5) -> List[str]:
    """
    주제를 기반으로 arXiv에서 논문을 검색하고 해당 정보를 저장한다.


    Args:
        topic: 검색할 주제
        max_results: 검색할 최대 결과 수 (기본값: 5)


    Returns:
        검색에서 찾은 논문 ID 목록
    """
    # arxiv를 사용하여 논문 찾기
    client = arxiv.Client()
    search = arxiv.Search(
        query     = topic,
        max_results = max_results,
        sort_by   = arxiv.SortCriterion.Relevance
    )
    papers = client.results(search)


    # 이 주제에 대한 디렉토리 생성
    path = os.path.join(PAPER_DIR, topic.lower().replace(" ", "_"))
    os.makedirs(path, exist_ok=True)


    file_path = os.path.join(path, "papers_info.json")


    # 기존 논문 정보 로드 시도
    try:
        with open(file_path, "r") as json_file:
            papers_info = json.load(json_file)
    except (FileNotFoundError, json.JSONDecodeError):
        papers_info = {}


    # 각 논문을 처리하고 papers_info에 추가
    paper_ids = []
    for paper in papers:
        paper_id   = paper.get_short_id()
        paper_info = {
            "title"    : paper.title,
            "authors"  : [author.name for author in paper.authors],
            "summary"  : paper.summary,
            "pdf_url"  : paper.pdf_url,
            "published": str(paper.published.date())
        }
        paper_ids.append(paper_id)
        papers_info[paper_id] = paper_info


    # 업데이트된 papers_info를 json 파일에 저장
    with open(file_path, "w") as json_file:
        json.dump(papers_info, json_file, indent=2)


    print(f"결과가 다음 위치에 저장되었습니다: {file_path}")
    return paper_ids

In [25]:
search_papers("predict stock")

결과가 다음 위치에 저장되었습니다: ./papers/predict_stock/papers_info.json


['2002.05784v1',
 '2106.10159v1',
 '2308.11117v1',
 '1911.02194v1',
 '2411.18997v1']

In [26]:
def extract_info(paper_id: str) -> str:
    """
    모든 주제 디렉토리에서 특정 논문에 관한 정보를 검색한다.
   
    Args:
        paper_id: 검색할 논문의 ID
       
    Returns:
        찾은 경우 논문 정보가 담긴 JSON 문자열, 찾지 못한 경우 오류 메시지
    """
 
    for item in os.listdir(PAPER_DIR):
        item_path = os.path.join(PAPER_DIR, item)
        if os.path.isdir(item_path):
            file_path = os.path.join(item_path, "papers_info.json")
            if os.path.isfile(file_path):
                try:
                    with open(file_path, "r") as json_file:
                        papers_info = json.load(json_file)
                        if paper_id in papers_info:
                            return json.dumps(papers_info[paper_id], indent=2)
                except (FileNotFoundError, json.JSONDecodeError) as e:
                    print(f"{file_path} 읽기 오류: {str(e)}")
                    continue
   
    return f"논문 {paper_id}와 관련된 저장된 정보가 없다."


In [27]:
extract_info('2022d.05784v1')

'논문 2022d.05784v1와 관련된 저장된 정보가 없다.'

In [28]:
functions = [
    {
        "name": "search_papers",
        "description": "주제를 기반으로 arXiv에서 논문을 검색하고 해당 정보를 저장한다.",
        "parameters": {
            "type": "object",
            "properties": {
                "topic": {
                    "type": "string",
                    "description": "검색할 주제"
                },
                "max_results": {
                    "type": "integer",
                    "description": "검색할 최대 결과 수",
                    "default": 5
                }
            },
            "required": ["topic"]
        }
    },
    {
        "name": "extract_info",
        "description": "모든 주제 디렉토리에서 특정 논문에 관한 정보를 검색한다.",
        "parameters": {
            "type": "object",
            "properties": {
                "paper_id": {
                    "type": "string",
                    "description": "검색할 논문의 ID"
                }
            },
            "required": ["paper_id"]
        }
    }
]


mapping_tool_function  = {
    "search_papers" : search_papers,
    "extract_info"  : extract_info
}


def execute_tool(tool_name, tool_args):
    result = mapping_tool_function[tool_name](**tool_args)


    if result is None:
        return "작업이 완료되었찌만 결과는 반환하지 않았다"
   
    if isinstance(result, list):
        return ", ".join(result)
   
    if isinstance(result, dict):
        return json.dumps(result, indent=2, ensure_ascii=False)
   
    return str(result)

In [None]:
from openai import OpenAI


client = OpenAI(api_key="너의 키")

In [46]:
messages = [{'role' : 'user', 'content' : "llm에 대해 알려줘"}]
resp  = client.chat.completions.create(
    model='gpt-4-0125-preview',
    messages=messages,
    functions=functions,
    function_call={"name": "search_papers"},
    max_tokens=2024
)


resp.choices[0].message

ChatCompletionMessage(content=None, refusal=None, role='assistant', annotations=[], audio=None, function_call=FunctionCall(arguments='{"topic":"large language models","max_results":5}', name='search_papers'), tool_calls=None)

In [47]:
msg = resp.choices[0].message
call = msg.function_call

In [49]:
tool_result = execute_tool(call.name,json.loads(call.arguments) )

결과가 다음 위치에 저장되었습니다: ./papers/large_language_models/papers_info.json


In [50]:
def process_query(query: str):
    messages = [{"role": "user", "content": query}]


    while True:
        resp = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=messages,
            functions=functions,
            function_call="auto",
            max_tokens=2024
        )
        msg = resp.choices[0].message


        # 1) 일반 텍스트 응답
        if msg.content is not None:
            print(msg.content)
            break


        # 2) 함수 호출 응답
        call = msg.function_call
        fname = call.name
        fargs = json.loads(call.arguments)


        print(f"Calling tool `{fname}` with args: {fargs}")
        tool_result = execute_tool(fname, fargs)


        # assistant의 함수 호출 메시지를 기록
        messages.append({
            "role": "assistant",
            "function_call": {
                "name": fname,
                "arguments": call.arguments
            }
        })
        # 함수 실행 결과를 function 역할로 추가
        messages.append({
            "role": "function",
            "name": fname,
            "content": tool_result
        })


In [52]:
def chat_loop():
    print("쿼리를 입력하거나 'quit'를 입력해 종료합니다.")
    while True:
        query = input("Query: ").strip()
        if query.lower() == "quit":
            break
        try:
            process_query(query)
       
        except Exception as e:
            print(f"Error: {e}")

In [54]:
chat_loop()

쿼리를 입력하거나 'quit'를 입력해 종료합니다.
Hello! How can I assist you today?


KeyboardInterrupt: Interrupted by user

# mcp_server.py 

In [1]:
# FastMCP 서버를 기반으로 arXiv에서 주제별 논문을 검색하고,
# 저장된 논문 정보에서 특정 논문 ID의 상세 정보를 조회할 수 있도록 하는 MCP 도구 코드

import arxiv  # arXiv API 클라이언트로 논문 검색 및 메타정보 획득
import json  # JSON 파일 입출력 및 포맷 처리
import os  # 운영체제 경로 및 디렉토리 조작
from typing import List  # 타입 힌팅용 List
from mcp.server.fastmcp import FastMCP  # 경량 MCP 서버 프레임워크

# 논문 저장 기본 경로 지정 (상위 디렉토리 내 papers 폴더)
PAPER_DIR = "../../papers"

# FastMCP 서버 인스턴스 생성 (서비스 이름: "research")
mcp = FastMCP("research")

@mcp.tool()
def search_papers(topic: str, max_results: int = 5) -> List[str]:
    """
    주어진 주제에 대해 arXiv에서 최대 max_results개의 논문을 검색하고,
    논문 메타정보를 주제별 JSON 파일에 저장한 후, 검색된 논문 ID 리스트를 반환하는 도구 함수.

    Args:
        topic: 논문 검색 키워드
        max_results: 최대 검색 결과 수 (기본값 5)

    Returns:
        검색된 논문 arXiv ID 목록 리스트
    """
    
    # arxiv 클라이언트 객체 생성
    client = arxiv.Client()

    # 주제와 관련된 논문 검색 설정 (관련도 기준 정렬)
    search = arxiv.Search(
        query=topic,
        max_results=max_results,
        sort_by=arxiv.SortCriterion.Relevance
    )

    # 실제 논문 검색 실행 후 결과 제너레이터 수신
    papers = client.results(search)
    
    # 주제 이름 기반 디렉토리 생성 (소문자, 공백→언더바)
    path = os.path.join(PAPER_DIR, topic.lower().replace(" ", "_"))
    os.makedirs(path, exist_ok=True)
    
    # 논문 정보 저장 파일 경로 설정
    file_path = os.path.join(path, "papers_info.json")

    # 기존 JSON 파일 로드 시도 (없거나 오류 시 빈 dict로 초기화)
    try:
        with open(file_path, "r") as json_file:
            papers_info = json.load(json_file)
    except (FileNotFoundError, json.JSONDecodeError):
        papers_info = {}

    # 검색된 논문 정보 수집 및 저장용 딕셔너리 구성
    paper_ids = []
    for paper in papers:
        paper_id = paper.get_short_id()
        paper_ids.append(paper_id)
        paper_info = {
            'title': paper.title,
            'authors': [author.name for author in paper.authors],
            'summary': paper.summary,
            'pdf_url': paper.pdf_url,
            'published': str(paper.published.date())
        }
        papers_info[paper_id] = paper_info
    
    # 갱신된 논문 정보를 JSON 파일로 저장 (포맷팅 포함)
    with open(file_path, "w") as json_file:
        json.dump(papers_info, json_file, indent=2)
    
    # 저장 위치 출력
    print(f"결과가 다음 위치에 저장되었습니다: {file_path}")
    
    # 검색된 논문 ID 목록 반환
    return paper_ids

@mcp.tool()
def extract_info(paper_id: str) -> str:
    """
    저장된 여러 주제별 논문 정보에서 특정 논문 ID(Arxiv ID)에 대한 상세 메타정보를 JSON 문자열로 반환하는 함수.

    Args:
        paper_id: 조회할 논문 ID 문자열

    Returns:
        논문 상세 정보 JSON 문자열 또는 미발견 시 오류 메시지 문자열
    """

    # PAPER_DIR 내부 모든 주제별 폴더를 순회하며 papers_info.json 탐색
    for item in os.listdir(PAPER_DIR):
        item_path = os.path.join(PAPER_DIR, item)
        if os.path.isdir(item_path):
            file_path = os.path.join(item_path, "papers_info.json")
            if os.path.isfile(file_path):
                try:
                    with open(file_path, "r") as json_file:
                        papers_info = json.load(json_file)
                        if paper_id in papers_info:
                            return json.dumps(papers_info[paper_id], indent=2)
                except (FileNotFoundError, json.JSONDecodeError) as e:
                    print(f"{file_path} 파일 읽기 오류: {str(e)}")
                    continue
    
    # 모든 폴더 탐색 후 논문 정보를 못 찾으면 메시지 반환
    return f"{paper_id} 논문에 대한 저장된 정보를 찾을 수 없습니다."

if __name__ == "__main__":
    # MCP 서버 실행, stdio 방식 통신으로 명령 수신/발신
    mcp.run(transport='stdio')
    
    
npx @modelcontextprotocol/inspector uv run research_server.py



SyntaxError: invalid syntax (1075157645.py, line 116)