# Arxiv

[arXiv](https://arxiv.org/)은 물리학, 수학, 컴퓨터 과학, 정량 생물학, 정량 금융, 통계, 전기공학 및 시스템 과학, 경제학 분야의 200만 편의 학술 논문을 위한 오픈 액세스 아카이브입니다.

[API 도큐먼트](https://api.python.langchain.com/en/latest/document_loaders/langchain_community.document_loaders.arxiv.ArxivLoader.html#langchain_community.document_loaders.arxiv.ArxivLoader)

Arxiv 문서 로더에 접근하려면 `arxiv`, `PyMuPDF` 및 `langchain-community` 통합 패키지를 설치해야 합니다. 

`PyMuPDF` 는 arxiv.org 사이트에서 다운로드한 PDF 파일을 텍스트 형식으로 변환합니다.

In [None]:
# 설치 및 PyMuPDF 재설치
# !pip install -qU langchain-community arxiv pymupdf

# PyMuPDF 문제 해결을 위한 재설치
import subprocess
import sys

try:
    # PyMuPDF 재설치
    subprocess.check_call(
        [
            sys.executable,
            "-m",
            "pip",
            "install",
            "--upgrade",
            "--force-reinstall",
            "PyMuPDF",
        ]
    )
    print("PyMuPDF 재설치 완료")
except Exception as e:
    print(f"재설치 중 오류: {e}")

# fitz 모듈 테스트
try:
    import fitz

    print(f"fitz 모듈 로드 성공, 버전: {fitz.__version__}")
except ImportError as e:
    print(f"fitz 모듈 로드 실패: {e}")

## 객체 생성

이제 **model** 객체를 인스턴스화하고 문서를 로드할 수 있다:

In [1]:
from langchain_community.document_loaders import ArxivLoader

# Query 에 검색하고자 하는 논문의 주제를 입력합니다.
loader = ArxivLoader(
    query="Chain of thought",
    load_max_docs=2,  # 최대 문서 수
    load_all_available_meta=True,  # 메타데이터 전체 로드 여부
)

In [4]:
# PyMuPDF 문제 해결을 위한 코드
import ssl
import urllib.request

# SSL 인증서 검증 비활성화 (임시 해결책)
ssl._create_default_https_context = ssl._create_unverified_context

try:
    import fitz

    print(f"PyMuPDF version: {fitz.__version__}")

    # 문서 로드 시도
    docs = loader.load()
    print(f"문서 로드 성공: {len(docs)}개 문서")

except (AttributeError, ssl.SSLError, urllib.request.URLError) as e:
    print(f"PDF 다운로드 오류: {e}")
    print("SSL 인증서 문제 또는 PyMuPDF 문제가 발생했습니다.")

    # 대안: 요약만 로드해보기 (PDF 다운로드 없이)
    try:
        print("요약 로드를 시도합니다...")
        docs = loader.get_summaries_as_docs()
        print(f"요약 로드 성공: {len(docs)}개 문서")
    except Exception as summary_error:
        print(f"요약 로드도 실패: {summary_error}")
        docs = []

except Exception as e:
    print(f"기타 오류: {e}")
    docs = []

docs

PyMuPDF version: 1.26.3
PDF 다운로드 오류: module 'fitz' has no attribute 'fitz'
SSL 인증서 문제 또는 PyMuPDF 문제가 발생했습니다.
요약 로드를 시도합니다...
요약 로드 성공: 3개 문서
PDF 다운로드 오류: module 'fitz' has no attribute 'fitz'
SSL 인증서 문제 또는 PyMuPDF 문제가 발생했습니다.
요약 로드를 시도합니다...
요약 로드 성공: 3개 문서


[Document(metadata={'Entry ID': 'http://arxiv.org/abs/2311.09277v1', 'Published': datetime.date(2023, 11, 15), 'Title': 'Contrastive Chain-of-Thought Prompting', 'Authors': 'Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing'}, page_content='Despite the success of chain of thought in enhancing language model\nreasoning, the underlying process remains less well understood. Although\nlogically sound reasoning appears inherently crucial for chain of thought,\nprior studies surprisingly reveal minimal impact when using invalid\ndemonstrations instead. Furthermore, the conventional chain of thought does not\ninform language models on what mistakes to avoid, which potentially leads to\nmore errors. Hence, inspired by how humans can learn from both positive and\nnegative examples, we propose contrastive chain of thought to enhance language\nmodel reasoning. Compared to the conventional chain of thought, our approach\nprovides both valid and invalid reasoning demonstrations,

In [5]:
# 문서가 로드되었다면 메타데이터 출력
if docs and len(docs) > 0:
    print("첫 번째 문서 메타데이터:")
    print(docs[0].metadata)

    if hasattr(docs[0], "page_content") and docs[0].page_content:
        print(f"\n문서 내용 미리보기 (처음 200자):")
        print(docs[0].page_content[:200] + "...")
else:
    print("로드된 문서가 없습니다.")

    # 대안: 온라인 검색 없이 로컬에서 작업 가능한 예시
    print("\n=== 대안 방법 ===")
    print("네트워크 문제로 arXiv 접근이 어려운 경우:")
    print("1. VPN 사용")
    print("2. 회사/기관 네트워크에서 시도")
    print("3. 다른 시간대에 재시도")
    print("4. 로컬 PDF 파일 사용 (PyPDF, PyMuPDF 등)")

    # 간단한 테스트 문서 생성
    from langchain_core.documents import Document

    test_docs = [
        Document(
            page_content="This is a test document for demonstration purposes.",
            metadata={"title": "Test Document", "source": "manual"},
        )
    ]

    print("\n테스트 문서 생성:")
    print(test_docs[0].metadata)

첫 번째 문서 메타데이터:
{'Entry ID': 'http://arxiv.org/abs/2311.09277v1', 'Published': datetime.date(2023, 11, 15), 'Title': 'Contrastive Chain-of-Thought Prompting', 'Authors': 'Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing'}

문서 내용 미리보기 (처음 200자):
Despite the success of chain of thought in enhancing language model
reasoning, the underlying process remains less well understood. Although
logically sound reasoning appears inherently crucial for ch...


`load_all_available_meta=False` 인 경우 메타데이터는 전체가 아닌 일부만 출력됩니다.

In [6]:
# Query 에 검색하고자 하는 논문의 주제를 입력합니다.
loader = ArxivLoader(
    query="ChatGPT",
    load_max_docs=2,  # 최대 문서 수
    load_all_available_meta=False,  # 메타데이터 전체 로드 여부
)

# 문서 로드 결과출력
docs = loader.load()

# 문서 메타데이터 출력
docs[0].metadata

{'Published': '2023-10-05',
 'Title': 'In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT',
 'Authors': 'Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang',
 'Summary': "The way users acquire information is undergoing a paradigm shift with the\nadvent of ChatGPT. Unlike conventional search engines, ChatGPT retrieves\nknowledge from the model itself and generates answers for users. ChatGPT's\nimpressive question-answering (QA) capability has attracted more than 100\nmillion users within a short period of time but has also raised concerns\nregarding its reliability. In this paper, we perform the first large-scale\nmeasurement of ChatGPT's reliability in the generic QA scenario with a\ncarefully curated set of 5,695 questions across ten datasets and eight domains.\nWe find that ChatGPT's reliability varies across different domains, especially\nunderperforming in law and science questions. We also demonstrate that system\nroles, originally designed by OpenAI to

## 요약(summary)

- 논문의 전체 내용이 아닌 요약본을 출력하고자 한다면, `get_summaries_as_docs()` 함수를 호출하면 됩니다.

In [7]:
# 문서 요약 로딩
docs = loader.get_summaries_as_docs()

# 첫 번째 문서 접근
print(docs[0].page_content)

The way users acquire information is undergoing a paradigm shift with the
advent of ChatGPT. Unlike conventional search engines, ChatGPT retrieves
knowledge from the model itself and generates answers for users. ChatGPT's
impressive question-answering (QA) capability has attracted more than 100
million users within a short period of time but has also raised concerns
regarding its reliability. In this paper, we perform the first large-scale
measurement of ChatGPT's reliability in the generic QA scenario with a
carefully curated set of 5,695 questions across ten datasets and eight domains.
We find that ChatGPT's reliability varies across different domains, especially
underperforming in law and science questions. We also demonstrate that system
roles, originally designed by OpenAI to allow users to steer ChatGPT's
behavior, can impact ChatGPT's reliability in an imperceptible way. We further
show that ChatGPT is vulnerable to adversarial examples, and even a single
character change can ne

## lazy_load()

문서를 대량으로 로드할 때 모든 로드된 문서의 부분 집합에 대해 하류 작업을 수행할 수 있다면, 메모리 사용량을 최소화하기 위해 문서를 한 번에 하나씩 지연 로드할 수 있습니다.

In [8]:
docs = []

# 문서 지연 로드
for doc in loader.lazy_load():
    docs.append(doc)

In [9]:
# 결과 출력
docs

[Document(metadata={'Published': '2023-10-05', 'Title': 'In ChatGPT We Trust? Measuring and Characterizing the Reliability of ChatGPT', 'Authors': 'Xinyue Shen, Zeyuan Chen, Michael Backes, Yang Zhang', 'Summary': "The way users acquire information is undergoing a paradigm shift with the\nadvent of ChatGPT. Unlike conventional search engines, ChatGPT retrieves\nknowledge from the model itself and generates answers for users. ChatGPT's\nimpressive question-answering (QA) capability has attracted more than 100\nmillion users within a short period of time but has also raised concerns\nregarding its reliability. In this paper, we perform the first large-scale\nmeasurement of ChatGPT's reliability in the generic QA scenario with a\ncarefully curated set of 5,695 questions across ten datasets and eight domains.\nWe find that ChatGPT's reliability varies across different domains, especially\nunderperforming in law and science questions. We also demonstrate that system\nroles, originally desig