## 2.1 웹 페이지 로더
- HTML 콘텐츠를 로드하고 파싱하여 문서 형식으로 변환하는 다양한 도구를 제공합니다.

### WebBaseLoader
- 단일 또는 여러 웹페이지에서 텍스트를 로드할 수 있으며, BeautifulSoup을 활용해 HTML을 세부적으로 파싱할 수 있습니다.
- 비동기 로딩(여러 페이지를 동시에 빠르게 처리)과 지연 로딩(Lazy Loading, 필요한 페이지만 순차적으로 처리)으로 성능을 높일 수 있습니다.

In [2]:
import os
# 사용자 에이전트 설정
os.environ["USER_AGENT"] = "MyApp/1.0 (Custom LangChain Application)"
#라이브러리 불러오기
from langchain_community.document_loaders import WebBaseLoader
#단일 URL 초기화
loader = WebBaseLoader("https://docs.smith.langchain.com/")
#다중 URL 초기화
loader_multiple_pages = WebBaseLoader(
    [
        "https://python.langchain.com/docs/introduction/",
        "https://langchain-ai.github.io/langgraph/"
    ]
)

- USER_AGENT 환경 변수를 설정하는 이유는 서버가 클라이언트 요청을 더 쉽게 식별하고 추적하기 위함입니다. 설정하지 않으면 경고 메시지를 표시합니다.
- 단일 웹페이지를 불러올 때는 String타입으로 불러올 수 있고, 다중 웹 페이지는 리스트 형식으로 전달하여 처리할 수 있습ㄴ디ㅏ.

In [3]:
# 단일 문서 로드
single_doc = loader.load()
# 문서의 메타데이터 확인
print(single_doc[0].metadata)

{'source': 'https://docs.smith.langchain.com/', 'title': 'Get started with LangSmith | 🦜️🛠️ LangSmith', 'description': 'LangSmith is a platform for building production-grade LLM applications.', 'language': 'en'}


In [4]:
# 다중 문서 로드
docs = loader_multiple_pages.load()
# 첫 번째 문서의 페이지 콘텐츠 확인
print(docs[0].page_content)






Introduction | 🦜️🔗 LangChain






Skip to main contentJoin us at  Interrupt: The Agent AI Conference by LangChain on May 13 & 14 in San Francisco!IntegrationsAPI ReferenceMoreContributingPeopleError referenceLangSmithLangGraphLangChain HubLangChain JS/TSv0.3v0.3v0.2v0.1💬SearchIntroductionTutorialsBuild a Question Answering application over a Graph DatabaseTutorialsBuild a simple LLM application with chat models and prompt templatesBuild a ChatbotBuild a Retrieval Augmented Generation (RAG) App: Part 2Build an Extraction ChainBuild an AgentTaggingBuild a Retrieval Augmented Generation (RAG) App: Part 1Build a semantic search engineBuild a Question/Answering system over SQL dataSummarize TextHow-to guidesHow-to guidesHow to use tools in a chainHow to use a vectorstore as a retrieverHow to add memory to chatbotsHow to use example selectorsHow to add a semantic layer over graph databaseHow to invoke runnables in parallelHow to stream chat model responsesHow to add default invocation 

## 2.2 PDF 로더
- PyPDFLoader : 간단하고 사용하기 쉬우나 복잡한 레이아웃의 PDF에서는 정확도가 떨어질 수 있습니다.
- PyMuPDFLoader : PyPDFLoader보다 빠르고 정확한 텍스트 추출이 가능하며, 이미지나 표, 레이아웃 정보 등도 추출할 수 있습니다.
- PDFPlumberLoader : 표와 같은 구조화된 데이터 추출에 특화되어 있습니다.

### PyPDFLoader
- PDF 문서를 페이지 단위로 로드하는 데 자주 사용하는 도구입니다.
- 30페이지로 구성된 PDF는 원칙적으로 30개의 청크로 나누어 로드됩니다.
- 모든 페이지가 청크로 변환되는 것은 아닙니다. 일부 페이지가 텍스트 없이 이미지만 포함되어 있거나 완전히 빈 페이지인 경우 해당 페이지는 로드 과정에서 제외될 수 있습니다.
- 실제로 로드된 청크 수는 PDF 페이지 수보다 적을 수 있습니다.

In [5]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.document_loaders import PDFPlumberLoader

In [8]:
%%time
# PDF 파일 로더 초기화
loader = PyPDFLoader("./2024_KB_부동산_보고서_최종.pdf")
# PDF 파일 로드 및 페이지 분할
pages = loader.load_and_split()
print(f'청크의 수 {len(pages)}')

청크의 수 83
CPU times: total: 3.95 s
Wall time: 4.06 s


- load_and_split() 메서드는 각 행을 Document로 로드한 후, 지정된 텍스트 분할기(기본값은 RecursiveCharacterTextSplitter)를 사용하여 각 Document를 더 작은 청크로 나눕니다.
- 결과에는 실행 속도를 측정한 CPU시간과 Wall 시간 정보도 포함되어 있습니다.
- CPU시간은 사용자(user)시간과 시스템(sys) 시간으로 나뉩니다.
- 사용자 시간 : 컴퓨터가 사용자의 코드 실행에 집중한 시간. 코드가 실제로 계산이나 작업을 수행하는데 사용한 시간입니다.
- 시스템 시간 : 시스템 작업에 소요된 시간으로 파일 열기나 네트워크 작업등 코드 외적인 처리에 사용한 시간입니다.
- 벽시계 시간 : 프로그램 시작부터 끝까지 걸린 시간으로 사용자가 체감한 전체 실행 시간으로 대부분의 시간이 코드 실행에 사용되었습니다.

In [12]:
pages[10]

Document(metadata={'producer': 'Microsoft® Word 2016', 'creator': 'Microsoft® Word 2016', 'creationdate': '2024-03-04T15:30:01+09:00', 'title': 'Morning Meeting', 'author': '손은경', 'moddate': '2024-03-04T15:30:01+09:00', 'source': './2024_KB_부동산_보고서_최종.pdf', 'total_pages': 84, 'page': 11, 'page_label': '12'}, page_content='5 \n2024 KB 부동산 보고서: 2024년 주택시장 진단과 전망 \n \n표Ⅰ-1. 공급 확대 정책 주요 내용 \n날짜 주요 내용 \n2023년 9월 \n공공 부문 공급물량 확대: 3기 신도시를 포함한 공급물량 확대 및 조기 공급 방안 마련 \n사업 여건 개선: 전매 제한 완화 및 규제 정상화, 조기 인허가 인센티브 및 절차 개선, 공사비 증액 \n기준 마련 및 인력 확충, 분양 사업의 임대 사업 전환 촉진 \n원활한 자금 지원: PF대출 보증 확대, 중도금 대출 지원 \n비아파트 자금 조달 지원 및 규제 개선 \n도심 공급 기반 확충: 정비사업 절차 및 소규모 사업 사업성 개선 \n2024년 1월 \n도심 공급 확대: 재건축·재개발 패스트트랙 도입 및 재건축 부담금 합리화, 1기 신도시 재정비사업의 \n신속하고 내실 있는 계획 수립, 소규모 정비·도심 복합 사업 속도 개선 및 자금 지원 강화 \n다양한 유형의 주택 공급 확대: 도시·건축 규제 완화 및 세제·금융 지원, 등록 임대 사업 여건 개선 \n및 기업형 장기임대 활성화, 신축 매입 약정 확대, 전세 사기 예방 및 피해 지원 \n신도시 등 공공주택 공급: 2024년 공공주택 14만 호 이상 공급, 신도시 조성 속도 제고 \n건설 경기 활력 회복: PF대출 지원 및 유동성 지원, 공공 임대 참여 지분 조기 매각, 민간 사업장 \n공

- PyPDFLoader를 사용하면 page_content에 분할된 텍스트 본문이 저장되고, metadata의 source에는 해당 본문의 원본 파일명이 저장됩니다.
- 본문 내용에만 접근하려면 각 청크에서 .page_content를 호출하면 됩니다.
- load_and_split()메서드는 기본적으로 RecursiveCharacterTextSplitter를 사용하여, PDF를 청크로 분할합니다.
  - 청크 크기(chunk_size), 중복 범위(chunk_overlap), 분할 우선순위 문자(separators)를 조정하면 더 세밀한 분할이 가능합니다.

### PyMuPDFLoader
- 빠른 속도와 다양한 메타데이터 추출 기능을 제공하여, 다수의 PDF파일이나 대용량 PDF를 처리할 때 효율적입니다.
- PyPDFLoader에 비해 더 다양한 메타데이터를 추출할 수 있는 특징이 있습니다.
- 청크 분할 방식이 다른 PDF로더와 다를 수 있으므로 결과를 비교한 후 적합한 로드를 선택하는 것이 좋습니다.

In [14]:
%%time
loader = PyMuPDFLoader("./2024_KB_부동산_보고서_최종.pdf")
pages = loader.load_and_split()
print(f'청크의 수 {len(pages)}')

청크의 수 83
CPU times: total: 641 ms
Wall time: 675 ms


In [15]:
pages[10]

Document(metadata={'producer': 'Microsoft® Word 2016', 'creator': 'Microsoft® Word 2016', 'creationdate': '2024-03-04T15:30:01+09:00', 'source': './2024_KB_부동산_보고서_최종.pdf', 'file_path': './2024_KB_부동산_보고서_최종.pdf', 'total_pages': 84, 'format': 'PDF 1.5', 'title': 'Morning Meeting', 'author': '손은경', 'subject': '', 'keywords': '', 'moddate': '2024-03-04T15:30:01+09:00', 'trapped': '', 'modDate': "D:20240304153001+09'00'", 'creationDate': "D:20240304153001+09'00'", 'page': 11}, page_content='5 \n2024 KB 부동산 보고서: 2024년 주택시장 진단과 전망 \n표Ⅰ-1. 공급 확대 정책 주요 내용 \n날짜 \n주요 내용 \n2023년 9월 \n공공 부문 공급물량 확대: 3기 신도시를 포함한 공급물량 확대 및 조기 공급 방안 마련 \n사업 여건 개선: 전매 제한 완화 및 규제 정상화, 조기 인허가 인센티브 및 절차 개선, 공사비 증액 \n기준 마련 및 인력 확충, 분양 사업의 임대 사업 전환 촉진 \n원활한 자금 지원: PF대출 보증 확대, 중도금 대출 지원 \n비아파트 자금 조달 지원 및 규제 개선 \n도심 공급 기반 확충: 정비사업 절차 및 소규모 사업 사업성 개선 \n2024년 1월 \n도심 공급 확대: 재건축·재개발 패스트트랙 도입 및 재건축 부담금 합리화, 1기 신도시 재정비사업의 \n신속하고 내실 있는 계획 수립, 소규모 정비·도심 복합 사업 속도 개선 및 자금 지원 강화 \n다양한 유형의 주택 공급 확대: 도시·건축 규제 완화 및 세제·금융 지원, 등록 임대 사업 여건

- PyPDFLoader로 수행했을 때와 비교해보면, page_content 값이 거의 유사하지만 줄바꿈 등에서 일부 차이가 있습니다.
- metadata에 파일 경로, 키워드, 제목, 문서 포맷 등 더 다양한 정보가 포함되어 있습니다.

### PDFPlumberLoader
- PyMuPDFLoader와 마찬가지로 더 다양하고 상세한 메타데이터를 제공하여 PDF 문서의 구조와 내용을 깊이 이해하는데 유리합니다.
- 상세한 분석을 수행하기 때문에 PyMuPDFLoader에 비해 처리 속도가 다소 느린 편입니다.

In [17]:
%%time
loader = PDFPlumberLoader("./2024_KB_부동산_보고서_최종.pdf")
pages = loader.load_and_split()
print(f'청크의 수 {len(pages)}')

CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, defaulting to MediaBox
CropBox missing from /Page, def

청크의 수 83
CPU times: total: 7 s
Wall time: 7.08 s


In [18]:
pages[10]

Document(metadata={'source': './2024_KB_부동산_보고서_최종.pdf', 'file_path': './2024_KB_부동산_보고서_최종.pdf', 'page': 11, 'total_pages': 84, 'Title': 'Morning Meeting', 'Author': '손은경', 'Creator': 'Microsoft® Word 2016', 'CreationDate': "D:20240304153001+09'00'", 'ModDate': "D:20240304153001+09'00'", 'Producer': 'Microsoft® Word 2016'}, page_content='2024 KB 부동산 보고서: 2024년 주택시장 진단과 전망\n표Ⅰ-1. 공급 확대 정책 주요 내용\n날짜 주요 내용\n공공 부문 공급물량 확대: 3기 신도시를 포함한 공급물량 확대 및 조기 공급 방안 마련\n사업 여건 개선: 전매 제한 완화 및 규제 정상화, 조기 인허가 인센티브 및 절차 개선, 공사비 증액\n기준 마련 및 인력 확충, 분양 사업의 임대 사업 전환 촉진\n2023년 9월\n원활한 자금 지원: PF대출 보증 확대, 중도금 대출 지원\n비아파트 자금 조달 지원 및 규제 개선\n도심 공급 기반 확충: 정비사업 절차 및 소규모 사업 사업성 개선\n도심 공급 확대: 재건축·재개발 패스트트랙 도입 및 재건축 부담금 합리화, 1기 신도시 재정비사업의\n신속하고 내실 있는 계획 수립, 소규모 정비·도심 복합 사업 속도 개선 및 자금 지원 강화\n다양한 유형의 주택 공급 확대: 도시·건축 규제 완화 및 세제·금융 지원, 등록 임대 사업 여건 개선\n2024년 1월 및 기업형 장기임대 활성화, 신축 매입 약정 확대, 전세 사기 예방 및 피해 지원\n신도시 등 공공주택 공급: 2024년 공공주택 14만 호 이상 공급, 신도시 조성 속도 제고\n건설 경기 활력 회복: PF대출 지원 및 유동성 지원, 공공 임대 참여 지분 조기 매각, 민간 사업장\n공공 인수, 재정

- PyPDFLoader와 마찬가지로 텍스트 추출 시 줄바꿈 등에서 약간의 차이를 보이고, 메타데이터 부분에서 훨신 떠 다양한 정보를 포함한다는 점에서 큰 차이가 있습니다.
- 텍스트 뿐만 아니라 PDF 내 이미지도 추출할 수 있는 기능을 제공하여 이미지 정보가 필요한 경우에도 유용하게 사용할 수 있습니다.

## 2.3 CSV 로더
- 랭체인에서 제공하는 주요 CSV로더는 기본적인 CSVLoader와 CSV 파일을 좀 더 유연하게 처리할 수 있는 UnstructuredCSVLoader가 있습니다.
### CSVLoader
- CSV 파일을 행 단위로 로드하여 각 행을 독립적인 문서로 변환합니다.
- 빈 행이 포함되어 있더라도, 해당 빈 행은 하나의 청크로 처리됩니다.
  - 1000개의 행으로 구성된 CSV파일에 빈 행이 포함되어 있다면, 빈 행을 포함한 1000개의 청크로 나뉘게 됩니다.

In [19]:
# 라이브러리 불러오기
from langchain_community.document_loaders import CSVLoader
from langchain_community.document_loaders import UnstructuredCSVLoader

In [22]:
%%time
# CSV 파일 로더 초기화
loader = CSVLoader("./서울시_부동산_실거래가_정보.csv", encoding="utf-8")
# CSV 파일 로드 및 행 분할
documents = loader.load()
print(f'청크의 수 {len(documents)}')

청크의 수 2001
CPU times: total: 15.6 ms
Wall time: 19.9 ms


In [25]:
documents[5]

Document(metadata={'source': './서울시_부동산_실거래가_정보.csv', 'row': 5}, page_content='\ufeff접수연도: 2024\n자치구코드: 11410\n자치구명: 서대문구\n법정동코드: 11600\n법정동명: 창천동\n지번구분: \n지번구분명: \n본번: \n부번: \n건물명: \n계약일: 20241031\n물건금액(만원): 340000\n건물면적(㎡): 421.83\n토지면적(㎡): 284\n층: \n권리구분: \n취소일: \n건축년도: 2014\n건물용도: 단독다가구\n신고구분: 직거래\n신고한 개업공인중개사 시군구명: ')

- page_content에 각 행의 데이터가 저장되고, metadata의 source에는 원본 파일명, row에는 해당 행 번호가 저장됩니다.
- 더 작은 단위로 데이터를 반할해야 한다면 RecursiveCharacterTextSplitter의 파라미터를 조정하여 세밀하게 나눌수 있습니다.

### UnstructuredCSVLoader
- CSV파일을 유연하게 처리할 수 있는 도구로 'single' 모드와 'elements' 모드를 통해 다양한 방식으로 CSV 데이터를 로드할 수 있습니다.
- CSVLoader와 달리 unstructured 라이브러리를 사용하여 CSV 파일 전체를 하나의 문서로 로드하거나, 요소별로 분리할 수 있는 유연한 기능을 제공합니다.
- CSV파일의 구조가 일정하지 않거나 특수한 처리가 필요한 경우 특히 유용합니다.
- 객체를 초기화할때 mode 매개변수를 'single' 또는 'elements' 모드로 선택할 수 있습니다.
- 'single'모드는 파일 전체를 하나의 문서로 취급하는 반면, 'elememts'모드는 각 CSV행을 독립적인 요소로 분리하여 처리합니다.
- 'elements'모드를 사용할 경우, 테이블의 HTML 표현이 text_as_html 키에 저장되어 HTML 데이터를 활용할 수도 있습니다.

In [27]:
%%time
# CSV 파일 로더 초기화
loader = UnstructuredCSVLoader("./서울시_부동산_실거래가_정보.csv", encoding="utf-8", mode="elements")
# CSV 파일 로드
documents = loader.load()
print(f'청크의 수 {len(documents)}')

청크의 수 1
CPU times: total: 891 ms
Wall time: 4.08 s


- 결과를 보면 청크 수가 1개로 나타나, 단일 문서로 처리되었음을 알수 있습니다.
- CSVLoader보다 느린 속도입니다.
- 'elements'모드는 CSV파일을 단일의 비구조화된 텍스트 문서로 로드합니다.
- 파일 내용을 HTML형식으로 구조화한 테이블 표현도 문서 메타데이터의 text_as_html키에 포함되어 있어, 파일의 원래 구조를 유지하면서 시각화하기에 유용합니다.