In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
%%capture --no-stderr
!pip install python-dotenv openAI langchain_community pypdf langchain pymupdf pdfplumber unstructured beautifulsoup4

In [None]:
# 환경변수 설정

In [None]:
# 라이브러리 불러오기
import os
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv("/content/.env")
# 환경 변수에서 API 키 가져오기
api_key = os.getenv("OPENAI_API_KEY")

# **WebBaseLoader**

In [None]:
# 라이브러리 설치
!pip install langchain_community beautifulsoup4
import os

# 사용자 에이전트 설정
os.environ["USER_AGENT"] = "MyApp/1.0 (Custom LangChain Application)"

# 라이브러리 불러오기
from langchain_community.document_loaders import WebBaseLoader

# 단일 URL 초기화
loader = WebbaseLoader("https://docs.smith.langchain.com/")

# 다중 URL 초기화
loader_multiple_pages = WebBaseLoader(
    ["https://python.langchain.com/docs/introduction/",
     "https://langchain-ai.github.io/langgraph/"]
)

In [None]:
# 단일 문서 로드
single_doc = loader.load()

# 문서의 메타데이터 확인
print(single_doc[0].metadata)

In [None]:
# 다중 문서 로드
docs = loader_multiple_pages.load()

# 첫 번째 문서의 페이지 컨텐츠 확인
print(docs[0].page_content)

In [None]:
from langchain_community.document_loaders import RecursiveUrlLoader

loader = RecursiveUrlLoader("https://python.langchain.com/docs/introduction/",
                            max_depth=2,
                            prevent_outside=True,
                            link_regex = r'.*?smith.*?',
                            exclude_dirs=['https://python.langchain.com/docs/concepts/'])
docs = loader.load()

In [None]:
docs[0].metadata

In [None]:
concept_docs = [doc for doc in docs if 'concepts' in doc.page_content]
for doc in concept_docs:
    print(doc.metadata['source'])

In [None]:
docs[0].page_content[:1000]

# **PyPDFLoader**

In [None]:
# 라이브러리 불러오기
from langchain_community.document_loaders import PyPDFLoader
from langchain_community.codument_loaders import PyMuPDFLoader
from langchain_community.document_loaders import PDFPlumberLoader

In [None]:
%%time

# PDF 파일 로더 초기화
loader = PyPDFLoader("PDF 저장 경로")

# PDF 파일 로드 및 페이지 분할
pages = loader.load_and_split()
print('청크의 수:', len(pages))

In [None]:
pages[10]

In [None]:
pages[10].metadata

In [None]:
print(pages[10].page_content)

# **PyMuPDFLoader**

In [None]:
%%time

loader = PyMuPDFLoader("PDF 저장 경로")
pages = loader.load_and_split()

print('청크의 수:', len(pages))

In [None]:
pages[10]

# **PDFPlumberLoader**

In [None]:
%%time

loader = PDFPlumberLoader("PDF 파일 경로")
pages = loader.load_and_split()

print('청크의 수:', len(pages))

In [None]:
pages[10]

In [None]:
pages[10].metadata

In [None]:
print(pages[10].page_content)

In [None]:
%%time # 셀 실행 시간을 측정하는 매직 커맨드
loader = PyMuPDFLoader("/content/drive/MyDrive/langchain-tutorial/Ch02. RAG/Data/2024_KB_부동산_보고서_최종.pdf")
pages = loader.load_and_split()
print('청크의 수:', len(pages))

In [None]:
pages[10]

In [None]:
%%time
loader = PDFPlumberLoader("/content/drive/MyDrive/langchain-tutorial/Ch02. RAG/Data/2024_KB_부동산_보고서_최종.pdf")
pages = loader.load_and_split()
print('청크의 수:', len(pages))

In [None]:
pages[10]

In [None]:
print(pages[10].page_content)

# **CSV 파일 로더**

In [None]:
from langchain_community.document_loaders import CSVLoader
from langchain_community.document_loaders import UnstructuredCSVLoader

In [None]:
%%time
# CSV 파일 로더 초기화
loader = CSVLoader("CSV 파일 경로")
# CSV 파일 로드 및 행 분할
documents = loader.load()
print('청크의 수:', len(documents))

In [None]:
documents[5]

In [None]:
%%time

# CSV 파일 로더 초기화
loader = UnstructuredCSVLoader("CSV 파일 경로", mode='elements')

# CSV 파일 로드
documents = loader.load()

print('청크의 수:', len(documents))

In [None]:
str(documents[0].metadata)[:500]

In [None]:
str(documents[0].page_content)[:500]