# 디렉토리에서 문서를 로드하는 방법

LangChain의 [DirectoryLoader](https://api.python.langchain.com/en/latest/document_loaders/langchain_community.document_loaders.directory.DirectoryLoader.html)는 디스크에서 파일을 읽어 LangChain [Document](https://api.python.langchain.com/en/latest/documents/langchain_core.documents.base.Document.html#langchain_core.documents.base.Document) 객체로 변환하는 기능을 구현합니다. 

이번 튜토리얼은 다음의 내용을 포함합니다.
- 와일드카드 패턴을 포함하여 파일 시스템에서 로드하는 방법
- 파일 I/O에 멀티스레딩을 사용하는 방법
- 특정 파일 유형(예: 코드)을 파싱하기 위해 사용자 정의 로더 클래스를 사용하는 방법
- 디코딩으로 인한 오류와 같은 오류를 처리하는 방법

**DirectoryLoader**는 기본적으로 [UnstructuredLoader](https://python.langchain.com/v0.2/docs/integrations/providers/unstructured/)
를 `loader_cls` kwarg로 받아들입니다. [Unstructured](https://unstructured-io.github.io/unstructured/)는 PDF와 HTML과 같은 다양한 형식의 파싱을 지원합니다. 여기서는 마크다운(.md) 파일을 읽기 위해 사용합니다.

`glob` 매개변수를 사용하여 로드할 파일 형식을 제어할 수 있습니다. 

In [2]:
!pip install "unstructured[md]"

Collecting markdown (from unstructured[md])
  Downloading Markdown-3.7-py3-none-any.whl.metadata (7.0 kB)
Downloading Markdown-3.7-py3-none-any.whl (106 kB)
Installing collected packages: markdown
Successfully installed markdown-3.7


In [None]:
from langchain_community.document_loaders import DirectoryLoader

# 디렉토리 로더 초기화
loader = DirectoryLoader("../", glob="**/*.md") # 와일드 카드 패턴 : 특정 확장자를 가진 파일을 로드할 때 유용
# 문서 로드
docs = loader.load()
# 문서 개수 계산
len(docs)

1

In [4]:
# 페이지 내용 출력
print(docs[0].page_content[:100])

📘 LangChain 한국어 튜토리얼

🌟 LangChain 공식 Document, Cookbook, 그 밖의 실용 예제를 바탕으로 작성한 한국어 튜토리얼입니다.

본 튜토리얼을 


기본적으로 진행 상태 표시줄은 표시되지 않습니다. `show_progress=True` 옵션으로 진행상황을 확인할 수 있습니다.

**참고**
- 진행 상태 표시줄을 표시하려면 `tqdm` 라이브러리를 설치(예: `pip install tqdm`)
- `show_progress` 매개변수를 `True`로 설정

In [5]:
loader = DirectoryLoader(
    "../", glob="**/*.md", show_progress=True
)  # 디렉토리 로더 설정
docs = loader.load()  # 문서 로드

100%|██████████| 1/1 [00:00<00:00, 20.41it/s]


기본적으로 로딩은 하나의 스레드에서 이루어집니다. 

만약, 여러 스레드를 활용하려면 `use_multithreading` 플래그를 true로 설정하세요.

In [6]:
loader = DirectoryLoader(
    "../", glob="**/*.md", use_multithreading=True # 속도 상승
)  # 디렉토리 로더 설정
docs = loader.load()  # 문서 로드

## loader_cls 변경

`loader_cls` 는 기본 값으로 `UnstructuredLoader` 클래스를 사용합니다. 

로더를 사용자 정의하려면 `loader_cls` kwarg에 로더 클래스를 지정하세요. 

In [15]:
from langchain_community.document_loaders import TextLoader

# loader_cls 를 TextLoader 로 변경합니다.
loader = DirectoryLoader("../", glob="**/*.md", loader_cls=TextLoader)

# 문서 로드
docs = loader.load()

In [16]:
# 문서 페이지 내용 출력
print(docs[0].page_content[:100])

# 📘 LangChain 한국어 튜토리얼

![](images/welcome.png)

🌟 **LangChain 공식 Document, Cookbook, 그 밖의 실용 예제**를 


`UnstructuredLoader`는 Markdown 헤더를 파싱하는 반면, `TextLoader`는 그렇지 않습니다.

Python 소스 코드 파일을 로드해야 하는 경우, `PythonLoader`를 사용하세요.

In [17]:
from langchain_community.document_loaders import PythonLoader

# 현재폴더(.) 의 .py 파일을 모두 조회하여 PythonLoader 로 로드
loader = DirectoryLoader(".", glob="**/*.py", loader_cls=PythonLoader)

In [10]:
# 문서 로드
docs = loader.load()
docs

[Document(metadata={'source': 'data\\audio_utils.py'}, page_content='import re\nimport os\nfrom pytube import YouTube\nfrom moviepy.editor import AudioFileClip, VideoFileClip\nfrom pydub import AudioSegment\nfrom pydub.silence import detect_nonsilent\n\n\ndef extract_abr(abr):\n    youtube_audio_pattern = re.compile(r"\\d+")\n    kbps = youtube_audio_pattern.search(abr)\n    if kbps:\n        kbps = kbps.group()\n        return int(kbps)\n    else:\n        return 0\n\n\ndef get_audio_filepath(filename):\n    # audio 폴더가 없으면 생성\n    if not os.path.isdir("audio"):\n        os.mkdir("audio")\n\n    # 현재 스크립트의 절대 경로 얻기\n    current_directory = os.path.abspath("")\n\n    # 파일 경로 생성\n    audio_file_path = os.path.join(current_directory, "audio", filename)\n\n    return audio_file_path\n\n\ndef convert_mp4_to_wav(mp4_file_path, wav_file_path):\n    # MP4 파일 로드\n    audio_clip = AudioFileClip(mp4_file_path)\n\n    # WAV 형식으로 오디오 추출 및 저장\n    audio_clip.write_audiofile(wav_file_path, fps=44100