## 텍스트 파일

In [None]:
from langchain.document_loaders import TextLoader

#(1) 문서 로딩 (단순 텍스트 파일 예제)
loader = ...  # ... code here
docs = ...   # ... code here

print(f'{len(docs)}개의 문서를 로드했습니다.')
#print(docs)

print(docs[0].page_content)

1개의 문서를 로드했습니다.
프랑스의 수도는 파리이다. 파리는 유럽에서 가장 인기 있는 관광 도시 중 하나로, 에펠탑과 루브르 박물관이 유명하다.

독일의 수도는 베를린이다. 베를린은 역사적으로 중요한 도시이며, 베를린 장벽으로 유명하다.

일본의 수도는 도쿄이다. 도쿄는 기술과 문화의 중심지로, 애니메이션과 음식 문화가 발달해 있다.


### loader 옵션
- glob: 로드할 파일의 패턴을 지정
```python
    loader = DirectoryLoader('./data/articles', glob='*.txt')  # .txt 파일만
```
-  다양한 glob 패턴 예시
```python
    patterns = {
        '*.txt': 'txt 파일만',
        '*.pdf': 'PDF 파일만', 
        '*.md': 'Markdown 파일만',
        '*.{txt,md}': 'txt 또는 md 파일',
        '**/*.txt': '하위 폴더까지 모든 txt 파일',
        'report_*.txt': 'report_로 시작하는 txt 파일',
        '*': '모든 파일 (기본값)'
    }
```

- 파일 형식에 따른 적절한 로더 선택
```python
    loaders = {
        'TextFileLoader': '일반 텍스트 파일용',
        'PyPDFLoader': 'PDF 파일용',
        'CSVLoader': 'CSV 파일용',
        'JSONLoader': 'JSON 파일용'
    }
```

- 텍스트 파일 로드
```python
    loader_txt = DirectoryLoader(
        './data/articles', 
        glob='*.txt',
        loader_cls=TextFileLoader  # 텍스트 파일 전용 로더
    )
```

In [None]:
from langchain_community.document_loaders import DirectoryLoader

loader = ... # ... code here
docs = loader.load()
print(f'{len(docs)}개의 문서를 로드했습니다.')
print(docs[0].page_content)

100%|██████████| 21/21 [00:00<00:00, 4178.58it/s]

21개의 문서를 로드했습니다.
Signaling that investments in the supply chain sector remain robust, Pando, a startup developing fulfillment management technologies, today announced that it raised $30 million in a Series B round, bringing its total raised to $45 million.

Iron Pillar and Uncorrelated Ventures led the round, with participation from existing investors Nexus Venture Partners, Chiratae Ventures and Next47. CEO and founder Nitin Jayakrishnan says that the new capital will be put toward expanding Pando’s global sales, marketing and delivery capabilities.

“We will not expand into new industries or adjacent product areas,” he told TechCrunch in an email interview. “Great talent is the foundation of the business — we will continue to augment our teams at all levels of the organization. Pando is also open to exploring strategic partnerships and acquisitions with this round of funding.”

Pando was co-launched by Jayakrishnan and Abhijeet Manohar, who previously worked together at iDelivery, an




## PDF 파일
- PyPDFLoader : pdfminer.six를 사용하며, 레이아웃이 복잡하거나 텍스트가 잘려 저장된 경우 한 줄씩 끊기거나 누락되기도 함

    | 상황                  | 추천 로더                                                      |
    | ------------------- | ---------------------------------------------------------- |
    | 일반 텍스트 기반 PDF       | `PyPDFLoader` or `PyMuPDFLoader`                           |
    | 표/레이아웃 보존 필요        | `PDFPlumberLoader`                                         |
    | 스캔 이미지 PDF (OCR 필요) | `UnstructuredPDFLoader` with OCR 옵션 or `SeleniumPDFLoader` |
    | 복잡한 포맷 / 불규칙 PDF    | `UnstructuredPDFLoader`                                    |


In [None]:
from langchain_community.document_loaders import PyPDFLoader

loader = ...   # ... code here
docs = loader.load()
print(f'{len(docs)}개의 문서를 로드했습니다.')
docs[:2]

182개의 문서를 로드했습니다.


[Document(metadata={'producer': 'Adobe Acrobat Standard DC 19 Paper Capture Plug-in', 'creator': 'ScanFix(TM) Enhanced', 'creationdate': '2015-09-10T01:40:29+00:00', 'moddate': '2019-01-30T17:47:47+01:00', 'source': './data/Demian.pdf', 'total_pages': 182, 'page': 0, 'page_label': '1'}, page_content='DEMIAN \n• \nDownloaded from https://www.holybooks.com'),
 Document(metadata={'producer': 'Adobe Acrobat Standard DC 19 Paper Capture Plug-in', 'creator': 'ScanFix(TM) Enhanced', 'creationdate': '2015-09-10T01:40:29+00:00', 'moddate': '2019-01-30T17:47:47+01:00', 'source': './data/Demian.pdf', 'total_pages': 182, 'page': 1, 'page_label': '2'}, page_content='HERMANN \nHESSE \n• DEMIAN \n* \nTranslated by W. J. Strachan \nLondon \nDownloaded from https://www.holybooks.com')]

## Web (URL)

In [None]:
from langchain_community.document_loaders import WebBaseLoader

# WebBaseLoader 클래스의 새 인스턴스를 만듭니다. web_path는 웹 사이트의 URL입니다.
url = "https://ko.wikipedia.org/wiki/NewJeans"
loader = ...   # ... code here

# 웹 사이트에서 문서를 읽습니다.
docs = loader.load()
print(f'{len(docs)}개의 문서를 로드했습니다.')

USER_AGENT environment variable not set, consider setting it to identify your requests.


1개의 문서를 로드했습니다.
