# TXT Loader

Hướng dẫn này tập trung vào việc sử dụng `TextLoader` của LangChain để tải và xử lý hiệu quả các tệp văn bản riêng lẻ.

Bạn sẽ học cách trích xuất metadata và nội dung, giúp việc chuẩn bị dữ liệu văn bản trở nên dễ dàng hơn.

```bash
pip install chardet
```


## TXT Loader

Let’s explore how to load files with the **.txt** extension using a loader.

In [1]:
from langchain_community.document_loaders import TextLoader

# Create a text loader
loader = TextLoader("data/appendix-keywords.txt", encoding="utf-8")

# Load the document
docs = loader.load()
print(f"Number of documents: {len(docs)}\n")
print("[Metadata]\n")
print(docs[0].metadata)
print("\n========= [Preview - First 500 Characters] =========\n")
print(docs[0].page_content[:500])

Number of documents: 1

[Metadata]

{'source': 'data/appendix-keywords.txt'}


Semantic Search

Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user’s query to return relevant results.
Example: If a user searches for “planets in the solar system,” the system might return information about related planets such as “Jupiter” or “Mars.”
Related Keywords: Natural Language Processing, Search Algorithms, Data Mining

Embedding

Definition: Embedding is the process of converting textual data, such as words


## Automatic Encoding Detection with TextLoader


Trong ví dụ này, chúng ta sẽ khám phá một số chiến lược để sử dụng lớp TextLoader để tải hiệu quả các lô tệp lớn từ một thư mục có mã hóa khác nhau.

Để minh họa vấn đề, trước tiên chúng ta sẽ thử tải nhiều tệp văn bản với mã hóa tùy ý.

- `silent_errors`: Bằng cách truyền tham số `silent_errors` cho `DirectoryLoader`, bạn có thể bỏ qua các tệp không thể tải và tiếp tục quá trình tải mà không bị gián đoạn.
- `autodetect_encoding`: Ngoài ra, bạn có thể bật tính năng tự động phát hiện mã hóa bằng cách truyền tham số `autodetect_encoding` cho lớp trình tải, cho phép nó phát hiện mã hóa tệp trước khi gặp lỗi.


In [2]:
from langchain_community.document_loaders import DirectoryLoader

path = "data/"

text_loader_kwargs = {"autodetect_encoding": True}

loader = DirectoryLoader(
    path,
    glob="**/*.txt",
    loader_cls=TextLoader,
    silent_errors=True,
    loader_kwargs=text_loader_kwargs,
)
docs = loader.load()

In [3]:
doc_sources = [doc.metadata["source"] for doc in docs]
doc_sources

['data/appendix-keywords-CP949.txt',
 'data/appendix-keywords.txt',
 'data/appendix-keywords-utf8.txt',
 'data/appendix-keywords-EUCKR.txt']

In [4]:
print("[Metadata]\n")
print(docs[0].metadata)
print("\n========= [Preview - First 500 Characters] =========\n")
print(docs[0].page_content[:500])

[Metadata]

{'source': 'data/appendix-keywords-CP949.txt'}


Semantic Search

Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user¡¯s query to return relevant results.
Example: If a user searches for ¡°planets in the solar system,¡± the system might return information about related planets such as ¡°Jupiter¡± or ¡°Mars.¡±
Related Keywords: Natural Language Processing, Search Algorithms, Data Mining

Embedding

Definition: Embedding is the process of converting textual data, such a


In [5]:
print("[Metadata]\n")
print(docs[1].metadata)
print("\n========= [Preview - First 500 Characters] =========\n")
print(docs[1].page_content[:500])

[Metadata]

{'source': 'data/appendix-keywords.txt'}


Semantic Search

Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user’s query to return relevant results.
Example: If a user searches for “planets in the solar system,” the system might return information about related planets such as “Jupiter” or “Mars.”
Related Keywords: Natural Language Processing, Search Algorithms, Data Mining

Embedding

Definition: Embedding is the process of converting textual data, such as words


In [6]:
print("[Metadata]\n")
print(docs[3].metadata)
print("\n========= [Preview - First 500 Characters] =========\n")
print(docs[3].page_content[:500])

[Metadata]

{'source': 'data/appendix-keywords-EUCKR.txt'}


Semantic Search

Definition: Semantic search is a search method that goes beyond simple keyword matching by understanding the meaning of the user¡¯s query to return relevant results.
Example: If a user searches for ¡°planets in the solar system,¡± the system might return information about related planets such as ¡°Jupiter¡± or ¡°Mars.¡±
Related Keywords: Natural Language Processing, Search Algorithms, Data Mining

Embedding

Definition: Embedding is the process of converting textual data, such a
