### Documents 

<b>Documents</b> in Langchain comprise a piece of <b>text</b> and optional <b>metadata</b>. The piece of text is what we interact with the language model, while the optional metadata helps keep track of metadata about the document.

<i>→ <b>Documents</b>  trong Langchain bao gồm một đoạn văn bản và siêu dữ liệu tùy chọn. Đoạn văn bản là những gì chúng ta tương tác với mô hình ngôn ngữ, trong khi siêu dữ liệu tùy chọn giúp theo dõi siêu dữ liệu về tài liệu.</i>

### Document Loaders
Document Loaders in Langchain load data from a source as documents.

In [1]:
import os
from dotenv import load_dotenv
import openai
from langchain_openai import OpenAI, ChatOpenAI

In [2]:
# Setup model
load_dotenv()
api_key = os.getenv('OPENAI_API_KEY')
openai.api_key = api_key

In [6]:
from langchain.document_loaders import TextLoader

# load text data from a file using TextLoader
loader = TextLoader("sample.txt")
document = loader.load()
print(document)

[Document(page_content='Quod equidem non reprehendo;\nLorem ipsum dolor sit amet, consectetur adipiscing elit. Quibus natura iure responderit non esse verum aliunde finem beate vivendi, a se principia rei gerendae peti; Quae enim adhuc protulisti, popularia sunt, ego autem a te elegantiora desidero. Duo Reges: constructio interrete. Tum Lucius: Mihi vero ista valde probata sunt, quod item fratri puto. Bestiarum vero nullum iudicium puto. Nihil enim iam habes, quod ad corpus referas; Deinde prima illa, quae in congressu solemus: Quid tu, inquit, huc? Et homini, qui ceteris animantibus plurimum praestat, praecipue a natura nihil datum esse dicemus?\n\nIam id ipsum absurdum, maximum malum neglegi. Quod ea non occurrentia fingunt, vincunt Aristonem; Atqui perspicuum est hominem e corpore animoque constare, cum primae sint animi partes, secundae corporis. Fieri, inquam, Triari, nullo pacto potest, ut non dicas, quid non probes eius, a quo dissentias. Equidem e Cn. An dubium est, quin virtus

In [8]:
document[0].page_content

'Quod equidem non reprehendo;\nLorem ipsum dolor sit amet, consectetur adipiscing elit. Quibus natura iure responderit non esse verum aliunde finem beate vivendi, a se principia rei gerendae peti; Quae enim adhuc protulisti, popularia sunt, ego autem a te elegantiora desidero. Duo Reges: constructio interrete. Tum Lucius: Mihi vero ista valde probata sunt, quod item fratri puto. Bestiarum vero nullum iudicium puto. Nihil enim iam habes, quod ad corpus referas; Deinde prima illa, quae in congressu solemus: Quid tu, inquit, huc? Et homini, qui ceteris animantibus plurimum praestat, praecipue a natura nihil datum esse dicemus?\n\nIam id ipsum absurdum, maximum malum neglegi. Quod ea non occurrentia fingunt, vincunt Aristonem; Atqui perspicuum est hominem e corpore animoque constare, cum primae sint animi partes, secundae corporis. Fieri, inquam, Triari, nullo pacto potest, ut non dicas, quid non probes eius, a quo dissentias. Equidem e Cn. An dubium est, quin virtus ita maximam partem opt

In [9]:
document[0].metadata

{'source': 'sample.txt'}

### Types of Document Loaders in Langchain

Langchain offers three main types of Document Loaders:

- Transform Loaders: these loaders handle different input formats and transform them into the Document format. For instance, consider a CSV file named "data.csv" with columns for "name" and "age".Using the CSVloader, you can load the CSV data into Documents.

    <i>(Các Transform Loaders này xử lý các định dạng đầu vào khác nhau và chuyển đổi chúng thành định dạng Document. Ví dụ: hãy xem xét tệp CSV có tên "data.csv" với các cột cho "tên" và "tuổi". Bằng cách sử dụng <b>CSVloader</b>, bạn có thể tải dữ liệu CSV vào Document.)</i>
    
- Public Dataset or Service Loaders: Langchain provides loaders for popular public sources, allowing quick retrieval and creation of Documents. For example, WikipediaLoader can load content from Wikipedia.

    <i>(Langchain cung cấp loader cho các nguồn công cộng phổ biến, cho phép truy xuất và tạo Document nhanh chóng. Ví dụ: WikipediaLoader có thể tải nội dung từ Wikipedia)</i>
    
- Proprietary Dataset or Service Loaders: these loaders are designed to handle propriety sources that may require additional authentication or setup. For instance, a loader could be created to load data from an internal database or an API with propriety access.

    <i>(Những Loader này được thiết kế để xử lý các nguồn độc quyền có thể yêu cầu xác thực hoặc thiết lập bổ sung. Chẳng hạn, một trình tải có thể được tạo để tải dữ liệu từ cơ sở dữ liệu nội bộ hoặc API có quyền truy cập riêng.)</i>
