# Documents 

<b>Documents</b> in Langchain comprise a piece of <b>text</b> and optional <b>metadata</b>. The piece of text is what we interact with the language model, while the optional metadata helps keep track of metadata about the document.

<i>→ <b>Documents</b>  trong Langchain bao gồm một đoạn văn bản và siêu dữ liệu tùy chọn. Đoạn văn bản là những gì chúng ta tương tác với mô hình ngôn ngữ, trong khi siêu dữ liệu tùy chọn giúp theo dõi siêu dữ liệu về tài liệu.</i>

## Document Loaders
Document Loaders in Langchain load data from a source as documents.

In [1]:
import os
from dotenv import load_dotenv
import openai
from langchain_openai import OpenAI, ChatOpenAI

In [2]:
# Setup model
load_dotenv()
api_key = os.getenv('OPENAI_API_KEY')
openai.api_key = api_key

In [6]:
from langchain.document_loaders import TextLoader

# load text data from a file using TextLoader
loader = TextLoader("sample.txt")
document = loader.load()
print(document)

[Document(page_content='Quod equidem non reprehendo;\nLorem ipsum dolor sit amet, consectetur adipiscing elit. Quibus natura iure responderit non esse verum aliunde finem beate vivendi, a se principia rei gerendae peti; Quae enim adhuc protulisti, popularia sunt, ego autem a te elegantiora desidero. Duo Reges: constructio interrete. Tum Lucius: Mihi vero ista valde probata sunt, quod item fratri puto. Bestiarum vero nullum iudicium puto. Nihil enim iam habes, quod ad corpus referas; Deinde prima illa, quae in congressu solemus: Quid tu, inquit, huc? Et homini, qui ceteris animantibus plurimum praestat, praecipue a natura nihil datum esse dicemus?\n\nIam id ipsum absurdum, maximum malum neglegi. Quod ea non occurrentia fingunt, vincunt Aristonem; Atqui perspicuum est hominem e corpore animoque constare, cum primae sint animi partes, secundae corporis. Fieri, inquam, Triari, nullo pacto potest, ut non dicas, quid non probes eius, a quo dissentias. Equidem e Cn. An dubium est, quin virtus

In [8]:
document[0].page_content

'Quod equidem non reprehendo;\nLorem ipsum dolor sit amet, consectetur adipiscing elit. Quibus natura iure responderit non esse verum aliunde finem beate vivendi, a se principia rei gerendae peti; Quae enim adhuc protulisti, popularia sunt, ego autem a te elegantiora desidero. Duo Reges: constructio interrete. Tum Lucius: Mihi vero ista valde probata sunt, quod item fratri puto. Bestiarum vero nullum iudicium puto. Nihil enim iam habes, quod ad corpus referas; Deinde prima illa, quae in congressu solemus: Quid tu, inquit, huc? Et homini, qui ceteris animantibus plurimum praestat, praecipue a natura nihil datum esse dicemus?\n\nIam id ipsum absurdum, maximum malum neglegi. Quod ea non occurrentia fingunt, vincunt Aristonem; Atqui perspicuum est hominem e corpore animoque constare, cum primae sint animi partes, secundae corporis. Fieri, inquam, Triari, nullo pacto potest, ut non dicas, quid non probes eius, a quo dissentias. Equidem e Cn. An dubium est, quin virtus ita maximam partem opt

In [9]:
document[0].metadata

{'source': 'sample.txt'}

## Types of Document Loaders in Langchain

Langchain offers three main types of Document Loaders:

- <b>Transform Loaders</b>: these loaders handle different input formats and transform them into the Document format. For instance, consider a CSV file named "data.csv" with columns for "name" and "age".Using the CSVloader, you can load the CSV data into Documents.

    <i>(Các Transform Loaders này xử lý các định dạng đầu vào khác nhau và chuyển đổi chúng thành định dạng Document. Ví dụ: hãy xem xét tệp CSV có tên "data.csv" với các cột cho "tên" và "tuổi". Bằng cách sử dụng <b>CSVloader</b>, bạn có thể tải dữ liệu CSV vào Document.)</i>
    
- <b>Public Dataset or Service Loaders</b>: Langchain provides loaders for popular public sources, allowing quick retrieval and creation of Documents. For example, WikipediaLoader can load content from Wikipedia.

    <i>(Langchain cung cấp loader cho các nguồn công cộng phổ biến, cho phép truy xuất và tạo Document nhanh chóng. Ví dụ: WikipediaLoader có thể tải nội dung từ Wikipedia)</i>
    
- <b>Proprietary Dataset or Service Loaders</b>: these loaders are designed to handle propriety sources that may require additional authentication or setup. For instance, a loader could be created to load data from an internal database or an API with propriety access.

    <i>(Những Loader này được thiết kế để xử lý các nguồn độc quyền có thể yêu cầu xác thực hoặc thiết lập bổ sung. Chẳng hạn, một trình tải có thể được tạo để tải dữ liệu từ cơ sở dữ liệu nội bộ hoặc API có quyền truy cập riêng.)</i>


### 1. Transform Loader Example

In [14]:
# CSV loader
from langchain.document_loaders import CSVLoader
# Load data from a CSV file using CSVLoader
loader = CSVLoader("HR-Employee-Attrition.csv")
documents = loader.load()
#print(documents)
# Aceess the content and metadata of each content
for document in documents:
    content = document.page_content
    metadata = document.metadata
    print(content)
    print("-----------")
    print(metadata)
    break

ï»¿Age: 41
Attrition: Yes
BusinessTravel: Travel_Rarely
DailyRate: 1102
Department: Sales
DistanceFromHome: 1
Education: 2
EducationField: Life Sciences
EmployeeCount: 1
EmployeeNumber: 1
EnvironmentSatisfaction: 2
Gender: Female
HourlyRate: 94
JobInvolvement: 3
JobLevel: 2
JobRole: Sales Executive
JobSatisfaction: 4
MaritalStatus: Single
MonthlyIncome: 5993
MonthlyRate: 19479
NumCompaniesWorked: 8
Over18: Y
OverTime: Yes
PercentSalaryHike: 11
PerformanceRating: 3
RelationshipSatisfaction: 1
StandardHours: 80
StockOptionLevel: 0
TotalWorkingYears: 8
TrainingTimesLastYear: 0
WorkLifeBalance: 1
YearsAtCompany: 6
YearsInCurrentRole: 4
YearsSinceLastPromotion: 0
YearsWithCurrManager: 5
-----------
{'source': 'HR-Employee-Attrition.csv', 'row': 0}


#### 1.1 PDFLoader
Load each page of the PDF as one document

In [21]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("Software-Engineer-CV.pdf")
pages = loader.load()
cnt = 0
for page in pages:
    cnt = cnt + 1
    print("---------Page #",cnt)
    print(page.page_content.strip())
    print(page.metadata)

---------Page # 1
Name: Sunil Sharma                              Mobile: +91 9898989898  
 
Designation: Senior Technical Lead                      Mail Id: sunil.sharma @gmail.com  
 
Objective:   
Experienced S enior Software Developer with 1 2 years of hands -on expertise in 
designing, developing, and delivering high -quality software solutions.  
Proven track record of successfully leading and collaborating with cross -functional 
teams to deliver projects on time and within budget. Seeking to leverage my technical 
skills and leadership experience to contribute to innovative software projects.  
Education:  
Bachelor in Engineering in Electronics and Communication  
K.L.N.  College of Information Technology, Madurai - 2007  
Professional Summary:  
• 12 years  of experience in Software Development in C on  Linux Environment . 
• Over 5 years of programming  experience as an Oracle PL/SQL  developer in 
Analysis, Design and Implementation of business application using Oracle DBMS

#### 1.2 WebBaseLoader

This covers how to use WebBaseLoader to load all text from HTML webpages into a document format that we can use downstream.

<i>Phần này bao gồm cách sử dụng WebBaseLoader để tải tất cả văn bản từ các trang web HTML sang định dạng tài liệu mà chúng ta có thể sử dụng ở phần sau.</i>

In [24]:
from langchain_community.document_loaders import WebBaseLoader
loader = WebBaseLoader("https://www.ibm.com/")
data = loader.load()
data[0].page_content

"\n\n\n\n\n\n\n\n\nIBM - Italia\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nIBM Impact Report 2023\n\n\n\n\n\n\n  \n  \n      Utilizzare la tecnologia per fare la differenza\n  \n\n\n\n\n    \n\n\n\n\n\nLeggi la news\n\n\nAccedi al report\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\r\n                        \n\n\n  \n  \n      News\n  \n\n\n\n\n    \n\n\r\n                        \n\nLeggi come prepararti alla CSRD e generare valore aggiunto\n\n\n\n\n\nScopri i casi d'uso per bilanciare e massimizzare le prestazioni IT e il valore aziendale con l'AI\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nSuggeriti per te\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n    \n\n\n\n        \n        \n    \n\n        Scropri i rischi informatici con IBM X-Force Threat Intelligence Index 2024\n        \n    \n\n\n\n    \n\n        \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n    \n\n    \n\n\n\n        \n        \n    \n\n        Un centro dedicato a forma

In [26]:
# Combine strip() with string formatting for basic formatting
formatted_text = data[0].page_content.strip().replace("\n\n","\n") # Replace double newlines with single newlines
print(formatted_text)

IBM - Italia



























IBM Impact Report 2023



  
  
      Utilizzare la tecnologia per fare la differenza
  


    


Leggi la news

Accedi al report








                        

  
  
      News
  


    

                        
Leggi come prepararti alla CSRD e generare valore aggiunto


Scopri i casi d'uso per bilanciare e massimizzare le prestazioni IT e il valore aziendale con l'AI









Suggeriti per te









    
    

        
        
    
        Scropri i rischi informatici con IBM X-Force Threat Intelligence Index 2024
        
    

    
        









    
    

        
        
    
        Un centro dedicato a formazione e consulenza su cybersecurity, AI generativa e quantum
        
    

    
        









    
    

        
        
    
        Esperienza in 3D per scoprire le potenzialità di Cyber Resilience
        
    

    
        









    
    

        
        
    
        Scopri la piattaforma dati e l'AI d

In [27]:
# Using regular expression for more comprehensive cleaning
import re
# Remove unnecessary whitespace and multiple newlines
cleaned_text = re.sub(r"\s+"," ", formatted_text)
cleaned_text = re.sub(r"\n+","\n\n", cleaned_text)
print(cleaned_text)

IBM - Italia IBM Impact Report 2023 Utilizzare la tecnologia per fare la differenza Leggi la news Accedi al report News Leggi come prepararti alla CSRD e generare valore aggiunto Scopri i casi d'uso per bilanciare e massimizzare le prestazioni IT e il valore aziendale con l'AI Suggeriti per te Scropri i rischi informatici con IBM X-Force Threat Intelligence Index 2024 Un centro dedicato a formazione e consulenza su cybersecurity, AI generativa e quantum Esperienza in 3D per scoprire le potenzialità di Cyber Resilience Scopri la piattaforma dati e l'AI di nuova generazione di IBM Scopri la nostra tecnologia Dai nostri prodotti di punta per l'infrastruttura cloud ibrida aziendale alle soluzioni di AI, sicurezza e soluzioni storage di nuova generazione, trova le risposte alle sfide della tua azienda. Scopri tutti i prodotti Scopri gli sconti e le offerte speciali AI e machine learning Usa l'AI di IBM Watson o crea i tuoi modelli di machine learning Analytics Aggrega e analizza grandi data

In [34]:
from langchain_community.document_loaders import JSONLoader
import json
from jqpy import jq
from pathlib import Path
from pprint import pprint
file_path = "sample.json"
data = json.loads(Path(file_path).read_text())
pprint(data)

{'people': [{'age': 28,
             'firstName': 'Joe',
             'gender': 'male',
             'lastName': 'Jackson',
             'number': '7349282382'},
            {'age': 32,
             'firstName': 'James',
             'gender': 'male',
             'lastName': 'Smith',
             'number': '5678568567'},
            {'age': 24,
             'firstName': 'Emily',
             'gender': 'female',
             'lastName': 'Jones',
             'number': '456754675'}]}


In [40]:
# loader = JSONLoader(
#     file_path="sample.json",
#     jq_schema=".people[].age",
#     text_content=False
# )

### 2. Public Dataset or Service Provider

#### 2.1 Wikipedia Loader

In [44]:
from langchain.document_loaders import WikipediaLoader

# load content from Wikipedia using WikipediaLoader

loader = WikipediaLoader("Napoleon")
document = loader.load()
document[0].page_content

"Napoleon Bonaparte (born Napoleone di Buonaparte; 15 August 1769 – 5 May 1821), later known by his regnal name Napoleon I, was a French emperor and military commander who rose to prominence during the French Revolution and led successful campaigns during the Revolutionary Wars. He was the leader of the French Republic as First Consul from 1799 to 1804, then of the French Empire as Emperor of the French from 1804 until 1814, and briefly again in 1815. His political and cultural legacy endures as a celebrated and controversial leader. He initiated many enduring reforms, but has been criticized for his authoritarian rule. He is considered one of the greatest military commanders in history and his wars and campaigns are still studied at military schools worldwide. However, historians still debate the degree to which he was responsible for the Napoleonic Wars, in which between three and six million people died.Napoleon was born on the island of Corsica into a family descended from Italian 

#### 2.2 YoutubeLoader

In [55]:
from langchain_community.document_loaders import YoutubeLoader
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=nr_pFDbvz6A&list=PLUOc2qodFHp9SqE7Cjl4Bkyup1o6JbCur"
)
print(data)

{'people': [{'firstName': 'Joe', 'lastName': 'Jackson', 'gender': 'male', 'age': 28, 'number': '7349282382'}, {'firstName': 'James', 'lastName': 'Smith', 'gender': 'male', 'age': 32, 'number': '5678568567'}, {'firstName': 'Emily', 'lastName': 'Jones', 'gender': 'female', 'age': 24, 'number': '456754675'}]}


## Text Splitters

Once you've loaded documents, you'll often want to transform them to suit your application better. The simplest example is that you may want to split a long document into smaller chunks that fit into your model's context window. LangChain has many built-in <b>document transformers</b>, making it easy to split, combine, filter, and otherwise manipulate documents.

<i>→(Sau khi tải tài liệu xong, bạn thường muốn chuyển đổi chúng để phù hợp với ứng dụng của mình hơn. Ví dụ đơn giản nhất là bạn có thể muốn chia một tài liệu dài thành các phần nhỏ hơn vừa với context window. LangChain có nhiều trình biến đổi tài liệu tích hợp, giúp dễ dàng phân chia, kết hợp, lọc và thao tác các tài liệu khác.)</i>

When you want to deal with long pieces of text, it is necessary to split them into chunks. As simple as this sounds, there is a lot of potential complexity here. Ideally, you want to keep the semantically related pieces of text together. What "semantically related" means could depend on the type of text. This notebook showcases several ways to do that.

<i>→(Khi muốn xử lý những đoạn văn bản dài, cần phải chia chúng thành từng đoạn. Nghe có vẻ đơn giản nhưng có rất nhiều sự phức tạp tiềm ẩn ở đây. Lý tưởng nhất là bạn muốn giữ các đoạn văn bản có liên quan về mặt ngữ nghĩa với nhau. "Liên quan về mặt ngữ nghĩa" nghĩa là gì có thể phụ thuộc vào loại văn bản. Sổ tay này giới thiệu một số cách để làm điều đó.)</i>

At a high level, <b>text splitters</b> work as follows:

- Split the text up into small, semantically meaningful chunks (often sentences). <i>(Chia văn bản thành các phần nhỏ, có ý nghĩa về mặt ngữ nghĩa (thường là các câu).)</i>
- Start combining these small chunks into a larger chunk until you reach a certain size (as measured by some function).<i>(Bắt đầu kết hợp các phần nhỏ này thành một phần lớn hơn cho đến khi bạn đạt đến một kích thước nhất định (được đo bằng một số hàm).)</i>
- Once you reach that size, make that chunk its own piece of text and then start creating a new chunk of text with some overlap (to keep context between chunks). <i>(Khi bạn đạt đến kích thước đó, hãy tạo đoạn văn bản đó thành một đoạn văn bản riêng và sau đó bắt đầu tạo một đoạn văn bản mới với một số phần chồng chéo (để giữ ngữ cảnh giữa các đoạn).</i>

That means there are two different axes along which you can customize your text splitter:

- How the text is split
- How the chunk size is measured

In [57]:
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=200,
    chunk_overlap=20,
    length_function=len,
    is_separator_regex = False,
)

SyntaxError: positional argument follows keyword argument (1287203114.py, line 9)