# Documents Splitting

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter


In [None]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 20,
    chunk_overlap = 5,

)
text1 = "هذا نص طويل يحتوي على عدة فقرات. نريد تقسيمه إلى أجزاء صغيرة."


In [None]:
text_splitter.split_text(text1)

['هذا نص طويل يحتوي',
 'على عدة فقرات. نريد',
 'نريد تقسيمه إلى',
 'إلى أجزاء صغيرة.']

In [None]:
docs = text_splitter.create_documents(["هذا نص طويل يحتوي على عدة فقرات. نريد تقسيمه إلى أجزاء صغيرة."])
for doc in docs:
    print(doc.page_content)

هذا نص طويل يحتوي
على عدة فقرات. نريد
نريد تقسيمه إلى
إلى أجزاء صغيرة.


# ✅ 2. CharacterTextSplitter

In [None]:
from langchain.text_splitter import CharacterTextSplitter

In [None]:
text_splitter_2= CharacterTextSplitter(
    separator = "\n",
    chunk_size = 7,
    chunk_overlap = 0,
    length_function = len,
)

In [None]:
text= "فقرة 1\nفقرة 2\nفقرة 3\n"

In [None]:
text_splitter_2.create_documents(text)

[Document(metadata={}, page_content='ف'),
 Document(metadata={}, page_content='ق'),
 Document(metadata={}, page_content='ر'),
 Document(metadata={}, page_content='ة'),
 Document(metadata={}, page_content='1'),
 Document(metadata={}, page_content='ف'),
 Document(metadata={}, page_content='ق'),
 Document(metadata={}, page_content='ر'),
 Document(metadata={}, page_content='ة'),
 Document(metadata={}, page_content='2'),
 Document(metadata={}, page_content='ف'),
 Document(metadata={}, page_content='ق'),
 Document(metadata={}, page_content='ر'),
 Document(metadata={}, page_content='ة'),
 Document(metadata={}, page_content='3')]

In [None]:
docs = text_splitter_2.create_documents(["فقرة 1\nفقرة 2\nفقرة 3\n"])
for doc in docs:
    print(doc.page_content)

فقرة 1
فقرة 2
فقرة 3


# or

In [None]:
text_splitter_2.split_text(text)

['فقرة 1', 'فقرة 2', 'فقرة 3']

# ✅ 3. TokenTextSplitter

In [None]:
from langchain.text_splitter import TokenTextSplitter

In [None]:
text_splitter_3 = TokenTextSplitter(
    chunk_size=20,
    chunk_overlap=5,
    length_function=len
)

In [None]:
text= "هذا نص طويل نريد تقسيمه بطريقة تحفظ التوازن بين عدد الكلمات وعدد التوكنات"

In [None]:
text_splitter_3.split_text(text)

['هذا نص طويل نريد ت',
 'ريد تقسيمه بطريقة',
 'ريقة تحفظ التوازن �',
 'وازن بين عدد الكلمات و',
 'لمات وعدد التوكنات']

# ✅ 4. NLTKTextSplitter

In [None]:
from langchain.text_splitter import NLTKTextSplitter
import nltk
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [None]:
splitter = NLTKTextSplitter(chunk_size=21, chunk_overlap=5, length_function=len,separator=".")

In [None]:
text = "This is sentence one. This . is sentence two. This is sentence three."

In [None]:
print(splitter.split_text(text))

['This is sentence one.', 'This .', 'is sentence two.', 'This is sentence three.']


In [None]:
docs = splitter.create_documents(["This is sentence one. This is sentence two. This is sentence three."])
for doc in docs:
    print(doc.page_content)

This is sentence one.
This is sentence two.
This is sentence three.


# ✅ 5. SpacyTextSplitter

In [None]:
from langchain.text_splitter import SpacyTextSplitter

In [None]:
splitter = SpacyTextSplitter(separator=".",chunk_size=23, chunk_overlap=5, length_function=len)
docs = splitter.create_documents(["This. is sentence one. This is sentence two."])



In [None]:
docs

[Document(metadata={}, page_content='This. is sentence one.'),
 Document(metadata={}, page_content='This is sentence two.')]

In [None]:
for doc in docs:
    print(doc.page_content)

This. is sentence one.
This is sentence two.


In [None]:
splitter.split_text("This is sentence one. This is sentence two.")



['This is sentence one.', 'This is sentence two.']

# ✅ 6. MarkdownHeaderTextSplitter

In [None]:
from langchain.text_splitter import MarkdownHeaderTextSplitter

In [None]:
md_text = """
# الفصل الأول
هذا هو محتوى الفصل الأول.

## القسم 1.1
محتوى القسم الفرعي.

# الفصل الثاني
محتوى الفصل الثاني.
### hdf
"""

In [None]:
headers_to_split_on = [("#", "عنوان رئيسي"), ("##", "عنوان فرعي")]

In [None]:
splitter = MarkdownHeaderTextSplitter(headers_to_split_on= headers_to_split_on)

In [None]:
docs = splitter.split_text(md_text)
for doc in docs:
    print(doc.page_content)

هذا هو محتوى الفصل الأول.
محتوى القسم الفرعي.
محتوى الفصل الثاني.
### hdf


In [None]:
len(docs)

3

In [None]:
for i in range(len(docs)):
  print(splitter.split_text(md_text)[i].page_content)

هذا هو محتوى الفصل الأول.
محتوى القسم الفرعي.
محتوى الفصل الثاني.
### hdf


# ✅ 7. HTMLHeaderTextSplitter

In [None]:
from langchain.text_splitter import HTMLHeaderTextSplitter

In [None]:
html_text = """
<html>
<body>
<h1>المقدمة</h1>
<p>هذا نص المقدمة.</p>
<h2>الجزء الأول</h2>
<p>تفاصيل الجزء الأول.</p>
</body>
</html>
"""

In [None]:
heder = [("h1", "عنوان رئيسي"), ("h2", "عنوان فرعي")]

In [None]:
spliter = HTMLHeaderTextSplitter(headers_to_split_on= heder)

In [None]:
len(html_text)

119

In [None]:
spliter.split_text(html_text)

[Document(metadata={'عنوان رئيسي': 'المقدمة'}, page_content='المقدمة'),
 Document(metadata={'عنوان رئيسي': 'المقدمة'}, page_content='هذا نص المقدمة.'),
 Document(metadata={'عنوان رئيسي': 'المقدمة', 'عنوان فرعي': 'الجزء الأول'}, page_content='الجزء الأول'),
 Document(metadata={'عنوان رئيسي': 'المقدمة', 'عنوان فرعي': 'الجزء الأول'}, page_content='تفاصيل الجزء الأول.')]

# ✅ 8. SentenceTransformersTokenTextSplitter