# Document Splitting

## RecursiveCharacterTextSplitter

RecursiveCharacterTextSplitter হলো LangChain এর একটি টুল যা দীর্ঘ টেক্সটকে ছোট, পরিচালনাযোগ্য অংশে ভাগ করার জন্য ব্যবহৃত হয়। এটি বিশেষভাবে কার্যকর যখন বড় ডকুমেন্টগুলি প্রক্রিয়া করতে হয়, যেগুলি ভাষা মডেলগুলির দ্বারা পরিচালিত হতে পারে, যাদের একটি নির্দিষ্ট সংখ্যক টোকেনের সীমা থাকে।

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

chunk_size:  
chunk_size হল প্রতিটি টুকরো বা অংশে সর্বাধিক অক্ষরের সংখ্যা। উদাহরণস্বরূপ, যদি আপনি chunk_size ৫০০ নির্ধারণ করেন, তাহলে প্রতিটি অংশে সর্বাধিক ৫০০টি অক্ষর থাকবে। এটি আপনাকে দীর্ঘ টেক্সটকে ছোট ছোট অংশে ভেঙে বড় ডকুমেন্টগুলোকে সহজে প্রক্রিয়াজাত করার সুযোগ দেয়।

chunk_overlap:       
chunk_overlap হল প্রতিটি অংশের মধ্যে কতগুলি অক্ষর ওভারল্যাপ করবে বা একের সাথে অন্যটি মিলিত থাকবে। উদাহরণস্বরূপ, যদি আপনি chunk_overlap ৫০ নির্ধারণ করেন, তাহলে প্রতিটি পরবর্তী অংশ পূর্ববর্তী অংশের শেষ ৫০টি অক্ষরের সাথে ওভারল্যাপ করবে। এটি অংশগুলির মধ্যে ধারাবাহিকতা বজায় রাখতে সাহায্য করে, যাতে এক অংশের শেষে এবং পরবর্তী অংশের শুরুতে থাকা বিষয়বস্তু সংযুক্ত থাকে।

Note: RecursiveCharacterTextSplitter এ chunk_overlap হয় না। 

In [2]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,       # প্রতিটি অংশে সর্বাধিক অক্ষরের সংখ্যা
    chunk_overlap=50      # অংশগুলির মধ্যে ওভারল্যাপ করা অক্ষরের সংখ্যা
)

In [3]:
long_text = """
কৃত্রিম বুদ্ধিমত্তা (AI) হলো যন্ত্রগুলিতে মানুষের বুদ্ধিমত্তার অনুকরণ যা মানুষ হিসাবে চিন্তা করতে এবং তাদের কর্মগুলি অনুকরণ করতে প্রোগ্রাম করা হয়েছে।
এই শব্দটি যেকোন যন্ত্রের ক্ষেত্রে প্রযোজ্য হতে পারে যা মানুষের মনের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি প্রদর্শন করে যেমন শেখা এবং সমস্যার সমাধান করা।
কৃত্রিম বুদ্ধিমত্তার আদর্শ বৈশিষ্ট্য হল এর যৌক্তিক করার ক্ষমতা এবং নির্দিষ্ট লক্ষ্য অর্জনের সর্বোত্তম সুযোগের সাথে কাজ করা।
কৃত্রিম বুদ্ধিমত্তার একটি উপসেট হল মেশিন লার্নিং (ML), যা নির্দেশ করে যে কম্পিউটার প্রোগ্রামগুলি স্বয়ংক্রিয়ভাবে নতুন ডেটা থেকে শেখার এবং অভিযোজিত হতে পারে।
গভীর শিক্ষার কৌশলগুলি টেক্সট, চিত্র বা ভিডিওর মতো বিশাল পরিমাণ অনিয়ন্ত্রিত ডেটার শোষণের মাধ্যমে এই স্বয়ংক্রিয় শিক্ষাকে সক্ষম করে।
"""

In [4]:
chunks = text_splitter.split_text(long_text)

In [5]:
for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}:\n{chunk}\n")

Chunk 1:
কৃত্রিম বুদ্ধিমত্তা (AI) হলো যন্ত্রগুলিতে মানুষের বুদ্ধিমত্তার অনুকরণ যা মানুষ হিসাবে চিন্তা করতে এবং তাদের কর্মগুলি অনুকরণ করতে প্রোগ্রাম করা হয়েছে।
এই শব্দটি যেকোন যন্ত্রের ক্ষেত্রে প্রযোজ্য হতে পারে যা মানুষের মনের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি প্রদর্শন করে যেমন শেখা এবং সমস্যার সমাধান করা।
কৃত্রিম বুদ্ধিমত্তার আদর্শ বৈশিষ্ট্য হল এর যৌক্তিক করার ক্ষমতা এবং নির্দিষ্ট লক্ষ্য অর্জনের সর্বোত্তম সুযোগের সাথে কাজ করা।

Chunk 2:
কৃত্রিম বুদ্ধিমত্তার একটি উপসেট হল মেশিন লার্নিং (ML), যা নির্দেশ করে যে কম্পিউটার প্রোগ্রামগুলি স্বয়ংক্রিয়ভাবে নতুন ডেটা থেকে শেখার এবং অভিযোজিত হতে পারে।
গভীর শিক্ষার কৌশলগুলি টেক্সট, চিত্র বা ভিডিওর মতো বিশাল পরিমাণ অনিয়ন্ত্রিত ডেটার শোষণের মাধ্যমে এই স্বয়ংক্রিয় শিক্ষাকে সক্ষম করে।



## CharacterTextSplitter 

In [6]:
from langchain.text_splitter import CharacterTextSplitter

In [7]:
# CharacterTextSplitter ইনিশিয়ালাইজ করা
text_splitter = CharacterTextSplitter(
    chunk_size=200,
    chunk_overlap=50
)

In [8]:
long_text = """
কৃত্রিম বুদ্ধিমত্তা (AI) হলো যন্ত্রগুলিতে মানুষের বুদ্ধিমত্তার অনুকরণ যা মানুষ হিসাবে চিন্তা করতে এবং তাদের কর্মগুলি অনুকরণ করতে প্রোগ্রাম করা হয়েছে।
এই শব্দটি যেকোন যন্ত্রের ক্ষেত্রে প্রযোজ্য হতে পারে যা মানুষের মনের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি প্রদর্শন করে যেমন শেখা এবং সমস্যার সমাধান করা।
কৃত্রিম বুদ্ধিমত্তার আদর্শ বৈশিষ্ট্য হল এর যৌক্তিক করার ক্ষমতা এবং নির্দিষ্ট লক্ষ্য অর্জনের সর্বোত্তম সুযোগের সাথে কাজ করা।
কৃত্রিম বুদ্ধিমত্তার একটি উপসেট হল মেশিন লার্নিং (ML), যা নির্দেশ করে যে কম্পিউটার প্রোগ্রামগুলি স্বয়ংক্রিয়ভাবে নতুন ডেটা থেকে শেখার এবং অভিযোজিত হতে পারে।
গভীর শিক্ষার কৌশলগুলি টেক্সট, চিত্র বা ভিডিওর মতো বিশাল পরিমাণ অনিয়ন্ত্রিত ডেটার শোষণের মাধ্যমে এই স্বয়ংক্রিয় শিক্ষাকে সক্ষম করে।
"""

In [9]:
chunks = text_splitter.split_text(long_text)

In [10]:
for i, chunk in enumerate(chunks):
    print(f"Chunk {i+1}:\n{chunk}\n")

Chunk 1:
কৃত্রিম বুদ্ধিমত্তা (AI) হলো যন্ত্রগুলিতে মানুষের বুদ্ধিমত্তার অনুকরণ যা মানুষ হিসাবে চিন্তা করতে এবং তাদের কর্মগুলি অনুকরণ করতে প্রোগ্রাম করা হয়েছে।
এই শব্দটি যেকোন যন্ত্রের ক্ষেত্রে প্রযোজ্য হতে পারে যা মানুষের মনের সাথে সম্পর্কিত বৈশিষ্ট্যগুলি প্রদর্শন করে যেমন শেখা এবং সমস্যার সমাধান করা।
কৃত্রিম বুদ্ধিমত্তার আদর্শ বৈশিষ্ট্য হল এর যৌক্তিক করার ক্ষমতা এবং নির্দিষ্ট লক্ষ্য অর্জনের সর্বোত্তম সুযোগের সাথে কাজ করা।
কৃত্রিম বুদ্ধিমত্তার একটি উপসেট হল মেশিন লার্নিং (ML), যা নির্দেশ করে যে কম্পিউটার প্রোগ্রামগুলি স্বয়ংক্রিয়ভাবে নতুন ডেটা থেকে শেখার এবং অভিযোজিত হতে পারে।
গভীর শিক্ষার কৌশলগুলি টেক্সট, চিত্র বা ভিডিওর মতো বিশাল পরিমাণ অনিয়ন্ত্রিত ডেটার শোষণের মাধ্যমে এই স্বয়ংক্রিয় শিক্ষাকে সক্ষম করে।



## Token splitting

চাঙ্ক: চাঙ্ক হল বড় কিছু লেখার বা টেক্সট এর অংশ বা ভাগ। এটি সাধারণভাবে টেক্সট স্ট্রিং কে অনুভাগে ভাগ করে ফেলতে ব্যবহৃত হয়, যাতে প্রতিটি অংশের বিশেষ বৈশিষ্ট্য অনুসারে প্রসেসিং করা যায়। একটি চাঙ্ক এর কিছু সাধারণ উদাহরণ হল প্যারাগ্রাফ, অনুচ্ছেদ, অধ্যায়, ইত্যাদি।

টোকেন: একটি টোকেন সাধারণত প্রায় ৪ ক্যারেক্টারের হতে পারে, যা সাধারণত বাক্যের একটি সাধারণ পদ বা শব্দ বা অক্ষর গুচ্ছ হিসাবে ব্যবহৃত হয়।
উদাহরণস্বরূপ, "বইমেলা", "নারী", "পুরস্কার", "কোডিং" ইত্যাদি টোকেন হতে পারে। এই ধরনের টোকেন সাধারণত বাক্যের অংশ হিসাবে ব্যবহৃত হয়।

In [11]:
from langchain.text_splitter import TokenTextSplitter

In [12]:
text_splitter = TokenTextSplitter(chunk_size=1, chunk_overlap=0)

In [13]:
text1 = """Artificial intelligence (AI) refers to the simulation of human intelligence in machines"""

In [14]:
text_splitter.split_text(text1)

['Art',
 'ificial',
 ' intelligence',
 ' (',
 'AI',
 ')',
 ' refers',
 ' to',
 ' the',
 ' simulation',
 ' of',
 ' human',
 ' intelligence',
 ' in',
 ' machines']

In [15]:
text_splitter = TokenTextSplitter(chunk_size=10, chunk_overlap=0)

In [16]:
text_splitter.split_text(text1)

['Artificial intelligence (AI) refers to the simulation',
 ' of human intelligence in machines']

## Apply split in our documents

In [17]:
from langchain.document_loaders import PyPDFLoader
loader = PyPDFLoader("English_THE_CREATION_OF_THE_UNIVERSE.pdf")
docs = loader.load()

In [18]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [19]:
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,       # প্রতিটি অংশে সর্বাধিক অক্ষরের সংখ্যা
    chunk_overlap=50      # অংশগুলির মধ্যে ওভারল্যাপ করা অক্ষরের সংখ্যা
)

In [20]:
splits = text_splitter.split_documents(docs)

In [21]:
len(splits)

935

In [22]:
for i, chunk in enumerate(splits):
    print(f"Chunk {i+1}:\n{chunk}\n")

Chunk 1:
page_content="Now writing under the pen-name of HARUN YAHYA,\nAdnan Oktar was born in Ankara in 1956. Having completed\nhis primary and secondary education in Ankara, he studied fi-\nne arts at Istanbul's Mimar Sinan University and philosophy at\nIstanbul University. Since the 1980s, he has published many bo-\noks on political, scientific, and faith-related issues. Harun Yahya\nis well-known as the author of important works disclosing the\nimposture of evolutionists, their invalid claims, and the dark liai-" metadata={'source': 'English_THE_CREATION_OF_THE_UNIVERSE.pdf', 'page': 5}

Chunk 2:
page_content="sons between Darwinism and such bloody ideologies as fascism\nand communism. \nHarun Yahya's works, translated into 63 different languages,\nconstitute a collection for a total of more than 55,000 pages with\n40,000 illustrations. \nHis pen-name is a composite of the names Harun (Aaron) and\nYahya (John) , in memory of the two esteemed Prophets who fought\nagainst their peopl