In [None]:
import re

def sentence_tokenizer(text):
    if not text.strip():
        return []

    # Define patterns
    url_pattern = r"https?://[^\s]+"
    email_pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
    date_pattern = r"\b\d{1,4}[-/]\d{1,2}[-/]\d{1,4}\b"

    # URLS , DATES , EMAILS 
    special_matches = re.findall(f"{url_pattern}|{email_pattern}|{date_pattern}", text)

    # Replace them with placeholders to isolate them as sentences
    placeholder = "<<<SEP>>>"
    for match in special_matches:
        text = text.replace(match, f"{placeholder}{match}{placeholder}")

    # split by punc
    chunks = re.split(r'(?<=[।!?])\s*', text)

    # final sentences
    sentences = []
    for chunk in chunks:
        if not chunk.strip():
            continue
        parts = chunk.split(placeholder)
        for part in parts:
            clean = part.strip()
            if clean:
                sentences.append(clean)

    return sentences

In [7]:
from datasets import load_dataset

streamed_dataset = load_dataset("ai4bharat/IndicCorpV2", "indiccorp_v2", split="hin_Deva", streaming=True)

# Print the first 3 samples
for i, sample in enumerate(streamed_dataset):
    print(sample)
    if i == 2:
        break

{'text': 'लोगों को बिलों संबंधी सुविधा देना ही उनका काम'}
{'text': ''}
{'text': 'इनेलो 1987 में उस वक्त ऐसे ही दोराहे पर खड़ी थी, जब पूर्व उपप्रधानमंत्री देवीलाल ने अपने पुत्र ओमप्रकाश चौटाला को अपना राजनीतिक उत्तराधिकारी घोषित किया था। हालांकि तब पार्टी पर देवीलाल की मजबूत पकड़ के चलते पार्टी टूटने से बच गई थी। 1989 में देवीलाल केन्द्र की राजनीति में सक्रिय हो गए थे और उनके उपप्रधानमंत्री बनने के पश्चात् उनके तीन बेटों जगदीश सिंह, रणजीत सिंह और ओमप्रकाश चौटाला में से रणजीत और ओमप्रकाश के बीच हरियाणा में उनकी राजनीतिक विरासत को लेकर जंग शुरू हो गई थी। उन परिस्थितियों में देवीलाल ने कड़ा निर्णय लेते हुए पार्टी की बागडोर ओमप्रकाश चौटाला के हवाले कर दी थी, जिसके बाद रणजीत की बगावत का असर पार्टी, संगठन और उनकी सरकार पर भी पड़ा था। उस समय रणजीत की नाराजगी के चलते उनके समर्थन में कई कैबिनेट मंत्रियों ने इस्तीफे दे दिए थे किन्तु तब पार्टी सुप्रीमो चौ. देवीलाल की हरियाणा की जनता पर इतनी मजबूत पकड़ थी कि ओमप्रकाश चौटाला को उत्तराधिकारी बनाने के उनके फैसले का जनता के बीच कोई खास विरोध नहीं हुआ थ

In [8]:
text = """
आज की तारीख 06/08/2025 है। कृपया हमारी वेबसाइट https://www.ujjwalbharat.gov.in पर जाएं।
या info@ujjwal.org पर संपर्क करें। धन्यवाद!
"""

print(sentence_tokenizer(text))

for i, sample in enumerate(streamed_dataset):
    print("SAMPLE FROM DATASET:")
    print(sample)
    print("SENTENCE TOKENS:")
    print(sentence_tokenizer(sample['text']))
    print("-" * 50)
    if i == 5:
        break

['आज की तारीख', '06/08/2025', 'है।', 'कृपया हमारी वेबसाइट', 'https://www.ujjwalbharat.gov.in', 'पर जाएं।', 'या', 'info@ujjwal.org', 'पर संपर्क करें।', 'धन्यवाद!']
SAMPLE FROM DATASET:
{'text': 'लोगों को बिलों संबंधी सुविधा देना ही उनका काम'}
SENTENCE TOKENS:
['लोगों को बिलों संबंधी सुविधा देना ही उनका काम']
--------------------------------------------------
SAMPLE FROM DATASET:
{'text': ''}
SENTENCE TOKENS:
[]
--------------------------------------------------
SAMPLE FROM DATASET:
{'text': 'इनेलो 1987 में उस वक्त ऐसे ही दोराहे पर खड़ी थी, जब पूर्व उपप्रधानमंत्री देवीलाल ने अपने पुत्र ओमप्रकाश चौटाला को अपना राजनीतिक उत्तराधिकारी घोषित किया था। हालांकि तब पार्टी पर देवीलाल की मजबूत पकड़ के चलते पार्टी टूटने से बच गई थी। 1989 में देवीलाल केन्द्र की राजनीति में सक्रिय हो गए थे और उनके उपप्रधानमंत्री बनने के पश्चात् उनके तीन बेटों जगदीश सिंह, रणजीत सिंह और ओमप्रकाश चौटाला में से रणजीत और ओमप्रकाश के बीच हरियाणा में उनकी राजनीतिक विरासत को लेकर जंग शुरू हो गई थी। उन परिस्थितियों में देवीलाल