In [1]:
from datasets import load_dataset
import re

In [2]:
dataset = load_dataset("ai4bharat/IndicCorpV2", "indiccorp_v2", streaming=True, split="tel_Telu")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md: 0.00B [00:00, ?B/s]

In [3]:
def telugu_sentence_tokenizer(text):
    return re.split(r'(?<=[।!?॥.])\s+', text)

def telugu_word_tokenizer(text):
    url = r'https?://\S+'
    email = r'\b[\w\.-]+@[\w\.-]+\.\w+\b'
    date = r'\b\d{1,2}[/-]\d{1,2}[/-]\d{2,4}\b'
    decimal = r'\b\d+\.\d+\b'
    number = r'\b\d+\b'
    telugu = r'[\u0C00-\u0C7F]+'
    english = r'[a-zA-Z]+'
    punctuation = r'[.,!?;:"(){}\[\]<>|/@#$%^&*_+=~`\'“”‘’₹…-]'
    pattern = f'{url}|{email}|{date}|{decimal}|{number}|{telugu}|{english}|{punctuation}'
    return re.findall(pattern, text)

In [4]:
for fname in ["original_text.txt", "output_sentence_tokenized.txt", "output_tokenized.txt"]:
    with open(fname, "w", encoding="utf-8") as f:
        pass

N = 2000

for i, example in enumerate(dataset):
    if i >= N:
        break

    text = example['text'].strip()

    with open("original_text.txt", "a", encoding="utf-8") as f_orig:
        f_orig.write(f"--- Example {i+1} ---\n{text}\n\n")

    sentences = telugu_sentence_tokenizer(text)

    with open("output_sentence_tokenized.txt", "a", encoding="utf-8") as f_sent, \
         open("output_tokenized.txt", "a", encoding="utf-8") as f_word:

        f_sent.write(f"--- Example {i+1} ---\n")
        f_word.write(f"--- Example {i+1} ---\n")

        for j, s in enumerate(sentences):
            f_sent.write(f"Sentence {j+1}: {s}\n")

            words = telugu_word_tokenizer(s)

            f_word.write(f"Sentence {j+1}:\n")
            f_word.write(f"Original: {s}\n")
            f_word.write(f"Tokens  : {' '.join(words)}\n\n")

            print(f"\n Sentence {j+1}: {s}")
            print(f" Tokens: {words}")

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
 Sentence 8: అయినప్పటికీ, 1972 లో హోవర్ ఫ్రాస్ట్తో ప్రసిద్ధి చెందిన "ర్యాప్" కనిపెట్టబడింది.
 Tokens: ['అయినప్పటికీ', ',', '1972', 'లో', 'హోవర్', 'ఫ్రాస్ట్తో', 'ప్రసిద్ధి', 'చెందిన', '"', 'ర్యాప్', '"', 'కనిపెట్టబడింది', '.']

 Sentence 1: 
 Tokens: []

 Sentence 1: స‌ర‌దాగా రెండు గంట‌ల సినిమా చూసి, రిలాక్స‌యిపోదాం.
 Tokens: ['స', 'ర', 'దాగా', 'రెండు', 'గంట', 'ల', 'సినిమా', 'చూసి', ',', 'రిలాక్స', 'యిపోదాం', '.']

 Sentence 1: 
 Tokens: []

 Sentence 1: అయితే కొందరు మాత్రమే ఆ కలలను నిజం చేసుకోవడంలో సఫలమవుతారు.అలా ప్రతిభతో సక్సెస్ సాధించిన సింగర్లలో మోహనా భోగరాజు ఒకరు.
 Tokens: ['అయితే', 'కొందరు', 'మాత్రమే', 'ఆ', 'కలలను', 'నిజం', 'చేసుకోవడంలో', 'సఫలమవుతారు', '.', 'అలా', 'ప్రతిభతో', 'సక్సెస్', 'సాధించిన', 'సింగర్లలో', 'మోహనా', 'భోగరాజు', 'ఒకరు', '.']

 Sentence 1: 
 Tokens: []

 Sentence 1: కాగా తెలుగులో టాలీవుడ్ ప్రముఖ దర్శకుడు క్రిష్ జాగర్లమూడి దర్శకత్వం వహించిన “వేదం” చిత్రం ద్వారా తెలుగు సినిమా పరిశ్రమకు హీరోయిన్ గా పరి

In [5]:
total_sentences = 0
total_words = 0
total_characters = 0
unique_tokens = set()

for i, example in enumerate(dataset):
    if i >= N:
        break

    text = example['text'].strip()
    sentences = telugu_sentence_tokenizer(text)
    total_sentences += len(sentences)

    for s in sentences:
        words = telugu_word_tokenizer(s)
        total_words += len(words)
        total_characters += sum(len(word) for word in words)
        unique_tokens.update(words)

avg_sentence_length = total_words / total_sentences if total_sentences else 0
avg_word_length = total_characters / total_words if total_words else 0
type_token_ratio = len(unique_tokens) / total_words if total_words else 0

print("\n Corpus Statistics:")
print(f"1. Total sentences       : {total_sentences}")
print(f"2. Total words           : {total_words}")
print(f"3. Total characters      : {total_characters}")
print(f"4. Avg. Sentence Length  : {avg_sentence_length:.2f} words/sentence")
print(f"5. Avg. Word Length      : {avg_word_length:.2f} chars/word")
print(f"6. Type/Token Ratio (TTR): {type_token_ratio:.4f}")


 Corpus Statistics:
1. Total sentences       : 4660
2. Total words           : 42381
3. Total characters      : 236736
4. Avg. Sentence Length  : 9.09 words/sentence
5. Avg. Word Length      : 5.59 chars/word
6. Type/Token Ratio (TTR): 0.3438
