In [4]:
file_path = '../data_preparation/nepberta_text.txt'

First N lines

In [5]:
n = 10  # Number of lines to preview
with open(file_path,"r", encoding="utf-8") as f:
    for i in range(n):
        print(f.readline().strip())


विसं २०४६ मा तत्कालीन मसालको विद्यार्थी संगठनको सदस्यता लिँदा उनी राप्ती ज्ञानोदय मावि रुकुममा कक्षा ६ मा अध्ययनरत थिइन् ।
विद्यार्थी संगठनको सदस्य हुँदा राजनीतिबारे खासै थाहा थिएन । पछि संगठनका अग्रजले मुलुकको राजनीतिक, आर्थिक र सामाजिक अवस्थाको यथार्थता प्रष्ट्याउँदै जाँदा त्यसप्रति उनको चासो बढ्यो । यद्यपि त्यतिबेला भने नेपालमा सशस्त्र युद्धको थालनी भइसकेको थिएन ।
किशोर अवस्थादेखि राजनीतिक यात्रा शुरु गरेकी बिमला केसी रुकुम पश्चिमको सानीभेरी गाउँपालिका–९ सिम्ली निवासी हुन् । सानै उमेरमा बुबाको मृत्यु भएकाले केसीलाई विद्यालय शिक्षा हाँसिल गर्न निकै समस्या भयो । बुबाको मृत्युपछि आमाले भोगेको पीडा, व्याप्त गरिबी र महिला हिंसाले उनलाई संघर्षमा उत्रन उत्प्रेरित गरायो ।
विद्यार्थी राजनीतिबाट अघि बढेकी केसीपछि २०५२ सालमा तत्कालीन नेकपा (माओवादी)ले सञ्चालन गरेको जनयुद्धमा सहभागी भइन् ।
पूर्णकालीन सदस्य बनेर माओवादी राजनीतिको यात्राका दौडानमा उनी रुकुम जिल्लाको पहिलो महिला, विद्यार्थी तथा कलाकार संगठनको एकै पटक प्रमुख बनिन् ।
त्यसपछि माओवादी सुरक्षा दलको सदस्य हुँदै २०५६ सालमा उनले रुकुमको छ

Analyze Statistics (Line Lengths, Word Counts, etc.)

In [6]:

line_count = 0
with open(file_path, "r", encoding="utf-8") as f:
    for _ in f:
        line_count += 1

print(f"Total lines in file: {line_count}")

Total lines in file: 22191577


Total lines in file: 22191578

In [6]:
line_lengths = []
with open(file_path, "r", encoding="utf-8") as f:
    for line in f:
        line_lengths.append(len(line.strip()))

print(f"Max line length: {max(line_lengths)}")
print(f"Average line length: {sum(line_lengths)/len(line_lengths):.2f}")


Max line length: 108045
Average line length: 215.54


Max line length(no of characters): 108045 <br>
Average line length: 215.54

# How character is counted ?


Nepali text uses the Devanagari Unicode block (U+0900 to U+097F).

Each Nepali letter or symbol may take 1 or more Unicode code points depending on:

Simple letters → 1 code point.

Letters with matras (vowel signs) or combining characters → multiple code points, but Python usually counts them separately.

eg : 

In [9]:
line = "काठमाडौं । नेपाल"
for char in line:
    print(f"'{char}': {ord(char):04x}")
print("Total Characters:", len(line))


'क': 0915
'ा': 093e
'ठ': 0920
'म': 092e
'ा': 093e
'ड': 0921
'ौ': 094c
'ं': 0902
' ': 0020
'।': 0964
' ': 0020
'न': 0928
'े': 0947
'प': 092a
'ा': 093e
'ल': 0932
Total Characters: 16


# Word Count

In [10]:
total_lines = 0
total_words = 0
min_word_count = float('inf')
max_word_count = 0

with open(file_path, "r", encoding="utf-8") as f:
    for line in f:
        words = line.strip().split()
        word_count = len(words)

        total_lines += 1
        total_words += word_count

        # Update min/max word counts
        if word_count > max_word_count:
            max_word_count = word_count
        if word_count < min_word_count:
            min_word_count = word_count

# Handle empty files safely
if total_lines == 0:
    avg_word_count = 0
else:
    avg_word_count = total_words / total_lines


print("=" * 40)
print(f"Total lines: {total_lines}")
print(f"Total words: {total_words}")
print(f"Min words in a line: {min_word_count}")
print(f"Max words in a line: {max_word_count}")
print(f"Average words per line: {avg_word_count:.2f}")



Total lines: 22191578
Total words: 734297072
Min words in a line: 0
Max words in a line: 15713
Average words per line: 33.09


======================================== <br>
Total lines: 22,191,578 <br>
Total words: 734,297,072  <br>
Min words in a line: 0  <br>
Max words in a line: 15,713  <br>
Average words per line: 33.09  <br>

In [8]:
file_path = '../data_preparation/nepberta_text.txt'
output_file = "empty_lines.txt"

empty_lines = []  # To store line numbers with 0 words

with open(file_path, "r", encoding="utf-8") as f:
    for line_number, line in enumerate(f, start=1):
        word_count = len(line.strip().split())
        if word_count == 0:
            empty_lines.append(line_number)

print(f"Total empty lines with 0 words: {len(empty_lines)}")
print(f"Saving line numbers to {output_file}...")

# Save to text file
with open(output_file, "w", encoding="utf-8") as out:
    for line_num in empty_lines:
        out.write(f"{line_num}\n")

print("✅ Done!")


Total empty lines with 0 words: 2725524
Saving line numbers to empty_lines.txt...
✅ Done!


In [9]:
with open(file_path, "r", encoding="utf-8") as f:
    for line_number, line in enumerate(f, start=1):
        if 25 <= line_number <= 40:
            print(f"Line {line_number}: {repr(line)}")


Line 25: 'सो अवसरमा उनले भगवान् बुद्धले जसरी लुम्बिनीबाट विश्वमाझ शान्तिको सन्देश छर्नुभएको छ, हामीले पनि यहीबाटै नयाँ विचार स्थापित गरी देशलाई सही निकास दिनेछौं भने । रासस\n'
Line 26: 'मन्त्रालयको संख्या कति राख्ने र मन्त्रालयको बाँडफाँट कसरी गर्ने भन्ने विषयमा एमाले–माओवादीबीच निष्कर्ष ननिस्किएपछि बुधबार पनि मन्त्रिपरिषद् विस्तार हुन सकेन ।\n'
Line 27: 'मंगलबार र बुधबार प्रधानमन्त्री एवम् एमाले अध्यक्ष केपी शर्मा ओली र माओवादी अध्यक्ष पुष्पकमल दाहालबीच \xa0छलफल भएको थियो ।\xa0 तर, मन्त्रालयको संख्या र मुख्य– मुख्य मन्त्रालय कसले लिने भन्ने टुंगो लाग्न नसकेपछि मन्त्रिपरिषद्ले पूर्णता पाउन नसकेको हो ।\n'
Line 28: '“मन्त्रालय संख्या र वरियताबारे छलफल भइरहेको छ । यसैले मन्त्रिपरिषद् विस्तारमा ढिलाइ भएको हो,” एमाले सचिव प्रदीप ज्ञवालीले जानकारी दिए ।\n'
Line 29: 'मन्त्रालय १५ मा सीमित\xa0\n'
Line 30: '\xa0\n'
Line 31: 'अर्थ तथा योजना, उद्योग, वाणिज्य, आपूर्ति तथा पर्यटन, कृषि, सिँचाइ, खाद्य सुरक्षा, सहकारी र भूमिसुधार, वन, वातावरण, जलवायु परिवर्तन, भौतिक पूर्वाधार तथा यातायात, ऊर्जा (जलवि