In [7]:
#Read Corpora of Hindi Language
with open("corpora.txt","r") as f:
    text=f.read()
    
text

'भारत एक समृद्ध सांस्कृतिक और ऐतिहासिक विरासत वाला देश है। इसकी विविधता में अनेक भाषाएँ, धर्म, और परंपराएँ शामिल हैं। भारत की संस्कृति में त्योहारों का एक महत्वपूर्ण स्थान है, जैसे दीवाली, होली, और ईद। यहाँ की कला और साहित्य भी अद्वितीय हैं। महात्मा गांधी, रविंद्रनाथ टैगोर, और स्वामी विवेकानंद जैसी महान विभूतियों ने विश्व भर में भारत की पहचान बनाई है। भारतीय संगीत, नृत्य, और सिनेमा ने भी अंतरराष्ट्रीय स्तर पर अपनी जगह बनाई है।\n\nहिंदी भारत की प्रमुख भाषाओं में से एक है, और यह लाखों लोगों की मातृभाषा है। यह भाषा भारतीय संस्कृति और साहित्य का महत्वपूर्ण हिस्सा है। हिंदी भाषा में कई महान कवियों और लेखकों ने अपनी रचनाओं के माध्यम से समाज को जागरूक किया है। प्रेमचंद, हरिवंश राय बच्चन, और मीराबाई जैसे साहित्यकार हिंदी साहित्य के प्रमुख स्तंभ हैं। \n\nआधुनिक भारत में, हिंदी का महत्व बढ़ता जा रहा है। शिक्षा, मीडिया, और फिल्म उद्योग में हिंदी की प्रमुख भूमिका है। इंटरनेट और सोशल मीडिया के विस्तार ने भी हिंदी को एक नई पहचान दी है, जहाँ लोग अपने विचार और अनुभव साझा कर सकते हैं। हिंदी न केवल भारत

In [8]:
#Perform Type Token Analysis
tokens=text.split()

unique_tokens=set(tokens)

ttr=len(unique_tokens)/len(tokens)

print("Total number of tokens: ",len(tokens))
print("Total number of unique tokens: ",len(unique_tokens))
print("Type Token Ratio: ",ttr)


Total number of tokens:  196
Total number of unique tokens:  117
Type Token Ratio:  0.5969387755102041


In [9]:
#Syllable Analysis
import re
from collections import Counter 
vowels=vowels = "अआइईउऊऋॠऌॡएऐओऔअंअः"
pattern=syllable_pattern = f'[{vowels}]+|[^\\s{vowels}]+[{vowels}]?'

syllables=re.findall(syllable_pattern,text)
syl_freq=Counter(syllables)

most_common=syl_freq.most_common(10)

for syllable,freq in most_common:
    print(f"Syllable: {syllable}, Frequency: {freq}")
    

Syllable: औ, Frequency: 14
Syllable: र, Frequency: 14
Syllable: है।, Frequency: 9
Syllable: में, Frequency: 9
Syllable: दी, Frequency: 8
Syllable: हिं, Frequency: 7
Syllable: भारत, Frequency: 6
Syllable: अ, Frequency: 6
Syllable: की, Frequency: 6
Syllable: ए, Frequency: 4


In [10]:
def extract_syllables(word):
    vowels = "अआइईउऊऋॠऌॡएऐओऔअंअः"
    syllable_pattern = f'[{vowels}]+|[^\\s{vowels}]+[{vowels}]?'
    syllables = re.findall(syllable_pattern, word)
    
    return syllables

In [12]:
#Analysis for word initial, medial and final positions
initial_syllable=Counter()
medial_syllable=Counter()
final_syllable=Counter()

for token in tokens:
    syllables=extract_syllables(token)

    if len(syllables) > 0:
        initial_syllable[syllables[0]] += 1
    if len(syllables) > 2:
        for medial in  syllables[1:-1]:
            medial_syllable[medial] += 1
    if len(syllables) > 1:
        final_syllable[syllables[-1]] += 1

#Top 10 most frequent
most_common_initial_syllables = initial_syllable.most_common(10)
most_common_medial_syllables = medial_syllable.most_common(10)
most_common_final_syllables = final_syllable.most_common(10)


In [13]:
print("Most Frequent Initial Syllables: ")
for syllable, freq in most_common_initial_syllables:
    print(f"Syllable: {syllable}, Frequency: {freq}")

print("Most Frequent Medial Syllables:")
for syllable, freq in most_common_medial_syllables:
    print(f"Syllable: {syllable}, Frequency: {freq}")

print("Most Frequent Final Syllables:")
for syllable, freq in most_common_final_syllables:
    print(f"Syllable: {syllable}, Frequency: {freq}")

Most Frequent Initial Syllables: 
Syllable: औ, Frequency: 14
Syllable: है।, Frequency: 9
Syllable: में, Frequency: 9
Syllable: हिं, Frequency: 7
Syllable: भारत, Frequency: 6
Syllable: अ, Frequency: 6
Syllable: की, Frequency: 6
Syllable: ए, Frequency: 4
Syllable: हैं, Frequency: 4
Syllable: भी, Frequency: 4
Most Frequent Medial Syllables:
Syllable: पराए, Frequency: 1
Most Frequent Final Syllables:
Syllable: र, Frequency: 14
Syllable: दी, Frequency: 7
Syllable: क, Frequency: 4
Syllable: ।, Frequency: 4
Syllable: स्कृति, Frequency: 2
Syllable: पनी, Frequency: 2
Syllable: ं, Frequency: 2
Syllable: ,, Frequency: 2
Syllable: स्कृतिक, Frequency: 1
Syllable: तिहासिक, Frequency: 1
