In [3]:
import os
import codecs

# Function to load Telugu text from a directory
def load_telugu_text(directory):
    telugu_texts = []

    # Traverse through the main directories (2017, 2018, 2019)
    for year_folder in os.listdir(directory):
        year_path = os.path.join(directory, year_folder)

        # Traverse through subdirectories (categories)
        for category_folder in os.listdir(year_path):
            category_path = os.path.join(year_path, category_folder)

            # Read Telugu text from .utf8 files
            for file_name in os.listdir(category_path):
                file_path = os.path.join(category_path, file_name)

                # Assuming files are in .utf8 format
                with codecs.open(file_path, 'r', encoding='utf-8') as file:
                    telugu_text = file.read()
                    telugu_texts.append(telugu_text)

    return telugu_texts

# Example: Load Telugu text from a specific directory
directory_path = '/home/shiva/Downloads/NLP/dataset2'
telugu_texts = load_telugu_text(directory_path)

# Example: Print the first document
print("Example Telugu Document:")
print(telugu_texts[0])


Example Telugu Document:
<DOC>
<DOCNO>129072017444933.utf8</DOCNO>
<TEXT>

29-07-2017 02:36:57

గవర్నర్‌కు లోకాయుక్త నివేదిక

హైదరాబాద్‌, జూలై 28(ఆంధ్రజ్యోతి): లోకాయుక్త 2016 సంవత్సరపు పనితీరు, విచారణ జరిపిన అంశాల నివేదికను తెలుగు రాష్ట్రాల గవర్నర్‌ నరసింహన్‌కు సమర్పించారు. శుక్రవారం గవర్నర్‌ను తెలుగు రాష్ట్రాల లోకాయుక్త జస్టిస్‌ బి.సుభాషణ్‌రెడ్డి కలిసి 32వ నివేదికను సమర్పించారు. 2016 ఏడాది లోకాయుక్త కార్యకలాపాలను ఇందులో పొందుపరిచారు. ప్రజాప్రయోజనాలు దెబ్బతీసేలా ప్రభుత్వాలు తీసుకున్న నిర్ణయాలపై కథనాల రూపంలో వచ్చిన అంశాలను సుమోటోగా స్వీకరించడం, ఫిర్యాదుల రూపంలో తీసుకునే ఆర్జీలపై తీర్పులు వెలువరించిన తీరు, వీటి అమలులో రాష్ట్ర ప్రభుత్వాలు ఎలా వ్యవహరించాయనే అంశంపై ఇద్దరి మధ్య చర్చ జరిగింది. మూడు వాల్యూమ్‌ల రిపోర్టులలో ఏపీ, తెలంగాణ ప్రభుత్వాలకు చెరో రిపోర్టు కాగా, ఒకటి గవర్నర్‌ వద్దే ఉంటుంది.
</TEXT>
</DOC>


In [4]:
print(len(telugu_texts))

10821


In [5]:
import re

def clean_telugu_text(text):
    # Remove English alphabets, <, >, /, numbers, :, ., -, and consecutive \n
    cleaned_text = re.sub(r'[a-zA-Z,().!?<>\/0-9:\\-]+|\n+', ' ', text)

    return cleaned_text

# Example: Clean the Telugu text in the corpus
cleaned_telugu_texts = [clean_telugu_text(text) for text in telugu_texts]

# Example: Print the cleaned text of the first document
print("Example Cleaned Telugu Document:")
print(cleaned_telugu_texts[0])

Example Cleaned Telugu Document:
          గవర్నర్‌కు లోకాయుక్త నివేదిక హైదరాబాద్‌  జూలై  ఆంధ్రజ్యోతి  లోకాయుక్త   సంవత్సరపు పనితీరు  విచారణ జరిపిన అంశాల నివేదికను తెలుగు రాష్ట్రాల గవర్నర్‌ నరసింహన్‌కు సమర్పించారు  శుక్రవారం గవర్నర్‌ను తెలుగు రాష్ట్రాల లోకాయుక్త జస్టిస్‌ బి సుభాషణ్‌రెడ్డి కలిసి  వ నివేదికను సమర్పించారు    ఏడాది లోకాయుక్త కార్యకలాపాలను ఇందులో పొందుపరిచారు  ప్రజాప్రయోజనాలు దెబ్బతీసేలా ప్రభుత్వాలు తీసుకున్న నిర్ణయాలపై కథనాల రూపంలో వచ్చిన అంశాలను సుమోటోగా స్వీకరించడం  ఫిర్యాదుల రూపంలో తీసుకునే ఆర్జీలపై తీర్పులు వెలువరించిన తీరు  వీటి అమలులో రాష్ట్ర ప్రభుత్వాలు ఎలా వ్యవహరించాయనే అంశంపై ఇద్దరి మధ్య చర్చ జరిగింది  మూడు వాల్యూమ్‌ల రిపోర్టులలో ఏపీ  తెలంగాణ ప్రభుత్వాలకు చెరో రిపోర్టు కాగా  ఒకటి గవర్నర్‌ వద్దే ఉంటుంది     


In [6]:
from indicnlp.tokenize import indic_tokenize

# Function to tokenize Telugu text into words
def tokenize_telugu_text(text):
    # Tokenize into words
    words = indic_tokenize.trivial_tokenize(text, lang='te')
    return words

# Example: Tokenize the cleaned Telugu text in the corpus
tokenized_telugu_texts = [tokenize_telugu_text(text) for text in cleaned_telugu_texts]

# Example: Print the tokenized text of the first document
print("Example Tokenized Telugu Document:")
print(tokenized_telugu_texts[0])

Example Tokenized Telugu Document:
['గవర్నర్\u200cకు', 'లోకాయుక్త', 'నివేదిక', 'హైదరాబాద్\u200c', 'జూలై', 'ఆంధ్రజ్యోతి', 'లోకాయుక్త', 'సంవత్సరపు', 'పనితీరు', 'విచారణ', 'జరిపిన', 'అంశాల', 'నివేదికను', 'తెలుగు', 'రాష్ట్రాల', 'గవర్నర్\u200c', 'నరసింహన్\u200cకు', 'సమర్పించారు', 'శుక్రవారం', 'గవర్నర్\u200cను', 'తెలుగు', 'రాష్ట్రాల', 'లోకాయుక్త', 'జస్టిస్\u200c', 'బి', 'సుభాషణ్\u200cరెడ్డి', 'కలిసి', 'వ', 'నివేదికను', 'సమర్పించారు', 'ఏడాది', 'లోకాయుక్త', 'కార్యకలాపాలను', 'ఇందులో', 'పొందుపరిచారు', 'ప్రజాప్రయోజనాలు', 'దెబ్బతీసేలా', 'ప్రభుత్వాలు', 'తీసుకున్న', 'నిర్ణయాలపై', 'కథనాల', 'రూపంలో', 'వచ్చిన', 'అంశాలను', 'సుమోటోగా', 'స్వీకరించడం', 'ఫిర్యాదుల', 'రూపంలో', 'తీసుకునే', 'ఆర్జీలపై', 'తీర్పులు', 'వెలువరించిన', 'తీరు', 'వీటి', 'అమలులో', 'రాష్ట్ర', 'ప్రభుత్వాలు', 'ఎలా', 'వ్యవహరించాయనే', 'అంశంపై', 'ఇద్దరి', 'మధ్య', 'చర్చ', 'జరిగింది', 'మూడు', 'వాల్యూమ్\u200cల', 'రిపోర్టులలో', 'ఏపీ', 'తెలంగాణ', 'ప్రభుత్వాలకు', 'చెరో', 'రిపోర్టు', 'కాగా', 'ఒకటి', 'గవర్నర్\u200c', 'వద్దే', 'ఉంటుంది']


In [7]:
wordFrequency = {}
totalWords = 0
for words in tokenized_telugu_texts:
    for word in words:
        totalWords+=1
        if word in wordFrequency:
            wordFrequency[word] += 1
        else:
            wordFrequency[word] = 1

keys = list(wordFrequency.keys())
keys.sort(reverse=True, key=lambda word:wordFrequency[word])
print(totalWords)
top100 = 0
for i in range(100):
    top100 += wordFrequency[keys[i]]
    print(keys[i], wordFrequency[keys[i]])
print(top100/totalWords)

1791526
ఈ 15059
నుంచి 11097
రూ 7573
చేశారు 6937
కూడా 6086
ఆంధ్రజ్యోతి 5635
జిల్లా 5610
ప్రభుత్వం 5403
ఆ 5268
హైదరాబాద్‌ 4938
తెలిపారు 4808
తెలంగాణ 4671
కోసం 4381
ఉన్న 4349
మంత్రి 4327
  4248
రాష్ట్ర 4212
ఆయన 4185
అధికారులు 4154
చెందిన 3934
మంది 3810
వరకు 3796
సీఎం 3585
కేసీఆర్‌ 3451
ఏర్పాటు 3284
ప్రభుత్వ 3072
అన్నారు 2977
అని 2968
చేసిన 2901
ఓ 2898
దీంతో 2790
రెండు 2790
శాఖ 2779
చేసి 2761
చెప్పారు 2696
పోలీసులు 2690
వేల 2633
ద్వారా 2538
పాటు 2507
మరో 2498
లో 2485
న 2457
ఉంది 2430
చేయాలని 2322
లక్షల 2314
కాగా 2204
పార్టీ 2159
వద్ద 2157
శాతం 2146
అయితే 2137
మేరకు 2126
లేదు 2086
తన 2074
ఒక 2044
తమ 2039
కాంగ్రెస్‌ 2028
తర్వాత 1985
మాట్లాడుతూ 1970
చర్యలు 1927
పనులు 1880
పూర్తి 1869
సమాచారం 1861
మండలం 1844
వారు 1833
రాష్ట్రంలో 1813
టీఆర్‌ఎస్‌ 1799
మెట్రో 1767
చేస్తున్నారు 1748
కేంద్ర 1745
ప్రధాన 1736
వారి 1711
ప్రత్యేక 1702
అవకాశం 1702
చేసింది 1696
వచ్చే 1640
సందర్భంగా 1605
కోట్ల 1556
అన్ని 1554
కోట్లు 1552
వ 1535
కలిసి 1513
పరిస్థితి 1503
ఇతర 1486
మూడు 1484
ప్రస్తుతం 1475
జరిగిన 1459
ఏ 1454

In [8]:
print(len(keys))

198626


In [9]:
stopwords_telugu = ['\xa0', "గూర్చి", "గురించి", "చేత", "కొరకు", "వలన", "కంటే", "బట్టి", "నుండి", "యొక్క", 
    "లోపల", "ఓ", "ఒక", "మరియు", "కానీ", "లేదా", "వద్ద", "ద్వారా", "కోసం", "నా", 
    "నీ", "అతను", "అవను", "అది", "మనము", "మీ", "వారు", "మా", "ఉండు", "ఉంటుంది",
    "పైన", "క్రింద", "ముందు","తరువాత", "ముందుగ", "వెనుక", "చాలాదూరం", "దగ్గర", "బయట", "తో",
    "లేక", "లేకుండ", "మధ్యలో", "కు", "ఏమి", "ఎవరు", "ఎందుకు", "ఇక్కడ", "నన్ను", "నీవు" , "అతనిని", "ఆమెను", "మమ్మల్ని", "వారిని", 
    "చేయడం", "కూడా", "మాత్రమే", "మరొక", "మళ్ళీ", "అందరూ", "కాదు", "తర్వాత", 
    "దాదాపు", "అయితే", "మధ్య", "ఉన్నారు", "ఎక్కడైనా", "ప్రకారం", "తగిన", "చుట్టూ", 
    "పై", "అడ్డంగా", "ఏ", "ఎవరైనా", "ఏదైనా", "ఏమైనప్పటికి", "ఎక్కడైనా", "ఈ", 
    "ఆ", "కూడా", "ఒక", "అని", "తన", "ఆయన", "మన", "అయితే", "తమ", "ప్రభుత్వం", "నుంచి", 
    "ఏ", "ఉన్న", "రెండు", "లేదు", "ఉంది", "చాలా", "వారు", "తర్వాత", "ఇది", "చేసిన", 
    "అనే", "కోసం", "వారి", "మాత్రం", "లో", "ఆ", "నుండి", "ఇలా", "నేను", "తరువాత", 
    "వచ్చిన", "జరిగిన", "మనం", "అంటూ", "గత", "అమెరికా", "చేశారు", "వంటి", "పార్టీ", 
    "వల్ల", "కాంగ్రెస్", "ఇక", "భారత", "ఎలా", "వారికి", "అదే", "చిన్న", "ప్రభుత్వ", 
    "ఇతర", "విధంగా", "విషయం", "చిత్రం", "జిల్లా", "మూడు", "ప్రస్తుతం", "ఎంత", "అవసరం", 
    "వుంది", "ఏర్పాటు", "కేంద్ర", "అలాగే", "చేసే", "అన్నాడు",  "కేవలం", "చేయడం"]
# stopwords_telugu = []
top100 = 0
for i in range(100):
    top100 += wordFrequency[keys[i]]
    print(keys[i], wordFrequency[keys[i]])
print(top100/totalWords)


def remove_stopwords(words):
    return [word for word in words if word not in stopwords_telugu]

# Example: Remove stopwords from the tokenized Telugu text
tokenized_telugu_texts_no_stopwords = [remove_stopwords(words) for words in tokenized_telugu_texts]

# Example: Print the tokenized text after stopword removal for the first document
print("Example Tokenized Telugu Document (No Stopwords):")
print(tokenized_telugu_texts_no_stopwords[0])


ఈ 15059
నుంచి 11097
రూ 7573
చేశారు 6937
కూడా 6086
ఆంధ్రజ్యోతి 5635
జిల్లా 5610
ప్రభుత్వం 5403
ఆ 5268
హైదరాబాద్‌ 4938
తెలిపారు 4808
తెలంగాణ 4671
కోసం 4381
ఉన్న 4349
మంత్రి 4327
  4248
రాష్ట్ర 4212
ఆయన 4185
అధికారులు 4154
చెందిన 3934
మంది 3810
వరకు 3796
సీఎం 3585
కేసీఆర్‌ 3451
ఏర్పాటు 3284
ప్రభుత్వ 3072
అన్నారు 2977
అని 2968
చేసిన 2901
ఓ 2898
దీంతో 2790
రెండు 2790
శాఖ 2779
చేసి 2761
చెప్పారు 2696
పోలీసులు 2690
వేల 2633
ద్వారా 2538
పాటు 2507
మరో 2498
లో 2485
న 2457
ఉంది 2430
చేయాలని 2322
లక్షల 2314
కాగా 2204
పార్టీ 2159
వద్ద 2157
శాతం 2146
అయితే 2137
మేరకు 2126
లేదు 2086
తన 2074
ఒక 2044
తమ 2039
కాంగ్రెస్‌ 2028
తర్వాత 1985
మాట్లాడుతూ 1970
చర్యలు 1927
పనులు 1880
పూర్తి 1869
సమాచారం 1861
మండలం 1844
వారు 1833
రాష్ట్రంలో 1813
టీఆర్‌ఎస్‌ 1799
మెట్రో 1767
చేస్తున్నారు 1748
కేంద్ర 1745
ప్రధాన 1736
వారి 1711
ప్రత్యేక 1702
అవకాశం 1702
చేసింది 1696
వచ్చే 1640
సందర్భంగా 1605
కోట్ల 1556
అన్ని 1554
కోట్లు 1552
వ 1535
కలిసి 1513
పరిస్థితి 1503
ఇతర 1486
మూడు 1484
ప్రస్తుతం 1475
జరిగిన 1459
ఏ 1454
కొత్త 1

In [None]:
import re

def stemming(word):
    # Define a list of common vibhakti suffixes
    vibhakti_suffixes = ['లూ', 'పాలు', 'కనన', 'కి', 'థో'," ాకా", "నంచ్ము", "ఘేన్", "లెని", "ఘా", "నండి","పారంగ",
                            "డు", "ము", "వు", "లు", "నిన్", "నున్", "లన్", "గూర్చి", "గురించి"
                            'చేతన్', 'చేన్', 'తోడన్', 'తోన్',	
                            'కొఱకున్' 'కొరకు', 'కై',
                            'వలనన్', 'కంటెన్', 'పట్టి', 'నుండి',
                            'కిన్', 'కున్', 'యొక్క', 'లోన్', 'లోపలన్',
                            'అందున్', 'నన్',
                            'ఓ', 'ఓరీ', 'ఓయీ', 'ఓసీ']  # Add more as needed

    # Check if the word ends with any of the vibhakti suffixes and remove it
    for suffix in vibhakti_suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]

    # If the word doesn't end with a known vibhakti suffix, return it as is
    return word

def stemmingSentences(words):
    return [stemming(word) for word in words]


stemmed_tokenized_telugu_texts_no_stopwords = [stemmingSentences(words) for words in tokenized_telugu_texts_no_stopwords]

print(stemmed_tokenized_telugu_texts_no_stopwords[0])
print("Stemming example: ")
for i in range(len(stemmed_tokenized_telugu_texts_no_stopwords[1])):
    if stemmed_tokenized_telugu_texts_no_stopwords[1][i] != tokenized_telugu_texts_no_stopwords[1][i]:
        print(tokenized_telugu_texts_no_stopwords[1][i], stemmed_tokenized_telugu_texts_no_stopwords[1][i])

['అనుభూతిని', 'అర్థం', 'చేసుకోగలను', 'ముంబై', 'ఆస్ట్రేలియన్\u200c', 'ఓపెన్\u200c', 'ఫైనల్లో', 'తలపడే', 'సమయంలో', 'రోజర్\u200c', 'ఫెడరర్\u200c', 'నడాల్\u200c', 'ఎదుర్కొన్న', 'అనుభూతిని', 'తాను', 'అర్థం', 'చేసుకోగలనని', 'దిగ్గజ', 'క్రికెటర్\u200c', 'సచిన్\u200c', 'టెండూల్కర్\u200c', 'తాను', 'ఫైనల్\u200c', 'మ్యాచ్\u200cను', 'కొద్దికొద్దిగానే', 'చూసినా', 'వాళ్ల', 'ఇద్దరి', 'నెలకొన్న', 'ఉద్విగ్నభరిత', 'పరిస్థితిని', 'అర్థం', 'చేసుకోగలనని', 'చెప్పా', 'తుదిపోరులో', 'ఫెడరర్\u200c', 'ఐదుసెట్లపాటు', 'పోరాడి', 'నడాల్\u200cను', 'ఓడించిన', 'సంగతి', 'తెలిసిందే', '‘నా', 'కెరీర్\u200cలో', 'చాలాసార్', 'గాయాలపాలయ్యా', 'కొన్ని', 'గడ్', 'పరిస్థితులనెదుర్కొన్నా', 'మీరెప్పు', 'రిటైరవుతారంటూ', 'సమయంలో', 'ప్రెస్\u200c', 'కాన్ఫరెన్స్\u200cలో', 'నాకో', 'ప్రశ్న', 'ఎదురైంది', 'బ్యాట్\u200cతోనే', 'సమాధానం', 'చెప్పాను', 'జీవితంలో', 'మరచిపోలేని', 'అనుభవా', 'తర్వాతే', 'జరిగాయి', 'ఆసే్ట్రలియన్\u200c', 'ఓపెన్\u200c', 'ఫైనల్లో', 'ఆడేటప్పు', 'ఫెడరర్\u200c', 'నడాల్\u200c', 'ఎలాంటి', 'అనుభూతి', 'చెందారో', 'అర్థం', 'చేసుకోగ

In [None]:
def create_ngrams(data, n):
    ngrams = []
    for i in range(len(data) - n + 1):
        ngrams.append(tuple(data[i:i + n]))
    return ngrams

In [None]:
bigrams = create_ngrams(stemmed_tokenized_telugu_texts_no_stopwords, 2)

In [None]:
from collections import defaultdict
ngram_counts = defaultdict(int)
context_counts = defaultdict(int)
vocab = set()
n = 2
tokens = stemmed_tokenized_telugu_texts_no_stopwords
for document in tokens:
    for i in range(len(document) - n + 1):
        ngram = tuple(document[i:i + n])
        context = tuple(document[i:i + n - 1])
        ngram_counts[ngram] += 1
        context_counts[context] += 1
        vocab.add(ngram[-1])

In [None]:
def laplace_smoothed_probability(ngram):
    context = tuple(ngram[:-1])
    numerator = ngram_counts[ngram] + 1
    denominator = context_counts[context] + len(vocab)
    probability = numerator / denominator
    return probability

In [None]:
laplace_smoothed_probability(('జూలై', 'ఆంధ్రజ్యోతి'))

0.0013975381827396355

In [None]:
def generate_next_word(n, seed_words):
    context = tuple(seed_words[-(n - 1):])
    candidates = [(word, laplace_smoothed_probability(context + (word,))) for word in vocab]
    next_word = max(candidates, key=lambda x: x[1])[0]
    return next_word

def generate_sequence_given_seed(n, seed_words, length=5):
    generated_sequence = seed_words.copy()
    for _ in range(length):
        next_word = generate_next_word(n, generated_sequence)
        generated_sequence.append(next_word)
    return generated_sequence

In [None]:
print(" ".join(generate_sequence_given_seed(n=2, seed_words=['విద్యుత్తు'], length=15)))

విద్యుత్తు సరఫరా చేస్తున్నారు దీంతో పోలీసు కేసు నమోదు చేసి దర్యాప్తు చేస్తున్నారు దీంతో పోలీసు కేసు నమోదు చేసి దర్యాప్తు


In [None]:
from collections import defaultdict
ngram_counts = defaultdict(int)
context_counts = defaultdict(int)
vocab = set()
n = 3
tokens = stemmed_tokenized_telugu_texts_no_stopwords
for document in tokens:
    for i in range(len(document) - n + 1):
        ngram = tuple(document[i:i + n])
        context = tuple(document[i:i + n - 1])
        ngram_counts[ngram] += 1
        context_counts[context] += 1
        vocab.add(ngram[-1])

In [None]:
print(" ".join(generate_sequence_given_seed(n=3, seed_words=['విద్యుత్తు', 'నియంత్రణ'], length=15)))

విద్యుత్తు నియంత్రణ మండలి యుఎస్‌ ఎఫ్‌డిఎ తుది ఆమోదం అందుకున్నట్ తెలిపింది ఆసా్ట్రజెనెకా ఫార్మాసుటికల్స్‌ మెర్రెమ్‌ ఇంజెక్షన్‌కు ఔషధం జెనరిక్‌ వెర్షన్‌ అయిన


In [None]:
from collections import defaultdict
ngram_counts = defaultdict(int)
context_counts = defaultdict(int)
vocab = set()
n = 4
tokens = stemmed_tokenized_telugu_texts_no_stopwords
for document in tokens:
    for i in range(len(document) - n + 1):
        ngram = tuple(document[i:i + n])
        context = tuple(document[i:i + n - 1])
        ngram_counts[ngram] += 1
        context_counts[context] += 1
        vocab.add(ngram[-1])

In [None]:
test_data = (" ".join(generate_sequence_given_seed(n=4, seed_words=['జూవిద్యుత్తు', 'నియంత్రణ', 'మండలి'], length=15)))
print(test_data)

జూవిద్యుత్తు నియంత్రణ మండలి    – ప్రథమావిభక్తి మల్ల ఎల్ల రావ కింది కులాలను అవమానించడాని పిలుస్తారో జ్యోతిబా రాయటం ఆయన్ని


In [None]:
def calculate_perplexity(test_data, n, ngram_counts, context_counts):
    total_prob = 1  # Initialize as 1 to avoid issues with multiplication
    N = 0

    # for document in test_data:
    for i in range(len(test_data) - n + 1):
        ngram = tuple(test_data[i:i + n])
        total_prob *= laplace_smoothed_probability(ngram)
        print(total_prob)
        N += 1

    perplexity = total_prob ** (-1 / N)
    return perplexity

In [None]:
# print(calculate_perplexity(test_data, 4, ngram_counts, context_counts))