In [32]:
from cltk.stop.classical_hindi.stops import STOPS_LIST
from cltk.corpus.utils.importer import CorpusImporter
from cltk.tokenize.sentence import TokenizeSentence
from cltk.tokenize.word import WordTokenizer

In [91]:
class TextSummarization:
    sentence = ""
    hindi_stop_words = set(STOPS_LIST)
    sentence_tokenizer = TokenizeSentence('hindi')

    def __init__(self, hindi_text_input):
        self.sentence = hindi_text_input

    def word_tokenize(self):
        word_tokenizer = WordTokenizer('sanskrit')
        return word_tokenizer.tokenize(self.sentence)
        # print(hindi_text_words

    def sentence_tokenizer(self):
        hindi_text_sentence_tokenize = TokenizeSentence('hindi').tokenize(self.sentence)
        #print(hindi_text_sentence_tokenize)
        return hindi_text_sentence_tokenize
        #print("\nHindi sentence tokenize")

    def get_stop_words(self):
        return self.hindi_stop_words

    def print_stop_words(self):
        print("Stop words:", self.get_stop_words()[:10])

    def get_filtered_sentence(self):
        filtered_sentence = []
        #print(len(self.word_tokenize()))
        for w in self.word_tokenize():
            if w not in self.get_stop_words():
                filtered_sentence = filtered_sentence + w.split()

        #print("filtered sentence:", filtered_sentence)
        #print(len(filtered_sentence))
        return filtered_sentence


In [51]:
hindi_text = [
    "भारत प्रशासित कश्मीर के शोपियां में हुए एक संदिग्ध चरमपंथी हमले में दो ट्रक ड्राइवरों की मौत "
    "हो गई है | श्रीनगर में मौजूद बीबीसी संवाददाता रियाज़ मसरूर के मुताबिक़ ये ट्रक ड्राइवर सेब "
    "लादने आए थे. ीते दो सप्ताह में ये इस तरह का तीसरा हमला  है| अभी तक किसी चरमपंथी समूह ने इस "
    "हमले की ज़िम्मेदारी नहीं ली है| पुलिस के  मुताबिक़ राजस्थान, पंजाब और हरियाणा से आए तीन "
    "ट्रकों पर शोपियां ज़िले के चित्रा  गांव में सेब लादे जा रहे थे. इस दौरान संदिग्ध चरमपंथियों "
    "ने गोलीबारी की| "
    , "बीजपी-शिवसेना गठबंधन को बहुमत मिलने के बावजूद महाराष्ट्र में नई सरकार शपथ नहीं ले पा रही "
      "है| 24 अक्टूबर को आए नतीजों के बाद प्रधानमंत्री नरेंद्र मोदी ने ऐलान किया था कि देवेंद्र "
      "फडणवीस की अगुवाई में महाराष्ट्र विकास करेगा| हालांकि इन सबके बीच बीजेपी और शिवसेना में "
      "50-50 फॉर्मूले को लेकर खींचतान जारी है और सरकार गठन पर पेच फंसा है| "
    , '''वाशिंगटन: दुनिया के सबसे शक्तिशाली देश के राष्ट्रपति बराक ओबामा ने प्रधानमंत्री नरेंद्र मोदी के संदर्भ में 'टाइम' पत्रिका में लिखा, "नरेंद्र मोदी ने अपने बाल्यकाल में अपने परिवार की सहायता करने के लिए अपने पिता की चाय बेचने में मदद की थी। आज वह दुनिया के सबसे बड़े लोकतंत्र के नेता हैं और गरीबी से प्रधानमंत्री तक की उनकी जिंदगी की कहानी भारत के उदय की गतिशीलता और क्षमता को परिलक्षित करती है।''']

In [131]:
def frequency_matrix(para):
    matrix = {}
    w = TextSummarization(para)
    sentences = w.sentence_tokenizer()
    
    for line in sentences:
        freq_table = {}
        #print(line)
        words = w.word_tokenize()
        for word in words:
            if word in STOPS_LIST:
                continue
            
            if word in freq_table:
                freq_table[word] += 1
            else:
                freq_table[word] = 1
            
        matrix[line[:15]] = freq_table
        
    return matrix

In [132]:
resultant_matrix = frequency_matrix(hindi_text[0])

['भारत प्रशासित कश्मीर के शोपियां में हुए एक संदिग्ध चरमपंथी हमले में दो ट्रक ड्राइवरों की मौत हो गई है |', 'श्रीनगर में मौजूद बीबीसी संवाददाता रियाज़ मसरूर के मुताबिक़ ये ट्रक ड्राइवर सेब लादने आए थे. ीते दो सप्ताह में ये इस तरह का तीसरा हमला  है|', 'अभी तक किसी चरमपंथी समूह ने इस हमले की ज़िम्मेदारी नहीं ली है|', 'पुलिस के  मुताबिक़ राजस्थान, पंजाब और हरियाणा से आए तीन ट्रकों पर शोपियां ज़िले के चित्रा  गांव में सेब लादे जा रहे थे. इस दौरान संदिग्ध चरमपंथियों ने गोलीबारी की|', '']


In [133]:
def create_tf_matrix(freq_matrix):
    tf_matrix = {}
    for sent, f_table in freq_matrix.items():
        tf_table = {}
        
        count_words_sentence = len(f_table)
        for word, count in f_table.items():
            tf_table[word] = count / count_words_sentence
        
        tf_matrix[sent] = tf_table
        
    return tf_matrix

In [134]:
tf_result = create_tf_matrix(resultant_matrix)
print(tf_result)

{'भारत प्रशासित कश्मीर के शोपियां में हुए एक संदिग्ध चरमपंथी हमले में दो ट्रक ड्राइवरों की मौत हो गई है |': {'भारत': 0.019230769230769232, 'प्रशासित': 0.019230769230769232, 'कश्मीर': 0.019230769230769232, 'शोपियां': 0.038461538461538464, 'हुए': 0.019230769230769232, 'संदिग्ध': 0.038461538461538464, 'चरमपंथी': 0.038461538461538464, 'हमले': 0.038461538461538464, 'ट्रक': 0.038461538461538464, 'ड्राइवरों': 0.019230769230769232, 'मौत': 0.019230769230769232, 'गई': 0.019230769230769232, '|': 0.019230769230769232, 'श्रीनगर': 0.019230769230769232, 'मौजूद': 0.019230769230769232, 'बीबीसी': 0.019230769230769232, 'संवाददाता': 0.019230769230769232, 'रियाज़': 0.019230769230769232, 'मसरूर': 0.019230769230769232, 'मुताबिक़': 0.038461538461538464, 'ड्राइवर': 0.019230769230769232, 'सेब': 0.038461538461538464, 'लादने': 0.019230769230769232, 'आए': 0.038461538461538464, 'थे.': 0.038461538461538464, 'ीते': 0.019230769230769232, 'सप्ताह': 0.019230769230769232, 'तरह': 0.019230769230769232, 'तीसरा': 0.019230769

In [135]:
def create_doc_per_words(freq_matrix):
    word_per_doc_table = {}
    
    for sent, f_table in freq_matrix.items():
        for word, count in f_table.items():
            if word in word_per_doc_table:
                word_per_doc_table[word] += 1
            else:
                word_per_doc_table[word] = 1
    return word_per_doc_table

In [136]:
doc_matrix = create_doc_per_words(resultant_matrix)
print(doc_matrix)

{'भारत': 5, 'प्रशासित': 5, 'कश्मीर': 5, 'शोपियां': 5, 'हुए': 5, 'संदिग्ध': 5, 'चरमपंथी': 5, 'हमले': 5, 'ट्रक': 5, 'ड्राइवरों': 5, 'मौत': 5, 'गई': 5, '|': 5, 'श्रीनगर': 5, 'मौजूद': 5, 'बीबीसी': 5, 'संवाददाता': 5, 'रियाज़': 5, 'मसरूर': 5, 'मुताबिक़': 5, 'ड्राइवर': 5, 'सेब': 5, 'लादने': 5, 'आए': 5, 'थे.': 5, 'ीते': 5, 'सप्ताह': 5, 'तरह': 5, 'तीसरा': 5, 'हमला': 5, 'है|': 5, 'अभी': 5, 'तक': 5, 'किसी': 5, 'समूह': 5, 'ज़िम्मेदारी': 5, 'ली': 5, 'पुलिस': 5, 'राजस्थान': 5, ',': 5, 'पंजाब': 5, 'हरियाणा': 5, 'ट्रकों': 5, 'ज़िले': 5, 'चित्रा': 5, 'गांव': 5, 'लादे': 5, 'जा': 5, 'दौरान': 5, 'चरमपंथियों': 5, 'गोलीबारी': 5, 'की|': 5}
