In [1]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from snowballstemmer import TurkishStemmer

In [2]:
text_str = '''
Hacı Ömer Sabancı, Kayseri'nin bir köyünde, Akçakaya'da doğdu. 13 yaşında babası Hacı Arap Sabancı'yı kaybettikten birkaç yıl sonra (1920 yılında), talihini denemek için köyünden ayrılan Hacı Ömer, 450 kilometrelik yolu yaya olarak katederek Adana'ya göç etti. Adana'daki yeni hayatına pamuk işçisi olarak başlayan Hacı Ömer, kısa sürede işçi müteahhitliği'ne başladı, bir iki yılda yaptığı tasarruflarla pamuk ticaretinde mütevazı bir iş kurdu. O dönemde yanında çalışan işçiler Hacı Ömer'i "Ağa" diye çağırmaya başladılar. 1928 yılında Sadıka Hanım'la evlendi ve İhsan, Sakıp, Hacı, Şevket, Erol ve Özdemir adında altı erkek çocuk sahibi oldu. 1943 yılında Yağsa'ya ortak olan Hacı Ömer, 1946 yılında arkadaşları ile beraber Marsa'yı aldı. Yaratıcı gücü, ileri görüşü ve yılmayan gayreti sayesinde, başarı zincirine birçok halkalar ekleyen Hacı Ömer önderliğinde, daha sonraki yıllarda sırasıyla Akbank, Bossa Un ve Çırçır Fabrikası, Bossa Tekstil Fabrikası, Oralitsa, Aksigorta, Teknosa kuruldu. 1951 yılında Atlı Köşk'ü alan Hacı Ömer, ailesiyle birlikte İstanbul'a taşınmanın ilk adımlarını da atmış oldu. Hacı Ömer Sabancı Vakfı VAKSA tarafından Hacı Ömer Sabancı adını taşıyan İstanbul'da Galatasaray Lisesi kapalı spor salonu ve VAKSA tarafından yenilenen tarihi Beylerbeyi Lisesi isim olarak Beylerbeyi Hacı Sabancı Anadolu Lisesi olarak değiştirildi, Adana'da kültür merkezi ve teknik öğrenci yurdu, Ankara'da kız öğrenci yurdu, Kayseri ve Van'da ilköğretim okulları yaptırıldı. 1950 yıllarında Türkiye'nin en zengin insanı idi. 1966 yılında, şeker ve kalp rahatsızlıkları nedeniyle İstanbul Hilton Oteli 237 numaralı odada öldü. Cenazesi vasiyeti üzerine Adana'ya getirilip defnedildi.
'''

In [3]:
def frequency_table(text_string):

    stopWords = set(stopwords.words("turkish"))
    words = word_tokenize(text_string)
    ts=TurkishStemmer()

    freqTable = dict()
    for word in words:
        word = ts.stemWord(word)
        if word in stopWords:
            continue
        if word in freqTable:
            freqTable[word] += 1
        else:
            freqTable[word] = 1

    return freqTable

In [4]:
def score_sentences(sentences, freqTable):
    sentenceValue = dict()

    for sentence in sentences:
        word_count_in_sentence = (len(word_tokenize(sentence)))
        word_count_in_sentence_except_stop_words = 0
        for wordValue in freqTable:
            if wordValue in sentence.lower():
                word_count_in_sentence_except_stop_words += 1
                if sentence[:10] in sentenceValue:
                    sentenceValue[sentence[:10]] += freqTable[wordValue]
                else:
                    sentenceValue[sentence[:10]] = freqTable[wordValue]

        if sentence[:10] in sentenceValue:
            sentenceValue[sentence[:10]] = sentenceValue[sentence[:10]] / word_count_in_sentence_except_stop_words
    return sentenceValue

In [5]:
def find_average_score(sentenceValue):
    sumValues = 0
    for entry in sentenceValue:
        sumValues += sentenceValue[entry]

    # Average value of a sentence from original text
    average = (sumValues / len(sentenceValue))

    return average

In [6]:
def generate_summary(sentences, sentenceValue, threshold):
    sentence_count = 0
    summary = ''

    for sentence in sentences:
        if sentence[:10] in sentenceValue and sentenceValue[sentence[:10]] >= (threshold):
            summary += " " + sentence
            sentence_count += 1

    return summary

In [7]:
def run_summarization(text):
    # 1 Create the word frequency table
    freq_table = frequency_table(text)

    # 2 Tokenize the sentences
    sentences = sent_tokenize(text)

    # 3 Important Algorithm: score the sentences
    sentence_scores = score_sentences(sentences, freq_table)

    # 4 Find the threshold
    threshold = find_average_score(sentence_scores)

    # 5 Important Algorithm: Generate the summary
    summary = generate_summary(sentences, sentence_scores, 1.3 * threshold)

    return summary

In [8]:
result = run_summarization(text_str)
print(result)

 
Hacı Ömer Sabancı, Kayseri'nin bir köyünde, Akçakaya'da doğdu. 1928 yılında Sadıka Hanım'la evlendi ve İhsan, Sakıp, Hacı, Şevket, Erol ve Özdemir adında altı erkek çocuk sahibi oldu.
