In [None]:
%matplotlib inline


Text Summarization
==================

Demonstrates summarizing text by extracting the most important sentences from it.


In [5]:
from pprint import pprint as print
from gensim.summarization import summarize



We will try summarizing a small toy example; later we will use a larger piece of text. In reality, the text is too small, but it suffices as an illustrative example.




In [30]:
text = (
    "Yapılan laboratuvar testi sonuçlarına göre kuşlarda herhangi bir zehirlenme belirtisi ya da virüs tespit edilmemiş. Ölümlerin künt travma (vücut kısmına darbe, yaralanma veya fiziksel saldırının neden olduğu travma) sonucu olduğu belirtilmiş. Birleşik Krallık’a bağlı Hayvan ve Bitki Sağlığı Kurumu (APHA), kuşların çevredeki asfalt veya çitlere hızlıca çarpmaları sonucu ölmüş olabileceklerini söylemiş. Kuşlar üzerinde gerçekleştirilen viroloji, bakteriyoloji ve histopatoloji test sonuçlarına göre, kuşlarda herhangi bir kuş gribi riskine veya bulaşıcı bir hastalığa rastlanmadığı ifade ediliyor.Soruşturmayı yürüten ekipte polis olarak görev yapan Rob Taylor Twitter hesabı üzerinden kuşların ölme nedenine ilişkin açıklamalarda bulunduğu bir video paylaşmış. Taylor açıklamasında olayın yırtıcı kuşlardan veya şiddetli havadan kaçma esnasında gerçekleşmiş olabileceği ihtimali üzerinde durulduğunu belirtmiş. Ayrıca Taylor, bu tarz vakaların daha önce de yaşandığını dile getirmiş."
)
print(text)

('Yapılan laboratuvar testi sonuçlarına göre kuşlarda herhangi bir zehirlenme '
 'belirtisi ya da virüs tespit edilmemiş. Ölümlerin künt travma (vücut kısmına '
 'darbe, yaralanma veya fiziksel saldırının neden olduğu travma) sonucu olduğu '
 'belirtilmiş. Birleşik Krallık’a bağlı Hayvan ve Bitki Sağlığı Kurumu (APHA), '
 'kuşların çevredeki asfalt veya çitlere hızlıca çarpmaları sonucu ölmüş '
 'olabileceklerini söylemiş. Kuşlar üzerinde gerçekleştirilen viroloji, '
 'bakteriyoloji ve histopatoloji test sonuçlarına göre, kuşlarda herhangi bir '
 'kuş gribi riskine veya bulaşıcı bir hastalığa rastlanmadığı ifade '
 'ediliyor.Soruşturmayı yürüten ekipte polis olarak görev yapan Rob Taylor '
 'Twitter hesabı üzerinden kuşların ölme nedenine ilişkin açıklamalarda '
 'bulunduğu bir video paylaşmış. Taylor açıklamasında olayın yırtıcı kuşlardan '
 'veya şiddetli havadan kaçma esnasında gerçekleşmiş olabileceği ihtimali '
 'üzerinde durulduğunu belirtmiş. Ayrıca Taylor, bu tarz vakaların dah

To summarize this text, we pass the **raw string data** as input to the
function "summarize", and it will return a summary.

Note: make sure that the string does not contain any newlines where the line
breaks in a sentence. A sentence with a newline in it (i.e. a carriage
return, "\n") will be treated as two sentences.




In [31]:
print(summarize(text))

('Kuşlar üzerinde gerçekleştirilen viroloji, bakteriyoloji ve histopatoloji '
 'test sonuçlarına göre, kuşlarda herhangi bir kuş gribi riskine veya bulaşıcı '
 'bir hastalığa rastlanmadığı ifade ediliyor.Soruşturmayı yürüten ekipte polis '
 'olarak görev yapan Rob Taylor Twitter hesabı üzerinden kuşların ölme '
 'nedenine ilişkin açıklamalarda bulunduğu bir video paylaşmış.')


Use the "split" option if you want a list of strings instead of a single string.




In [32]:
print(summarize(text, split=True));

['Kuşlar üzerinde gerçekleştirilen viroloji, bakteriyoloji ve histopatoloji '
 'test sonuçlarına göre, kuşlarda herhangi bir kuş gribi riskine veya bulaşıcı '
 'bir hastalığa rastlanmadığı ifade ediliyor.Soruşturmayı yürüten ekipte polis '
 'olarak görev yapan Rob Taylor Twitter hesabı üzerinden kuşların ölme '
 'nedenine ilişkin açıklamalarda bulunduğu bir video paylaşmış.']


You can adjust how much text the summarizer outputs via the "ratio" parameter
or the "word_count" parameter. Using the "ratio" parameter, you specify what
fraction of sentences in the original text should be returned as output.
Below we specify that we want 50% of the original text (the default is 20%).




In [33]:
print(summarize(text, ratio=0.5))

('Yapılan laboratuvar testi sonuçlarına göre kuşlarda herhangi bir zehirlenme '
 'belirtisi ya da virüs tespit edilmemiş.\n'
 'Birleşik Krallık’a bağlı Hayvan ve Bitki Sağlığı Kurumu (APHA), kuşların '
 'çevredeki asfalt veya çitlere hızlıca çarpmaları sonucu ölmüş '
 'olabileceklerini söylemiş.\n'
 'Kuşlar üzerinde gerçekleştirilen viroloji, bakteriyoloji ve histopatoloji '
 'test sonuçlarına göre, kuşlarda herhangi bir kuş gribi riskine veya bulaşıcı '
 'bir hastalığa rastlanmadığı ifade ediliyor.Soruşturmayı yürüten ekipte polis '
 'olarak görev yapan Rob Taylor Twitter hesabı üzerinden kuşların ölme '
 'nedenine ilişkin açıklamalarda bulunduğu bir video paylaşmış.')


Using the "word_count" parameter, we specify the maximum amount of words we
want in the summary. Below we have specified that we want no more than 50
words.




As mentioned earlier, this module also supports **keyword** extraction.
Keyword extraction works in the same way as summary generation (i.e. sentence
extraction), in that the algorithm tries to find words that are important or
seem representative of the entire text. They keywords are not always single
words; in the case of multi-word keywords, they are typically all nouns.




In [35]:
from gensim.summarization import keywords
print(keywords(text))

('veya\n'
 'bir\n'
 'taylor\n'
 'uzerinde\n'
 'kusların\n'
 'oldugu\n'
 'travma\n'
 'sonucu\n'
 'sonuclarına\n'
 'dile\n'
 'vakaların\n'
 'tespit\n'
 'saglıgı\n'
 'laboratuvar testi\n'
 'viroloji\n'
 'test\n'
 'birlesik\n'
 'edilmemis')


In [37]:
from collections import defaultdict
from gensim import corpora

documents = ["Yapılan laboratuvar testi sonuçlarına göre kuşlarda herhangi bir zehirlenme belirtisi ya da virüs tespit edilmemiş. Ölümlerin künt travma (vücut kısmına darbe, yaralanma veya fiziksel saldırının neden olduğu travma) sonucu olduğu belirtilmiş. Birleşik Krallık’a bağlı Hayvan ve Bitki Sağlığı Kurumu (APHA), kuşların çevredeki asfalt veya çitlere hızlıca çarpmaları sonucu ölmüş olabileceklerini söylemiş. Kuşlar üzerinde gerçekleştirilen viroloji, bakteriyoloji ve histopatoloji test sonuçlarına göre, kuşlarda herhangi bir kuş gribi riskine veya bulaşıcı bir hastalığa rastlanmadığı ifade ediliyor.Soruşturmayı yürüten ekipte polis olarak görev yapan Rob Taylor Twitter hesabı üzerinden kuşların ölme nedenine ilişkin açıklamalarda bulunduğu bir video paylaşmış. Taylor açıklamasında olayın yırtıcı kuşlardan veya şiddetli havadan kaçma esnasında gerçekleşmiş olabileceği ihtimali üzerinde durulduğunu belirtmiş. Ayrıca Taylor, bu tarz vakaların daha önce de yaşandığını dile getirmiş."
]  

# remove common words and tokenize
stoplist = set('de da gibi veya ve  gore'.split())
texts = [
    [word for word in document.lower().split() if word not in stoplist]
    for document in documents
]

# remove words that appear only once
frequency = defaultdict(int)
for text in texts:
    for token in text:
        frequency[token] += 1

texts = [
    [token for token in text if frequency[token] > 1]
    for text in texts
]

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

In [38]:
from gensim import models
lsi = models.LsiModel(corpus, id2word=dictionary, num_topics=2)

In [39]:
doc = "Yapılan laboratuvar testi sonuçlarına göre kuşlarda herhangi bir zehirlenme belirtisi ya da virüs tespit edilmemiş. Ölümlerin künt travma (vücut kısmına darbe, yaralanma veya fiziksel saldırının neden olduğu travma) sonucu olduğu belirtilmiş. Birleşik Krallık’a bağlı Hayvan ve Bitki Sağlığı Kurumu (APHA), kuşların çevredeki asfalt veya çitlere hızlıca çarpmaları sonucu ölmüş olabileceklerini söylemiş. Kuşlar üzerinde gerçekleştirilen viroloji, bakteriyoloji ve histopatoloji test sonuçlarına göre, kuşlarda herhangi bir kuş gribi riskine veya bulaşıcı bir hastalığa rastlanmadığı ifade ediliyor.Soruşturmayı yürüten ekipte polis olarak görev yapan Rob Taylor Twitter hesabı üzerinden kuşların ölme nedenine ilişkin açıklamalarda bulunduğu bir video paylaşmış. Taylor açıklamasında olayın yırtıcı kuşlardan veya şiddetli havadan kaçma esnasında gerçekleşmiş olabileceği ihtimali üzerinde durulduğunu belirtmiş. Ayrıca Taylor, bu tarz vakaların daha önce de yaşandığını dile getirmiş."
vec_bow = dictionary.doc2bow(doc.lower().split())
vec_lsi = lsi[vec_bow]  # convert the query to LSI space
print(vec_lsi)

[(0, 6.9282032302755105)]
