In [1]:
import datetime as dt
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize
import re
from snowballstemmer import TurkishStemmer
import string

In [2]:
def time_it(time):
    """
    Returns time data type of given string in form Y-m-d.
    Example: 2001-01-01."""
    return dt.datetime.strptime(str(time), '%Y-%m-%d')

In [3]:
def stem_it(x):
    """Turkish stemmer.
    Returns stemmed words in given string, uses Snowball Turkish stemmer."""
    return [turkStem.stemWord(w) for w in x.split()]

In [4]:
def remove_them(x):
    """Word cleaner.
    Removes words has lenght less then 3 in given string."""
    return re.sub(r'\b\w{1,2}\b', '', x)

In [5]:
def remove_digit(text):
    """Digit cleaner.
    Removes digits in given string."""
    digit_pattern = str.maketrans('', '', string.digits)
    return text.translate(digit_pattern)

In [6]:
def lower_it(text):
    """Lowers characters in given string.
    Lowers all in string."""
    return text.lower()

In [51]:
def remove_punctiations(text):
    """Punction cleaner.
    Removes punctions in given string."""
    pattern = str.maketrans('', '', string.punctuation)
    text= text.translate(pattern)
    return text.replace("\n", " ")

In [8]:
def remove_stopwords(text, language='turkish'):
    """Stopword cleaner.
    Removes stopwords in given string, language is set to Turkish by default."""
    st = stopwords.words(language)
    pattern = re.compile(r'\b(' + r'|'.join(st) + r')\b\s*')
    text = pattern.sub('',text)
    return text

In [9]:
def replace_turkish(text):
    """Turkish Character Fixer.
    Replaces Turkish character with English ones."""
    character_map = {'ç': 'c',
                     'Ç': 'C',
                     'ğ': 'g',
                     'Ğ': 'G',
                     'ı': 'i',
                     'I': 'I',
                     'ö': 'o',
                     'Ö': 'O',
                     'ş': 's',
                     'Ş': 'S', 
                     'ü': 'u',
                     'Ü': 'U'}
    for initial, final in character_map.items():
        text = text.replace(initial, final)
    return text


In [63]:

def sentence_it(x):
    """Sentence maker.
    Returns one string form of given words array."""
    sentence = ''
    for w in x.split(): sentence += w + " "
    return sentence.strip()

def preproces(text, stemmer=False):
    """String cleaner.
    Removes digits, lowers charactes, removes punctiations and stop words in given string."""
    text = remove_digit(text)
    text = lower_it(text)
    text = remove_punctiations(text)
    text = remove_stopwords(text)
    test = replace_turkish(text)
   # text = remove_them(text)
    if stemmer:
        text = stem_it(text)
        text = sentence_it(text)
    text = sentence_it(text)
    return text

In [11]:
test_text = """CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi. İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.

"TERÖR ARAŞTIRMASI YAPILSIN"

Arslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız. Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz konusu ise mazbatasının iptalini bilgilerinize arz ederim."

İlçe Seçim Kurulu Başkanlığı Acar hakkında "kesinleşmiş bir mahkumiyet hükmü bulunmadığından" itiraz yolu açık olmak üzere talebin reddine karar verdi.
CHP İL BAŞKANLIĞI: KESİN İHRAÇ TALEBİYLE DİSİPLİNE SEVK EDİLDİ

CHP Van İl Başkanlığından bugün yapılan açıklamada, "Saray ilçemizde il başkanlığımız bilgisi dışında İlçe Seçim Kuruluna bir müracaat gerçekleştiğini üzüntü ile öğrendik. İlçe Başkan Vekili Yasin Arslan İlçe Seçim Kuruluna verdiği dilekçenin ardından bir de istifa dilekçesi vermiştir. Bunun üzerine harekete geçen il başkanlığımız ilgili müracaatı yapan İlçe Başkan Vekilinin sadece istifasını yeterli bulmamış kendisini kesin ihraç talebiyle il disiplin kuruluna sevk etmiştir. Halkın iradesinin dışında bir irade olamayacağını, bu vesileyle tekrar tüm siyasi partileri halkın iradesine saygılı olmaya davet ettiğimizi tüm kamuoyuna saygılarımızla arz ve beyan ederiz" ifadelerine yer verildi. """

In [53]:
sentences = sent_tokenize(test_text)
sentences

["CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi.",
 "İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.",
 '"TERÖR ARAŞTIRMASI YAPILSIN"\n\nArslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız.',
 'Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar\'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz kon

In [54]:
sent_tokenize(test_text)[0]

"CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi."

In [16]:
import fasttext
import fasttext.util
ft = fasttext.load_model('cc.tr.300.bin')



In [19]:
ft.get_word_vector('selam').shape

(300,)

In [20]:
ft.get_nearest_neighbors('selam')

[(0.7564390301704407, 'selâm'),
 (0.7496131062507629, 'selamlar'),
 (0.7302373647689819, 'selama'),
 (0.7175897359848022, 'selamü'),
 (0.7094078660011292, 'selamm'),
 (0.7060391902923584, 'Selam'),
 (0.7012952566146851, 'selam.'),
 (0.6955673098564148, 'selammm'),
 (0.6951290965080261, 'selamda'),
 (0.6936641931533813, 'selamu')]

In [56]:
sentences = sent_tokenize(test_text)
sentences

["CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi.",
 "İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.",
 '"TERÖR ARAŞTIRMASI YAPILSIN"\n\nArslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız.',
 'Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar\'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz kon

In [64]:
clean_sentenes = []
clean_sentenes.append([preproces(sentence) for sentence in sentences])
clean_sentenes

[['chp saray i̇lçe başkan vekili yasin arslan saray i̇lçe seçim kurulu başkanlığına martta yüzde oy alan dem parti adayı davut acar ilgili itiraz dilekçesi verdi',
  'i̇lçe seçim kurulu talebi reddederken gelişme üzerine chp van i̇l başkanlığı açıklamada bulunarak arslanın istifa ettiğini ancak yine kesin ihraç talebiyle disipline sevk edildiğini bildirdi',
  'terör araştirmasi yapilsin arslan dem partili adayın başkan seçilmesine itiraz ettiği dilekçesinde ifadeleri kullandı mart tarihinde yapılan yerel seçimlerde van ili saray ilçesinde cumhuriyet halk partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız',
  'söz konusu seçim sonuçlarında rakip parti dem parti adayı davut acarın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı yargılanmış memnu haklarından mahrum bırakılıp bırakılmadığı devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak durum söz konusu mazbatasının iptalini bilgilerinize ar

In [38]:
import numpy as np
np.shape(clean_sentenes)

(1, 9)

In [69]:
clean_s = np.reshape(clean_sentenes, (np.size(clean_sentenes)))

In [77]:
clean_w = [[w for w in s.split()] for s in clean_s]

In [79]:
clean_w[0]

['chp',
 'saray',
 'i̇lçe',
 'başkan',
 'vekili',
 'yasin',
 'arslan',
 'saray',
 'i̇lçe',
 'seçim',
 'kurulu',
 'başkanlığına',
 'martta',
 'yüzde',
 'oy',
 'alan',
 'dem',
 'parti',
 'adayı',
 'davut',
 'acar',
 'ilgili',
 'itiraz',
 'dilekçesi',
 'verdi']

In [72]:
clean_s[0].split()

['chp',
 'saray',
 'i̇lçe',
 'başkan',
 'vekili',
 'yasin',
 'arslan',
 'saray',
 'i̇lçe',
 'seçim',
 'kurulu',
 'başkanlığına',
 'martta',
 'yüzde',
 'oy',
 'alan',
 'dem',
 'parti',
 'adayı',
 'davut',
 'acar',
 'ilgili',
 'itiraz',
 'dilekçesi',
 'verdi']

In [80]:
len(clean_w)

9

In [85]:
type(clean_w)

list

In [92]:
clean_w

[['chp',
  'saray',
  'i̇lçe',
  'başkan',
  'vekili',
  'yasin',
  'arslan',
  'saray',
  'i̇lçe',
  'seçim',
  'kurulu',
  'başkanlığına',
  'martta',
  'yüzde',
  'oy',
  'alan',
  'dem',
  'parti',
  'adayı',
  'davut',
  'acar',
  'ilgili',
  'itiraz',
  'dilekçesi',
  'verdi'],
 ['i̇lçe',
  'seçim',
  'kurulu',
  'talebi',
  'reddederken',
  'gelişme',
  'üzerine',
  'chp',
  'van',
  'i̇l',
  'başkanlığı',
  'açıklamada',
  'bulunarak',
  'arslanın',
  'istifa',
  'ettiğini',
  'ancak',
  'yine',
  'kesin',
  'ihraç',
  'talebiyle',
  'disipline',
  'sevk',
  'edildiğini',
  'bildirdi'],
 ['terör',
  'araştirmasi',
  'yapilsin',
  'arslan',
  'dem',
  'partili',
  'adayın',
  'başkan',
  'seçilmesine',
  'itiraz',
  'ettiği',
  'dilekçesinde',
  'ifadeleri',
  'kullandı',
  'mart',
  'tarihinde',
  'yapılan',
  'yerel',
  'seçimlerde',
  'van',
  'ili',
  'saray',
  'ilçesinde',
  'cumhuriyet',
  'halk',
  'partisi',
  'olarak',
  'belediye',
  'başkanlık',
  'seçimlerine',
  'k

In [86]:
def sentence_vector(sentence):
    return sum([ft.get_word_vector(word) for word in sentence])/(len(sentence)+0.0001)


In [104]:
word_vectors = []
for s in clean_w:
    word_vectors.append(sentence_vector(s))

In [103]:
type(word_vectors[0])

numpy.ndarray

In [105]:
word_vectors[0]

array([ 8.05435702e-03,  1.25978107e-03,  6.24319427e-02, -6.32884214e-03,
       -1.75899826e-02, -1.61474068e-02,  1.37744313e-02,  2.59112101e-03,
        4.28639427e-02, -5.48514761e-02, -6.74741669e-03, -1.90544650e-02,
       -7.62015767e-03,  7.28561543e-03,  1.17235482e-02, -7.64971366e-03,
       -1.28452610e-02, -2.40213387e-02, -4.48411740e-02,  7.75327086e-02,
       -6.59939134e-03,  6.61059096e-03, -8.07981007e-03, -2.12747920e-02,
       -2.87901256e-02, -1.99163873e-02, -8.12114496e-03, -3.90298129e-03,
       -1.33987078e-02,  2.15778742e-02,  1.40949497e-02, -1.54654132e-02,
       -1.26898615e-03, -2.53953096e-02, -5.32016903e-03, -2.97065899e-02,
       -1.23505481e-02,  4.55770828e-02, -1.02987392e-02, -1.09058665e-02,
        7.20649585e-03, -6.25286922e-02, -2.74458807e-02,  2.73177773e-03,
       -2.60079838e-02,  3.28307822e-02,  8.99735652e-03,  3.96593176e-02,
       -1.50958318e-02, -2.20900811e-02,  4.02106345e-02,  4.12732223e-03,
       -2.23959293e-02,  

In [87]:
sentence_vector(clean_w[0])

array([ 8.05435702e-03,  1.25978107e-03,  6.24319427e-02, -6.32884214e-03,
       -1.75899826e-02, -1.61474068e-02,  1.37744313e-02,  2.59112101e-03,
        4.28639427e-02, -5.48514761e-02, -6.74741669e-03, -1.90544650e-02,
       -7.62015767e-03,  7.28561543e-03,  1.17235482e-02, -7.64971366e-03,
       -1.28452610e-02, -2.40213387e-02, -4.48411740e-02,  7.75327086e-02,
       -6.59939134e-03,  6.61059096e-03, -8.07981007e-03, -2.12747920e-02,
       -2.87901256e-02, -1.99163873e-02, -8.12114496e-03, -3.90298129e-03,
       -1.33987078e-02,  2.15778742e-02,  1.40949497e-02, -1.54654132e-02,
       -1.26898615e-03, -2.53953096e-02, -5.32016903e-03, -2.97065899e-02,
       -1.23505481e-02,  4.55770828e-02, -1.02987392e-02, -1.09058665e-02,
        7.20649585e-03, -6.25286922e-02, -2.74458807e-02,  2.73177773e-03,
       -2.60079838e-02,  3.28307822e-02,  8.99735652e-03,  3.96593176e-02,
       -1.50958318e-02, -2.20900811e-02,  4.02106345e-02,  4.12732223e-03,
       -2.23959293e-02,  

In [91]:
v = sum([ft.get_word_vector(w) for w in clean_w[0]])/ len(clean_w[0])
v

array([ 8.05438962e-03,  1.25978608e-03,  6.24321885e-02, -6.32886728e-03,
       -1.75900515e-02, -1.61474701e-02,  1.37744853e-02,  2.59113126e-03,
        4.28641140e-02, -5.48516959e-02, -6.74744369e-03, -1.90545395e-02,
       -7.62018794e-03,  7.28564430e-03,  1.17235947e-02, -7.64974393e-03,
       -1.28453122e-02, -2.40214355e-02, -4.48413529e-02,  7.75330141e-02,
       -6.59941742e-03,  6.61061704e-03, -8.07984266e-03, -2.12748758e-02,
       -2.87902411e-02, -1.99164674e-02, -8.12117755e-03, -3.90299689e-03,
       -1.33987609e-02,  2.15779599e-02,  1.40950056e-02, -1.54654738e-02,
       -1.26899127e-03, -2.53954101e-02, -5.32018999e-03, -2.97067072e-02,
       -1.23505974e-02,  4.55772653e-02, -1.02987802e-02, -1.09059094e-02,
        7.20652472e-03, -6.25289381e-02, -2.74459887e-02,  2.73178844e-03,
       -2.60080863e-02,  3.28309089e-02,  8.99739284e-03,  3.96594740e-02,
       -1.50958924e-02, -2.20901687e-02,  4.02107947e-02,  4.12733853e-03,
       -2.23960187e-02,  

In [107]:
from sklearn.metrics.pairwise import cosine_similarity
import networkx as nx


In [108]:
len(sentences)

9

In [115]:
T = word_vectors[0]
T.shape

(300,)

In [117]:
TT = T.reshape(1,-1)
TT.shape

(1, 300)

In [110]:
sim_mat = np.zeros([len(sentences), len(sentences)])

In [118]:
for i in range(len(sentences)):
    for j in range(len(sentences)):
        if i != j:
            sim_mat[i][j] = cosine_similarity(word_vectors[i].reshape(1, -1), word_vectors[j].reshape(1, -1))[0, 0]

In [119]:
sim_mat

array([[0.        , 0.71578741, 0.7979902 , 0.67301619, 0.66837144,
        0.78021789, 0.78147876, 0.60763717, 0.58878338],
       [0.71578741, 0.        , 0.82462239, 0.79144514, 0.76006293,
        0.82437289, 0.79702091, 0.72729039, 0.74096149],
       [0.7979902 , 0.82462239, 0.        , 0.77015072, 0.71827871,
        0.83814907, 0.78154302, 0.68048769, 0.71385658],
       [0.67301619, 0.79144514, 0.77015072, 0.        , 0.80921972,
        0.67037445, 0.74713743, 0.64454007, 0.84390396],
       [0.66837144, 0.76006293, 0.71827871, 0.80921972, 0.        ,
        0.65578091, 0.79467088, 0.65316594, 0.78886127],
       [0.78021789, 0.82437289, 0.83814907, 0.67037445, 0.65578091,
        0.        , 0.7321713 , 0.80017275, 0.63100344],
       [0.78147876, 0.79702091, 0.78154302, 0.74713743, 0.79467088,
        0.7321713 , 0.        , 0.67327332, 0.72087026],
       [0.60763717, 0.72729039, 0.68048769, 0.64454007, 0.65316594,
        0.80017275, 0.67327332, 0.        , 0.61343557],


In [121]:
nx_graph = nx.from_numpy_array(sim_mat)
scores = nx.pagerank(nx_graph)

In [122]:
ranked_sentences = sorted([(scores[i], s[:15]) for i, s in enumerate(sentences)], reverse=True)


In [124]:
top_ranked_sentences = ranked_sentences[:int(len(sentences)/ 3)]

sentence_count = 0
summary = ''

for i in sentences:
    for j in top_ranked_sentences:
        if i[:15] == j[1]:
            summary += i + ' '
            sentence_count += 1
            break

In [127]:
print(test_text)

CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi. İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.

"TERÖR ARAŞTIRMASI YAPILSIN"

Arslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız. Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz konusu ise mazbatas

In [126]:
print(summary)

İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi. "TERÖR ARAŞTIRMASI YAPILSIN"

Arslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız. İlçe Seçim Kurulu Başkanlığı Acar hakkında "kesinleşmiş bir mahkumiyet hükmü bulunmadığından" itiraz yolu açık olmak üzere talebin reddine karar verdi. İlçe Başkan Vekili Yasin Arslan İlçe Seçim Kuruluna verdiği dilekçenin ardından bir de istifa dilekçesi vermiştir. 
