In [1]:
import datetime as dt
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize
import re
from snowballstemmer import TurkishStemmer
import string

In [2]:
def time_it(time):
    """
    Returns time data type of given string in form Y-m-d.
    Example: 2001-01-01."""
    return dt.datetime.strptime(str(time), '%Y-%m-%d')

In [3]:
def stem_it(x):
    """Turkish stemmer.
    Returns stemmed words in given string, uses Snowball Turkish stemmer."""
    return [turkStem.stemWord(w) for w in x.split()]

In [4]:
def remove_them(x):
    """Word cleaner.
    Removes words has lenght less then 3 in given string."""
    return re.sub(r'\b\w{1,2}\b', '', x)

In [5]:
def remove_digit(text):
    """Digit cleaner.
    Removes digits in given string."""
    digit_pattern = str.maketrans('', '', string.digits)
    return text.translate(digit_pattern)

In [6]:
def lower_it(text):
    """Lowers characters in given string.
    Lowers all in string."""
    return text.lower()

In [51]:
def remove_punctiations(text):
    """Punction cleaner.
    Removes punctions in given string."""
    pattern = str.maketrans('', '', string.punctuation)
    text= text.translate(pattern)
    return text.replace("\n", " ")

In [8]:
def remove_stopwords(text, language='turkish'):
    """Stopword cleaner.
    Removes stopwords in given string, language is set to Turkish by default."""
    st = stopwords.words(language)
    pattern = re.compile(r'\b(' + r'|'.join(st) + r')\b\s*')
    text = pattern.sub('',text)
    return text

In [9]:
def replace_turkish(text):
    """Turkish Character Fixer.
    Replaces Turkish character with English ones."""
    character_map = {'ç': 'c',
                     'Ç': 'C',
                     'ğ': 'g',
                     'Ğ': 'G',
                     'ı': 'i',
                     'I': 'I',
                     'ö': 'o',
                     'Ö': 'O',
                     'ş': 's',
                     'Ş': 'S', 
                     'ü': 'u',
                     'Ü': 'U'}
    for initial, final in character_map.items():
        text = text.replace(initial, final)
    return text


In [52]:

def sentence_it(x):
    """Sentence maker.
    Returns one string form of given words array."""
    sentence = ''
    for w in x: sentence += w + " "
    return sentence.strip()

def preproces(text, stemmer=False):
    """String cleaner.
    Removes digits, lowers charactes, removes punctiations and stop words in given string."""
    text = remove_digit(text)
    text = lower_it(text)
    text = remove_punctiations(text)
    text = remove_stopwords(text)
    test = replace_turkish(text)
   # text = remove_them(text)
    if stemmer:
        text = stem_it(text)
        text = sentence_it(text)
    return text

In [11]:
test_text = """CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi. İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.

"TERÖR ARAŞTIRMASI YAPILSIN"

Arslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız. Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz konusu ise mazbatasının iptalini bilgilerinize arz ederim."

İlçe Seçim Kurulu Başkanlığı Acar hakkında "kesinleşmiş bir mahkumiyet hükmü bulunmadığından" itiraz yolu açık olmak üzere talebin reddine karar verdi.
CHP İL BAŞKANLIĞI: KESİN İHRAÇ TALEBİYLE DİSİPLİNE SEVK EDİLDİ

CHP Van İl Başkanlığından bugün yapılan açıklamada, "Saray ilçemizde il başkanlığımız bilgisi dışında İlçe Seçim Kuruluna bir müracaat gerçekleştiğini üzüntü ile öğrendik. İlçe Başkan Vekili Yasin Arslan İlçe Seçim Kuruluna verdiği dilekçenin ardından bir de istifa dilekçesi vermiştir. Bunun üzerine harekete geçen il başkanlığımız ilgili müracaatı yapan İlçe Başkan Vekilinin sadece istifasını yeterli bulmamış kendisini kesin ihraç talebiyle il disiplin kuruluna sevk etmiştir. Halkın iradesinin dışında bir irade olamayacağını, bu vesileyle tekrar tüm siyasi partileri halkın iradesine saygılı olmaya davet ettiğimizi tüm kamuoyuna saygılarımızla arz ve beyan ederiz" ifadelerine yer verildi. """

In [53]:
sentences = sent_tokenize(test_text)
sentences

["CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi.",
 "İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.",
 '"TERÖR ARAŞTIRMASI YAPILSIN"\n\nArslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız.',
 'Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar\'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz kon

In [54]:
sent_tokenize(test_text)[0]

"CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi."

In [16]:
import fasttext
import fasttext.util
ft = fasttext.load_model('cc.tr.300.bin')



In [19]:
ft.get_word_vector('selam').shape

(300,)

In [20]:
ft.get_nearest_neighbors('selam')

[(0.7564390301704407, 'selâm'),
 (0.7496131062507629, 'selamlar'),
 (0.7302373647689819, 'selama'),
 (0.7175897359848022, 'selamü'),
 (0.7094078660011292, 'selamm'),
 (0.7060391902923584, 'Selam'),
 (0.7012952566146851, 'selam.'),
 (0.6955673098564148, 'selammm'),
 (0.6951290965080261, 'selamda'),
 (0.6936641931533813, 'selamu')]

In [56]:
sentences = sent_tokenize(test_text)
sentences

["CHP Saray İlçe Başkan Vekili Yasin Arslan, Saray İlçe Seçim Kurulu Başkanlığına 31 Mart'ta yüzde 51,16 oy alan DEM Parti adayı Davut Acar ile ilgili itiraz dilekçesi verdi.",
 "İlçe Seçim Kurulu talebi reddederken gelişme üzerine CHP Van İl Başkanlığı açıklamada bulunarak Arslan'ın istifa ettiğini ancak yine de kesin ihraç talebiyle disipline sevk edildiğini bildirdi.",
 '"TERÖR ARAŞTIRMASI YAPILSIN"\n\nArslan, DEM Partili adayın başkan seçilmesine itiraz ettiği dilekçesinde şu ifadeleri kullandı: "31 Mart tarihinde yapılan yerel seçimlerde Van ili Saray ilçesinde Cumhuriyet Halk Partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız.',
 'Söz konusu seçim sonuçlarında rakip parti (DEM Parti) adayı Davut Acar\'ın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı, yargılanmış ise memnu haklarından mahrum bırakılıp bırakılmadığı, devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak, bu durum söz kon

In [57]:
clean_sentenes = []
clean_sentenes.append([preproces(sentence) for sentence in sentences])
clean_sentenes

[['chp saray i̇lçe başkan vekili yasin arslan saray i̇lçe seçim kurulu başkanlığına  martta yüzde  oy alan dem parti adayı davut acar ilgili itiraz dilekçesi verdi',
  'i̇lçe seçim kurulu talebi reddederken gelişme üzerine chp van i̇l başkanlığı açıklamada bulunarak arslanın istifa ettiğini ancak yine kesin ihraç talebiyle disipline sevk edildiğini bildirdi',
  'terör araştirmasi yapilsin  arslan dem partili adayın başkan seçilmesine itiraz ettiği dilekçesinde ifadeleri kullandı  mart tarihinde yapılan yerel seçimlerde van ili saray ilçesinde cumhuriyet halk partisi olarak belediye başkanlık seçimlerine katılmış bulunmaktayız',
  'söz konusu seçim sonuçlarında rakip parti dem parti adayı davut acarın seçilmesi önünde engel teşkil edebilecek terörle ilişkili davalarda yargılanıp yargılanmadığı yargılanmış memnu haklarından mahrum bırakılıp bırakılmadığı devlet memuru vasıflarının taşıyıp taşımadığı hususlarında araştırmaların yapılarak durum söz konusu mazbatasının iptalini bilgileriniz

In [38]:
import numpy as np
np.shape(clean_sentenes)

(1, 9)

In [43]:
clean_s = np.reshape(clean_sentenes, (9))

In [47]:
clean_s[5].replace("\n", "")

'chp i̇l başkanliği kesi̇n i̇hraç talebi̇yle di̇si̇pli̇sevk edi̇ldi̇chp van i̇l başkanlığından bugün yapılan açıklamada saray ilçemizde il başkanlığımız bilgisi dışında i̇lçe seçim kuruluna bir müracaat gerçekleştiğini üzüntü öğrendik'