In [6]:
#python kutuphaneleri
import pandas as pd
import numpy as np
import snowballstemmer
import re
from apyori import apriori

In [7]:
#benim dosyalarimin bulundugu dizin
main_dir = "C:\\Users\\Ali.CABUKEL\\Desktop\\py-nlp\\"
#okunacak ve yazilacak dosya isimleri
#tum twit ve entrylerin bulundugu excel dosyasi
corpus_file = main_dir + "derlem.xlsx"
#stop word listesi
stop_file = main_dir + "tr-stop.txt"
#finalde yazilacak dosya isimleri
stg_file = main_dir + "stg.xlsx"
bow_file = main_dir + "bow.csv"
tf_file = main_dir + "tf.csv"

In [8]:
#stop words dosyasinin okunmasi ve python set nesnesine atanmasi
#set nesnesi icerisinde her degerden bir tane bulunur
word_set = set()
with open(stop_file, "r", encoding="utf-8") as f:
    words = f.readlines()
for word in words:
    word_set.add(word)

In [10]:
#excel dosyasindan twitler ve entry'ler okunup birlesitiriliyor (union)
twits = pd.read_excel(corpus_file,names = ["content"],sheet_name="Twitter", header=None)
eksi = pd.read_excel(corpus_file, names = ["content", "header"], sheet_name = "Eksisozluk", header=None)
corpus = pd.Series(np.r_[twits.content, eksi.content]).tolist()

In [95]:
#turkish stemmer
stemmer = snowballstemmer.stemmer('turkish');
#dokumanlarda gecen kelimelerin koklerinin referans listesi
bag_of_words = dict()
#her dokumana bir id degeri atanacak
doc_ix = 0
#her kelimeye bir id degeri atanacak
term_ix = 0
#finalde dokuman id'ler kelime kokleri ve frekans degerlerini tutacak lsite
stg_list = []
#tum twit ve entry'ler okunuyor
#[:1000] ile ilk 1000 tane dokuman okunuyor. 
append_file = False
for sentence in corpus:
    #final dosyaya eklensin mi? gecerli kelime(ler) var mi?
    #bu durumda dokuman id'yi artir
    if append_file:
        doc_ix += 1
    #baslangic deger olumsuz
    append_file = False
    #cumle bosluga gore ayristiriliyor, tokenize
    tokens = sentence.lower().split(" ")
    #stop listesi ile farki aliniyor
    tokens = list(set(tokens).difference(word_set))
    #icerisinde ozel yeni satir karakteri varsa siliniyor
    tokens = [t.replace("\r","").replace("\n","") for t in tokens]
    #ayristirilan kelimelerin kokleri bulunuyor
    stems = stemmer.stemWords(tokens)
    #cumledeki kelime uzunlugu kadar dongu
    for i in range(len(tokens)):
        #numerik ve ozel karakter sayisi cumle uzunluguna esit mi kontrolu
        #esiste gecerli karakter yok ve diger elemente gec
        num_and_spec = len(re.sub('[\w]+' ,'', stems[i])) + sum(c.isdigit() for c in stems[i])
        word_len = len(stems[i])
        if word_len > 2 and word_len > num_and_spec:
            #https:// http:// prefix ile baslayan dokumanlari atla
            if stems[i].startswith("https://") is False and stems[i].startswith("http://") is False:
                #mention ve hashtag'leri ele
                if stems[i].startswith("#") is False and stems[i].startswith("@") is False:
                    #token eger bag of words listesinde varsa guncelle
                    #yoksa listeye ekle
                    #dictionary'nin key alani kelime koku
                    #value alani ise bu koku hangi kelimeden buldu?
                    #guncellenen deger value kismi
                    if stems[i] in bag_of_words.keys():
                        bag_of_words[stems[i]].update([tokens[i]])
                        append_file = True
                    else:
                        bag_of_words[stems[i]] = {tokens[i]}
                        append_file = True
                        #eger dosyaya eklemeye deger birseyler varsa final listeye ekle
                        #bu liste dosyaya yazilacak ve term doc freq matrisi olusturulacak
                        if append_file:
                            stg_list.append({"doc_idx":doc_ix, "root": stems[i], "sent": sentence})

In [96]:
#final listeyi pandas dataframe'ine cevir
corp_df = pd.DataFrame(stg_list)
#bag_of_words dictionary'sini kelime koku, koke karsilik gelen liste ve kokun indexi seklinde yeni bir listeye cevir
bag_of_word_list = list(zip(list(range(len(bag_of_words))),list(bag_of_words.keys()), list(bag_of_words.values())))
#bag_of_words listesinden pandas data frame'ine donusum
bow_df = pd.DataFrame(bag_of_word_list, columns = ["term_idx", "root","wordlist"])
#term document detay listesi ile bag of words listesini kelime kokune gore join'le
#eslesen listeyi document id ve term id'ye gore gruplayip frekansini hesapla
term_doc_freq_df = pd.merge(corp_df, bow_df, on = "root", how = "inner").groupby(["doc_idx","term_idx"]).size()
#gruplama sonrasi indexin resetlenmesi ve kolonlarin isimlendirilmesi
term_doc_freq_df = term_doc_freq_df.reset_index()
term_doc_freq_df.columns = ["doc_idx","term_idx","freq"]

In [14]:
#bag of words listesini kok kelime, koke karsilik gelen kelimeler ve kelime indexi olarak dosyaya yaz
bow_df.to_csv(bow_file, sep="\t", index=None)
#detay tabloyu dosyaya yaz
#document id, kelime koku, document icerigi bilgileri
corp_df.to_excel(stg_file)
#term document freq listesi
#term ve document id'ler olarak bulunuyor.
#bu liste uzerinden association ya da link analizi yapilabilir.
term_doc_freq_df.to_csv(tf_file)

In [None]:
#term document frekans tablosunun frekansa gore azalan siralamasi
term_doc_freq_df.sort_values(ascending = False).head()

In [None]:
#term document sparse matrix
#satirlar document, kolonlar term index, degerler frekans degeri
pd.pivot_table(term_doc_freq_df, index = "doc_idx", columns=["term_idx"], values="freq", fill_value=0,aggfunc=np.sum)

In [119]:
# association rule mining apriori algoritmasının pythonda bir ornegi asagidaki yapilabiliyor.
# Burda kritik olan ayar min_lift, support ve conf degerleri
# Eger guclu birliktelikler yoksa gecerli birliktelik kurali bulamiyor.
tf_vertical = term_doc_freq_df.groupby("doc_idx")["term_idx"].agg(lambda x: list("".join(x.astype(str)))).tolist()
rules = apriori(tf_vertical, min_support = 0.003, min_confidence = 0.2, min_lift = 1, min_length = 2)
results = list(rules)