# Import and Edit Data

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('/content/drive/MyDrive/turkish_wikipedia_dump_20200401.csv')

In [None]:
data.head()

Unnamed: 0,id,url,title,text
0,10,https://tr.wikipedia.org/wiki?curid=10,Cengiz Han,"\nCengiz Han\n\nCengiz Han (""Cenghis Khan"", ""Ç..."
1,16,https://tr.wikipedia.org/wiki?curid=16,Film (anlam ayrımı),\nFilm (anlam ayrımı)\n\nFilm şu anlamlara gel...
2,22,https://tr.wikipedia.org/wiki?curid=22,Mustafa Suphi,\nMustafa Suphi\n\nMehmet Mustafa Suphi (4 Ağu...
3,24,https://tr.wikipedia.org/wiki?curid=24,Linux,"\nLinux\n\nLinux (telaffuz: ""Lin-uks""); bilgis..."
4,30,https://tr.wikipedia.org/wiki?curid=30,Bolşevizm,"\nBolşevizm\n\nBolşevik, ""çoğunluktan yana"" an..."


In [None]:
df=data['text']
df

0         \nCengiz Han\n\nCengiz Han ("Cenghis Khan", "Ç...
1         \nFilm (anlam ayrımı)\n\nFilm şu anlamlara gel...
2         \nMustafa Suphi\n\nMehmet Mustafa Suphi (4 Ağu...
3         \nLinux\n\nLinux (telaffuz: "Lin-uks"); bilgis...
4         \nBolşevizm\n\nBolşevik, "çoğunluktan yana" an...
                                ...                        
287816    \nSam Houser\n\nSam Houser (d. 1971) İngiliz v...
287817    \nHaeckel's Tale\n\n"Haeckel's Tale", "Masters...
287818    \nGrafik roman\n\nGrafik roman (veya elektroni...
287819    \nSonuççuluk\n\nSonuççuluk ya da sonuçsalcılık...
287820    \nSağ kalma suçluluğu\n\nSağ kalma suçluluğu (...
Name: text, Length: 287821, dtype: object

# Import Necessary Libraries (some of them is optional)

In [None]:
import numpy as np
import nltk
import re
import warnings
from collections import Counter
import nltk
nltk.download('stopwords')
WPT = nltk.WordPunctTokenizer()
stop_word_list = nltk.corpus.stopwords.words('turkish')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [None]:
!pip install gensim
import gensim
from gensim.utils import simple_preprocess
#from gensim.parsing.preprocessing import STOPWORDS           #Does not support Turkish yet.
from nltk.stem import WordNetLemmatizer, SnowballStemmer
from nltk.stem.porter import *
import numpy as np
np.random.seed(400)



In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

**Checking Stemmer**

In [None]:
import pandas as pd
from snowballstemmer import TurkishStemmer
stemmer=TurkishStemmer()
original_words = ['Başarılı', 'insanlar', 'adamlar', 'öldüler', 'içindekiler','kapısındaki', 'yiyecekler,', 'çıkaranlar', 
           'lahanalar', 'takımların','sırası', 'futbolcuların', 'yedikleri']
singles = [stemmer.stemWord(plural) for plural in original_words]

pd.DataFrame(data={'original word':original_words, 'stemmed':singles })

Unnamed: 0,original word,stemmed
0,Başarılı,Başarıl
1,insanlar,in
2,adamlar,adam
3,öldüler,öl
4,içindekiler,içindeki
5,kapısındaki,kapıs
6,"yiyecekler,","yiyecekler,"
7,çıkaranlar,çıkaran
8,lahanalar,lahana
9,takımların,tak


**Stemming and Tokenizing Functions**

In [None]:
def lemmatize_stemming(text):       # Lemmetizing is removed because it is not appropriate for turkish
    return stemmer.stemWord(text)

# Tokenize and lemmatize
def preprocess(text):
    result=[]
    for token in gensim.utils.simple_preprocess(text) :
        if token not in stop_word_list and len(token) > 3:
            result.append(lemmatize_stemming(token))
     
    return result

**Testing Functions**

In [None]:
doc_sample = 'Bu disk çok fazla kez hata verdi. Mümkünse bunu başka bir tane ile değiştirmek istiyorum.'

print("Original document: ")
words = []
for word in doc_sample.split(' '):
    words.append(word)
print(words)
print("\n\nTokenized and stemmed document: ")
print(preprocess(doc_sample))

# Clean the Data

In [None]:
import pprint
data['text'].fillna('').astype(str)
df=data['text']
df.astype(str)
print(df)
df = df.astype(str) 
df = df.map(lambda x: re.sub('[,\.!?();:$%&#"]', '', x))
df = df.replace('\n','', regex=True)                     # depends on the data
df = df.replace('\'','', regex=True)                     # depends on the data
df = df.replace('-','', regex=True)                      # depends on the data
df = df.replace('’','', regex=True)                      # depends on the data
df[0]

0         \nCengiz Han\n\nCengiz Han ("Cenghis Khan", "Ç...
1         \nFilm (anlam ayrımı)\n\nFilm şu anlamlara gel...
2         \nMustafa Suphi\n\nMehmet Mustafa Suphi (4 Ağu...
3         \nLinux\n\nLinux (telaffuz: "Lin-uks"); bilgis...
4         \nBolşevizm\n\nBolşevik, "çoğunluktan yana" an...
                                ...                        
287816    \nSam Houser\n\nSam Houser (d. 1971) İngiliz v...
287817    \nHaeckel's Tale\n\n"Haeckel's Tale", "Masters...
287818    \nGrafik roman\n\nGrafik roman (veya elektroni...
287819    \nSonuççuluk\n\nSonuççuluk ya da sonuçsalcılık...
287820    \nSağ kalma suçluluğu\n\nSağ kalma suçluluğu (...
Name: text, Length: 287821, dtype: object


'Cengiz HanCengiz Han Cenghis Khan Çinggis Haan ya da doğum adıyla Temuçin anlamı demirci Moğolca Чингис Хаан ya da Tengiz anlamı deniz  d 1162 – ö 18 Ağustos 1227 Moğol komutan hükümdar ve Moğol İmparatorluğunun kurucusudur Cengiz Han 13 Yüzyılın başında Orta Asyadaki tüm göçebe bozkır kavimlerini birleştirerek bir ulus haline getirdi ve o ulusu Moğol siyasi kimliği çatısı altında topladı Dünya tarihinin en büyük askeri liderlerinden biri olarak kabul edilen Cengiz Han hükümdarlığı döneminde 12061227 arasında Kuzey Çindeki Batı Xia ve Jin Hanedanı Türkistandaki Kara Hıtay Maveraünnehir Harezm Horasan ve İrandaki Harzemşahlar ile Kafkasyada Gürcüler Deşti Kıpçaktaki Rus Knezlikleri ve Kıpçaklar ile İdil Bulgarları üzerine gerçekleştirilen seferler sonucunda Pasifik Okyanusundan Hazar Denizine ve Karadenizin kuzeyine kadar uzanan bir imparatorluk kurduBozkır geleneğinden gelen onlu teşkilatı kullanarak Meritokratik liyâkata bağlı bir ordu meydana getiren Cengiz Hanın büyük bir asker ola

**Tokenizing and Stemming the Original Data**

In [None]:
processed_docs = []
!pip install progressbar2
from progressbar import ProgressBar
bar = ProgressBar()

for doc in bar(abc):
    processed_docs.append(preprocess(doc))



100% (100000 of 100000) |################| Elapsed Time: 1:12:29 Time:  1:12:29


# Adding to the Dictionary

In [None]:
dictionary = gensim.corpora.Dictionary(processed_docs)

In [None]:
count = 0                         #Testing if it is created
for k, v in dictionary.iteritems():
    print(k, v)
    count += 1
    if count > 10:
        break

0 
1 a
2 abak
3 abdde
4 abdurrahma
5 ablas
6 acıl
7 acımadık
8 acımamış
9 acımas
10 ad


In [None]:
'''
Remove very rare and very common words: (Probably not working for Turkish but I tried)
'''
dictionary.filter_extremes(no_below=15, no_above=0.1, keep_n= 100000)

In [None]:
'''
Create the Bag-of-words model for each document i.e for each document we create a dictionary reporting how many
words and how many times those words appear. Save this to 'bow_corpus'
'''
bow_corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

In [None]:
'''
Preview BOW for our sample preprocessed document
'''
document_num = 20
bow_doc_x = bow_corpus[document_num]

for i in range(len(bow_doc_x)):
    print("Word {} (\"{}\") appears {} time.".format(bow_doc_x[i][0], 
                                                     dictionary[bow_doc_x[i][0]], 
                                                     bow_doc_x[i][1]))

Word 8 ("ada") appears 2 time.
Word 9 ("adam") appears 2 time.
Word 17 ("aile") appears 3 time.
Word 19 ("ak") appears 10 time.
Word 23 ("akrabalık") appears 2 time.
Word 26 ("aks") appears 10 time.
Word 36 ("akış") appears 1 time.
Word 43 ("alan") appears 11 time.
Word 47 ("aldık") appears 1 time.
Word 52 ("alma") appears 34 time.
Word 57 ("alt") appears 14 time.
Word 59 ("alına") appears 4 time.
Word 60 ("alınabilir") appears 1 time.
Word 62 ("alır") appears 5 time.
Word 66 ("amaç") appears 4 time.
Word 69 ("america") appears 1 time.
Word 70 ("an") appears 2 time.
Word 74 ("anla") appears 35 time.
Word 75 ("anlam") appears 16 time.
Word 85 ("anlaşma") appears 6 time.
Word 96 ("ar") appears 6 time.
Word 98 ("aracılık") appears 9 time.
Word 103 ("arap") appears 2 time.
Word 104 ("aras") appears 14 time.
Word 108 ("araştırma") appears 6 time.
Word 110 ("araştırır") appears 3 time.
Word 111 ("ardı") appears 1 time.
Word 112 ("ardıl") appears 1 time.
Word 113 ("arka") appears 2 time.
Word

**Saving**

In [None]:
import pickle
pickle.dump(bow_corpus, open('corpus.pkl', 'wb'))
dictionary.save('dictionary.gensim')

# LDA Model

In [None]:

lda_model =  gensim.models.LdaMulticore(bow_corpus, 
                                   num_topics = 70, 
                                   id2word = dictionary,                                    
                                   passes = 10,
                                   workers = 2)

In [None]:
'''
For each topic, we will explore the words occuring in that topic and its relative weight
'''
for idx, topic in lda_model.print_topics(-1):
    print("Topic: {} \nWords: {}".format(idx, topic ))
    print("\n")
lda_model.save('model_70_topic.gensim')               #Saving the model

Topic: 0 
Words: 0.037*"maç" + 0.033*"tak" + 0.022*"ligi" + 0.021*"takım" + 0.020*"sezo" + 0.017*"futbol" + 0.016*"sezon" + 0.013*"forma" + 0.013*"millî" + 0.011*"kupa"


Topic: 1 
Words: 0.027*"tür" + 0.020*"kuş" + 0.013*"küçük" + 0.011*"familya" + 0.010*"balık" + 0.009*"erkek" + 0.009*"uz" + 0.008*"diş" + 0.008*"hayva" + 0.008*"kuyruk"


Topic: 2 
Words: 0.120*"sa" + 0.053*"sayı" + 0.032*"sayıs" + 0.025*"say" + 0.024*"ser" + 0.022*"örnekle" + 0.022*"bisiklet" + 0.019*"ortalama" + 0.017*"veri" + 0.017*"seri"


Topic: 3 
Words: 0.022*"yahudi" + 0.021*"arap" + 0.019*"srail" + 0.017*"mısır" + 0.017*"muhammedi" + 0.014*"slam" + 0.011*"ra" + 0.011*"müslüma" + 0.010*"arapça" + 0.010*"irak"


Topic: 4 
Words: 0.021*"ağaç" + 0.019*"bitki" + 0.013*"yaprak" + 0.010*"tür" + 0.010*"meyve" + 0.009*"yemek" + 0.009*"çiçek" + 0.006*"yiyecek" + 0.006*"yapıla" + 0.005*"genellik"


Topic: 5 
Words: 0.049*"bar" + 0.041*"doğa" + 0.041*"tekirdak" + 0.038*"zonguldak" + 0.035*"siyasetçii" + 0.031*"sabancı" +

# Testing with Unseen Sentence

In [None]:
unseen_document = "linux"
print(unseen_document)

linux


In [None]:
# Data preprocessing step for the unseen document
bow_vector = dictionary.doc2bow(preprocess(unseen_document))

for index, score in sorted(lda_model[bow_vector], key=lambda tup: -1*tup[1]):
    print("Score: {}\t Topic: {}".format(score, lda_model.print_topic(index, 5)))

Score: 0.5071428418159485	 Topic: 0.014*"bilgisayar" + 0.013*"siste" + 0.009*"sistem" + 0.008*"yazıl" + 0.007*"ver"


**Note: Do not forget to clean the sentence entered. This was a test, so I did not add punctuations.**