In [2]:
import nltk
import pandas as pd
from nltk.corpus import stopwords
import random
import pickle
from nltk.tokenize import word_tokenize
from nltk.classify.scikitlearn import SklearnClassifier
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.svm import LinearSVC, NuSVC
from nltk.classify import ClassifierI
from statistics import mode
import re

In [3]:
df = pd.read_excel('formasyon_veri_yanitlari.xlsx')
df = df.drop(df.columns[[0,1]], axis=1)

text_label_list = []
sentences = []
for column in df.columns:
    label = column.split('-')[0]
    print(label)
    
    for sentence in df[column]:
        sentences.append(sentence)
        text_label_list.append((sentence, label))   
        
print(sentences)

text_label_df = pd.DataFrame(text_label_list, columns =['Text', 'Label'])
text_label_df

Çizgi
Çizgi
Çizgi
Çizgi
V
V
V
V
Ok başı
Ok başı
Ok başı
Ok başı
Üçgen
Üçgen
Üçgen
Üçgen
voleybol
voleybol
voleybol
voleybol
voleybol
['Çizgi formasyonunu yap', 'çizgi formasyonu oluştur', "İHA'ları kullanarak bir çizgi çiz.", 'Bir çizgi çiz', 'Cizgi ciz.', 'Çizgi oluştur', 'Dronların çizgi üzerinde gitmesini istiyorum', 'dronelarla bir çizgi üzerinde hat oluştururu musun', '2 noktayı birleştiren geometrik şekili andıran bir formasyon oluştur ', 'çizgi ol', 'Çizgi formasyonu oluştur', 'Düz bir çizgi çizer misin?', 'çiz çizgiyi', 'Çizgi çiz', 'Çizgi olun', 'Çizgi şeklinde hat oluştur ', 'Hat oluştur ', 'Bir sıra oluşturun lütfen.', 'Lütfen düz bir çizgi çizer misin', 'Hizaya geç', 'dronelar düz çizgi oluştursun', 'çizgi formasyon oluştur doğruca', 'çizgi formasyonunu oluştur', 'çizgi haline geç', 'Dronelar çizgi çizsin', 'Dronelar çizgi formasyonu oluştursunlar', 'Dumduz cizgi seklinde ilerler', 'Çizgi çiz', 'çizgi formasyonu', 'Sürüye çizgi çizdirmesini sağla.', 'Bir çizgi oluştur.', 'D

Unnamed: 0,Text,Label
0,Çizgi formasyonunu yap,Çizgi
1,çizgi formasyonu oluştur,Çizgi
2,İHA'ları kullanarak bir çizgi çiz.,Çizgi
3,Bir çizgi çiz,Çizgi
4,Cizgi ciz.,Çizgi
...,...,...
562,valleybol oynayınıverin,voleybol
563,toplanın maç zamanı,voleybol
564,Voleybol oynamanız lazım acil,voleybol
565,Hadi boleybol oynayalım çocuklar,voleybol


In [106]:
random.shuffle(sentences)

all_words = []
for sentence in sentences:
    words = nltk.word_tokenize(sentence)
    for word in words:
        if word.isalpha():
            all_words.append(word.lower())

In [107]:
stop_words = set(stopwords.words("turkish"))
filter_sentence = []

for word in all_words:
    if word not in stop_words:
        filter_sentence.append(word)
        
all_words = filter_sentence

In [108]:
all_words_dist = nltk.FreqDist(all_words)
most_common_words = '\n'.join([f"{word}: {freq}" for word, freq in all_words_dist.most_common(15)])
print(f"Most common 15 words:\n{most_common_words}\n")

print(f"Number of times cizgi is used:{all_words_dist['cizgi']}")
print(f"Number of times çizgi is used:{all_words_dist['çizgi']}")

Most common 15 words:
v: 131
voleybol: 97
üçgen: 83
ok: 75
çizgi: 64
oluştur: 64
başı: 49
formasyonunu: 48
formasyonu: 47
dronelar: 46
bir: 43
yap: 39
çiz: 30
ters: 28
şeklinde: 24

Number of times cizgi is used:7
Number of times çizgi is used:64


In [109]:
word_features = list(all_words_dist.keys())[:200]

def find_features(document):
    words = set(nltk.word_tokenize(document.lower()))
    features = {}
    for w in word_features:
        features[w] = (w in words)
    return features


feature_sets = [(find_features(text), label) for (text, label) in text_label_list]

train_size = int(0.8 * len(feature_sets))  # 80% 
training_set = feature_sets[:train_size]
testing_set = feature_sets[train_size:]


In [110]:
NBclassifier = nltk.NaiveBayesClassifier.train(training_set)

print("Naive Bayes Algorithm accuracy percent:", (nltk.classify.accuracy(NBclassifier, testing_set))*100)
NBclassifier.show_most_informative_features(15)

Naive Bayes Algorithm accuracy percent: 72.80701754385966
Most Informative Features
                      ok = True           Ok baş : V      =     48.3 : 1.0
                   üçgen = True            Üçgen : V      =     32.6 : 1.0
                       v = False           Çizgi : V      =     14.5 : 1.0
            formasyonuna = True           voleyb : Üçgen  =     11.6 : 1.0
                   şekil = True            Üçgen : Ok baş =      9.0 : 1.0
                     geç = True           voleyb : Üçgen  =      8.3 : 1.0
                     bir = True            Çizgi : V      =      8.2 : 1.0
                     yap = True           voleyb : Çizgi  =      5.0 : 1.0
                      et = True           voleyb : Çizgi  =      5.0 : 1.0
            gerçekleştir = True           voleyb : Ok baş =      5.0 : 1.0
                   geçiş = True           voleyb : Ok baş =      5.0 : 1.0
               istiyorum = True           voleyb : Üçgen  =      5.0 : 1.0
              ku

In [111]:
MNB_classifier = SklearnClassifier(MultinomialNB())
MNB_classifier.train(training_set)
print("MNB Classifier accuracy percent:", (nltk.classify.accuracy(MNB_classifier, testing_set))*100)

MNB Classifier accuracy percent: 72.80701754385966


In [112]:
BernoulliNB_classifier = SklearnClassifier(BernoulliNB())
BernoulliNB_classifier.train(training_set)
print("BernoulliNB Classifier accuracy percent:", (nltk.classify.accuracy(BernoulliNB_classifier, testing_set))*100)

BernoulliNB Classifier accuracy percent: 19.298245614035086


In [120]:
SGDClassifier_classifier = SklearnClassifier(SGDClassifier())
SGDClassifier_classifier.train(training_set)
print("SGDClassifier_classifier accuracy percent:", (nltk.classify.accuracy(SGDClassifier_classifier, testing_set))*100)

SGDClassifier_classifier accuracy percent: 75.43859649122807


In [114]:
save_classifier = open("prediction_pickle/SGDC_classifier.pickle","wb")
pickle.dump(SGDClassifier_classifier, save_classifier)
save_classifier.close()

In [115]:
LogisticRegression_classifier = SklearnClassifier(LogisticRegression())
LogisticRegression_classifier.train(training_set)
print("LogisticRegression_classifier accuracy percent:", (nltk.classify.accuracy(LogisticRegression_classifier, testing_set))*100)

LogisticRegression_classifier accuracy percent: 69.2982456140351


In [116]:
LinearSVC_classifier = SklearnClassifier(LinearSVC(dual=True))
LinearSVC_classifier.train(training_set)
print("LinearSVC_classifier accuracy percent:", (nltk.classify.accuracy(LinearSVC_classifier, testing_set))*100)

LinearSVC_classifier accuracy percent: 74.56140350877193


In [117]:
class VoteClassifier(ClassifierI):
    def __init__(self, *classifiers):
        self._classifiers = classifiers

    def classify(self, features):
        votes = []
        for classification in self._classifiers:
            vote = classification.classify(features)
            votes.append(vote)
        return mode(votes)

    def confidence(self, features):
        votes = []
        for classification in self._classifiers:
            vote = classification.classify(features)
            votes.append(vote)

        choice_votes = votes.count(mode(votes))
        conf = choice_votes / len(votes)
        return conf

In [118]:
voted_classifier = VoteClassifier(NBclassifier,MNB_classifier,BernoulliNB_classifier,LogisticRegression_classifier,SGDClassifier_classifier,LinearSVC_classifier)
print("Voted_classifier accuracy percent:", (nltk.classify.accuracy(voted_classifier, testing_set))*100)

ex_data = "üçgen"

print(f"Classification: {voted_classifier.classify(find_features(ex_data))}")
print(f"Confidence %: {voted_classifier.confidence(find_features(ex_data))*100}")


Voted_classifier accuracy percent: 73.68421052631578
Classification: Üçgen
Confidence %: 100.0
