# Model Training

In [None]:
import pandas as pd
import os
from snowballstemmer import TurkishStemmer
turkStem = TurkishStemmer()
# Adding libraries

In [None]:
ogrenme_df = pd.read_excel("kategori.xlsx")
# Adding the dataset for pre-made model training

In [None]:
ogrenme_df.head()

Unnamed: 0,category,text
0,sınav,sınava gelmiyorum diyip gitmeyenler yarın öbür...
1,sınav,net sınavlar iptal olsun zaten kimsenin anladı...
2,sınav,ben sınavların iptal olacağına olan inancımı k...
3,sınav,online verdiğin derslerin sınavını online yap
4,sınav,bahçeşehir kolejleri arasında yapılan agis sın...


In [None]:
ogrenme_df['text'] = ogrenme_df['text'].apply(lambda x: " ".join([turkStem.stemWord(i) for i in x.split()]))
# Dividing texts into roots

In [None]:
ogrenme_df['numara'] = pd.factorize(ogrenme_df.category)[0]
#Categorizing dataset as numbers

In [None]:
ogrenme_df.groupby(["category", "numara"]).size()

category    numara
canlı ders  1         100
eğitim      2         100
sınav       0         100
teknoloji   3         100
dtype: int64

In [None]:
ogrenme_df

Unnamed: 0,category,text,numara
0,sınav,sınav gelmiyor diyip gitmeyen yar öbür gün e k...,0
1,sınav,net sınav iptal ol zate kimse anladık yok dur ...,0
2,sınav,ben sınav iptal olacak ola inanç kaybet ela,0
3,sınav,onl verdik ders sınav onl yap,0
4,sınav,bahçeşehir kolej ara yapıla agis sınav tam pua...,0
...,...,...,...
395,teknoloji,canlı der baş öğrenci kanal hoşgel bugu siz uz...,3
396,teknoloji,uzak eğit sınav olmaz birgi oturup izley anlr ...,3
397,teknoloji,arkadaş bir öğrenç uzak eğit katılabilmes ciha...,3
398,teknoloji,teknoloj vasıtal eğit öncüs vizyo kolej antaly...,3


In [None]:
model_df = ogrenme_df[["text", "numara"]]

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(ogrenme_df["text"], ogrenme_df["numara"], test_size = 0.2, random_state = 4)
#Splitting the dataset into testing and learning

In [None]:
x_train.shape

(320,)

In [None]:
x_test.shape

(80,)

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

In [None]:
vectorizer = TfidfVectorizer()

In [None]:
train_vectors = vectorizer.fit_transform(x_train)
test_vectors = vectorizer.transform(x_test)
print(train_vectors.shape, test_vectors.shape)
#text data is translated into numeric. and thus each text is assigned a numerical value.

(320, 1327) (80, 1327)


In [None]:
print(train_vectors)

  (0, 402)	0.52295034879862
  (0, 938)	0.4753353916166118
  (0, 984)	0.3484209352328613
  (0, 1212)	0.6157775978870474
  (1, 705)	0.3446018464831379
  (1, 1200)	0.22671031282466123
  (1, 316)	0.3446018464831379
  (1, 486)	0.3216144710355663
  (1, 1280)	0.16442575949093072
  (1, 974)	0.23848218650849864
  (1, 836)	0.305304668596979
  (1, 799)	0.28231729314940746
  (1, 689)	0.3446018464831379
  (1, 212)	0.3216144710355663
  (1, 800)	0.3216144710355663
  (1, 981)	0.15880791534855868
  (2, 1010)	0.42089034263879843
  (2, 901)	0.42089034263879843
  (2, 1122)	0.38920014814240533
  (2, 350)	0.4433748934591131
  (2, 478)	0.32297735003942935
  (2, 252)	0.2054222157299352
  (2, 818)	0.2808506575089896
  (2, 984)	0.26880260472272155
  (3, 315)	0.28593052182192097
  :	:
  (317, 252)	0.14076416264752903
  (317, 1200)	0.21416647254706775
  (318, 707)	0.2623275597404607
  (318, 443)	0.2623275597404607
  (318, 253)	0.2623275597404607
  (318, 769)	0.2623275597404607
  (318, 110)	0.2623275597404607
  (3

In [None]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import cross_val_score
from sklearn import svm
import seaborn as sns

#Preparation of necessary libraries for processing prediction models

In [None]:
model_score = pd.DataFrame(columns = ['Model_isim', 'Model_score'])

In [None]:
LogicReg = LogisticRegression()
LogicReg.fit(train_vectors, y_train)
prediction = LogicReg.predict(test_vectors)
print(accuracy_score(y_test, prediction))
model_score.loc[0] =["Logistic Regression", accuracy_score(y_test, prediction)]

0.675


In [None]:
clf = MultinomialNB()
clf.fit(train_vectors, y_train)
prediction = clf.predict(test_vectors)
print(accuracy_score(y_test, prediction))
model_score.loc[1] =["Naive Bayes", accuracy_score(y_test, prediction)]

0.65


In [None]:
dTmodel = DecisionTreeClassifier()
dTmodel.fit(train_vectors, y_train)
prediction = dTmodel.predict(test_vectors)
print(accuracy_score(y_test, prediction))
model_score.loc[2] =["Decision Tree", accuracy_score(y_test, prediction)]

0.7125


In [None]:
rForest = RandomForestClassifier()
rForest.fit(train_vectors,y_train)
prediction=rForest.predict(test_vectors)
print(accuracy_score(y_test, prediction))
model_score.loc[3] =["Random Forest ", accuracy_score(y_test, prediction)]

0.725


In [None]:
grBoosting = GradientBoostingClassifier()
grBoosting.fit(train_vectors, y_train)
prediction = grBoosting.predict(test_vectors)
print(accuracy_score(y_test, prediction))
model_score.loc[4] =["GradientBoosting", accuracy_score(y_test, prediction)]

0.6875


In [None]:
super_vectorM = svm.SVC()
super_vectorM.fit(train_vectors, y_train)
prediction = super_vectorM.predict(test_vectors)
print(accuracy_score(y_test, prediction))
model_score.loc[5] =["Super Vector M", accuracy_score(y_test, prediction)]

0.65


In [None]:
model_score.head(6)
# The two most successful models were chosen as Random Forest and Decision Tree.

Unnamed: 0,Model_isim,Model_score
0,Logistic Regression,0.675
1,Naive Bayes,0.65
2,Decision Tree,0.7125
3,Random Forest,0.725
4,GradientBoosting,0.6875
5,Super Vector M,0.65


In [None]:
model_score.to_excel("Model_Score.xlsx")

# Predict new data with the Selected Models

In [None]:
df = pd.read_excel("temiz.xlsx")

In [None]:
test_vectors_ = vectorizer.transform(df["text"].astype('U').values)
print(test_vectors_.shape)
#text data is translated into numeric. and thus each text is assigned a numerical value.

(1636, 1327)


In [None]:
predicted = dTmodel.predict(test_vectors_)
tahmin = pd.DataFrame(predicted)
tahmin.rename(columns = {0:'tahmin'}, inplace = True)
df["tahmin_dTmodel"] = tahmin
# Doing data segmentation using the Decision Tree model

In [None]:
df.loc[df['tahmin_dTmodel'] == 0, ['dTmodel_tahmin']] = 'Sınav'
df.loc[df['tahmin_dTmodel'] == 1, ['dTmodel_tahmin']] = 'canlı ders'
df.loc[df['tahmin_dTmodel'] == 2, ['dTmodel_tahmin']] = 'eğitim'
df.loc[df['tahmin_dTmodel'] == 3, ['dTmodel_tahmin']] = 'teknoloji'

#I defined categories to categorize the data.
# 0 - The Exam
# 1 - Online Class
# 2 - Education
# 3 - Technology

In [None]:
df.drop(columns=["tahmin_dTmodel"],inplace=True)

In [None]:
df.head()

Unnamed: 0,text,dTmodel_tahmin,rForest_tahmin,tahmin_rForest,Duygu,Skor
0,canımız değerli üniversitelerde istiyoruz,eğitim,eğitim,2,negative,0.696103
1,diyip gitmeyenler yarın öbür gün e katılamıyor...,eğitim,eğitim,2,negative,0.696103
2,yoksa başka oda bir zahmet çenenize programlar...,eğitim,eğitim,2,negative,0.946702
3,şaka maka bir yana ben kalem tutmayı unutuyoru...,eğitim,eğitim,2,negative,0.696103
4,menekşe sınıfı öğrencileri bugün canlı derste ...,canlı ders,canlı ders,1,negative,0.946702


In [None]:
predicted = rForest.predict(test_vectors_)
tahmin = pd.DataFrame(predicted)
tahmin.rename(columns = {0:'tahmin'}, inplace = True)
df["tahmin_rForest"] = tahmin
# Doing data segmentation using the Random Forest model

In [None]:
df.loc[df['tahmin_rForest'] == 0, ['rForest_tahmin']] = 'Sınav'
df.loc[df['tahmin_rForest'] == 1, ['rForest_tahmin']] = 'canlı ders'
df.loc[df['tahmin_rForest'] == 2, ['rForest_tahmin']] = 'eğitim'
df.loc[df['tahmin_rForest'] == 3, ['rForest_tahmin']] = 'teknoloji'

In [None]:
df.drop(columns=["tahmin_rForest"],inplace=True)

In [None]:
df.head()

Unnamed: 0,text,dTmodel_tahmin,rForest_tahmin,Duygu,Skor
0,canımız değerli üniversitelerde istiyoruz,eğitim,eğitim,negative,0.696103
1,diyip gitmeyenler yarın öbür gün e katılamıyor...,eğitim,eğitim,negative,0.696103
2,yoksa başka oda bir zahmet çenenize programlar...,eğitim,eğitim,negative,0.946702
3,şaka maka bir yana ben kalem tutmayı unutuyoru...,eğitim,eğitim,negative,0.696103
4,menekşe sınıfı öğrencileri bugün canlı derste ...,canlı ders,canlı ders,negative,0.946702


In [None]:
df.groupby("dTmodel_tahmin").size()
# The result of the Decision Trees model
# Exam - 92
# Online class - 192
# Education - 1247
# Technology - 185

dTmodel_tahmin
Sınav           92
canlı ders     192
eğitim        1247
teknoloji      105
dtype: int64

In [None]:
df.groupby("rForest_tahmin").size()
# The result of the Random Forest model
# Exam - 83
# Online class - 138
# Education - 1333
# Technology - 82

rForest_tahmin
Sınav           83
canlı ders     138
eğitim        1333
teknoloji       82
dtype: int64

In [None]:
df.to_excel("Tahmin_veri.xlsx")

# Sentiment Analysis (positive or negative estimation of data by categories)

In [None]:
text = pd.DataFrame(df["text"])
text["text"] = text["text"].apply(lambda r: str(r))

In [None]:
!pip install transformers



In [None]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline

model = AutoModelForSequenceClassification.from_pretrained("savasy/bert-base-turkish-sentiment-cased")
tokenizer = AutoTokenizer.from_pretrained("savasy/bert-base-turkish-sentiment-cased")
sa= pipeline("sentiment-analysis", tokenizer = tokenizer, model = model)

In [None]:
Duygu_analizi = []
Duygular = []
for i in text["text"]:
    Duygu_analizi.append(sa(i))
    for i in range(0, len(Duygu_analizi)):
        Duygular.append(Duygu_analizi[i][0])

In [None]:
df["Duygu"] = Duygular["label"]
df["Skor"] = Duygular["score"]

In [None]:
df.head()

Unnamed: 0,text,dTmodel_tahmin,rForest_tahmin,Duygu,Skor
0,canımız değerli üniversitelerde istiyoruz,eğitim,eğitim,negative,0.696103
1,diyip gitmeyenler yarın öbür gün e katılamıyor...,eğitim,eğitim,negative,0.696103
2,yoksa başka oda bir zahmet çenenize programlar...,eğitim,eğitim,negative,0.946702
3,şaka maka bir yana ben kalem tutmayı unutuyoru...,eğitim,eğitim,negative,0.696103
4,menekşe sınıfı öğrencileri bugün canlı derste ...,canlı ders,canlı ders,negative,0.946702


In [None]:
grup_dTmodel = df.groupby(["dTmodel_tahmin","Duygu"]).size()
grup_dTmodel = pd.DataFrame(grup_dTmodel).reset_index()
grup_dTmodel
# Decision Tree by Category Number of positive and negative data

Unnamed: 0,dTmodel_tahmin,Duygu,0
0,Sınav,negative,48
1,Sınav,positive,44
2,canlı ders,negative,94
3,canlı ders,positive,98
4,eğitim,negative,649
5,eğitim,positive,598
6,teknoloji,negative,55
7,teknoloji,positive,50


In [None]:
grup_rForest = df.groupby(["rForest_tahmin","Duygu"]).size()
grup_rForest = pd.DataFrame(grup_rForest).reset_index()
grup_rForest
# Random Forest by Category Number of positive and negative data

Unnamed: 0,rForest_tahmin,Duygu,0
0,Sınav,negative,48
1,Sınav,positive,35
2,canlı ders,negative,71
3,canlı ders,positive,67
4,eğitim,negative,685
5,eğitim,positive,648
6,teknoloji,negative,42
7,teknoloji,positive,40


In [None]:
df.to_excel ("Sonuç.xlsx")
grup_dTmodel.to_excel ("dTmodel_sonuc_duygu.xlsx")
grup_rForest.to_excel ("rForest_sonuc_duygu.xlsx")