# Preprocessing and feature extraction

In [None]:
# read in data.csv
import tensorflow as tf
import pandas as pd
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import confusion_matrix
df = pd.read_csv('mine.csv', on_bad_lines= 'skip')
df = df[df['label'] != 0 ]
df.head(20)

Unnamed: 0,index,question,label
0,600,برخی از عوارض ناشی از تزریق چیست؟,1
1,601,شریان بعدی چیست؟,1
2,602,شریان بعدی چیست؟,1
3,603,چه شاخه ای از ماندبولار شما به شریان بعدی تخلی...,1
4,604,نام دیگر شریان کاروتید داخلی چیست؟,1
5,605,خواب شریان داخلی شریان پایداری داخلی چیست؟,-1
6,606,مهم ترین اشکال شریان کاروتید به دلیل عبور یک س...,1
7,607,هدف از شریان اکسی پایتال چیه؟,1
8,608,شریان بعدی چیه؟,1
9,609,از چه بخشی از شریان اکسی پایتال سرچشمه می گیرد؟,-1


In [None]:
# change -1 labels to 0
for index, row in df.iterrows():
  if(row['label'] < 0):
    df.at[index , 'label'] = 0

df.head(20)

Unnamed: 0,index,question,label
0,600,برخی از عوارض ناشی از تزریق چیست؟,1
1,601,شریان بعدی چیست؟,1
2,602,شریان بعدی چیست؟,1
3,603,چه شاخه ای از ماندبولار شما به شریان بعدی تخلی...,1
4,604,نام دیگر شریان کاروتید داخلی چیست؟,1
5,605,خواب شریان داخلی شریان پایداری داخلی چیست؟,0
6,606,مهم ترین اشکال شریان کاروتید به دلیل عبور یک س...,1
7,607,هدف از شریان اکسی پایتال چیه؟,1
8,608,شریان بعدی چیه؟,1
9,609,از چه بخشی از شریان اکسی پایتال سرچشمه می گیرد؟,0


In [None]:
# let's check out how many samples of each label we have
df['label'].value_counts()

1    587
0    139
Name: label, dtype: int64

In [None]:
# splitting the data to the train and test sets
import numpy as np
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(list(df['question'].to_numpy()), list(df['label'].to_numpy()), test_size=0.1, random_state = 0)
print(X_train[:7])
print(y_train[:7])

['در مورد ژنومي دي ان اي چي ميخواي بدوني؟', 'آغازگر من در منطقه 901 چه زمانی اجرا می شود؟', 'فرکانس کاری دستگاه ما چه می باشد؟', 'به طور خلاصه در مورد چه نوع استعمار صحبت کردیم؟', 'چه چیزی در اینجا با کلاژن ساخته شده است که به طور طبیعی در ساختار بافت شما قبل از زخم شدن وجود دارد؟', 'چه تفاوتی بین هکسی و نان هکسی وجود دارد؟', 'بعضی چیزها که گفتم هم ممنوع است؟']
[1, 1, 1, 1, 1, 1, 1]


In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

vectorizer = TfidfVectorizer()
vectorizer.fit(X_train)
X_train = vectorizer.transform(X_train).toarray()
X_test = vectorizer.transform(X_test).toarray()
# up until here our feature vector has over 900 dimensions! it is also too sparse!
# so let's fix the dimentionality and sparsity of our feature vectors!

sel = VarianceThreshold(threshold=0.0025)
X_train = sel.fit_transform(X_train)
X_test = sel.transform(X_test)

sel1 = PCA(n_components = 50)
X_train = sel1.fit_transform(X_train)
X_test = sel1.transform(X_test)

sel2 = SelectKBest(k=10)
X_train = sel2.fit_transform(X_train, y_train)
X_test = sel2.transform(X_test)
# now our feature vector has only 10 dimensions!

X_train[:3].shape, X_train[0]

((3, 10),
 array([ 0.04497836,  0.00905659,  0.00213156,  0.006889  ,  0.07755591,
        -0.00776863, -0.02150838,  0.0200471 ,  0.00141358, -0.03628025]))

# creating a model

In [None]:
from sklearn import svm
classifier = svm.SVC(class_weight = { 0:0.8, 1:0.2 })
classifier.fit(X_train, y_train)
y_pred_svc = classifier.predict(X_test)
accuracy_score(y_test, y_pred_svc)

0.6986301369863014

In [None]:
precision_score(y_test, y_pred_svc)

0.9318181818181818

In [None]:
confusion_matrix(y_test, y_pred_svc)

array([[10,  3],
       [19, 41]])

In [None]:
from sklearn.model_selection import GridSearchCV
param_grid = { 'C': [0.1, 1, 100, 1000],
              'kernel': ['rbf', 'poly', 'linear'],
              'degree': [1,2,3]}
grid = GridSearchCV(classifier, param_grid, scoring = 'precision',cv = 5)
grid.fit(X_train, y_train)
y_pred_gsvc = grid.predict(X_test)


In [None]:
print(grid.best_params_)
print(grid.best_score_)


{'C': 1, 'degree': 2, 'kernel': 'poly'}
0.8980470203650798


In [None]:
accuracy_score(y_test, y_pred_gsvc)

0.5342465753424658

In [None]:
precision_score(y_test, y_pred_gsvc)

0.9642857142857143

In [None]:
recall_score(y_test, y_pred_gsvc)

0.45

In [None]:
confusion_matrix(y_test, y_pred_gsvc)

array([[12,  1],
       [33, 27]])

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
classifier_1 = RandomForestClassifier(class_weight = { 0:0.8, 1:0.2 })
classifier_1.fit(X_train, y_train)
y_pred_rfc = classifier_1.predict(X_test)
# accuracy_score(y_test, y_pred_rfc)
accuracy_score(y_test, y_pred_knc)

0.8767123287671232

In [None]:
param_grid = {'n_estimators':[80, 90, 100, 110, 120, 150],
              'max_features': ['auto', 'sqrt'],
              'min_samples_split': [2,4],
              'min_samples_leaf':[1,2],
              'bootstrap': [True, False]}
grid_1 = GridSearchCV(classifier_1, param_grid, scoring = 'precision', cv = 5)
grid_1.fit(X_train, y_train)
y_pred_grfc = grid_1.predict(X_test)


In [None]:
print(grid_1.best_params_)
print(grid_1.best_score_)

{'bootstrap': False, 'max_features': 'sqrt', 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 110}
0.8572776933727961


In [None]:
accuracy_score(y_test, y_pred_grfc)

0.8767123287671232

In [None]:
precision_score(y_test, y_pred_grfc)

0.8923076923076924

In [None]:
recall_score(y_test, y_pred_grfc)

0.9666666666666667

In [None]:
confusion_matrix(y_test, y_pred_grfc)

array([[ 6,  7],
       [ 2, 58]])

In [None]:
from sklearn.linear_model import LogisticRegression
classifier_2 = LogisticRegression(class_weight = { 0:0.83, 1:0.17 })
classifier_2.fit(X_train, y_train)
y_pred_lr = classifier_2.predict(X_test)
accuracy_score(y_test, y_pred_lr)

0.4383561643835616

In [None]:
param_grid = {'C':[0.1,1, 10,100],
              'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],
              'max_iter': [50, 100, 200, 300]}
grid_2 = GridSearchCV(classifier_2, param_grid, scoring = 'precision', cv = 10)
grid_2.fit(X_train, y_train)
y_pred_glr = grid_2.predict(X_test)


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_pr

In [None]:
print(grid_2.best_params_)
print(grid_2.best_score_)

{'C': 1, 'max_iter': 50, 'solver': 'newton-cg'}
0.9498664393293549


In [None]:
accuracy_score(y_test, y_pred_glr)

0.4383561643835616

In [None]:
precision_score(y_test, y_pred_glr)

0.9130434782608695

In [None]:
recall_score(y_test, y_pred_glr)

0.35

In [None]:
confusion_matrix(y_test, y_pred_glr)

array([[11,  2],
       [39, 21]])

In [None]:
# read in data.csv
import tensorflow as tf
import pandas as pd
df2 = pd.read_csv('mine2.csv', on_bad_lines= 'skip')
df2 = df2[df2['label'] != 0 ]
df2.head(20)

Unnamed: 0,index,question,label
0,1224,فسفر روی کلسیم پتاسیم سدیم پتاسیم پتاسیم که تو...,-1
1,1225,به چه چیزی خدمت می کنیم؟,1
2,1226,دو یونی که در داخل سلول کار می کنند چیست؟,1
3,1227,دو نوع یونی که در داخل سلول کار می کنند چیست؟,1
4,1228,دلیل محتوا هم چه است و حداقل محتوای منسجم، ممک...,-1
5,1229,وقتی مسیر آیات را در مرحله دوم مسیر آیات دنبال...,-1
6,1235,دلیل محتوا نیز و حداقل محتوای منسجم ممکن است د...,-1
7,1401,برای پیدا کردن لینک گمشده ببینیم قرآن چیه؟,1
9,1403,وظيفه محوري ما در مورد قرآن چيه؟,1
10,1404,این دو گروه به چه چیزی توجه نکردند؟,1


In [None]:
# change -1 labels to 0
for index, row in df2.iterrows():
  if(row['label'] < 0):
    df2.at[index , 'label'] = 0

df2.head(20)

Unnamed: 0,index,question,label
0,1224,فسفر روی کلسیم پتاسیم سدیم پتاسیم پتاسیم که تو...,0
1,1225,به چه چیزی خدمت می کنیم؟,1
2,1226,دو یونی که در داخل سلول کار می کنند چیست؟,1
3,1227,دو نوع یونی که در داخل سلول کار می کنند چیست؟,1
4,1228,دلیل محتوا هم چه است و حداقل محتوای منسجم، ممک...,0
5,1229,وقتی مسیر آیات را در مرحله دوم مسیر آیات دنبال...,0
6,1235,دلیل محتوا نیز و حداقل محتوای منسجم ممکن است د...,0
7,1401,برای پیدا کردن لینک گمشده ببینیم قرآن چیه؟,1
9,1403,وظيفه محوري ما در مورد قرآن چيه؟,1
10,1404,این دو گروه به چه چیزی توجه نکردند؟,1


In [None]:
X_test_2 = df2['question'].to_numpy()
y_test_2 = df2['label'].to_numpy()
X_test_2 = vectorizer.transform(X_test_2).toarray()
X_test_2 = sel.transform(X_test_2)
X_test_2 = sel1.transform(X_test_2)
X_test_2 = sel2.transform(X_test_2)


In [None]:
y_pred_svc_2 = grid.predict(X_test_2)
y_pred_rfc_2 = grid_1.predict(X_test_2)
y_pred_lr_2 = grid_2.predict(X_test_2)


In [None]:
accuracy_score(y_test_2, y_pred_svc_2)

0.5957446808510638

In [None]:
accuracy_score(y_test_2, y_pred_rfc_2)

0.8014184397163121

In [None]:
accuracy_score(y_test_2, y_pred_lr_2)

0.425531914893617

In [None]:
recall_score(y_test_2, y_pred_svc_2)

0.6

In [None]:
recall_score(y_test_2, y_pred_rfc_2)

0.9727272727272728

In [None]:
recall_score(y_test_2, y_pred_lr_2)

0.32727272727272727

In [None]:
precision_score(y_test_2, y_pred_svc_2)

0.8354430379746836

In [None]:
precision_score(y_test_2, y_pred_rfc_2)

0.8106060606060606

In [None]:
precision_score(y_test_2, y_pred_lr_2)

0.8372093023255814

In [None]:
confusion_matrix(y_test_2, y_pred_svc_2)

array([[18, 13],
       [44, 66]])

In [None]:
confusion_matrix(y_test_2, y_pred_rfc_2)

array([[  6,  25],
       [  3, 107]])

In [None]:
confusion_matrix(y_test_2, y_pred_lr_2)

array([[24,  7],
       [74, 36]])

# ensemble learning

In [None]:
y_pred_svc_2 = grid.predict(X_test_2)
y_pred_rfc_2 = grid_1.predict(X_test_2)
y_pred_lr_2 = grid_2.predict(X_test_2)
y_pred_final = []
counter = 0
for i in range(0,len(y_pred_svc_2)):
  if(y_pred_svc_2[i] == 1 ):
    counter += 1
  if(y_pred_knc_2[i] == 1 ):
    counter += 1
  if(y_pred_lr_2[i] == 1 ):
    counter += 1
  if(counter > 1):
    y_pred_final.append(1)
  else:
    y_pred_final.append(0)
  counter = 0

y_pred_final

[0,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 1,
 1,
 0,
 0,
 1,
 0,
 1,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 1,
 0,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 0,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 0,
 0]

In [None]:
confusion_matrix(y_test_2, y_pred_final)

array([[17, 14],
       [35, 75]])

In [None]:
accuracy_score(y_test_2, y_pred_final)

0.6524822695035462

In [None]:
recall_score(y_test_2, y_pred_final)

0.6818181818181818

In [None]:
precision_score(y_test_2, y_pred_final)

0.8426966292134831

with this imbalanced dataset these results were the best I could get!

In [None]:
# import pickle
# filename1 = 'model_1'
# filename2 = 'model_2'
# filename3 = 'model_3'
# pickle.dump(grid, open(filename1, 'wb'))
# pickle.dump(grid_1, open(filename2, 'wb'))
# pickle.dump(grid_2, open(filename3, 'wb'))



In [None]:
# loaded_model = pickle.load(open(filename1, 'rb'))
# y_pred = loaded_model.predict(X_test)
# confusion_matrix(y_test, y_pred)

array([[12,  1],
       [33, 27]])

same result as before!