In [211]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.neighbors import LocalOutlierFactor
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report,accuracy_score
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from trnlp import TrnlpWord

In [212]:
df=pd.read_csv("./data/policlinic_dataset.csv")
df.head()

Unnamed: 0,Policlinic,Message
0,Nöroloji,Başım ağrıyor
1,Nöroloji,Başımda basınç hissi
2,Nöroloji,Başım dönüyor
3,Nöroloji,Unutkanlık yaşıyorum
4,Nöroloji,Kulak çınlaması


In [213]:
df["Policlinic"].value_counts()

Policlinic
KBB                   109
Ortopedi              106
Göz Hastalıkları      103
Kardiyoloji           102
Psikiyatri            102
Dahiliye               99
Nöroloji               97
Dermatoloji            97
Onkoloji               96
Diş Hekimliği          93
Üroloji                92
Göğüs Hastalıkları     90
Name: count, dtype: int64

In [214]:
stop_words = [
    "a", "able", "acaba", "alt", "altında", "ama", "ancak", "artık", "aslında", "bazen", "bazı", "biri", "birkaç", 
    "birçok", "birtakım", "biz", "bize", "bizim", "büyük", "böyle", "de", "değil", "diğer", "dolayı", "dönem", 
    "dönemi", "e", "fakat", "gibi", "hepsi", "hepsini", "her", "herhangi", "hiç", "hiçbir", "için", "ilgili", 
    "ise", "kadar", "kendi", "kendine", "kimi", "ne", "neden", "nedenle", "nerede", "niçin", "o", "olarak", 
    "onun", "sonra", "şey", "şimdi", "ta", "tıpkı", "ve", "veya", "ya", "yani", "yerine", "zaten", "üzere", "ama", 
    "başka", "bayağı", "belli", "ben", "beni", "benden", "benim", "bir", "birbirini", "biri", "birkaç", "birçok", 
    "bu", "bunu", "bundan", "bunun", "ciddi", "çok", "çokça", "da", "daha", "dahil", "de", "değil", "diğer", "geri", 
    "gibi", "hadi", "hangi", "hani", "hem", "hep", "hepsi", "her", "hiç", "hiçbir", "için", "ilgili", "ise", "ki", 
    "kendine", "kendisini", "kim", "kimi", "niçin", "ne", "neden", "ne zaman", "nerede", "olarak", "onun", "şey", 
    "şimdi", "sonra", "tabii", "tüm", "ve", "veya", "ya", "yani", "yerine", "zaten","mesela","mı","mi","mu","mü",".","?"
]


In [215]:
X=df["Message"]
y = df['Policlinic']

In [216]:
nlp = TrnlpWord()

def lemmatize(word):
    nlp.setword(word)
    
    if True:
        last_word = str(nlp).split("(")[0]
        return last_word
    return None 



In [217]:
for sentence in range(0,len(X)):
    words=X[sentence].split(" ")

    transformed_words = [lemmatize(word) for word in words]
    X[sentence]=" ".join(transformed_words)
X        

0                        baş ağrı
1                baş basınç hissî
2                         baş dön
3                       unut yaşa
4                       kulak çın
                  ...            
1181            cilt sürek kız ol
1182            ayak tırnak  oldu
1183    cilt tahriş nedeniyle kız
1184               el kabarcık ol
1185         cilt beyaz kabuk art
Name: Message, Length: 1186, dtype: object

In [218]:
vectorizer = CountVectorizer(stop_words=stop_words)
x_vec = vectorizer.fit_transform(X)



In [219]:
X_train, X_test, y_train, y_test = train_test_split(x_vec, y, test_size=0.3, random_state=42)

In [220]:
lof=LocalOutlierFactor(n_neighbors=40)
outliers=lof.fit_predict(X_train)
mask=outliers!=-1

X_train,y_train=X_train[mask,:],y_train[mask]

In [221]:
print(len(vectorizer.get_feature_names_out()))

458


In [222]:
clf = RandomForestClassifier(n_estimators=120, random_state=42)
clf.fit(X_train, y_train)

In [223]:
y_pred = clf.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
accuracy

0.7528089887640449

In [224]:
print(classification_report(y_test,y_pred))

                    precision    recall  f1-score   support

          Dahiliye       0.41      0.35      0.38        34
       Dermatoloji       0.86      0.92      0.89        26
     Diş Hekimliği       1.00      1.00      1.00        27
  Göz Hastalıkları       0.91      0.85      0.88        34
Göğüs Hastalıkları       0.86      0.72      0.78        25
               KBB       0.90      1.00      0.95        28
       Kardiyoloji       0.79      0.73      0.76        26
          Nöroloji       0.61      0.61      0.61        33
          Onkoloji       0.92      0.41      0.57        29
          Ortopedi       0.74      0.76      0.75        34
        Psikiyatri       0.51      0.83      0.63        35
           Üroloji       0.92      0.96      0.94        25

          accuracy                           0.75       356
         macro avg       0.79      0.76      0.76       356
      weighted avg       0.77      0.75      0.75       356



In [225]:
classifier=KNeighborsClassifier(n_neighbors=7)
classifier.fit(X_train,y_train)

In [226]:
classifier.score(X_test,y_test)

0.6432584269662921

In [227]:
classifier=LogisticRegression()
classifier.fit(X_train,y_train)

y_pred = classifier.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print(classification_report(y_test,y_pred))

                    precision    recall  f1-score   support

          Dahiliye       0.44      0.44      0.44        34
       Dermatoloji       0.81      1.00      0.90        26
     Diş Hekimliği       1.00      1.00      1.00        27
  Göz Hastalıkları       0.90      0.79      0.84        34
Göğüs Hastalıkları       0.75      0.72      0.73        25
               KBB       0.87      0.96      0.92        28
       Kardiyoloji       0.78      0.69      0.73        26
          Nöroloji       0.59      0.61      0.60        33
          Onkoloji       0.86      0.41      0.56        29
          Ortopedi       0.85      0.82      0.84        34
        Psikiyatri       0.62      0.86      0.72        35
           Üroloji       0.92      0.96      0.94        25

          accuracy                           0.76       356
         macro avg       0.78      0.77      0.77       356
      weighted avg       0.77      0.76      0.76       356



In [228]:
user_input = input("Lütfen Şikayetinizi girin: ")

Lütfen Şikayetinizi girin:  unutkanlık var


In [229]:
words=user_input.split(" ")
transformed_words = [lemmatize(word) for word in words]
user_input=" ".join(transformed_words)
print(user_input)

unut var


In [230]:
user_input_vec = vectorizer.transform([user_input])

In [231]:
user_pred = clf.predict(user_input_vec)
print(f"Tahmin edilen poliklinik: {user_pred[0]}")

Tahmin edilen poliklinik: Psikiyatri
