In [32]:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV
import joblib
import warnings
warnings.filterwarnings("ignore")


In [13]:
df = [
    # kişisel gelişim
    ("Her sabah erken kalkmaya çalışıyorum", "kişisel gelişim"),
    ("Hedeflerime ulaşmak için plan yapıyorum", "kişisel gelişim"),
    ("Zaman yönetimi konusunda daha dikkatli olmalıyım", "kişisel gelişim"),
    ("Yeni bir dil öğrenmeye başladım", "kişisel gelişim"),
    ("Motivasyonumu yüksek tutmak istiyorum", "kişisel gelişim"),
    ("Kitap okumayı günlük rutin haline getirdim", "kişisel gelişim"),
    ("Online kurslara katılıp kendimi geliştiriyorum", "kişisel gelişim"),
    ("Stresi yönetmek için meditasyon yapıyorum", "kişisel gelişim"),
    ("Kariyerimde ilerlemek için sertifika alıyorum", "kişisel gelişim"),
    ("Verimli çalışmak için pomodoro tekniğini deniyorum", "kişisel gelişim"),

    # günlük yaşam
    ("Bugün kahvaltıda menemen yaptım", "günlük yaşam"),
    ("Akşam yürüyüşüne çıkacağım", "günlük yaşam"),
    ("Çamaşırları yıkayıp astım", "günlük yaşam"),
    ("Marketten süt ve ekmek aldım", "günlük yaşam"),
    ("Hava çok güzel, dışarı çıkmak istiyorum", "günlük yaşam"),
    ("Arkadaşlarımla sinemaya gittik", "günlük yaşam"),
    ("Bugün hiç canım bir şey yapmak istemiyor", "günlük yaşam"),
    ("Telefonumun şarjı hemen bitiyor", "günlük yaşam"),
    ("Ev temizliği yaptım, çok yoruldum", "günlük yaşam"),
    ("Dizimin ağrısı geçmedi, doktora gitmeliyim", "günlük yaşam"),

    # talep/şikayet
    ("Mahallemizde çöpler toplanmıyor", "talep/şikayet"),
    ("Sokak lambaları gece yanmıyor", "talep/şikayet"),
    ("İnternet bağlantım sürekli kopuyor", "talep/şikayet"),
    ("Kargom hala teslim edilmedi", "talep/şikayet"),
    ("Site giriş kapısı bozuk, kimse ilgilenmiyor", "talep/şikayet"),
    ("Toplu taşıma saatleri yetersiz", "talep/şikayet"),
    ("Elektrik kesintisi çok uzun sürdü", "talep/şikayet"),
    ("Whatsapp destek hattına ulaşamıyorum", "talep/şikayet"),
    ("Uygulama sürekli çöküyor, acil çözüm gerekiyor", "talep/şikayet"),
    ("Faturam yüksek geldi, itiraz etmek istiyorum", "talep/şikayet"),
]
df = pd.DataFrame(data, columns=["text", "label"])
le = LabelEncoder()
y = le.fit_transform(df["label"])

In [23]:
turkish_stopwords = [
    'acaba', 'ama', 'aslında', 'az', 'bazı', 'belki', 'biri', 'birkaç', 'birşey', 'biz',
    'bu', 'çok', 'çünkü', 'da', 'daha', 'de', 'defa', 'diye', 'en', 'gibi', 'hem', 'hep', 'hepsi',
    'her', 'hiç', 'için', 'ile', 'ise', 'kez', 'ki', 'kim', 'mı', 'mu', 'mü', 'nasıl', 'ne',
    'neden', 'nerde', 'nerede', 'nereye', 'niçin', 'niye', 'o', 'sanki', 'şey', 'siz',
    'şu', 'tüm', 've', 'veya', 'ya', 'yani', 'ben', 'sen', 'o', 'biz', 'siz', 'onlar',
    'şimdi', 'zaten', 'artık', 'üzerine', 'olarak', 'ile', 'et', 'var', 'yok', 'mıydı', 'değil',
    'bile', 'herhangi', 'hangi', 'herkes', 'bazıları', 'bazılarıyla', 'ise', 'ya da',
    'içinde', 'üzerinde', 'altında', 'arasında', 'üstünde', 'sonra', 'önce', 'bir', 'birini',
    'birine', 'birisi', 'birisiyle', 'birlikte', 'bir şey', 'her şey', 'hiçbir şey',
    'hiç kimse', 'herkes', 'şimdi', 'önce', 'sonra', 'zaten', 'aslında', 'elbette'
]


In [24]:
vectorizer = TfidfVectorizer(
    stop_words=turkish_stopwords,
    ngram_range=(1, 2),
    max_df=0.9,
    min_df=1
)
X = vectorizer.fit_transform(df["text"])



In [26]:
vectorizer = TfidfVectorizer(
    stop_words=turkish_stopwords,
    ngram_range=(1, 2)  # Unigram + Bigram
)
X = vectorizer.fit_transform(df["text"])


In [30]:
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words=turkish_stopwords, ngram_range=(1, 2))),
    ('clf', MultinomialNB())
])

pipeline.fit(df["text"], y)

# Test cümlesi
test = ["Bugün yeni kararlar aldım ve kendimi geliştirmek istiyorum"]
pred = pipeline.predict(test)
print("Tahmin:", le.inverse_transform(pred)[0])


Tahmin: günlük yaşam




In [33]:
models = {
    "Naive Bayes": MultinomialNB(),
    "Lojistik Regresyon": LogisticRegression(max_iter=200),
    "Karar Ağacı": DecisionTreeClassifier()
}

for name, clf in models.items():
    pipe = Pipeline([
        ('tfidf', TfidfVectorizer(stop_words=turkish_stopwords, ngram_range=(1, 2))),
        ('clf', clf)
    ])
    scores = cross_val_score(pipe, df["text"], y, cv=5)
    print(f"{name}: Ortalama doğruluk: {scores.mean():.2f}")


Naive Bayes: Ortalama doğruluk: 0.43
Lojistik Regresyon: Ortalama doğruluk: 0.40
Karar Ağacı: Ortalama doğruluk: 0.33


In [35]:
from sklearn.model_selection import GridSearchCV

# Pipeline tanımı
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words=turkish_stopwords)),
    ('clf', MultinomialNB())
])

# Parametre aralığı
param_grid = {
    'tfidf__ngram_range': [(1,1), (1,2)],
    'tfidf__max_df': [0.75, 0.9, 1.0],
    'tfidf__min_df': [1, 2],
    'clf__alpha': [0.1, 1.0, 10.0]
}

# GridSearch başlat
grid_search = GridSearchCV(
    pipeline,
    param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)

grid_search.fit(df["text"], y)
print("En iyi doğruluk:", grid_search.best_score_)
print("En iyi parametreler:", grid_search.best_params_)



En iyi doğruluk: 0.4333333333333334
En iyi parametreler: {'clf__alpha': 0.1, 'tfidf__max_df': 0.75, 'tfidf__min_df': 1, 'tfidf__ngram_range': (1, 1)}


In [36]:
best_model = grid_search.best_estimator_

# Modeli ve LabelEncoder’ı kaydet
joblib.dump(best_model, "tfidf_tr_model.pkl")
joblib.dump(le, "label_encoder.pkl")

['label_encoder.pkl']

In [None]:
# Model ve etiket çözücü yeniden yüklenebilir
model = joblib.load("tfidf_tr_model.pkl")
label_encoder = joblib.load("label_encoder.pkl")

# Örnek tahmin
text = ["Bugün motivasyonum düştü ama tekrar plan yapacağım"]
pred = model.predict([text[0]])
print("Tahmin:", label_encoder.inverse_transform(pred)[0])
