In [None]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [None]:
file_path = "/content/drive/MyDrive/YeniNlp/veri_seti.xlsx"


Kullanılan cihaz: cuda


compute_loss Fonksiyonu (MultiLabelTrainer sınıfında):

Bu fonksiyon, çok etiketli sınıflandırma (multi-label classification) için özel olarak tanımlanmıştır. Modelin çıkışı (logits) ile gerçek etiketler (labels) arasındaki farkı BCEWithLogitsLoss kullanarak hesaplar.

Eğer sınıf dengesizliği varsa, her sınıfa özel ağırlıklar (class weights) uygulanır. Böylece az örneğe sahip sınıflar model tarafından ihmal edilmez.


In [None]:
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from transformers import (
    AutoTokenizer,
    AutoModelForSequenceClassification,
    TrainingArguments,
    Trainer,
    EvalPrediction
)
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    f1_score,
    precision_recall_fscore_support,
    classification_report,
    hamming_loss,
    roc_auc_score
)
from sklearn.utils.class_weight import compute_class_weight
import warnings
warnings.filterwarnings('ignore')

# GPU kontrolü
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Kullanılan cihaz: {device}")

# ========== 1. VERİ YÜKLEME VE ÖN İŞLEME ==========

class ContentModerationDataset(Dataset):
    """Multi-label sınıflandırma için custom dataset"""
    def __init__(self, texts, labels, tokenizer, max_length=128):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        text = str(self.texts[idx])
        labels = self.labels[idx]

        encoding = self.tokenizer(
            text,
            truncation=True,
            padding='max_length',
            max_length=self.max_length,
            return_tensors='pt'
        )

        return {
            'input_ids': encoding['input_ids'].flatten(),
            'attention_mask': encoding['attention_mask'].flatten(),
            'labels': torch.FloatTensor(labels)
        }

def load_and_prepare_data(file_path):
    """Excel dosyasından veri yükleme ve hazırlama"""
    print("Veri yükleniyor...")
    df = pd.read_excel(file_path)

    # Metin ve etiket sütunlarını ayır
    text_column = 'Paylaşım'
    label_columns = ['Tespit', 'Küfür', 'Tehdit', 'Hakaret',
                     'Dolandırıcılık', 'Cinsel İçerik', 'Irkçılık']

    texts = df[text_column].values
    labels = df[label_columns].values

    # Veri istatistikleri
    print(f"\nToplam örnek sayısı: {len(texts)}")
    print("\nSınıf dağılımları:")
    for i, col in enumerate(label_columns):
        positive_ratio = labels[:, i].sum() / len(labels) * 100
        print(f"{col}: {labels[:, i].sum()} pozitif ({positive_ratio:.2f}%)")

    return texts, labels, label_columns

def calculate_class_weights(labels):
    """Dengesiz veri için class weight hesaplama"""
    class_weights = []
    for i in range(labels.shape[1]):
        # Her sınıf için pozitif/negatif oranına göre weight hesapla
        pos_weight = (labels.shape[0] - labels[:, i].sum()) / labels[:, i].sum()
        class_weights.append(pos_weight)
    return torch.FloatTensor(class_weights)

# ========== 2. MODEL HAZIRLAMA ==========

def setup_model_and_tokenizer(model_name="dbmdz/bert-base-turkish-cased", num_labels=7):   #Modelin num_labels=7 parametresi ile çoklu etiketli sınıflandırma yapması sağlandı.
    """Model ve tokenizer hazırlama"""
    print(f"\nModel yükleniyor: {model_name}")

    tokenizer = AutoTokenizer.from_pretrained(model_name)                   #Tokenizer, metni küçük parçalara (token) ayırarak her birine sayısal bir ID atar ve BERT gibi modeller bu sayısal ID’lerle çalışır.
    model = AutoModelForSequenceClassification.from_pretrained(
        model_name,
        num_labels=num_labels,
        problem_type="multi_label_classification"
    )

    model.to(device)
    return model, tokenizer

# ========== 3. CUSTOM TRAINER ==========

class MultiLabelTrainer(Trainer):
    """Class weight destekli custom trainer"""
    def __init__(self, class_weights=None, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.class_weights = class_weights

    def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch=None):
        labels = inputs.pop("labels")
        outputs = model(**inputs)
        logits = outputs.logits

        # Weighted BCE Loss
        if self.class_weights is not None:
            loss_fct = nn.BCEWithLogitsLoss(pos_weight=self.class_weights.to(self.args.device))
        else:
            loss_fct = nn.BCEWithLogitsLoss()

        loss = loss_fct(logits, labels)
        return (loss, outputs) if return_outputs else loss


Kullanılan cihaz: cuda


In [None]:
# ========== 4. EVALUATION METRICS ==========
def compute_metrics(eval_pred: EvalPrediction):
    """Multi-label metrikler hesaplama"""
    predictions = eval_pred.predictions
    labels = eval_pred.label_ids

    # Sigmoid uygula ve threshold (0.5)
    sigmoid = torch.nn.Sigmoid()
    probs = sigmoid(torch.Tensor(predictions))
    predictions = np.zeros(probs.shape)
    predictions[np.where(probs >= 0.5)] = 1

    # Metrikler
    macro_f1 = f1_score(labels, predictions, average='macro')
    micro_f1 = f1_score(labels, predictions, average='micro')
    hamming = hamming_loss(labels, predictions)

    # Per-class metrics
    precision, recall, f1, _ = precision_recall_fscore_support(
        labels, predictions, average=None
    )

    # ROC-AUC (eğer mümkünse)
    try:
        roc_auc = roc_auc_score(labels, probs, average='macro')
    except:
        roc_auc = 0.0

    return {
        'macro_f1': macro_f1,
        'micro_f1': micro_f1,
        'hamming_loss': hamming,
        'roc_auc': roc_auc,
        'per_class_f1': f1.tolist()
    }

# ========== 5. ANA EĞİTİM FONKSİYONU ==========
def train_model(
    train_texts, train_labels,
    val_texts, val_labels,
    label_columns,
    model_name="dbmdz/bert-base-turkish-cased",
    batch_size=16,
    num_epochs=3,
    learning_rate=2e-5,
    max_length=128,
    output_dir="./turkish_content_classifier"
):
    """Model eğitim ana fonksiyonu"""

    # Model ve tokenizer hazırla
    model, tokenizer = setup_model_and_tokenizer(model_name, len(label_columns))

    # Dataset oluştur
    train_dataset = ContentModerationDataset(train_texts, train_labels, tokenizer, max_length)
    val_dataset = ContentModerationDataset(val_texts, val_labels, tokenizer, max_length)

    # Class weights hesapla
    class_weights = calculate_class_weights(train_labels)
    print(f"\nClass weights: {class_weights.tolist()}")

    # Training arguments
    training_args = TrainingArguments(
        output_dir=output_dir,
        num_train_epochs=num_epochs,
        per_device_train_batch_size=batch_size,
        per_device_eval_batch_size=batch_size,
        learning_rate=learning_rate,
        warmup_steps=500,
        weight_decay=0.01,
        logging_dir=f'{output_dir}/logs',
        logging_steps=10,
        eval_strategy="epoch",
        save_strategy="epoch",
        load_best_model_at_end=True,
        metric_for_best_model="macro_f1",
        greater_is_better=True,
        save_total_limit=2,
        fp16=torch.cuda.is_available(),  # Mixed precision training
        dataloader_num_workers=2,
        remove_unused_columns=False,
    )

    # Trainer oluştur
    trainer = MultiLabelTrainer(
        class_weights=class_weights,
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        compute_metrics=compute_metrics,
    )

    # Eğitimi başlat
    print("\nEğitim başlıyor...")
    trainer.train()

    # En iyi modeli kaydet
    trainer.save_model(f"{output_dir}/best_model")
    tokenizer.save_pretrained(f"{output_dir}/best_model")

    return trainer, model, tokenizer

# ========== 6. TEST VE DEĞERLENDİRME ==========
def evaluate_model(model, tokenizer, test_texts, test_labels, label_columns, max_length=128):
    """Test seti üzerinde model değerlendirme"""
    print("\nModel test ediliyor...")

    test_dataset = ContentModerationDataset(test_texts, test_labels, tokenizer, max_length)
    test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

    model.eval()
    all_predictions = []
    all_labels = []

    with torch.no_grad():
        for batch in test_loader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels']

            outputs = model(input_ids=input_ids, attention_mask=attention_mask)
            predictions = torch.sigmoid(outputs.logits).cpu()

            all_predictions.extend(predictions.numpy())
            all_labels.extend(labels.numpy())

In [None]:
# ========== 4. DEĞERLENDİRME METRİKLERİ ==========
def compute_metrics(eval_pred: EvalPrediction):
    """Çok etiketli metrikleri hesaplama"""
    predictions = eval_pred.predictions
    labels = eval_pred.label_ids

    # Sigmoid uygula ve eşik değeri (0.5)
    sigmoid = torch.nn.Sigmoid()
    probs = sigmoid(torch.Tensor(predictions))
    predictions = np.zeros(probs.shape)
    predictions[np.where(probs >= 0.5)] = 1

    # Metrikler
    macro_f1 = f1_score(labels, predictions, average='macro')
    micro_f1 = f1_score(labels, predictions, average='micro')
    hamming = hamming_loss(labels, predictions)

    # Sınıf bazlı metrikler
    precision, recall, f1, _ = precision_recall_fscore_support(
        labels, predictions, average=None
    )

    # ROC-AUC (mümkünse)
    try:
        roc_auc = roc_auc_score(labels, probs, average='macro')
    except:
        roc_auc = 0.0 # Hata durumunda varsayılan değer

    return {
        'macro_f1': macro_f1,
        'micro_f1': micro_f1,
        'hamming_loss': hamming,
        'roc_auc': roc_auc,
        'per_class_f1': f1.tolist()
    }

# ========== 5. ANA EĞİTİM FONKSİYONU ==========
def train_model(
    train_texts, train_labels,
    val_texts, val_labels,
    label_columns,
    model_name="dbmdz/bert-base-turkish-cased",
    batch_size=16,
    num_epochs=3,
    learning_rate=2e-5,
    max_length=128,
    output_dir="./turkish_content_classifier"
):
    """Model eğitim ana fonksiyonu"""

    # Model ve tokenizer hazırla
    model, tokenizer = setup_model_and_tokenizer(model_name, len(label_columns))

    # Dataset oluştur
    train_dataset = ContentModerationDataset(train_texts, train_labels, tokenizer, max_length)
    val_dataset = ContentModerationDataset(val_texts, val_labels, tokenizer, max_length)

    # Sınıf ağırlıklarını hesapla
    class_weights = calculate_class_weights(train_labels)
    print(f"\nSınıf ağırlıkları: {class_weights.tolist()}")

    # Eğitim argümanları
    training_args = TrainingArguments(
        output_dir=output_dir,
        num_train_epochs=num_epochs,
        per_device_train_batch_size=batch_size,
        per_device_eval_batch_size=batch_size,
        learning_rate=learning_rate,
        warmup_steps=500,
        weight_decay=0.01,
        logging_dir=f'{output_dir}/logs',
        logging_steps=10,
        eval_strategy="epoch", # veya "steps", "no"
        save_strategy="epoch", # veya "steps", "no"
        load_best_model_at_end=True,
        metric_for_best_model="macro_f1",
        greater_is_better=True,
        save_total_limit=2, # Sadece en iyi N modeli kaydet
        fp16=torch.cuda.is_available(),  # Mixed precision training (varsa)
        dataloader_num_workers=2, # Veri yükleme için worker sayısı
        remove_unused_columns=False, # Dataset'ten kullanılmayan sütunları kaldırma
    )

    # Trainer oluştur
    trainer = MultiLabelTrainer(
        class_weights=class_weights,
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=val_dataset,
        compute_metrics=compute_metrics,
    )

    # Eğitimi başlat
    print("\nEğitim başlıyor...")
    trainer.train()

    # En iyi modeli kaydet
    trainer.save_model(f"{output_dir}/best_model")
    tokenizer.save_pretrained(f"{output_dir}/best_model")

    return trainer, model, tokenizer

# ========== 6. TEST VE DEĞERLENDİRME ==========
def evaluate_model(model, tokenizer, test_texts, test_labels, label_columns, max_length=128):
    """Test seti üzerinde model değerlendirme"""
    print("\nModel test ediliyor...")

    test_dataset = ContentModerationDataset(test_texts, test_labels, tokenizer, max_length)
    test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

    model.eval() # Modeli değerlendirme moduna al
    all_predictions = []
    all_labels = []

    with torch.no_grad(): # Gradyan hesaplamayı kapat
        for batch in test_loader:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'] # Etiketleri CPU'da bırak

            outputs = model(input_ids=input_ids, attention_mask=attention_mask)
            predictions = torch.sigmoid(outputs.logits).cpu() # Tahminleri CPU'ya taşı ve sigmoid uygula

            all_predictions.extend(predictions.numpy())
            all_labels.extend(labels.numpy()) # Etiketleri numpy'a çevir

    # İkinci hücreden taşınan kod, doğru girinti ile bu fonksiyonun içine eklendi
    all_predictions = np.array(all_predictions)
    all_labels = np.array(all_labels)

    # Eşik değeri optimizasyonu (isteğe bağlı)
    best_thresholds = []
    for i in range(len(label_columns)):
        best_threshold = 0.5 # Başlangıç eşiği
        best_f1 = 0 # Başlangıç F1 skoru

        for threshold in np.arange(0.1, 0.9, 0.05): # Farklı eşik değerlerini dene
            preds = (all_predictions[:, i] >= threshold).astype(int) # Belirli eşiğe göre tahminleri ikili yap
            f1 = f1_score(all_labels[:, i], preds) # F1 skorunu hesapla
            if f1 > best_f1: # Daha iyi bir F1 skoru bulduysak güncelle
                best_f1 = f1
                best_threshold = threshold

        best_thresholds.append(best_threshold) # En iyi eşiği kaydet

    print(f"\nOptimal eşik değerleri: {best_thresholds}")

    # Optimize edilmiş eşik değerleri ile nihai tahminler
    final_predictions = np.zeros_like(all_predictions)
    for i in range(len(label_columns)):
        final_predictions[:, i] = (all_predictions[:, i] >= best_thresholds[i]).astype(int)

    # Detaylı rapor
    print("\n========== TEST SONUÇLARI ==========")
    print(f"Macro F1: {f1_score(all_labels, final_predictions, average='macro'):.4f}")
    print(f"Micro F1: {f1_score(all_labels, final_predictions, average='micro'):.4f}")
    print(f"Hamming Loss: {hamming_loss(all_labels, final_predictions):.4f}")

    print("\nSınıf bazlı sonuçlar:")
    for i, label in enumerate(label_columns):
        precision, recall, f1, _ = precision_recall_fscore_support(
            all_labels[:, i], final_predictions[:, i], average='binary'
        )
        print(f"\n{label}:")
        print(f"  Precision: {precision:.4f}")
        print(f"  Recall: {recall:.4f}")
        print(f"  F1-Score: {f1:.4f}")

    return best_thresholds

# ========== 7. TAHMİN FONKSİYONU ==========
def predict_text(text, model, tokenizer, label_columns, thresholds=None):
    """Tek bir metin için tahmin"""
    if thresholds is None:
        thresholds = [0.5] * len(label_columns) # Eşik değerleri belirtilmemişse varsayılan 0.5 kullan

    model.eval() # Modeli değerlendirme moduna al

    # Tokenize et
    inputs = tokenizer(
        text,
        truncation=True,
        padding='max_length',
        max_length=128, # Eğitim sırasında kullanılan max_length ile aynı
        return_tensors='pt'
    ).to(device) # Girişleri cihaza (GPU/CPU) taşı

    # Tahmin yap
    with torch.no_grad(): # Gradyan hesaplamayı kapat
        outputs = model(**inputs)
        predictions = torch.sigmoid(outputs.logits).cpu().numpy()[0] # Çıktılara sigmoid uygula, CPU'ya taşı ve numpy'a çevir

    # Sonuçları yorumla
    results = {}
    for i, (label, threshold) in enumerate(zip(label_columns, thresholds)):
        results[label] = {
            'prediction': int(predictions[i] >= threshold), # Eşik değerine göre ikili tahmin (0 veya 1)
            'confidence': float(predictions[i]) # Olasılık değeri (güven)
        }

    return results

# ========== 8. ANA ÇALIŞTIRMA KODU ==========
# __name__ == "__main__" bloğu, normalde bir betiğin en son yürütülebilir kısmı olmalıdır,
# ancak bir notebook'ta ana yürütme akışını başlatmak istediğiniz yere koyabilirsiniz.
if __name__ == "__main__": # __name__ değişkenini düzeltme
    # Veri yükle
    # 'veri_seti.xlsx' dosyasının erişilebilir olduğundan emin olun, örneğin Google Drive'dan bağlanmış olmalı
    texts, labels, label_columns = load_and_prepare_data('/content/drive/MyDrive/YeniNlp/veri_seti.xlsx') # file_path değişkenini kullanma

    # Train/val/test split
    # Stratify'nin, pozitif örneği olmayan sütunlar için tek bir sütun üzerinde yapıldığından emin olun.
    # labels[:, 0] kullanmak, ilk etiket sütununun ('Tespit') stratifikasyon için uygun olduğunu varsayar.
    X_temp, X_test, y_temp, y_test = train_test_split(
        texts, labels, test_size=0.15, random_state=42, stratify=labels[:, 0]
    )

    # Doğrulama setini eğitim setinden ayır
    X_train, X_val, y_train, y_val = train_test_split(
        X_temp, y_temp, test_size=0.176, random_state=42, stratify=y_temp[:, 0] # 0.15 / (1 - 0.15) ≈ 0.176
    )

    print(f"\nVeri bölünmesi:")
    print(f"Eğitim: {len(X_train)} örnek")
    print(f"Doğrulama: {len(X_val)} örnek")
    print(f"Test: {len(X_test)} örnek")

    # Model eğit
    trainer, model, tokenizer = train_model(
        X_train, y_train,
        X_val, y_val,
        label_columns,
        model_name="dbmdz/bert-base-turkish-cased",  # veya "loodos/bert-base-turkish-uncased"
        batch_size=16,
        num_epochs=3,
        learning_rate=2e-5,
        max_length=128
    )

    # Test et ve optimal eşik değerlerini bul
    best_thresholds = evaluate_model(model, tokenizer, X_test, y_test, label_columns)

    # Örnek tahmin
    print("\n========== ÖRNEK TAHMİNLER ==========")
    test_texts = [
        "Bu ürün harika, herkese tavsiye ederim!",
        "Seni tehdit ediyorum, dikkatli ol!",
        "Kredi kartı bilgilerinizi gönderin, hediye kazanın!"
    ]

    for text in test_texts:
        print(f"\nMetin: {text}")
        results = predict_text(text, model, tokenizer, label_columns, best_thresholds)
        for label, result in results.items():
            if result['prediction'] == 1:
                # Güven oranını yüzde formatında yazdırma
                print(f"  ✓ {label}: {result['confidence']:.2%}")



Veri yükleniyor...

Toplam örnek sayısı: 9999

Sınıf dağılımları:
Tespit: 4731 pozitif (47.31%)
Küfür: 2015 pozitif (20.15%)
Tehdit: 339 pozitif (3.39%)
Hakaret: 2357 pozitif (23.57%)
Dolandırıcılık: 501 pozitif (5.01%)
Cinsel İçerik: 798 pozitif (7.98%)
Irkçılık: 647 pozitif (6.47%)

Veri bölünmesi:
Eğitim: 7003 örnek
Doğrulama: 1496 örnek
Test: 1500 örnek

Model yükleniyor: dbmdz/bert-base-turkish-cased


Some weights of BertForSequenceClassification were not initialized from the model checkpoint at dbmdz/bert-base-turkish-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.



Sınıf ağırlıkları: [1.1137940883636475, 3.9247539043426514, 28.54852294921875, 3.2727272510528564, 18.726760864257812, 11.372791290283203, 14.666666984558105]

Eğitim başlıyor...


Epoch,Training Loss,Validation Loss,Macro F1,Micro F1,Hamming Loss,Roc Auc,Per Class F1,Runtime,Samples Per Second,Steps Per Second
1,0.3768,0.384067,0.707551,0.743005,0.104374,0.966207,"[0.906721536351166, 0.7459727385377943, 0.5157232704402516, 0.7324613555291319, 1.0, 0.3712784588441331, 0.6807017543859649]",2.9814,501.778,31.529
2,0.3655,0.242458,0.842089,0.853672,0.051757,0.980522,"[0.9304964539007092, 0.8700729927007299, 0.7924528301886793, 0.7666263603385731, 1.0, 0.64, 0.8949771689497716]",2.9465,507.726,31.903
3,0.1656,0.236864,0.86692,0.874132,0.043258,0.980923,"[0.9298998569384835, 0.8766328011611031, 0.8118811881188119, 0.7924528301886793, 1.0, 0.7575757575757576, 0.9]",2.9499,507.134,31.865


Trainer is attempting to log a value of "[0.906721536351166, 0.7459727385377943, 0.5157232704402516, 0.7324613555291319, 1.0, 0.3712784588441331, 0.6807017543859649]" of type <class 'list'> for key "eval/per_class_f1" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.
Trainer is attempting to log a value of "[0.9304964539007092, 0.8700729927007299, 0.7924528301886793, 0.7666263603385731, 1.0, 0.64, 0.8949771689497716]" of type <class 'list'> for key "eval/per_class_f1" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.
Trainer is attempting to log a value of "[0.9298998569384835, 0.8766328011611031, 0.8118811881188119, 0.7924528301886793, 1.0, 0.7575757575757576, 0.9]" of type <class 'list'> for key "eval/per_class_f1" as a scalar. This invocation of Tensorboard's writer.add_scalar() is incorrect so we dropped this attribute.



Model test ediliyor...

Optimal eşik değerleri: [np.float64(0.25000000000000006), np.float64(0.8500000000000002), np.float64(0.8500000000000002), np.float64(0.8000000000000002), np.float64(0.20000000000000004), np.float64(0.8500000000000002), np.float64(0.8000000000000002)]

Macro F1: 0.8970
Micro F1: 0.8953
Hamming Loss: 0.0340

Sınıf bazlı sonuçlar:

Tespit:
  Precision: 0.9102
  Recall: 0.9563
  F1-Score: 0.9327

Küfür:
  Precision: 0.8723
  Recall: 0.8566
  F1-Score: 0.8644

Tehdit:
  Precision: 0.8852
  Recall: 0.9153
  F1-Score: 0.9000

Hakaret:
  Precision: 0.8630
  Recall: 0.8110
  F1-Score: 0.8362

Dolandırıcılık:
  Precision: 1.0000
  Recall: 0.9875
  F1-Score: 0.9937

Cinsel İçerik:
  Precision: 0.8036
  Recall: 0.7759
  F1-Score: 0.7895

Irkçılık:
  Precision: 0.9890
  Recall: 0.9375
  F1-Score: 0.9626


Metin: Bu ürün harika, herkese tavsiye ederim!
  ✓ Tespit: 97.91%

Metin: Seni tehdit ediyorum, dikkatli ol!
  ✓ Tehdit: 99.05%

Metin: Kredi kartı bilgilerinizi gönderin,

In [None]:
# ========== 9. KAYDEDİLMİŞ MODELİ YÜKLEME VE KULLANMA ==========

def load_model_and_tokenizer(model_path, device):
    """Kaydedilmiş modeli ve tokenizer'ı yükleme"""
    print(f"\nModel yükleniyor: {model_path}")
    # Tokenizer'ı yükle
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    # Modeli yükle
    model = AutoModelForSequenceClassification.from_pretrained(model_path)
    model.to(device)
    return model, tokenizer

# Örneğin, ana çalıştırma bloğunuzun sonuna ekleyebilirsiniz
if __name__ == "__main__":
    # ... (önceki veri yükleme ve eğitim kodları) ...

    # Model eğitildikten ve kaydedildikten sonra
    output_directory = "./turkish_content_classifier" # train_model fonksiyonunda kullanılan output_dir ile aynı
    saved_model_path = f"{output_directory}/best_model" # Kaydedilen modelin tam yolu

    # Kaydedilmiş modeli ve tokenizer'ı yükle
    loaded_model, loaded_tokenizer = load_model_and_tokenizer(saved_model_path, device)

    # Yüklenen model ile örnek tahmin yapma (isteğe bağlı)
    print("\n========== YÜKLENEN MODEL İLE ÖRNEK TAHMİNLER ==========")
    test_texts_loaded = [
        "Yeni yüklenen modelle test metni 1",
        "Yeni yüklenen modelle test metni 2"
    ]
    # Best thresholds değerlerini evaluate_model fonksiyonundan almanız veya kaydetmeniz gerekir.
    # Basitlik için burada varsayılan 0.5 kullanıldı veya evaluate_model'den dönen değeri kullanın.
    # best_thresholds = evaluate_model(model, tokenizer, X_test, y_test, label_columns) # Daha önce çalıştırıldıysa bu değeri kullanın

    for text in test_texts_loaded:
        print(f"\nMetin (Yüklendi): {text}")
        # predict_text fonksiyonunu yüklenen model ve tokenizer ile kullanın
        results_loaded = predict_text(text, loaded_model, loaded_tokenizer, label_columns, best_thresholds if 'best_thresholds' in locals() else None)
        for label, result in results_loaded.items():
            if result['prediction'] == 1:
                print(f"  ✓ {label}: {result['confidence']:.2%}")


Model yükleniyor: ./turkish_content_classifier/best_model


Metin (Yüklendi): Yeni yüklenen modelle test metni 1
  ✓ Tespit: 97.40%

Metin (Yüklendi): Yeni yüklenen modelle test metni 2
  ✓ Tespit: 97.44%


In [None]:
import matplotlib.pyplot as plt

def plot_training_metrics(trainer):
    log_history = trainer.state.log_history

    train_loss = []
    eval_loss = []
    eval_macro_f1 = []

    epochs = []

    for entry in log_history:
        if 'loss' in entry and 'epoch' in entry:
            train_loss.append(entry['loss'])
            epochs.append(entry['epoch'])
        if 'eval_loss' in entry:
            eval_loss.append(entry['eval_loss'])
        if 'eval_macro_f1' in entry:
            eval_macro_f1.append(entry['eval_macro_f1'])

    plt.figure(figsize=(12, 5))

    # Kayıp grafiği
    plt.subplot(1, 2, 1)
    plt.plot(epochs, train_loss, label='Training Loss')
    # eval_loss bazen farklı sayıda olabilir, onu epoch ile eşleştirmek gerekebilir
    plt.plot(range(1, len(eval_loss)+1), eval_loss, label='Validation Loss')
    plt.xlabel('Epoch')
    plt.ylabel('Loss')
    plt.title('Training vs Validation Loss')
    plt.legend()

    # Metrik grafiği (Macro F1)
    plt.subplot(1, 2, 2)
    plt.plot(range(1, len(eval_macro_f1)+1), eval_macro_f1, label='Validation Macro F1')
    plt.xlabel('Epoch')
    plt.ylabel('Macro F1 Score')
    plt.title('Validation Macro F1 Score')
    plt.legend()

    plt.show()
