In [1]:
!pip install transformers datasets

Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.2.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m10.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.9.0-py3-none-any.whl 

In [2]:
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
import pandas as pd
from sklearn.model_selection import train_test_split

In [8]:
# Veri setini yükle
dataset = load_dataset("nbertagnolli/counsel-chat")

Repo card metadata block was not found. Setting CardData to empty.


In [11]:
dataset.keys()

dict_keys(['train'])

In [12]:
# Eksik verileri temizle
def clean_data(dataset):
    # Pandas DataFrame'e dönüştür
    df = pd.DataFrame(dataset)

    # Eksik değerleri doldur
    df = df.dropna(subset=["questionText", "answerText"])  # Boş sorular ve cevaplar çıkarılır

    # Veriyi sadece gerekli kolonlarla sınırlı tut
    df = df[["questionText", "answerText"]]

    return df

# Veri setini temizle
train_df = clean_data(dataset["train"])

# Eğitim ve doğrulama setine ayır
train_texts, val_texts = train_test_split(
    train_df, test_size=0.1, random_state=42  # %10 doğrulama seti
)

# Eğitim ve doğrulama setlerini kontrol et
print(f"Eğitim seti boyutu: {len(train_texts)}")
print(f"Doğrulama seti boyutu: {len(val_texts)}")

Eğitim seti boyutu: 2350
Doğrulama seti boyutu: 262


In [14]:
from transformers import AutoTokenizer, AutoModelForCausalLM, TrainingArguments, Trainer
import torch

# DialoGPT model ve tokenizer'ı yükle
model_name = "microsoft/DialoGPT-medium"
tokenizer = AutoTokenizer.from_pretrained(model_name, padding_side="left")
model = AutoModelForCausalLM.from_pretrained(model_name)

In [15]:
# Pad token'ı ayarla
tokenizer.pad_token = tokenizer.eos_token

# Veriyi token haline getirme
def tokenize_data(data):
    inputs = tokenizer(
        data["questionText"].tolist(),
        max_length=128,
        truncation=True,
        padding="max_length",
        return_tensors="pt",
    )
    targets = tokenizer(
        data["answerText"].tolist(),
        max_length=128,
        truncation=True,
        padding="max_length",
        return_tensors="pt",
    )
    inputs["labels"] = targets["input_ids"]
    return inputs

# Eğitim ve doğrulama verilerini tokenleştir
train_encodings = tokenize_data(train_texts)
val_encodings = tokenize_data(val_texts)

In [16]:
# PyTorch Dataset sınıfı
class DialogueDataset(torch.utils.data.Dataset):
    def __init__(self, encodings):
        self.encodings = encodings

    def __len__(self):
        return len(self.encodings["input_ids"])

    def __getitem__(self, idx):
        return {key: tensor[idx] for key, tensor in self.encodings.items()}

# Dataset'leri oluştur
train_dataset = DialogueDataset(train_encodings)
val_dataset = DialogueDataset(val_encodings)

In [17]:
# Eğitim parametreleri
training_args = TrainingArguments(
    output_dir="./results",
    evaluation_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    save_total_limit=2,
    logging_dir="./logs",
    logging_steps=500,
    save_steps=500,
    save_strategy="epoch",
    report_to="none",
)



In [18]:
# Trainer nesnesini oluştur
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    tokenizer=tokenizer,
)

# Eğitimi başlat
trainer.train()

  trainer = Trainer(


Epoch,Training Loss,Validation Loss
1,No log,5.883747
2,6.085400,5.8197
3,6.085400,5.810968


TrainOutput(global_step=882, training_loss=6.003578514739229, metrics={'train_runtime': 888.2407, 'train_samples_per_second': 7.937, 'train_steps_per_second': 0.993, 'total_flos': 1636834974105600.0, 'train_loss': 6.003578514739229, 'epoch': 3.0})

In [19]:
# Modeli kaydet
model.save_pretrained("./counsel_chat_dialoGPT")
tokenizer.save_pretrained("./counsel_chat_dialoGPT")

print("Model eğitildi ve kaydedildi.")

Model eğitildi ve kaydedildi.


In [27]:
from transformers import AutoTokenizer, AutoModelForCausalLM

# Eğitilen modeli ve tokenizer'ı yükle
model_path = "./counsel_chat_dialoGPT"  # Modelin kaydedildiği yol
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path)

# Chatbot fonksiyonu
def chat_with_bot():
    print("Chatbot'a hoş geldiniz! Çıkmak için 'exit' yazabilirsiniz.")
    chat_history = ""

    max_history_length = 3  # Sohbet geçmişini sınırlamak için kullanılacak maksimum mesaj sayısı

    while True:
        # Kullanıcıdan giriş al
        user_input = input("Siz: ")

        # Çıkış komutunu kontrol et
        if user_input.lower() == "exit":
            print("Chatbot oturumu sonlandırıldı.")
            break

        # Sohbet geçmişini güncelle ve sınırla
        chat_history += f"User: {user_input}\nBot: "
        chat_history_list = chat_history.split(tokenizer.eos_token)
        if len(chat_history_list) > max_history_length:
            chat_history_list = chat_history_list[-max_history_length:]
        chat_history = tokenizer.eos_token.join(chat_history_list)

        # Girişi tokenleştir ve modelden yanıt al
        inputs = tokenizer.encode(chat_history + tokenizer.eos_token, return_tensors="pt", truncation=True)

        try:
            outputs = model.generate(
                inputs,
                max_length=150,
                temperature=1.2,  # Daha rastgele yanıtlar için sıcaklık artırıldı
                top_p=0.95,  # Top-p sampling
                top_k=50,    # Top-k sampling
                do_sample=True,  # Sampling etkinleştirildi
                repetition_penalty=1.2,  # Tekrarlı ifadeleri azaltır
                pad_token_id=tokenizer.eos_token_id,  # Padding token ayarlandı
            )

            # Yanıtı çözümle
            response = tokenizer.decode(outputs[:, inputs.shape[-1]:][0], skip_special_tokens=True)

            # Yanıt boşsa veya anlamlı değilse
            if not response.strip():
                response = "Bunu anlamadım, tekrar dener misiniz?"

            print(f"Chatbot: {response}")

            # Sohbet geçmişine bot yanıtını ekle
            chat_history += response + tokenizer.eos_token

        except Exception as e:
            print("Bir hata oluştu:", str(e))
            print("Lütfen girişinizi kontrol edin ve tekrar deneyin.")

# Chatbot'u başlat
chat_with_bot()


Chatbot'a hoş geldiniz! Çıkmak için 'exit' yazabilirsiniz.
Siz: hello
Chatbot:  the
Siz: i feel bad
Chatbot: Bunu anlamadım, tekrar dener misiniz?
Siz: how are you
Chatbot: ! do your a


KeyboardInterrupt: Interrupted by user