### Hücre 1: Gerekli Kütüphanelerin Kurulumu (Kararlı Bir Ortam Hedefleyerek)

**Amaç:**
Bu hücrenin temel amacı, BERTopic modeli ile konu modellemesi yapabilmek ve özellikle `gensim` kütüphanesinin gerektirdiği konu tutarlılığı metriklerini hesaplayabilmek için gerekli olan Python kütüphanelerini Google Colab ortamına kurmaktır. Ana hedef, daha önceki denemelerde karşılaşılan ABI (Application Binary Interface) uyumsuzluklarını (özellikle `numpy.dtype size changed` hatası) önleyecek, NumPy, Pandas, SciPy gibi temel sayısal kütüphaneler ile `gensim` ve `bertopic` arasında stabil bir çalışma ortamı oluşturmaktır.

**Yapılacak İşlemler:**
1.  **Çalışma Zamanını Sıfırlama (Önerilir):** Kuruluma başlamadan önce, Colab çalışma zamanının "Çalışma Zamanı" -> "Çalışma zamanı bağlantısını kes ve sil" yoluyla sıfırlanması önerilir. Bu, temiz bir başlangıç sağlar.
2.  **Temel Sayısal Kütüphanelerin Kurulumu:** `pip install -q` komutu kullanılarak, önceki başarılı çalışmalarda kullanılan "altın standart" olarak kabul edilebilecek sürümler hedeflenerek aşağıdaki kütüphaneler kurulur:
    * **NumPy:** `1.26.4` sürümü.
    * **Pandas:** `2.2.2` sürümü.
    * **SciPy:** Belirli bir sürüm belirtilmeden (pip'in NumPy/Pandas ile uyumlu olanı seçmesi beklenir).
3.  **BERTopic ve Temel Bağımlılıklarının Kurulumu:** `bertopic`, `gensim` ve `nltk` kütüphaneleri birlikte kurulur. Bu adım, konu modellemesi ve metin işleme için gerekli temel araçları sağlar.
4.  **Hugging Face Kütüphanelerinin Kurulumu:** Makine öğrenimi modelleri ve veri kümeleri için yaygın olarak kullanılan `datasets` ve `transformers` kütüphaneleri, uyumlulukları bilinen sürümlerle kurulur:
    * **Datasets:** `3.6.0` sürümü.
    * **Transformers:** `4.48.3` sürümü.
5.  **Diğer Yardımcı Kütüphanelerin Kurulumu:** Veri işleme, makine öğrenimi ve görselleştirme için sıkça kullanılan `scikit-learn`, `matplotlib` ve `seaborn` kütüphaneleri kurulur.

**Beklenen Sonuç:**
Belirtilen kütüphane versiyonları Colab ortamına kurulacaktır. Kurulum sırasında, Colab'ın kendi içinde bulunan diğer paketlerle (örneğin `thinc`, `tsfresh`, `gcsfs`) ilgili bazı bağımlılık uyarıları görülebilir. Ancak temel hedefimiz, BERTopic ve `gensim`'in, özellikle NumPy ve SciPy gibi temel bağımlılıklarıyla uyumlu bir şekilde çalışmasını sağlamaktır.

**Çok Önemli Sonraki Adım:**
Bu hücrenin çalışması tamamlandıktan sonra, **Colab çalışma zamanını KESİNLİKLE yeniden başlatmanız gerekmektedir** ("Çalışma Zamanı" -> "Çalışma zamanını yeniden başlat" veya "Runtime" -> "Restart runtime"). Bu işlem, yapılan tüm kurulumların doğru bir şekilde etkinleşmesi için kritik öneme sahiptir. Yeniden başlattıktan sonra bu Hücre 1'i **tekrar çalıştırmayın** ve doğrudan Hücre 2'ye (Kütüphane Importları) geçin.

In [None]:
# Hücre 1: BERTopic için Gerekli Kütüphanelerin Kurulumu ("Altın Standart" Ortam Hedefi)
# Bu hücreyi, "Çalışma zamanını sıfırla" (Disconnect and delete runtime) işlemi sonrası TEMİZ BİR OTURUMDA çalıştırın.

print("BERTopic projesi için kütüphaneler, 'altın standart' versiyonlar hedeflenerek kuruluyor...")

# 1. Temel sayısal kütüphaneleri, önceki başarılı ortamlardaki versiyonlara sabitleyelim.
!pip install -q numpy==1.26.4
print("NumPy 1.26.4 kurulumu denendi.")

!pip install -q pandas==2.2.2
print("Pandas 2.2.2 kurulumu denendi.")

!pip install -q scipy
print("SciPy kurulumu/güncellemesi denendi.")

# 2. BERTopic ve ana bağımlılıklarını (gensim, nltk dahil) kuralım
!pip install -q bertopic gensim nltk
print("BERTopic, Gensim ve NLTK (ve temel bağımlılıkları) kurulumu/güncellemesi denendi.")

# 3. Hugging Face kütüphanelerini (belirlenen versiyonlar) kuralım
!pip install -q datasets==3.6.0
print("Datasets 3.6.0 kurulumu denendi.")
!pip install -q transformers==4.48.3
print("Transformers 4.48.3 kurulumu denendi.")

# 4. Diğer yardımcı kütüphaneler
!pip install -q scikit-learn matplotlib seaborn
print("Scikit-learn, Matplotlib, Seaborn kurulumu/güncellemesi denendi.")

print("\nKütüphane kurulumları (Hücre 1) tamamlandı.")
print("!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!")
print("!!! LÜTFEN ŞİMDİ Colab Çalışma Zamanını ('Runtime' -> 'Restart runtime')   !!!")
print("!!! KESİNLİKLE YENİDEN BAŞLATIN. Bu, kurulumların etkinleşmesi için gereklidir.!!!")
print("!!! Yeniden başlattıktan sonra bu Hücre 1'i TEKRAR ÇALIŞTIRMAYIN,          !!!")
print("!!! doğrudan Hücre 2'ye (Kütüphane Importları) geçin.                     !!!")
print("!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!")

### Hücre 2 (BERTopic): Tüm Kütüphanelerin Import Edilmesi ve Son Ortam Kontrolü

* **Amaç:**
    Hücre 1'deki kurulumlar ve ardından yapılan zorunlu çalışma zamanı yeniden başlatmasından sonra, BERTopic projesi için gerekli tüm kütüphanelerin Python ortamına hatasız bir şekilde dahil edildiğini teyit etmek. Kullanılan tüm ana kütüphanelerin nihai versiyonlarını belgelemek ve GPU gibi donanım kaynaklarının durumunu kontrol etmek.

* **Yapılan İşlemler:**
    1.  BERTopic projesi için gerekli tüm ana kütüphaneler ve modüller (`bertopic`, `gensim`, `nltk`, `transformers`, `datasets`, `torch`, `numpy`, `pandas`, `sklearn`, `umap`, `hdbscan`, `sentence_transformers` vb.) `import` edilir.
    2.  `nltk` için `punkt` (tokenizer için) ve `stopwords` kaynaklarının indirilmesi (eğer daha önce indirilmemişse) sağlanır.
    3.  GPU varlığı kontrol edilir ve `device` ayarlanır.
    4.  İmport edilen ana kütüphanelerin versiyonları ekrana yazdırılır.
    5.  Kullanılacak cihaz ve GPU detayları gösterilir.

* **Uygulama Detayları/Sonuçlar:**
    * Tüm import işlemlerinin (özellikle `import bertopic` ve `import gensim`'in tetiklediği `pandas` ve `numpy` importları) **hatasız** bir şekilde tamamlanması. En son başarılı çalıştırmada, bu kurulum stratejisiyle `numpy.dtype size changed` hatasının **alınmadığı** görülmüştür.
    * Kütüphane versiyonları listelenir (BERTopic 0.17.0, NumPy 1.26.4, Pandas 2.2.2, SciPy 1.13.1, Gensim 4.3.3 vb.).
    * Çalışma ortamının BERTopic ile konu modellemesi ve metrik hesaplamaları için tamamen hazır olduğu doğrulanır.
    

In [None]:
# Hücre 2: Tüm Kütüphanelerin Import Edilmesi ve Son Ortam Kontrolü
# Bu hücreyi, Hücre 1'deki kurulumlardan ve ardından ÇALIŞMA ZAMANINI YENİDEN BAŞLATTIKTAN SONRA çalıştırın.

print("BERTopic projesi için tüm kütüphaneler import ediliyor ve versiyonlar kontrol ediliyor...")
error_during_final_imports = False
try:
    import bertopic
    from bertopic import BERTopic # BERTopic sınıfını import et
    from bertopic.representation import KeyBERTInspired # Hücre 4'te kullanılacak
    import transformers
    import datasets
    import torch
    import numpy as np
    import pandas as pd
    import scipy # Gensim ve diğerleri tarafından kullanılabilir
    import sklearn
    import matplotlib
    import matplotlib.pyplot as plt
    import seaborn as sns
    import sys
    import time
    import umap
    import hdbscan
    import sentence_transformers
    import gensim
    from gensim.models.coherencemodel import CoherenceModel
    from gensim.corpora.dictionary import Dictionary
    import nltk
    from nltk.tokenize import word_tokenize
    from sklearn.datasets import fetch_20newsgroups # Hücre 3'te kullanılacak
    from sklearn.feature_extraction.text import CountVectorizer # Hücre 4'te kullanılacak
    from itertools import combinations # Hücre 5'te Jaccard için

    print("\nAna kütüphaneler başarıyla import edildi.")

    print("-" * 50)
    print("KULLANILAN NİHAİ KÜTÜPHANE VERSİYONLARI:")
    print(f"  Python Versiyonu (sys.version): {sys.version.split()[0]}")
    if hasattr(bertopic, '__version__'): print(f"  BERTopic: {bertopic.__version__}")
    else: print("  BERTopic: Import edildi (versiyon özelliği yok).")
    print(f"  PyTorch: {torch.__version__}")
    print(f"  Transformers: {transformers.__version__}")
    print(f"  Datasets: {datasets.__version__}")
    print(f"  Numpy: {np.__version__}")
    print(f"  Pandas: {pd.__version__}")
    print(f"  SciPy: {scipy.__version__}")
    if hasattr(sklearn, '__version__'): print(f"  Scikit-learn: {sklearn.__version__}")
    if hasattr(matplotlib, '__version__'): print(f"  Matplotlib: {matplotlib.__version__}")
    if hasattr(sns, '__version__'): print(f"  Seaborn: {sns.__version__}")

    if hasattr(umap, '__version__'): print(f"  UMAP-learn: {umap.__version__}")
    elif umap: print("  UMAP: Import edildi (versiyon özelliği yok).")
    else: print("  UMAP: Import edilemedi.")

    if hasattr(hdbscan, '__version__'): print(f"  HDBSCAN: {hdbscan.__version__}")
    elif hdbscan: print("  HDBSCAN: Import edildi (versiyon özelliği yok veya alınamadı).")
    else: print("  HDBSCAN: Import edilemedi.")

    if hasattr(sentence_transformers, '__version__'):
        print(f"  SentenceTransformers: {sentence_transformers.__version__}")
    elif sentence_transformers: print("  SentenceTransformers: Import edildi (versiyon özelliği yok).")
    else: print("  SentenceTransformers: Import edilemedi.")

    if hasattr(gensim, '__version__'): print(f"  Gensim: {gensim.__version__}")
    elif gensim: print("  Gensim: Import edildi (versiyon özelliği yok).")
    else: print("  Gensim: Import edilemedi.")

    if hasattr(nltk, '__version__'): print(f"  NLTK: {nltk.__version__}")
    elif nltk: print("  NLTK: Import edildi (versiyon özelliği yok).")
    else: print("  NLTK: Import edilemedi.")

    print("-" * 50)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    print(f"KULLANILACAK CİHAZ (PyTorch için): {device}")
    if device.type == 'cuda':
        print(f"  CUDA Versiyonu (torch.version.cuda): {torch.version.cuda}")
        print(f"  cuDNN Versiyonu (torch.backends.cudnn.version()): {torch.backends.cudnn.version()}")
    print("-" * 50)

    print("\n--- NLTK Kaynakları Kontrol Ediliyor/İndiriliyor ---")
    try:
        _ = word_tokenize("Test.") # Test etmek için çağır
        print("NLTK 'punkt' tokenizer zaten çalışır durumda veya indirildi.")
    except LookupError:
        print("NLTK 'punkt' indiriliyor...")
        nltk.download('punkt', quiet=True)
        print("NLTK 'punkt' indirildi.")
    try:
        nltk.data.find('corpora/stopwords')
        print("NLTK stopwords zaten mevcut.")
    except LookupError:
        print("NLTK stopwords indiriliyor...")
        nltk.download('stopwords', quiet=True)
        print("NLTK stopwords indirildi.")


except Exception as e_final_import:
    print(f"\n!!! HATA: Nihai kütüphane importları sırasında bir sorun oluştu: {e_final_import}")
    import traceback
    print(traceback.format_exc())
    error_during_final_imports = True

if not error_during_final_imports:
    print("\nTüm kütüphaneler başarıyla import edildi ve ortam BERTopic için HAZIR!")
else:
    print("\nNihai import kontrolünde sorunlar yaşandı. Lütfen yukarıdaki hata mesajlarını inceleyin.")

### Hücre 3 (BERTopic): Veri Yükleme ve Hazırlık (20 Newsgroups)

* **Amaç:**
    BERTopic ile konu modellemesi yapmak üzere "20 Newsgroups" veri setini `scikit-learn` kütüphanesi aracılığıyla yüklemek ve modelin girdi olarak bekleyeceği metin dokümanları listesini hazırlamak.

* **Yapılan İşlemler:**
    1.  `sklearn.datasets.fetch_20newsgroups` fonksiyonu, `subset='all'` (tüm veri setini kullanmak için) ve `remove=('headers', 'footers', 'quotes')` (metinlerden başlık, alt bilgi ve alıntıları çıkarmak için) parametreleriyle çağrılarak veri seti yüklenir. Ayrıca, sonuçların tekrarlanabilirliği için `shuffle=True` ve `random_state=42` kullanılır.
    2.  Yüklenen veri setinden metin dokümanları (`newsgroups_data.data`) `documents_ng` adlı bir Python listesine alınır.
    3.  Orijinal kategori etiketleri (`newsgroups_data.target`) ve kategori isimleri (`newsgroups_data.target_names`) de ileride değerlendirme veya analiz için saklanır.
    4.  Bu örnekte zaman damgası verisi kullanılmayacağı için `timestamps_ng` değişkeni `None` olarak ayarlanır.
    5.  Toplam doküman sayısı ve ilk dokümandan bir örnek (orijinal kategorisiyle birlikte) ekrana yazdırılır.

* **Uygulama Detayları/Sonuçlar:**
    * 20 Newsgroups veri setinin (yaklaşık 18,846 doküman) başarıyla yüklenmesi beklenir.
    * `documents_ng` listesi, konu modellemesi için kullanılacak, belirli meta verilerden arındırılmış metin dokümanlarını içerecektir.
    * Örnek dokümanların ve kategorilerinin gösterilmesi, yüklenen veri hakkında genel bir fikir edinilmesini sağlar.

In [None]:
# Hücre 3: Veri Yükleme ve Hazırlık
print("20 Newsgroups veri seti yükleniyor...")
# fetch_20newsgroups ve time Hücre 2'de import edilmişti.
# documents_ng'yi global kapsamda tanımlıyoruz ki sonraki hücrelerde de kullanılabilsin.
global documents_ng, targets_ng, target_names_ng, timestamps_ng

# sklearn.datasets'den fetch_20newsgroups fonksiyonunu kullanarak veri setini indiriyoruz.
# 'all' subset'i tüm veriyi alır.
# 'remove' parametresi ile metinlerden başlık, altbilgi ve alıntıları çıkarıyoruz.
# shuffle=True veriyi karıştırır, random_state tekrarlanabilirlik için kullanılır.
newsgroups_data = fetch_20newsgroups(subset='all',
                                     remove=('headers', 'footers', 'quotes'),
                                     shuffle=True,
                                     random_state=42)

documents_ng = newsgroups_data.data
targets_ng = newsgroups_data.target
target_names_ng = newsgroups_data.target_names

# Bu veri setinde belirli zaman damgaları kullanmayacağımız için None olarak ayarlıyoruz.
# BERTopic zaman damgalarını kullanarak zamana bağlı konu modellemesi yapabilir, ancak bu örnekte bu özelliği kullanmayacağız.
timestamps_ng = None

print(f"{len(documents_ng)} doküman yüklendi.")
print("İlk dokümanın bir kısmı (ilk 500 karakter):")
# İlk dokümanın içeriğinden bir kesit ve orijinal kategorisini gösteriyoruz.
print(documents_ng[0][:500].replace('\n', ' ').strip() + "...")
print(f"  Orijinal Kategori: {target_names_ng[targets_ng[0]]} (ID: {targets_ng[0]})")
print("\nVeri seti yükleme ve temel hazırlık (Hücre 3) tamamlandı.")

### Hücre 4 (BERTopic): BERTopic Modelinin Oluşturulması, Eğitilmesi ve Konu Temsillerinin Güncellenmesi

* **Amaç:**
    Hazırlanan `documents_ng` metin dokümanları üzerinde BERTopic kullanarak konu modellemesi yapmak. Konu temsillerini `KeyBERTInspired` ile iyileştirerek daha anlamlı ve yorumlanabilir anahtar kelimeler elde etmek.

* **Yapılan İşlemler:**
    1.  **`CountVectorizer` Tanımlama:** İngilizce için standart stop-word listesini kullanan, kelimelerin en az 5 dokümanda geçmesini (`min_df=5`) ve hem tekil kelimeleri hem de iki kelimelik sıralı grupları (bigram'lar, `ngram_range=(1, 2)`) dikkate alan bir `CountVectorizer` oluşturulur. Bu, konuların kelime temsillerini oluşturmak için kullanılır.
    2.  **BERTopic Modeli Başlatma:**
        * `embedding_model="all-MiniLM-L6-v2"`: Metinleri vektörlere dönüştürmek için kullanılacak olan önceden eğitilmiş bir Sentence Transformer modeli.
        * `vectorizer_model`: Bir önceki adımda tanımlanan `CountVectorizer`.
        * `nr_topics=30`: Modelin bulmasını istediğimiz yaklaşık konu sayısı. BERTopic bu sayıyı bir hedef olarak kullanır ve sonuçta biraz farklı sayıda konu bulabilir.
        * `min_topic_size=20`: Bir konunun oluşturulabilmesi için gereken minimum doküman sayısı. Bu, çok küçük ve potansiyel olarak gürültülü konuların oluşmasını engeller.
        * `calculate_probabilities=True`: Her dokümanın her bir konuya ait olma olasılığının hesaplanmasını sağlar. Bu, daha sonraki analizler ve görselleştirmeler için kullanışlıdır.
        * `verbose=True`: Modelin eğitim süreci hakkında bilgi vermesini sağlar.
        Bu parametrelerle bir `BERTopic` modeli (`initial_topic_model`) başlatılır.
    3.  **Model Eğitimi (`fit_transform`):** `initial_topic_model.fit_transform(documents_ng)` metodu çağrılarak model, sağlanan dokümanlar üzerinde eğitilir. Bu işlem şu adımları içerir:
        * Dokümanların gömülmeleri (embeddings) oluşturulur.
        * Boyut azaltma (UMAP kullanarak) uygulanır.
        * Kümeleme (HDBSCAN kullanarak) yapılır.
        * Her küme için konu temsilleri (c-TF-IDF kullanarak) oluşturulur.
        * Belirtilen `nr_topics` sayısına göre konu sayısı azaltılır.
        Bu işlemin süresi (`fit_duration`) ölçülür.
    4.  **Konu Temsillerini `KeyBERTInspired` ile Güncelleme:**
        * `KeyBERTInspired(top_n_words=10)`: Konu başına en alakalı 10 kelimeyi seçmek için KeyBERT tabanlı bir temsil modeli oluşturulur. Bu, genellikle daha yorumlanabilir ve anlamlı konu başlıkları üretir.
        * `initial_topic_model.update_topics()` metodu, orijinal dokümanlar, mevcut konu atamaları ve yeni temsil modeli ile çağrılarak konuların kelime tanımları iyileştirilir. Bu işlemin süresi (`update_repr_duration`) de ölçülür.
    5.  Güncellenmiş model, `topic_model` adlı global bir değişkene atanarak sonraki hücrelerde kullanılabilir hale getirilir.
    6.  Modelin bulduğu toplam konu sayısı ve ilk birkaç konunun (outlier'lar hariç) güncellenmiş anahtar kelimeleri, modelin performansını ve konu kalitesini hızlıca değerlendirmek için yazdırılır.

* **Uygulama Detayları/Sonuçlar:**
    * BERTopic modelinin başarılı bir şekilde eğitilmesi beklenir. `fit_transform` süresi ve temsil güncelleme süresi loglanır (örneğin, `fit_transform` için ~80-90 saniye, temsil güncelleme için ~5 saniye).
    * Modelin, hedeflenen 30 konuya yakın sayıda (örneğin, 29 veya 30 gibi) anlamlı konu (outlier konusu olan -1 hariç) bulması beklenir.
    * `topic_model.get_topic_info()` ile elde edilen DataFrame, bulunan konuları, doküman sayılarını ve güncellenmiş anahtar kelime temsillerini gösterir.
    * İlk geçerli konunun en önemli 10 anahtar kelimesi (KeyBERT ile güncellenmiş hali) ekrana yazdırılarak kalitatif bir kontrol sağlanır.

In [None]:
# Hücre 4: BERTopic Modeli (nr_topics=30, KeyBERTInspired Temsili)

# CountVectorizer, BERTopic, KeyBERTInspired, time Hücre 2'de import edilmişti.
# documents_ng Hücre 3'te tanımlanmıştı.
# Global değişkenleri tanımlayalım ki sonraki hücrelerde de erişilebilsin.
global topic_model, topics_ng, probabilities, fit_duration, update_repr_duration, topic_info_df

print("--- BERTopic Modeli (nr_topics=30) ---")

# 1. Adım: CountVectorizer Tanımlama
# İngilizce için stop-word'leri kaldıracak, en az 5 dokümanda geçen kelimeleri alacak
# ve hem tek kelimeleri (unigram) hem de iki kelimelik grupları (bigram) dikkate alacak.
vectorizer_model = CountVectorizer(stop_words="english", min_df=5, ngram_range=(1, 2))

# 2. Adım: BERTopic Modelini Başlatma
# embedding_model: Metinleri vektörlere dönüştürmek için kullanılacak model.
# vectorizer_model: Kelime frekanslarını hesaplamak için.
# nr_topics: Hedeflenen konu sayısı (BERTopic bu sayıyı bir kılavuz olarak kullanır).
# min_topic_size: Bir konunun oluşturulabilmesi için gereken minimum doküman sayısı.
# calculate_probabilities: Her dokümanın her konuya ait olma olasılığını hesaplar.
# verbose=True: Eğitim sırasında ilerleme bilgisini gösterir.
initial_topic_model = BERTopic(
    embedding_model="all-MiniLM-L6-v2",
    vectorizer_model=vectorizer_model,
    nr_topics=30,
    min_topic_size=20,
    calculate_probabilities=True,
    verbose=True
)

# 3. Adım: Modeli Eğitme
print("\nBERTopic modeli (nr_topics=30) eğitiliyor...")
start_time_fit = time.time()
# fit_transform metodu, belgeleri alır, konuları çıkarır ve her belge için konu atamalarını döndürür.
# Aynı zamanda olasılıkları da hesaplar (calculate_probabilities=True ise).
topics_ng, probabilities = initial_topic_model.fit_transform(documents_ng)
end_time_fit = time.time()
fit_duration = end_time_fit - start_time_fit
print(f"Modelin ilk eğitimi (fit_transform) {fit_duration:.2f} saniyede tamamlandı.")

# 4. Adım: Konu Temsillerini KeyBERTInspired ile Güncelleme
# Konu temsillerini daha okunabilir ve anlamlı hale getirmek için KeyBERTInspired kullanılır.
# top_n_words: Her konu için en önemli kaç kelimenin seçileceğini belirtir.
print("\n--- Konu Temsilleri KeyBERTInspired ile Güncelleniyor ---")
keybert_representation_model = KeyBERTInspired(top_n_words=10)

start_time_update_repr = time.time()
# update_topics metodu, mevcut konuların kelime temsillerini yeniden hesaplar.
initial_topic_model.update_topics(
    docs=documents_ng, # Modelin konuları doküman içeriğine göre güncellemesi için dokümanlar tekrar verilir.
    topics=topics_ng,  # Mevcut konu atamaları da verilir.
    representation_model=keybert_representation_model
)
end_time_update_repr = time.time()
update_repr_duration = end_time_update_repr - start_time_update_repr
print(f"Konu temsillerinin güncellenmesi {update_repr_duration:.2f} saniyede tamamlandı.")

# Güncellenmiş modeli ana değişkenimize atayalım
topic_model = initial_topic_model

print("\n--- Güncellenmiş Model Bilgileri (KeyBERTInspired Temsili) ---")
# topic_model.get_topic_info() metodu, modeldeki tüm konular hakkında bilgi içeren bir DataFrame döndürür.
topic_info_df = topic_model.get_topic_info()
print("Bulunan Konular (İlk 10 ve Aykırı Değerler - Outlier):")
# Colab'da DataFrame'lerin daha güzel görünmesi için display kullanılır.
# Eğer 'display' fonksiyonu mevcutsa onu kullan, değilse standart print ile string'e çevir.
# Bu, Jupyter Notebook/Lab veya IPython konsolu gibi ortamlarda daha zengin bir çıktı sağlar.
try:
    from IPython.display import display
    display(topic_info_df.head(11))
except ImportError:
    print(topic_info_df.head(11).to_string())


# İlk geçerli konunun (outlier olmayan) güncellenmiş anahtar kelimelerini gösterelim.
# Outlier konusu genellikle -1 ID'si ile temsil edilir.
first_valid_topic_info = topic_info_df[topic_info_df.Topic != -1]
if not first_valid_topic_info.empty:
    first_valid_topic_id = first_valid_topic_info.Topic.iloc[0]
    print(f"\nİlk geçerli konu ({first_valid_topic_id}) için GÜNCELLENMİŞ anahtar kelimeler:")
    print(topic_model.get_topic(first_valid_topic_id))
else:
    print("\nUYARI: Güncellenmiş modelde outlier olmayan hiçbir konu bulunamadı.")

# Outlier'ları (-1) hariç tutarak gerçek konu sayısını hesaplayalım.
actual_num_topics = len(topic_info_df[topic_info_df.Topic != -1])
print(f"\nModelde bulunan gerçek konu sayısı (outlier'lar hariç): {actual_num_topics}")

### Hücre 5 (BERTopic): Konu Kalitesi Metriklerinin Hesaplanması (BERTopic Vektörleyicisi ile)

* **Amaç:**
    BERTopic modeli tarafından üretilen (ve temsilleri güncellenmiş) konuların kalitesini Konu Tutarlılığı (C_v, C_UCI/C_NPMI, U_MASS) ve Konu Farklılığı (Jaccard, PUW) metrikleriyle değerlendirmek.

* **Yapılan İşlemler:**
    1.  **Konu Kelimeleri Hazırlama:** Önceki hücrede oluşturulan `topic_model`'dan geçerli konular (`Topic != -1`) için en sık geçen `top_n_words_for_coherence` (varsayılan olarak 10) kelimeden oluşan listeler (`bertopic_topics_word_lists`) oluşturulur. Bu listeler, tutarlılık hesaplamaları için kullanılacaktır. Kelimelerin string olduğundan ve boş olmadığından emin olmak için bir kontrol eklenmiştir.
    2.  **Doküman Tokenizasyonu (BERTopic `CountVectorizer` ile):** Orijinal dokümanlar (`documents_ng`), BERTopic modelinin `vectorizer_model`'ı (Hücre 4'te tanımlanan `CountVectorizer`) kullanılarak token listelerine dönüştürülür. Bu, tutarlılık metriklerinin, modelin kelimeleri gördüğü şekliyle hesaplanmasını sağlar.
    3.  **Gensim Hazırlığı:**
        * Tokenleştirilmiş dokümanlardan `gensim.corpora.dictionary.Dictionary` (sözlük) oluşturulur.
        * Sözlük, çok nadir (`no_below=3`) veya çok sık (`no_above=0.6`) görünen kelimeleri ve kelime dağarcığı boyutunu sınırlamak (`keep_n=50000`) için filtrelenir.
        * Bu sözlük kullanılarak bir Bag-of-Words (BoW) `corpus` (`corpus_bow_for_gensim`) oluşturulur. Bu, özellikle U_MASS tutarlılık metriği için gereklidir.
    4.  **Konu Tutarlılığı Metrikleri:** `gensim.models.coherencemodel.CoherenceModel` kullanılarak aşağıdaki metrikler hesaplanır:
        * `c_v`: Kelime vektörlerine dayalı bir tutarlılık ölçüsü.
        * `c_uci`: Kelimelerin aynı dokümanlarda birlikte görülme sıklığına dayalı bir ölçü.
        * `c_npmi`: Normalleştirilmiş noktasal karşılıklı bilgiye dayalı bir ölçü.
        * `u_mass`: Dokümanlardaki kelime çiftlerinin olasılıklarına dayalı bir ölçü.
    5.  **Konu Farklılığı Metrikleri:**
        * **Ortalama Pairwise Jaccard Uzaklığı:** Konu çiftleri arasındaki kelime listelerinin ne kadar farklı olduğunu ölçer (1 - Jaccard Benzerliği). Yüksek değerler daha iyi ayrışmayı gösterir.
        * **Benzersiz Kelime Oranı (PUW - Percentage of Unique Words):** Tüm konuların en iyi N kelimesi arasında, toplam kelime sayısına göre benzersiz kelimelerin yüzdesini hesaplar. Yüksek bir değer, konuların daha az örtüştüğünü gösterir.

* **Uygulama Detayları/Sonuçlar:**
    * Tokenizasyon ve `gensim` için gerekli veri yapılarının başarıyla oluşturulması beklenir.
    * **Konu Tutarlılık Skorları:**
        * `C_V` skorunun pozitif ve 0.5'in üzerinde olması genellikle iyi bir anlamsal tutarlılığa işaret eder. Örnek çıktıda ~0.67-0.72 aralığındadır.
        * `C_UCI`, `C_NPMI`, ve `U_MASS` metrikleri için elde edilen değerler (örneğin, C_UCI ve U_MASS için negatif, C_NPMI için 0'a yakın pozitif) bazen yorumlanması zor olabilir veya BERTopic'in yapısıyla tam uyumlu olmayabilir. Örnek çıktıda bu metrikler hesaplanabilmiştir.
    * **Konu Farklılığı Skorları:**
        * Ortalama Pairwise Jaccard Uzaklığı'nın 1'e yakın olması (örneğin, ~0.998) konuların kelime bazında birbirinden oldukça farklı olduğunu gösterir.
        * Benzersiz Kelime Oranı (PUW) değerinin yüksek olması (örneğin, ~0.94-0.96) da konuların belirgin ve çeşitli olduğunu destekler.

In [None]:
# Hücre 5 (BERTopic): Konu Kalitesi Metriklerinin Hesaplanması (Format Kontrolü ve Son Deneme)

from tqdm.auto import tqdm
from itertools import combinations
import numpy as np
import pandas as pd
try:
    import gensim
    from gensim.models.coherencemodel import CoherenceModel
    from gensim.corpora.dictionary import Dictionary
except ImportError as e:
    print(f"HATA: Gensim import edilemedi: {e}")
    raise SystemExit(f"Kritik kütüphane import hatası: {e}")

if 'topic_model' in globals() and topic_model is not None and \
   'documents_ng' in globals() and documents_ng is not None:

    print("\n--- Konu Kalitesi Metrikleri Hesaplanıyor (Format Kontrolü ile) ---")

    top_n_words_for_coherence = 10
    bertopic_topics_word_lists = []

    # topic_model.get_topics() bir sözlük döndürür: {topic_id: [(word, score), ...]}
    # Sadece geçerli konuları (outlier olmayanları ve kelime içerenleri) alalım
    raw_topics = topic_model.get_topics()
    valid_topics_dict = {
        k: v for k, v in raw_topics.items() if k != -1 and v  # v (kelime listesi) boş değilse
    }

    if not valid_topics_dict:
        print("UYARI: Modelde geçerli konu (kelimeleri olan) bulunamadı. Metrikler atlanıyor.")
    else:
        print(f"{len(valid_topics_dict)} adet geçerli konu bulundu (outlier hariç).")
        for topic_id in sorted(valid_topics_dict.keys()):
            words_scores = valid_topics_dict[topic_id]
            # Kelimelerin string olduğundan ve listenin boş olmadığından emin olalım
            current_topic_words = [str(word) for word, score in words_scores[:top_n_words_for_coherence] if isinstance(word, str) and word.strip() != ""]
            if current_topic_words: # Sadece boş olmayan kelime listelerini ekle
                bertopic_topics_word_lists.append(current_topic_words)

        print(f"Konu tutarlılığı için {len(bertopic_topics_word_lists)} geçerli konu kelime listesi oluşturuldu.")
        if bertopic_topics_word_lists:
            print("İlk konunun kelime listesi örneği (format kontrolü sonrası):", bertopic_topics_word_lists[0])
        else:
            print("UYARI: Tutarlılık için işlenecek geçerli konu kelime listesi yok.")


        if not bertopic_topics_word_lists: # Eğer hala boşsa, coherence hesaplama
            print("Konu tutarlılık metrikleri hesaplanamıyor (geçerli konu kelimesi yok).")
        else:
            tokenized_documents_for_gensim = []
            gensim_dictionary = None
            corpus_bow_for_gensim = []

            print("\nDokümanlar BERTopic'in CountVectorizer'ı ile token'larına ayrılıyor...")
            try:
                if hasattr(topic_model, 'vectorizer_model') and topic_model.vectorizer_model is not None:
                    analyzer = topic_model.vectorizer_model.build_analyzer()
                    tokenized_documents_for_gensim = [analyzer(doc) for doc in tqdm(documents_ng, desc="Tokenizing with BERTopic's Vectorizer")]
                    print("Dokümanlar BERTopic vektörleyicisi ile başarıyla token'laştırıldı.")

                    print("Gensim sözlüğü ve corpus oluşturuluyor...")
                    gensim_dictionary = Dictionary(tokenized_documents_for_gensim)
                    # Kelimeleri filtrele: en az 3 dokümanda geçen ve en fazla %60'ında geçen kelimeleri tut,
                    # ve en fazla 50000 kelimeyi tut. Bu değerler veri setine göre ayarlanabilir.
                    gensim_dictionary.filter_extremes(no_below=3, no_above=0.6, keep_n=50000)

                    corpus_bow_for_gensim = [gensim_dictionary.doc2bow(doc) for doc in tokenized_documents_for_gensim]
                    print(f"Gensim sözlüğünde {len(gensim_dictionary)} kelime var (filtreleme sonrası).")

                    if not corpus_bow_for_gensim and len(tokenized_documents_for_gensim) > 0 :
                        print("UYARI: Gensim için BoW corpus boş, UMass hesaplanamayabilir.")
                else:
                    print("HATA: BERTopic modelinde vectorizer_model bulunamadı. Tokenizasyon yapılamıyor.")
                    tokenized_documents_for_gensim = []

            except Exception as e_custom_tokenization:
                print(f"HATA: BERTopic vektörleyicisi ile tokenizasyon sırasında: {e_custom_tokenization}")
                tokenized_documents_for_gensim = []

            if gensim_dictionary and tokenized_documents_for_gensim and bertopic_topics_word_lists:
                coherence_types_to_calculate = ['c_v', 'c_uci', 'c_npmi', 'u_mass']
                print("\nKonu Tutarlılık Skorları:")
                for coherence_type in coherence_types_to_calculate:
                    if coherence_type == 'u_mass' and not corpus_bow_for_gensim:
                        print(f"  {coherence_type.upper()}: BoW corpus olmadığı için hesaplanamadı.")
                        continue
                    try:
                        print(f"  {coherence_type.upper()} hesaplanıyor...")
                        coherence_model_gensim = CoherenceModel(
                            topics=bertopic_topics_word_lists,
                            texts=tokenized_documents_for_gensim if coherence_type != 'u_mass' else None,
                            corpus=corpus_bow_for_gensim if coherence_type == 'u_mass' else None,
                            dictionary=gensim_dictionary,
                            coherence=coherence_type,
                            topn=top_n_words_for_coherence
                        )
                        score = coherence_model_gensim.get_coherence()
                        print(f"    -> {coherence_type.upper()}: {score:.4f}")
                    except Exception as e_coh_calc:
                        print(f"    -> HATA ({coherence_type.upper()}): {e_coh_calc}")
            elif bertopic_topics_word_lists:
                    print("Tokenizasyon veya sözlük oluşturma başarısız olduğu için konu tutarlılık metrikleri hesaplanamadı.")

            # Konu Farklılığı Metrikleri
            print("\nKonu Farklılık Skorları:")
            if bertopic_topics_word_lists and len(bertopic_topics_word_lists) >= 2:
                jaccard_similarities = []
                for i, j in combinations(range(len(bertopic_topics_word_lists)), 2):
                    topic1_words = set(bertopic_topics_word_lists[i])
                    topic2_words = set(bertopic_topics_word_lists[j])
                    if not topic1_words and not topic2_words: continue
                    intersection_len = len(topic1_words.intersection(topic2_words))
                    union_len = len(topic1_words.union(topic2_words))
                    if union_len == 0:
                        jaccard_similarities.append(1.0 if not topic1_words and not topic2_words else 0.0)
                    else:
                        jaccard_similarities.append(intersection_len / union_len)

                if jaccard_similarities:
                    avg_jaccard_similarity = np.mean(jaccard_similarities)
                    avg_jaccard_distance = 1 - avg_jaccard_similarity
                    print(f"  Ortalama Pairwise Jaccard Uzaklığı (ilk {top_n_words_for_coherence} kelime üzerinden): {avg_jaccard_distance:.4f}")
                else:
                    print("  Jaccard uzaklığı hesaplamak için yeterli konu çifti bulunamadı.")

                all_top_n_words_flat = []
                for topic_word_list_for_puw in bertopic_topics_word_lists:
                    all_top_n_words_flat.extend(topic_word_list_for_puw[:top_n_words_for_coherence])
                if all_top_n_words_flat:
                    num_unique_top_words = len(set(all_top_n_words_flat))
                    num_total_top_words = len(all_top_n_words_flat)
                    puw = num_unique_top_words / num_total_top_words if num_total_top_words > 0 else 0.0
                    print(f"  Benzersiz Kelime Oranı (PUW) (ilk {top_n_words_for_coherence} kelime üzerinden): {puw:.4f}")
                else:
                    print("  PUW hesaplamak için konu kelimeleri bulunamadı.")
            else:
                print("  Konu farklılığı metrikleri hesaplamak için en az 2 geçerli konu (kelimeleri olan) gereklidir.")
    print("\nBERTopic Konu Kalitesi Metrikleri (Hücre 5) hesaplama denemesi tamamlandı.")
else:
    print("Hata: 'topic_model' veya 'documents_ng' Hücre 4'te doğru şekilde oluşturulamadı.")

### Hücre 6 (BERTopic): Konu Modellemesi Sonuçlarının Görselleştirilmesi

* **Amaç:**
    BERTopic modeli tarafından bulunan konuları, dokümanlarla ilişkilerini ve konuların birbirleriyle olan benzerliklerini çeşitli interaktif grafikler aracılığıyla görselleştirmek. Bu, modelin ürettiği sonuçları daha iyi anlamamıza ve yorumlamamıza yardımcı olur.

* **Yapılan İşlemler:**
    BERTopic kütüphanesinin sunduğu yerleşik görselleştirme fonksiyonları kullanılır:
    1.  **`topic_model.visualize_barchart()`:** En önemli (veya seçilen sayıda) konular için anahtar kelimelerin c-TF-IDF skorlarını gösteren çubuk grafikler oluşturur. Her bir konu için en tanımlayıcı kelimeleri ve bu kelimelerin göreceli önemini gösterir. Bu görselleştirme, konuların içeriğini hızlıca anlamak için çok faydalıdır.
    2.  **`topic_model.visualize_heatmap()`:** Konular arasındaki benzerlik matrisini bir ısı haritası olarak gösterir. Bu, hangi konuların birbirine daha yakın veya uzak olduğunu anlamamıza yardımcı olur. Bu görselleştirme için modelin `topic_embeddings_` özelliğinin mevcut olması gerekir, bu da genellikle `fit_transform` sırasında otomatik olarak hesaplanır.
    3.  **`topic_model.visualize_hierarchy()`:** Konular arasındaki hiyerarşik ilişkileri gösteren bir dendrogram oluşturur. Bu, konuların nasıl gruplandığını ve daha genel veya daha spesifik alt konular olup olmadığını görmemizi sağlar. Bu görselleştirme için de `topic_embeddings_` gereklidir.
    4.  **`topic_model.visualize_documents()`:** Dokümanları ve konuları 2 boyutlu bir uzayda (genellikle UMAP ile boyut indirgeme sonrası) gösteren interaktif bir dağılım grafiğidir. Her bir nokta bir dokümanı temsil eder ve renkleri atandıkları konulara göre belirlenir. Bu, konuların doküman uzayında nasıl ayrıştığını ve belirli dokümanların hangi konulara ait olduğunu keşfetmek için kullanışlıdır. Büyük veri kümelerinde performans için `sample` parametresi ile dokümanların bir alt kümesi üzerinde görselleştirme yapılabilir.
    5.  **`topic_model.visualize_topics()` (Intertopic Distance Map):** Konuların birbirlerine göre konumlarını ve büyüklüklerini (doküman sayılarına göre) gösteren interaktif bir harita oluşturur. Bu, konular arasındaki genel ilişkiyi ve göreceli önemlerini görselleştirmek için çok etkilidir ve konu uzayının genel yapısını anlamaya yardımcı olur.

* **Uygulama Detayları/Sonuçlar:**
    * Bu hücre çalıştırıldığında, BERTopic tarafından desteklenen çeşitli interaktif (genellikle Plotly kütüphanesi tabanlı) grafikler üretilir.
    * Her bir grafik, bulunan konuların farklı bir yönünü görselleştirerek modelin sonuçlarının daha derinlemesine analiz edilmesine olanak tanır.
    * Colab ortamında bu interaktif grafikler hücrenin çıktısında doğrudan görüntülenebilir ve incelenebilir. Bu görseller, raporlama ve modelin yorumlanması aşamalarında oldukça değerlidir.

In [None]:
# Hücre 6 (BERTopic): Konu Modellemesi Sonuçlarının Görselleştirilmesi

# topic_model, documents_ng, topics_ng, probabilities, topic_info_df değişkenlerinin
# önceki hücrelerde tanımlandığını ve global olarak erişilebilir olduğunu varsayıyoruz.
# matplotlib.pyplot zaten Hücre 2'de import edilmişti.

if 'topic_model' in globals() and topic_model is not None and \
   'topic_info_df' in globals() and topic_info_df is not None and \
   'documents_ng' in globals() and documents_ng is not None:

    print("\n--- Görselleştirmeler Oluşturuluyor (Güncellenmiş Model) ---")

    # Outlier olmayan geçerli konu sayısını alalım
    num_valid_topics_viz = len(topic_info_df[topic_info_df.Topic != -1])

    if num_valid_topics_viz > 0:
        # 1. Konu Kelime Dağılımları (Çubuk Grafikler)
        try:
            # Gösterilecek konu sayısını, mevcut geçerli konu sayısıyla veya 10 ile sınırla
            num_barchart_topics_to_show = min(10, num_valid_topics_viz)
            if num_barchart_topics_to_show > 0 :
                print(f"\nEn önemli {num_barchart_topics_to_show} konu için Konu Kelime Dağılımları (Çubuk Grafik) oluşturuluyor...")
                fig_barchart = topic_model.visualize_barchart(
                    top_n_topics=num_barchart_topics_to_show,
                    n_words=10, # Her konu için gösterilecek kelime sayısı
                    height=max(300, num_barchart_topics_to_show * 60) # Grafiğin yüksekliğini ayarla
                )
                fig_barchart.show()
            else:
                print("Çubuk grafik için gösterilecek geçerli konu bulunamadı.")
        except Exception as e_barchart:
            print(f"HATA (visualize_barchart): {e_barchart}")

        # 2. Konu Benzerlik Matrisi (Isı Haritası)
        # Bu görselleştirme, topic_model.transform veya fit_transform sırasında
        # calculate_probabilities=True ise ve topic_model.probabilities_ None değilse anlamlıdır.
        # Ancak BERTopic'in son versiyonlarında visualize_heatmap doğrudan topic_model.topic_embeddings_ kullanabilir.
        try:
            num_heatmap_topics_to_show = min(30, num_valid_topics_viz) # Gösterilecek konu sayısı
            if num_heatmap_topics_to_show > 1: # Isı haritası için en az 2 konu olmalı
                print("\nKonu Benzerlik Matrisi (Isı Haritası) oluşturuluyor...")
                fig_heatmap = topic_model.visualize_heatmap(
                    top_n_topics=num_heatmap_topics_to_show,
                    n_clusters=None, # Kümeleme yapılmayacaksa None
                    width=800, height=800
                )
                fig_heatmap.show()
            elif num_heatmap_topics_to_show <=1:
                print("Isı haritası için gösterilecek yeterli konu (>1) bulunamadı.")
            else:
                print("Isı haritası için gösterilecek geçerli konu bulunamadı.")
        except Exception as e_heatmap:
            print(f"HATA (visualize_heatmap): {e_heatmap}")


        # 3. Konu Hiyerarşisi (Dendrogram)
        try:
            num_hierarchy_topics_to_show = min(30, num_valid_topics_viz) # Dendrogramda gösterilecek konu sayısı
            if num_hierarchy_topics_to_show > 1: # Hiyerarşi için en az 2 konu olmalı
                print("\nKonu Hiyerarşisi (Dendrogram) oluşturuluyor...")
                fig_hierarchy = topic_model.visualize_hierarchy(
                    top_n_topics=num_hierarchy_topics_to_show,
                    width=1000, height=700 # Grafiğin boyutları
                )
                fig_hierarchy.show()
            elif num_hierarchy_topics_to_show <=1 :
                 print("Konu hiyerarşisi için gösterilecek yeterli konu (>1) bulunamadı.")
        except AttributeError:
            print("HATA: 'visualize_hierarchy' fonksiyonu bu BERTopic versiyonunda bulunmuyor olabilir veya bir hata oluştu.")
        except Exception as e_hierarchy:
            print(f"HATA (visualize_hierarchy): {e_hierarchy}")

        # 4. Belge Gömüntüsü Görselleştirmesi (Dokümanların Konulara Göre Dağılımı)
        if documents_ng is not None:
            try:
                print("\nBelge Gömüntüsü Görselleştirmesi oluşturuluyor (bu işlem biraz zaman alabilir)...")
                # Eğer çok fazla doküman varsa, performans için örnekleme yapılabilir.
                # Örnek: len(documents_ng) > 10000 ise sample_rate_docs = 0.1 (dokümanların %10'u)
                sample_rate_docs = 0.05 if len(documents_ng) > 20000 else (0.1 if len(documents_ng) > 5000 else 1.0)
                if sample_rate_docs < 1.0 :
                      print(f"  Çok sayıda doküman olduğundan, dokümanların yaklaşık %{int(sample_rate_docs*100)} kadarı örneklenerek görselleştirilecektir.")

                fig_documents = topic_model.visualize_documents(
                    docs=documents_ng,
                    sample=sample_rate_docs, # Kullanılacak örnekleme oranı (0.0 ile 1.0 arası)
                    width=1200, height=750,
                    hide_annotations=(sample_rate_docs < 1.0), # Örnekleme yapılıyorsa anotasyonları gizle
                    hide_document_hover=(sample_rate_docs < 0.1) # Çok yoğun örneklemede hover bilgilerini gizle
                )
                fig_documents.show()
            except Exception as e_viz_docs:
                print(f"HATA (visualize_documents): {e_viz_docs}")
        else:
            print("\nBelge gömüntüsü görselleştirmesi için 'documents_ng' listesi eksik.")

        # 5. Konu Gömüntüsü Görselleştirmesi (Intertopic Distance Map)
        try:
            print("\nKonular Arası Mesafe Haritası (Intertopic Distance Map) oluşturuluyor...")
            fig_topics_dist = topic_model.visualize_topics(
                width=800, height=800
            )
            fig_topics_dist.show()
        except Exception as e_viz_topics:
            print(f"HATA (visualize_topics): {e_viz_topics}")

    else:
        print("\nGörselleştirme için yeterli sayıda geçerli konu (outlier olmayan) bulunamadı.")
else:
    print("Hata: Görselleştirmeler için gerekli BERTopic modeli veya doküman/konu bilgileri bulunamadı.")

### Hücre 7 (BERTopic): Eğitim/Konu Çıkarma ve Çıkarım Sürelerinin Hesaplanması

* **Amaç:**
    BERTopic modelinin hem ilk konu çıkarma (`fit_transform` ve konu temsili güncelleme dahil) süresini hem de daha sonra yeni dokümanlar için konu tahmini (çıkarım/inference) hızını belirlemek. Bu metrikler, modelin pratik uygulamalardaki performansını ve verimliliğini değerlendirmek için önemlidir.

* **Yapılan İşlemler:**
    1.  **Konu Çıkarma Süresi:**
        * Daha önceki hücrelerde (Hücre 4) model eğitimi (`fit_transform`) sırasında ölçülen `fit_duration` ve konu temsillerinin güncellenmesi (`update_topics`) sırasında ölçülen `update_repr_duration` süreleri kullanılır.
        * Bu iki süre toplanarak toplam konu çıkarma ve temsil oluşturma süresi hesaplanır ve hem saniye hem de dakika cinsinden kullanıcıya sunulur.
    2.  **Yeni Dokümanlar İçin Ortalama Çıkarım Süresi:**
        * Modelin yeni, daha önce görmediği veriler üzerindeki performansını ölçmek için `documents_ng` listesinden temsili bir alt küme (örneğin, 100 doküman) rastgele seçilir. Eğer toplam doküman sayısı belirtilen örneklem sayısından azsa, tüm dokümanlar kullanılır.
        * `topic_model.transform()` metodu, seçilen bu örnek dokümanlar için konu atamalarını ve olasılıklarını tahmin etmek amacıyla kullanılır.
        * Bu `transform` işleminin toplam süresi `time.time()` kullanılarak ölçülür.
        * Ölçülen toplam süre, işlenen doküman sayısına bölünerek doküman başına ortalama çıkarım süresi hesaplanır.
        * Ayrıca, saniyede kaç dokümanın işlenebildiği (çıkarım hızı veya verim) de hesaplanarak raporlanır.

* **Uygulama Detayları/Sonuçlar:**
    * Toplam konu çıkarma (eğitim + temsil güncelleme) süresinin yazdırılması beklenir (örneğin, önceki çıktılarda ~92 saniye civarındaydı). Bu, modelin sıfırdan oluşturulması için gereken toplam zamanı gösterir.
    * Yeni dokümanlar için konu tahmini yapılırken, BERTopic'in kendi içindeki ilerleme göstergeleri (genellikle `tqdm` ile) görünebilir, bu da işlemin devam ettiğini belirtir.
    * Çıkarım işlemi tamamlandığında, toplam çıkarım süresi, doküman başına ortalama çıkarım süresi (örneğin, 100 doküman için ~0.15 saniye/doküman gibi) ve saniyede işlenen doküman sayısı ekrana yazdırılır. Bu değerler, modelin gerçek zamanlı veya büyük ölçekli uygulamalardaki potansiyel performansını anlamak için önemlidir.

In [None]:
# Hücre 7 (BERTopic): Eğitim/Konu Çıkarma ve Çıkarım Sürelerinin Hesaplanması

# time modülü Hücre 2'de import edilmişti.
# fit_duration ve update_repr_duration değişkenleri Hücre 4'te tanımlanmış ve global yapılmış olmalı.
# documents_ng Hücre 3'ten, topic_model Hücre 4'ten gelmeli.
from tqdm.auto import tqdm # tqdm, transform metodunun ilerlemesini göstermek için BERTopic tarafından kullanılabilir.

print(f"\n--- Süre Hesaplamaları (BERTopic) ---")

# 1. Eğitim ve Konu Çıkarma Süresi
total_topic_modeling_time = 0
# fit_duration ve update_repr_duration değişkenlerinin varlığını ve değerini kontrol edelim
if 'fit_duration' in globals() and isinstance(fit_duration, (int, float)):
    total_topic_modeling_time += fit_duration
    print(f"BERTopic Modeli İlk Eğitimi (fit_transform) Süresi: {fit_duration:.2f} saniye")
    if 'update_repr_duration' in globals() and isinstance(update_repr_duration, (int, float)):
        total_topic_modeling_time += update_repr_duration
        print(f"Konu Temsillerini Güncelleme Süresi: {update_repr_duration:.2f} saniye")
    print(f"  Toplam Konu Çıkarma ve Temsil Oluşturma Süresi: {total_topic_modeling_time:.2f} saniye ({total_topic_modeling_time/60:.2f} dakika)")
else:
    print("BERTopic eğitim/konu çıkarma süresi bilgisi (fit_duration) bulunamadı veya geçerli değil.")


# 2. Yeni Dokümanlar İçin Ortalama Çıkarım Süresi
if 'topic_model' in globals() and topic_model is not None and \
   'documents_ng' in globals() and documents_ng and len(documents_ng) > 0:

    num_docs_for_inference_test = min(100, len(documents_ng))
    # Eğer doküman sayısı test edilecek sayıdan fazlaysa, rastgele bir örneklem al.
    # Aksi takdirde tüm dokümanları kullan.
    if len(documents_ng) > num_docs_for_inference_test:
        import random
        sample_indices_inference = random.sample(range(len(documents_ng)), num_docs_for_inference_test)
        new_docs_sample_inference = [documents_ng[i] for i in sample_indices_inference]
    else:
        new_docs_sample_inference = documents_ng

    actual_num_docs_for_inference = len(new_docs_sample_inference)

    if actual_num_docs_for_inference > 0:
        print(f"\n{actual_num_docs_for_inference} adet doküman için konu tahmini (çıkarım) süresi ölçülüyor...")

        start_time_transform = time.time()
        try:
            # BERTopic.transform, yeni dokümanlar için konuları ve olasılıkları tahmin eder.
            # `probabilities` değişkenini burada tekrar kullanmıyoruz çünkü sadece süre ölçümü yapıyoruz.
            # İsterseniz `_` yerine `new_topics, new_probabilities` olarak atayabilirsiniz.
            _, _ = topic_model.transform(new_docs_sample_inference)
            end_time_transform = time.time()

            transform_duration_total = end_time_transform - start_time_transform

            if actual_num_docs_for_inference > 0 and transform_duration_total >= 0:
                avg_transform_duration_per_doc = transform_duration_total / actual_num_docs_for_inference
                docs_per_second_transform = actual_num_docs_for_inference / transform_duration_total if transform_duration_total > 0 else float('inf')

                print(f"  Toplam çıkarım süresi ({actual_num_docs_for_inference} doküman): {transform_duration_total:.4f} saniye")
                print(f"  Doküman başına ortalama çıkarım süresi: {avg_transform_duration_per_doc:.4f} saniye")
                print(f"  Saniyede işlenen doküman (çıkarım): {docs_per_second_transform:.2f} doküman/saniye")
            else:
                print("  Çıkarım süresi doğru hesaplanamadı.")

        except Exception as e_transform:
            print(f"  BERTopic.transform sırasında hata: {e_transform}")
            import traceback
            print(traceback.format_exc())
    else:
        print("\nÇıkarım süresi ölçümü için işlenecek doküman bulunamadı.")
else:
    print("\nHata: BERTopic modeli veya doküman listesi bulunamadığı için çıkarım süresi hesaplanamıyor.")

print("\nPerformans metrikleri (Hücre 7) hesaplama işlemi tamamlandı.")