n-gram'ler kullanılarak metin özeti oluşturulabilir. aşağıdaki kodda büyük bir metin dosyası n-gram'leri oluşturmak için kullanılıyor ve başka bir metin dosyası ile sağlanan metinden hesaplanan en sık 50 bigram'i içeren cümleler seçilerek özet elde ediliyor.

In [None]:
import nltk
from nltk.util import ngrams
from collections import Counter
import string

# Gerekli nltk verilerini indirme
nltk.download('punkt')

# Büyük metin dosyasını okuma ve N-gram frekanslarını hesaplama
def ngram_frekanslari_olustur(dosya_adi, n=2):
    with open(dosya_adi, "r", encoding="utf-8") as file:
        metin = file.read()
    
    # Metni kelime seviyesinde tokenize et ve noktalama işaretlerinden kurtul
    kelimeler = nltk.word_tokenize(metin.lower())
    kelimeler = [kelime for kelime in kelimeler if kelime not in string.punctuation]
    
    # N-gram modelini oluştur (varsayılan olarak trigram)
    ngramlar = list(ngrams(kelimeler, n))
    
    # N-gram frekansını hesapla
    ngram_freq = Counter(ngramlar)
    
    return ngram_freq

# Özetlenecek metni okuma ve özet oluşturma
def metin_ozeti_olustur(dosya_adi, ngram_freq, n=2):
    with open(dosya_adi, "r", encoding="utf-8") as file:
        metin = file.read()
    
    # Metni cümle seviyesinde tokenize et
    cumleler = nltk.sent_tokenize(metin)
    
    # En sık kullanılan N-gramları seçme
    frequent_ngramlar = ngram_freq.most_common(50)
    
    # N-gram temelli metin özetleme: En sık N-gramların geçtiği cümleleri seç
    ozet = []
    for ngram in frequent_ngramlar:
        #print(ngram)
        # N-gramdaki kelimeleri birleştirip arama yapacağız
        ngram_kelime = ' '.join(ngram[0])
        for cumle in cumleler:
            if ngram_kelime in cumle.lower() and cumle not in ozet:
                ozet.append(cumle)
                break
    
    return ' '.join(ozet)

# Büyük metin dosyasından N-gram frekansları oluşturma
ngram_freq = ngram_frekanslari_olustur("odtu_derlemi.txt")

# Özetlenecek metin dosyasından özet oluşturma
ozet = metin_ozeti_olustur("ozetlenecek_metin.txt", ngram_freq)

print("Metnin Özeti:")
print(ozet)
