# Kütüphaneleri içe aktar

In [None]:
from transformers import AutoTokenizer # herhangi bir modelin tokenizer'ını kullanmak için.
from zeyrek import MorphAnalyzer # Türkçe metinler için morfolojik analiz ve lemmatizasyon yapmak için kullanılır.
from collections import Counter # Kelime sıklığını hesaplamak için kullanılır. Bir listedeki öğelerin sayısını saymayı kolaylaştırır.
import nltk # Doğal dil işleme görevleri için kullanılan bir kütüphanedir. Tokenization, stemming gibi işlemler için kullanılabilir.
import re # Regular expressions (düzenli ifadeler) kullanarak metin işleme yapmak için. Özellikle tokenization işleminde yardımcı olur.

## zeyrek kütüphanesinin kullandığı paketi indirme işlemi

In [None]:
nltk.download('all') #  NLTK (Natural Language Toolkit) kütüphanesinin tüm veri setlerini ve modellerini indirmek için kullanılır.

# Tokenizer yükleme işlemi

In [3]:
# Tokenizer yükleme
tokenizer = AutoTokenizer.from_pretrained("mattshumer/Reflection-Llama-3.1-70B")

# Zeyrek morfoloji analiz aracını oluşturma

In [4]:
"""
MorphAnalyzer, Türkçe kelimelerin morfolojik (yapısını) analizini yapmak için kullanılır.
Bu analizör, kelimelerin kök ve eklerini ayırır, kelime türlerini belirler ve
kelimelerin farklı çekim formlarını analiz eder. Örneğin, "kitaplarımızdan"
kelimesini "kitap" (kök), "-lar" (çoğul eki), "-ımız" (iyelik eki) ve
"-dan" (çıkma hali eki) olarak ayırabilir.
"""
analyzer = MorphAnalyzer()

# Kullanıcıdan Metin Alma

In [None]:
# Kullanıcıdan metin alın
text = input("Lütfen Türkçe bir metin girin: ")
print("Girdiğiniz metin:", text)

# Tokenizer ile tokenize etme

In [None]:
# Tokenizer tokenization
tokenizer_tokens = tokenizer.tokenize(text)
print("Tokenizer token'ları:", tokenizer_tokens)

In [None]:
original_text = tokenizer.convert_tokens_to_string(tokenizer_tokens)
print("Orijinal metin:", original_text)

# 

# Zeyrek ile gövdeleme fonksiyonları

In [8]:
# Basit Türkçe kelime ayırıcı fonksiyon
def simple_turkish_tokenize(text):
    # Bu fonksiyon, verilen Türkçe metni basit bir şekilde token'lara ayırır.
    # Adımlar:
    # 1. re.sub() kullanarak noktalama işaretlerini ve sayıları ayırır.
    # 2. r'([^\w\s]|\d)' regex pattern'i şunları yapar:
    #    - [^\w\s]: Harf, rakam veya boşluk olmayan herhangi bir karakteri yakalar (noktalama işaretleri)
    #    - \d: Herhangi bir rakamı yakalar
    #    - | : "veya" anlamına gelir
    # 3. r' \1 ' ile yakalanan karakterlerin etrafına boşluk eklenir
    # 4. split() metodu ile metin boşluklara göre ayrılır
    # 5. List comprehension ile boş olmayan token'lar seçilir
    text = re.sub(r'([^\w\s]|\d)', r' \1 ', text)
    return [token for token in text.split() if token]

# Lemma çıkarma fonksiyonu
def extract_lemma(analysis):
    # Bu fonksiyon, Zeyrek MorphAnalyzer'ın ürettiği analiz sonucundan lemma'yı çıkarır.
    # Adımlar:
    # 1. analysis'in boş olup olmadığını kontrol eder
    # 2. analysis[0]'ın bir liste olup olmadığını kontrol eder
    # 3. analysis[0] listesinin boş olup olmadığını kontrol eder
    # 4. Tüm koşullar sağlanıyorsa, analysis[0][0].lemma değerini döndürür
    # 5. Eğer herhangi bir koşul sağlanmazsa, None döndürür
    if analysis and isinstance(analysis[0], list) and analysis[0]:
        return analysis[0][0].lemma
    return None


## Zeyrek ile gövdeleme

In [None]:
# Basit tokenization ve Zeyrek ile lemmatization
turkish_tokens = simple_turkish_tokenize(text)
zeyrek_lemmas = []
for word in turkish_tokens:
    analysis = analyzer.analyze(word)
    lemma = extract_lemma(analysis)
    if lemma:
        zeyrek_lemmas.append(lemma)
    else:
        zeyrek_lemmas.append(word)  # Eğer analiz edilemezse kelimeyi olduğu gibi ekle

# Sonuçları yazdırma

In [None]:
# Sonuçları göster
print("Tokenizer Tokenization:", tokenizer_tokens)
print("Basit Türkçe Tokenization:", turkish_tokens)
print("Zeyrek Lemmatization:", zeyrek_lemmas)

# Sıklık yazdırma

In [None]:
# Kelime sıklığı hesaplama
word_freq = Counter(zeyrek_lemmas)
print("En sık kullanılan 5 kelime (lemma):", word_freq.most_common(5))