# Kelime Vektörleri Nedir?

Kelime vektörleri, kelimeleri sürekli sayısal vektörler olarak temsil eder. Bu vektörler kelimeler arasındaki anlamsal ilişkileri yakalamak için kullanılır.

Örneğin, "kral" ve "kraliçe" kelimeleri benzer vektörlere sahip olabilir çünkü semantik olarak ilişkilidirler. 
Kelime vektörleri, doğal dil işlemede yaygın olarak kullanılır ve metinlerin daha verimli işlenmesini sağlar.

# Word2Vec

Word2Vec, Google tarafından geliştirilen ve kelimeleri vektörler halinde temsil eden bir modeldir.

İki temel yaklaşımı vardır:
- **CBOW (Continuous Bag of Words)**: Verilen bir bağlamdan yola çıkarak hedef kelimeyi tahmin etmeye çalışır.
- **Skip-Gram**: Verilen bir kelimeden yola çıkarak bağlamdaki diğer kelimeleri tahmin etmeye çalışır.

Word2Vec büyük veri kümelerinde etkili bir şekilde eğitildiğinde kelimeler arasındaki anlamsal benzerlikleri öğrenebilir ve analoji testlerinde başarılı sonuçlar verebilir.

# GloVe (Global Vectors for Word Representation)

GloVe Stanford Üniversitesi tarafından geliştirilmiş bir kelime vektörü modelidir. 

Eş-oluşum matrisi üzerine kurulu olan GloVe, kelimelerin metin içerisinde ne sıklıkta bir arada bulunduklarına dayalı olarak vektör temsilleri oluşturur.

Bu model kelimelerin daha global bağlamda nasıl ilişkilendirileceğini öğrenir ve genellikle Word2Vec'e göre daha genel ilişkiler yakalayabilir.

# FastText
FastText, Facebook tarafından geliştirilmiş bir modeldir ve Word2Vec'e benzer şekilde çalışır, ancak alt kelime bilgisi kullanır.

FastText, kelimeleri n-gramlar (karakter seviyesinde) şeklinde temsil ederek nadir ve uzun kelimeler için daha iyi temsiller sağlar.

Bu özellikle zengin morfolojiye sahip dillerde önemli bir avantajdır ve kelimelerin iç yapılarından faydalanarak daha kapsamlı vektörler oluşturur.

Word2Vec Uygulaması

In [None]:
# Gerekli kütüphaneleri yükleyelim
import gensim
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
from nltk.corpus import gutenberg
import nltk

# NLTK verilerini indiriyoruz (ilk kullanımda gerekli)
nltk.download('punkt')
nltk.download('gutenberg')

# Gutenberg veri setinden bir metin örneği alalım
corpus = gutenberg.raw('austen-emma.txt')

# Metni tokenize edelim
tokenized_text = [word_tokenize(sentence.lower()) for sentence in corpus.split('\n') if sentence]

# İlk birkaç cümleyi görelim
print(tokenized_text[:5])

# CBOW modelini eğitelim
cbow_model = Word2Vec(sentences=tokenized_text, vector_size=100, window=5, min_count=5, sg=0, epochs=10)

In [None]:
# Örnek bir kelimenin vektörünü inceleyelim
kelime_vektoru = cbow_model.wv['emma']  # 'emma' kelimesinin vektörü
print(kelime_vektoru)

# Benzer kelimeleri bulalım
benzer_kelimeler = cbow_model.wv.most_similar('emma', topn=5)
print(benzer_kelimeler)

Şimdi de eğitim için kullanılacak metni bir dosyadan okuyalım

In [None]:
# Gerekli kütüphaneleri yükleyelim
import gensim
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# Dosyadan metni okuyalım
with open('dosyalar//odtu_derlemi.txt', 'r', encoding='utf-8') as file:
    corpus = file.read()

# Metni tokenize edip küçük harfe çevirelim
tokenized_text = [word_tokenize(sentence.lower()) for sentence in corpus.split('\n') if sentence]

# İlk birkaç cümleyi görelim
print(tokenized_text[:5])

# CBOW modelini eğitelim
cbow_model = Word2Vec(sentences=tokenized_text, vector_size=100, window=5, min_count=5, sg=0, epochs=10)

In [None]:
# Örnek bir kelimenin vektörünü inceleyelim
kelime_vektoru = cbow_model.wv['deniz']
print(kelime_vektoru)

# Benzer kelimeleri bulalım
benzer_kelimeler = cbow_model.wv.most_similar('deniz', topn=5)
print(benzer_kelimeler)

Şimdi de aynı metinle skipgram modeli eğitelim (sg parametresinin 1 olarak değiştiğine dikkat edin)

In [None]:
# SkipGram modelini eğitelim
skipgram_model = Word2Vec(sentences=tokenized_text, vector_size=100, window=5, min_count=5, sg=1, epochs=10)

# Benzer kelimeleri bulalım
benzer_kelimeler = skipgram_model.wv.most_similar('deniz', topn=5)
print(benzer_kelimeler)

Glove Modeli Uygulaması

In [None]:
import gensim.downloader as api

# Hazır GloVe vektörlerini yükleyelim (örnek olarak 50 boyutlu GloVe vektörleri)
glove_model = api.load("glove-wiki-gigaword-50")

# 'emma' kelimesinin vektörünü bulalım
kelime_vektoru = glove_model['emma']
print(kelime_vektoru)

# 'emma' kelimesine benzer diğer kelimeleri bulalım
benzer_kelimeler = glove_model.most_similar('emma', topn=5)
print(benzer_kelimeler)

FastText Uygulaması

In [None]:
from gensim.models import FastText

# FastText modelini 10 epoch boyunca eğitelim
fasttext_model = FastText(sentences=tokenized_text, vector_size=100, window=5, min_count=5, sg=1, epochs=10)

# örnek bir kelimenin vektörünü bulalım
fasttext_vektoru = fasttext_model.wv['deniz']
print(fasttext_vektoru)

# örnek kelimeye benzer diğer kelimeleri bulalım
benzer_kelimeler = fasttext_model.wv.most_similar('deniz', topn=5)
print(benzer_kelimeler)

Kelime Vektörleri Kullanarak Benzerlik Hesaplama

In [None]:
from scipy.spatial.distance import cosine, euclidean

# iki kelime arasındaki kosinüs benzerliğini hesaplayalım
word1 = 'kitap'
word2 = 'kitaplar'
vector1_cbow = cbow_model.wv[word1]
vector2_cbow = cbow_model.wv[word2]
vector1_skip = skipgram_model.wv[word1]
vector2_skip = skipgram_model.wv[word2]
vector1_fast = fasttext_model.wv[word1]
vector2_fast = fasttext_model.wv[word2]

cosine_similarity_cbow = 1 - cosine(vector1_cbow, vector2_cbow)
cosine_similarity_skip = 1 - cosine(vector1_skip, vector2_skip)
cosine_similarity_fast = 1 - cosine(vector1_fast, vector2_fast)

print(f"'{word1}' ve '{word2}' kelimeleri arasındaki kosinüs benzerlikleri:\n")
print(f"cbow      : {cosine_similarity_cbow}")
print(f"skip-gram : {cosine_similarity_skip}")
print(f"'fasttext : {cosine_similarity_fast}")

Vektör İşlemleri

In [None]:
from gensim.models import KeyedVectors

# Word2Vec Türkçe önceden eğitilmiş vektörleri yükleyelim
pretrained_word_vectors = KeyedVectors.load_word2vec_format('C:\\Users\\manue\\Desktop\\trmodel', binary=True)

In [None]:
# Analoji testi
result = pretrained_word_vectors.most_similar(positive=['kral', 'kadın'], negative=['erkek'], topn=30)
print(result)

Kümeleme

In [None]:
from gensim.models import Word2Vec
from sklearn.cluster import KMeans
from collections import Counter
from nltk.tokenize import word_tokenize
import numpy as np

# 1. Metni dosyadan yükleme
with open('dosyalar//odtu_derlemi.txt', 'r', encoding='utf-8') as file:
    corpus = file.read()

# 2. Metni tokenize edip küçük harfe çevirme
tokens = [word.lower() for word in word_tokenize(corpus)]

# 3. Kelime frekanslarını hesaplama
kelime_frekansları = Counter(tokens)

# 4. En sık 100 kelimeyi seçme
en_sık_100_kelime = [kelime for kelime, frekans in kelime_frekansları.most_common(100)]

# 5. Word2Vec modelini eğitme
tokenized_text = [word_tokenize(sentence.lower()) for sentence in corpus.split('\n') if sentence]
word2vec_model = Word2Vec(sentences=tokenized_text, vector_size=100, window=5, min_count=5, sg=1, epochs=10)

# 6. Seçilen kelimelerin vektörlerini çıkarma
vektörler = [word2vec_model.wv[kelime] for kelime in en_sık_100_kelime if kelime in word2vec_model.wv]

# 7. K-means kümeleme
kmeans = KMeans(n_clusters=5, random_state=0).fit(vektörler)

# 8. Kelimeleri ve kümeleri yazdırma
for kelime, etiket in zip(en_sık_100_kelime, kmeans.labels_):
    if kelime in word2vec_model.wv:
        print(f"{kelime}: Küme {etiket}")

Kelime Dışlama

In [None]:
odd_word = pretrained_word_vectors.doesnt_match(['sarı', 'mor', 'kafes', 'yeşil'])
print(f"Uyumsuz kelime: {odd_word}")

Vektör Görselleştirme

In [None]:
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

kelimeler = ['insan', 'kedi', 'köpek', 'okul', 'elektronik', 'bilgisayar']
vektörler = [pretrained_word_vectors[word] for word in kelimeler]

pca = PCA(n_components=2)
reduced_vectors = pca.fit_transform(vektörler)

plt.figure(figsize=(10, 10))
for i, kelime in enumerate(kelimeler):
    plt.scatter(reduced_vectors[i, 0], reduced_vectors[i, 1])
    plt.text(reduced_vectors[i, 0] + 0.01, reduced_vectors[i, 1] + 0.01, kelime)

plt.show()