## Word_embedding

Word embedding, bir kelime veya ifade için düz bir vektör olarak ifade edilmesidir. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere öğrenilir. Bu sayede, yapay zeka modelleri kelimeler arasındaki ilişkileri daha iyi anlayabilir

Word embedding, metin verileri kullanılarak öğrenilir. Örneğin, bir metin corpus'u (büyük metin veritabanı) kullanılarak, her kelime için çevresindeki kelimeler ile ilişkisini öğrenir. Bu ilişki, kelime ve çevresindeki kelimeler arasındaki co-occurrence (ortak görünüm) frekansı olarak tanımlanır. Daha sonra, bu co-occurrence verileri kullanarak, her kelime için bir vektör oluşturulur. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere tasarlanır.

Örneğin, "öğretmen", "öğrenci", "not verme" kelimeleri sıklıkla aynı metinlerde görülür ve benzer anlamlar taşır, bu nedenle oluşan vektörleri birbirine yakın olacak. Ancak "öğretmen" ve "portakal" kelimeleri sıklıkla aynı metinlerde görülmez ve farklı anlamlar taşır, bu nedenle oluşan vektörleri birbirinden uzak olacak.

## Feature Representation (Feature Extraction for word embeddings)

word embbeding vektöründe yeralan ve genellikle -1 ve +1 (Bazı pre-trained modellerde bu değer -1 ve +1'den büyük olabilir.) arasında değer alan elemanların her birine feature representation denir. Bu feature representationların model tarafından oluşturulması sürecisine ise feature extraction denir.

ML'de, feature extraction, veri kümesinde bulunan özellikleri veya nitelikleri belirlemek için kullanılan bir yöntemdir. Bu özellikler, veri kümesindeki verileri anlamlı bir şekilde ifade etmelerine olanak tanır. Bu özellikler, veri kümesinden manuel olarak seçilir.

DL'de ise, feature extraction, veri kümesindeki özellikleri öğrenmek için kullanılan bir yöntemdir. Bu yöntem için kullanılan yöntemler arasında Convolutional Neural Network (CNN) ve Recurrent Neural Network (RNN) gibi yapay sinir ağları yer almaktadır. Bu yapay sinir ağları, veri kümesinden özellikleri otomatik olarak öğrenir ve bu özellikler, veri kümesindeki verileri daha anlamlı bir şekilde ifade etmelerine olanak tanır.

Özet olarak, ML'de özellikler manuel olarak kullanıcı tarafından seçilirken, DL'de özellikler otomatik model tarafından tespit edilerek öğrenilir.

## Word2Vec

In [1]:
# pip install gensim
# conda install -c conda-forge gensim

In [2]:
from nltk.tokenize import word_tokenize
import pandas as pd
from gensim.models import Word2Vec

import warnings
warnings.filterwarnings("ignore")

In [3]:
df = pd.read_csv('newspaper.zip', names = ["news"])
df

# pandas'ın read_csv fonksiyonu zip'li dosyaları da okuyabiliyor. 
# ziplediğimiz data(corpus) txt dosyası olduğundan dosyada belirlenmiş feture ismi/isimleri belirlenmemiştir. Bu sebeple 
# feature isimlendirmesi için names parametresini kullanıyoruz.
# names parametresi kullanılmaz ise ilk satırdaki text default olarak feature names olarak atanır.

Unnamed: 0,news
0,iran devlet televizyonu ülkedeki eyaletin sind...
1,gösterilerde fitnecilere ölüm münafıklara ölüm...
2,dini lider ali hamaney ve cumhurbaşkanı mahmud...
3,musevi ye ölüm ve idam idam sloganları duyuldu
4,muhalefet liderleri kaçtı mı aşure günü yaşana...
...,...
411520,dışişleri bakanlığı ndan yapılan yazılı açıkla...
411521,açıklamada abd nin ankara büyükelçiliği ve ist...
411522,seyahat uyarısı güncelleme kararının temmuz da...
411523,amerikalı turistlerin açıkça türkiye deki ulus...


In [4]:
df.news[0]

'iran devlet televizyonu ülkedeki eyaletin sinde yapılan reformcuları protesto amaçlı yürüyüşlere milyonlarca kişinin katıldığını bildirdi '

In [5]:
word_tokenize(df.news[0])

['iran',
 'devlet',
 'televizyonu',
 'ülkedeki',
 'eyaletin',
 'sinde',
 'yapılan',
 'reformcuları',
 'protesto',
 'amaçlı',
 'yürüyüşlere',
 'milyonlarca',
 'kişinin',
 'katıldığını',
 'bildirdi']

In [6]:
corpus = []

for i in df.news:
    corpus.append(word_tokenize(i))

print(corpus[:5])

# word2vec algoritması tüm corpusun 2 boyutlu olmasını ister. Bu sebeple burdaki for döngüsü ile tüm documnetleri/satırları
# teker teker çekip word tokenlerine ayırıyoruz. Word_tokenize fonksiyonu default olarak texti word tokenlerine ayırıp bir 
# listeye atar. Bu listeler corpus listesine append edilerek corpus 2 boyutlu hale getiritir. 

[['iran', 'devlet', 'televizyonu', 'ülkedeki', 'eyaletin', 'sinde', 'yapılan', 'reformcuları', 'protesto', 'amaçlı', 'yürüyüşlere', 'milyonlarca', 'kişinin', 'katıldığını', 'bildirdi'], ['gösterilerde', 'fitnecilere', 'ölüm', 'münafıklara', 'ölüm', 'abd', 'ye', 'ölüm', 'ingiltere', 'ye', 'ölüm', 'sloganları', 'atıldı'], ['dini', 'lider', 'ali', 'hamaney', 've', 'cumhurbaşkanı', 'mahmud', 'ahmedinejad', 'ı', 'destekleyen', 'iranlılar', 'son', 'olaylarda', 'yeğeni', 'öldürülen', 'mir', 'hüseyin', 'musevi', 'başta', 'olmak', 'üzere', 'muhalefet', 'liderlerini', 'kınadılar'], ['musevi', 'ye', 'ölüm', 've', 'idam', 'idam', 'sloganları', 'duyuldu'], ['muhalefet', 'liderleri', 'kaçtı', 'mı', 'aşure', 'günü', 'yaşanan', 'çatışmalarda', 'devlet', 'kaynaklarına', 'göre', 'u', 'terörist', 'olmak', 'üzere', 'kişi', 'ölmüştü']]


In [7]:
model = Word2Vec(corpus, vector_size=100, window=5, min_count=5, sg=1)

# vector_size, kaç boyutlu word embeddings istiyorsak burda belirtiyoruz.
# Bir token ile diğer tokenler arasındaki anlamsal ilişkiler kurulurken bu tokenin kaç önce ve sonrasındaki tokenler dikkate 
# alınarak eğitim yapılmasını istiyorsak window parametresinde belirtiyoruz. Tavsiye edilen 5-15 sayıları arasındadır.
# min_count, corpusta 5 veya daha az geçen tokenler eğitime dahil edilmez. Genellikle 3,4,5 gibi sayılar tercih edilir.
# sg =1, eğitimi skipgram algoritması ile yap.
# sg =0, eğitimi CBOW algoritması ile yap.

In [8]:
model.wv['ankara']

# 100 elemanlı/boyutlu word_embedding

array([ 2.20945969e-01, -1.20438822e-01,  3.53310078e-01,  2.13968068e-01,
        1.23192884e-01,  1.07841017e-02, -6.97753802e-02,  4.19226289e-01,
       -2.85315186e-01, -9.85685810e-02, -3.62245142e-01, -5.38376510e-01,
       -3.68409991e-01,  1.03413038e-01,  4.86977637e-01,  6.23379111e-01,
        3.96729112e-02, -4.56588656e-01,  9.27470624e-02, -1.15834272e+00,
       -1.44437909e-01,  2.31297433e-01, -5.60352840e-02, -7.16506168e-02,
       -1.59972981e-01,  4.70392518e-02, -2.84947723e-01, -2.92177558e-01,
       -5.69683731e-01,  5.77618957e-01,  1.83221892e-01,  2.85054564e-01,
        2.60336220e-01, -1.52620390e-01, -2.75068823e-02, -3.33606303e-01,
        1.89281181e-01, -2.37903036e-02,  5.92926979e-01, -3.95502210e-01,
        1.17488675e-01,  1.75016657e-01,  6.66594326e-01, -3.13688993e-01,
        5.45100868e-01,  1.05987586e-01, -2.10278556e-01, -2.79717222e-02,
        2.97265351e-01, -4.27007735e-01,  3.45040292e-01,  4.18560376e-06,
       -3.48524452e-04,  

In [9]:
model.wv.most_similar('öğretmen')

[('okuldaki', 0.7720556855201721),
 ('öğretmeni', 0.7649725079536438),
 ('öğrenci', 0.7335668206214905),
 ('öğretmenin', 0.7329638600349426),
 ('erkek', 0.7267424464225769),
 ('öğrencisinin', 0.7257005572319031),
 ('üniversite', 0.7250380516052246),
 ('öğrenciye', 0.7185111045837402),
 ('genç', 0.7090256214141846),
 ('hizmetli', 0.7070963978767395)]

In [10]:
model.wv.most_similar('kırmızı')

[('çizgileri', 0.7109454870223999),
 ('sarı', 0.7050856351852417),
 ('turuncu', 0.657698929309845),
 ('gömlekli', 0.6429945230484009),
 ('gömleklilerin', 0.6343114972114563),
 ('siyah', 0.6338225603103638),
 ('renkli', 0.6229934692382812),
 ('gömlekliler', 0.6217965483665466),
 ('ışıkta', 0.6126565933227539),
 ('halıda', 0.6091527342796326)]

In [11]:
model.wv.most_similar('eve')

[('evine', 0.8221230506896973),
 ('dükkana', 0.7686168551445007),
 ('mağazaya', 0.739480197429657),
 ('apartmana', 0.7393567562103271),
 ('arabaya', 0.7388609051704407),
 ('karakola', 0.7219747304916382),
 ('odasına', 0.7191316485404968),
 ('otobüse', 0.7096606492996216),
 ('ofise', 0.7081886529922485),
 ('kulübüne', 0.7053074836730957)]

In [12]:
model.wv.most_similar('mavi')

[('marmara', 0.9035828709602356),
 ('gemisine', 0.6562087535858154),
 ('baskınıyla', 0.6545258164405823),
 ('filosundaki', 0.6228142976760864),
 ('dökme', 0.6177002191543579),
 ('saldırısındaki', 0.6069719195365906),
 ('baskınına', 0.6057579517364502),
 ('gönüllüsünün', 0.60301673412323),
 ('filo', 0.600658118724823),
 ('baskınının', 0.5919097065925598)]

In [13]:
model.wv.most_similar(positive=['öğrenme', 'doktor'], negative=['tedavi'], topn=5)

[('bilişsel', 0.6627044081687927),
 ('psikoloji', 0.6565402746200562),
 ('tanıtıp', 0.6547233462333679),
 ('yaptıklarında', 0.6502236127853394),
 ('tanışma', 0.641762912273407)]

In [14]:
model.wv.most_similar(positive=['ankara', 'belçika'], negative=['brüksel'], topn=1)

[('hollanda', 0.6377406120300293)]

In [15]:
model.save("word2vec.model")

In [16]:
model = Word2Vec.load("word2vec.model")

## Glove

In [17]:
from gensim.models import KeyedVectors

# KeyedVectors fonksiyonunu farklı bir formattaki word embeddingleri word2vec formatına dönüştürmek için kullanıyoruz.

In [18]:
glove_model = 'glove.6B.100d.txt'
model2 = KeyedVectors.load_word2vec_format(glove_model, no_header=True) #'glove.6B.100d.txt'

# 'Word2Vec formatında genellikle dosyanın ilk satırında bir başlık bulunur ve bu başlık satırı, kelime sayısını
# ve vektör boyutunu içerir. Ancak txt dosyamız glove formatında olduğundan glove.txt dosyalarında başlık bulunmaz
# başlık bilgisi olmadığını no_header=True şeklinde belirtmemiz gerekir aksi taktirde hata alırsınız.

In [19]:
model2['teacher']

array([ 0.44374 ,  0.67311 , -0.51096 ,  0.20882 , -0.10662 ,  0.55098 ,
       -0.035593,  0.25126 , -0.32789 ,  1.0762  , -0.49637 , -0.4298  ,
        0.36764 ,  0.57894 , -0.25027 , -0.41021 ,  0.086998, -0.16843 ,
       -0.85764 ,  1.0404  , -1.0314  ,  0.095147,  0.30729 ,  0.12348 ,
        0.22745 , -0.52157 , -0.72478 , -1.0843  ,  0.035966,  0.62985 ,
       -1.0991  ,  0.67161 ,  0.33797 ,  0.14551 , -0.90049 , -0.064415,
       -0.75247 ,  0.21741 ,  0.51594 , -0.46291 , -0.77598 ,  0.40705 ,
        0.1889  , -0.43402 ,  0.23202 , -0.081453, -0.3882  , -0.34444 ,
        0.080225, -0.28274 , -0.38869 , -0.58152 , -0.25558 ,  1.0027  ,
       -0.11114 , -1.5402  , -0.16761 , -0.26558 ,  0.9325  ,  0.069397,
        0.96618 ,  0.15449 , -0.22905 , -0.1761  ,  0.13225 , -0.55741 ,
        0.9234  , -0.04845 ,  0.50202 ,  1.0144  , -0.1256  ,  0.30486 ,
        0.090808,  0.17642 , -0.23146 ,  0.68386 ,  0.37269 , -0.37316 ,
       -0.025728, -1.0279  , -0.33142 ,  0.036028, 

In [20]:
model2.most_similar('ankara')

[('turkey', 0.7512097358703613),
 ('istanbul', 0.6787630915641785),
 ('turkish', 0.6690374612808228),
 ('damascus', 0.6372509002685547),
 ('tbilisi', 0.6322181820869446),
 ('erdogan', 0.6258037686347961),
 ('moscow', 0.6217040419578552),
 ('brussels', 0.6181437969207764),
 ('skopje', 0.6164302229881287),
 ('cyprus', 0.6064030528068542)]

In [21]:
model2.most_similar('teacher')

[('student', 0.8083398938179016),
 ('school', 0.7545564770698547),
 ('teaching', 0.7521439790725708),
 ('taught', 0.741184651851654),
 ('teachers', 0.7291542291641235),
 ('graduate', 0.7134961485862732),
 ('instructor', 0.7077119946479797),
 ('students', 0.6828974485397339),
 ('teaches', 0.6552315354347229),
 ('education', 0.6528989672660828)]

In [22]:
model2.most_similar('doctor')

[('physician', 0.7673240303993225),
 ('nurse', 0.75215083360672),
 ('dr.', 0.7175194025039673),
 ('doctors', 0.7080884575843811),
 ('patient', 0.7074184417724609),
 ('medical', 0.6995993256568909),
 ('surgeon', 0.6905338764190674),
 ('hospital', 0.690092921257019),
 ('psychiatrist', 0.658909797668457),
 ('dentist', 0.6447420716285706)]

In [23]:
model2.most_similar(positive=['woman', 'son'], negative=['man'], topn=1)

[('daughter', 0.9090957641601562)]

In [24]:
model2.most_similar(positive=['woman', 'father'], negative=['man'], topn=1)

[('mother', 0.9024619460105896)]

In [25]:
model2.most_similar(positive=['woman', 'uncle'], negative=['man'], topn=1)

[('aunt', 0.8368030190467834)]

In [26]:
model2.most_similar(positive=['ankara', 'germany'], negative=['berlin'], topn=1)

[('turkey', 0.81471186876297)]

In [27]:
model2.most_similar(positive=['teach', 'doctor'], negative=['treat'], topn=1)

[('teacher', 0.7610154151916504)]

In [28]:
model2.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)

[('queen', 0.7698540687561035)]

In [29]:
model2.most_similar(positive=['love', 'jealous'], negative=['hate'], topn=1)

[('lover', 0.7032662034034729)]