## Word_embedding

Word embedding, bir kelime veya ifade için düz bir vektör olarak ifade edilmesidir. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere öğrenilir. Bu sayede, yapay zeka modelleri kelimeler arasındaki ilişkileri daha iyi anlayabilir

Word embedding, metin verileri kullanılarak öğrenilir. Örneğin, bir metin corpus'u (büyük metin veritabanı) kullanarak, her kelime için çevresindeki kelimeler ile ilişkisini öğrenir. Bu ilişki, kelime ve çevresindeki kelimeler arasındaki co-occurrence (ortak görünüm) frekansı olarak tanımlanır. Daha sonra, bu co-occurrence verileri kullanarak, her kelime için bir vektör oluşturulur. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere tasarlanır.

Örneğin, "king" ve "queen" kelimeleri sıklıkla aynı metinlerde görülür ve benzer anlamlar taşır, bu nedenle oluşan vektörleri birbirine yakın olacak. Ancak "king" ve "orange" kelimeleri sıklıkla aynı metinlerde görülmez ve farklı anlamlar taşır, bu nedenle oluşan vektörleri birbirinden uzak olacak.

## Feature Representation (Feature Extraction for word embeddings)

ML'de, feature extraction, veri kümesinde bulunan özellikleri veya nitelikleri belirlemek için kullanılan bir yöntemdir. Bu özellikler, veri kümesindeki verileri anlamlı bir şekilde ifade etmelerine olanak tanır. Bu özellikler, veri kümesinden el ile seçilir.

DL'de ise, feature extraction, veri kümesindeki özellikleri öğrenmek için kullanılan bir yöntemdir. Bu yöntem için kullanılan yöntemler arasında Convolutional Neural Network (CNN) ve Recurrent Neural Network (RNN) gibi yapay sinir ağları yer almaktadır. Bu yapay sinir ağları, veri kümesinden özellikleri otomatik olarak öğrenir ve bu özellikler, veri kümesindeki verileri daha anlamlı bir şekilde ifade etmelerine olanak tanır.

Özet olarak, ML'de özellikler elle seçilirken, DL'de özellikler otomatik olarak öğrenilir.

## Word2Vec

In [1]:
# pip install gensim
# conda install -c conda-forge gensim

# gensim kütüphanesi anaconda'da default yüklü olarak geliyor.

In [2]:
from nltk.tokenize import word_tokenize
import pandas as pd
from gensim.models import Word2Vec

import warnings
warnings.filterwarnings("ignore")

In [3]:
df = pd.read_csv('newspaper.zip', names = ["news"])
df

# pandas'ın read_csv fonksiyonu zip'li dosyaları da okuyabiliyor. feature isimlendirmesi için names parametresini kullanıyoruz.
# names parametresi kullanılmaz ise ilk satırdaki text deafault olarak feature names olarak atanır.

Unnamed: 0,news
0,iran devlet televizyonu ülkedeki eyaletin sind...
1,gösterilerde fitnecilere ölüm münafıklara ölüm...
2,dini lider ali hamaney ve cumhurbaşkanı mahmud...
3,musevi ye ölüm ve idam idam sloganları duyuldu
4,muhalefet liderleri kaçtı mı aşure günü yaşana...
...,...
411520,dışişleri bakanlığı ndan yapılan yazılı açıkla...
411521,açıklamada abd nin ankara büyükelçiliği ve ist...
411522,seyahat uyarısı güncelleme kararının temmuz da...
411523,amerikalı turistlerin açıkça türkiye deki ulus...


In [4]:
df.news[0]

'iran devlet televizyonu ülkedeki eyaletin sinde yapılan reformcuları protesto amaçlı yürüyüşlere milyonlarca kişinin katıldığını bildirdi '

In [5]:
word_tokenize(df.news[0])

['iran',
 'devlet',
 'televizyonu',
 'ülkedeki',
 'eyaletin',
 'sinde',
 'yapılan',
 'reformcuları',
 'protesto',
 'amaçlı',
 'yürüyüşlere',
 'milyonlarca',
 'kişinin',
 'katıldığını',
 'bildirdi']

In [6]:
corpus = []

for i in df.index:
    corpus.append(word_tokenize(df.news[i]))

print(corpus[:5])

# word2vec algoritması tüm corpusun 2 boyutlu olmasını ister. Bu sebeple burdaki for döngüsü ile tüm documnetleri/satırları
# teker teker çekip word tokenlerine ayırıyoruz. Word_tokenize fonksiyonu default olarak texti word tokenlerine ayırıp bir 
# listeye atar. Bu listeler corpus listesine append edilerek corpus 2 boyutlu hale getiritir. 

[['iran', 'devlet', 'televizyonu', 'ülkedeki', 'eyaletin', 'sinde', 'yapılan', 'reformcuları', 'protesto', 'amaçlı', 'yürüyüşlere', 'milyonlarca', 'kişinin', 'katıldığını', 'bildirdi'], ['gösterilerde', 'fitnecilere', 'ölüm', 'münafıklara', 'ölüm', 'abd', 'ye', 'ölüm', 'ingiltere', 'ye', 'ölüm', 'sloganları', 'atıldı'], ['dini', 'lider', 'ali', 'hamaney', 've', 'cumhurbaşkanı', 'mahmud', 'ahmedinejad', 'ı', 'destekleyen', 'iranlılar', 'son', 'olaylarda', 'yeğeni', 'öldürülen', 'mir', 'hüseyin', 'musevi', 'başta', 'olmak', 'üzere', 'muhalefet', 'liderlerini', 'kınadılar'], ['musevi', 'ye', 'ölüm', 've', 'idam', 'idam', 'sloganları', 'duyuldu'], ['muhalefet', 'liderleri', 'kaçtı', 'mı', 'aşure', 'günü', 'yaşanan', 'çatışmalarda', 'devlet', 'kaynaklarına', 'göre', 'u', 'terörist', 'olmak', 'üzere', 'kişi', 'ölmüştü']]


In [7]:
model = Word2Vec(corpus, vector_size=100, window=5, min_count=5, sg=1)

# vector_size, kaç boyutlu word embeddings istiyorsak burda belirtiyoruz.
# Bir token ile diğer tokenler arasındaki anlamsal ilişkiler kurulurken bu tokenin kaç önce ve sonrasındaki tokenler dikkate 
# alınarak eğitim yapılmasını istiyorsak window parametresinde belirtiyoruz. Tavsiye edilen 5-15 sayıları arasındadır.
# min_count, corpusta 5 veya daha az geçen tokenler eğitime dahil edilmez. Genellikle 3,4,5 gibi sayılar tercih edilir.
# sg =1 eğitimi skipgram'a göre yap.
# sg =0 eğitimi CBOW'a göre yap.

In [8]:
model.wv['ankara']

# 100 elemanlı/boyutlu word_embedding

array([ 5.08610196e-02, -1.91354454e-02,  1.92467183e-01, -5.03546931e-02,
        2.71773010e-01, -2.74418425e-02, -3.39686334e-01,  8.03080916e-01,
       -2.62422502e-01, -1.85380489e-01, -4.05550390e-01, -3.60035449e-01,
       -6.60600513e-02, -1.05594374e-01,  3.56859833e-01,  5.57903886e-01,
        3.11425507e-01, -1.26089677e-01,  3.88799697e-01, -8.57182503e-01,
       -3.10035124e-02,  2.45976582e-01,  5.85008740e-01, -3.82265180e-01,
       -3.53920572e-02,  1.58784881e-01, -3.34565163e-01,  2.32913598e-01,
       -1.83959618e-01, -1.79201707e-01,  5.97809017e-01,  2.90599823e-01,
        3.71164024e-01, -2.38015503e-01,  1.01578005e-01, -4.06781584e-02,
       -2.63025075e-01,  1.49353310e-01,  2.00283453e-01, -3.72475237e-01,
        3.49013835e-01,  3.49099413e-02,  1.58240765e-01, -3.20119888e-01,
        6.51053905e-01,  4.89323735e-01, -4.88576032e-02, -9.41673964e-02,
        5.48963606e-01, -6.85020030e-01,  2.48180479e-01, -2.65987664e-01,
        7.31461048e-02, -

In [9]:
model.wv.most_similar('öğretmen')

[('okuldaki', 0.779882550239563),
 ('öğretmeni', 0.7543853521347046),
 ('öğretmenin', 0.7514544129371643),
 ('erkekten', 0.7266681790351868),
 ('üniversite', 0.719687819480896),
 ('öğrenci', 0.7185198664665222),
 ('erkek', 0.7129561901092529),
 ('öğrenciyle', 0.7111133337020874),
 ('öğrencinin', 0.710594892501831),
 ('öğrencilerine', 0.7054566144943237)]

In [10]:
model.wv.most_similar('kırmızı')

[('çizgileri', 0.7016740441322327),
 ('sarı', 0.6456849575042725),
 ('turuncu', 0.6416722536087036),
 ('gömlekli', 0.6168577075004578),
 ('gömlekliler', 0.6113293170928955),
 ('bülten', 0.6099309325218201),
 ('ışıkta', 0.6092270612716675),
 ('çizgi', 0.6065354347229004),
 ('renkli', 0.598127543926239),
 ('bültenle', 0.5958477258682251)]

In [11]:
model.wv.most_similar('eve')

[('evine', 0.823508083820343),
 ('dükkana', 0.7653148770332336),
 ('apartmana', 0.7520676851272583),
 ('karakola', 0.7222248911857605),
 ('mağazaya', 0.7219913601875305),
 ('hapishaneye', 0.7181344032287598),
 ('sinemaya', 0.7005369067192078),
 ('ofise', 0.6998499631881714),
 ('arabaya', 0.6992784142494202),
 ('arabasına', 0.6991788148880005)]

In [12]:
model.wv.most_similar('mavi')

[('marmara', 0.8973907828330994),
 ('gemisine', 0.6709944009780884),
 ('baskınıyla', 0.6370192766189575),
 ('baskınına', 0.6203108429908752),
 ('filosundaki', 0.6172122955322266),
 ('gemisindeki', 0.5999846458435059),
 ('filo', 0.5993313193321228),
 ('baskını', 0.5985547304153442),
 ('baskınının', 0.5961306095123291),
 ('dökme', 0.5885583758354187)]

In [16]:
model.wv.most_similar(positive=['öğrenme', 'doktor'], negative=['tedavi'], topn=5)

[('driscoll', 0.6545294523239136),
 ('psikoloji', 0.6543854475021362),
 ('zeka', 0.6441437005996704),
 ('dersine', 0.6424835324287415),
 ('diploması', 0.6413402557373047)]

In [17]:
model.wv.most_similar(positive=['ankara', 'belçika'], negative=['brüksel'], topn=1)

[('hollanda', 0.6459717750549316)]

In [18]:
model.save("word2vec.model")

In [19]:
model = Word2Vec.load("word2vec.model")

## Glove

In [20]:
from gensim.models import KeyedVectors

# KeyedVectors fonksiyonunu farklı bir formattaki word embeddingleri word2vec formatına dönüştürmek için kullanıyoruz.

In [21]:
glove_model = 'glove.6B.100d.txt'
model2 = KeyedVectors.load_word2vec_format(glove_model, no_header=True) #'glove.6B.100d.txt'

# 'glove.6B.100d.txt' word embedding textinde (vocab_size, vector_size) boyutuna ilişkin bir bildirim olmadığından KeyedVectors
# dönüştürücüsünün tüm texti tarayıp (vocab_size, vector_size) boyutunu tespit etmesi ve buna göre ilgili token/kelimelere
# karşılık gelen vektörleri döndürmesi gerekir. Bunu yapabilmesi için no_header=True olarak düzenleniyor.

In [22]:
model2['teacher']

array([ 0.44374 ,  0.67311 , -0.51096 ,  0.20882 , -0.10662 ,  0.55098 ,
       -0.035593,  0.25126 , -0.32789 ,  1.0762  , -0.49637 , -0.4298  ,
        0.36764 ,  0.57894 , -0.25027 , -0.41021 ,  0.086998, -0.16843 ,
       -0.85764 ,  1.0404  , -1.0314  ,  0.095147,  0.30729 ,  0.12348 ,
        0.22745 , -0.52157 , -0.72478 , -1.0843  ,  0.035966,  0.62985 ,
       -1.0991  ,  0.67161 ,  0.33797 ,  0.14551 , -0.90049 , -0.064415,
       -0.75247 ,  0.21741 ,  0.51594 , -0.46291 , -0.77598 ,  0.40705 ,
        0.1889  , -0.43402 ,  0.23202 , -0.081453, -0.3882  , -0.34444 ,
        0.080225, -0.28274 , -0.38869 , -0.58152 , -0.25558 ,  1.0027  ,
       -0.11114 , -1.5402  , -0.16761 , -0.26558 ,  0.9325  ,  0.069397,
        0.96618 ,  0.15449 , -0.22905 , -0.1761  ,  0.13225 , -0.55741 ,
        0.9234  , -0.04845 ,  0.50202 ,  1.0144  , -0.1256  ,  0.30486 ,
        0.090808,  0.17642 , -0.23146 ,  0.68386 ,  0.37269 , -0.37316 ,
       -0.025728, -1.0279  , -0.33142 ,  0.036028, 

In [23]:
model2.most_similar('ankara')

[('turkey', 0.7512096166610718),
 ('istanbul', 0.6787630319595337),
 ('turkish', 0.6690374612808228),
 ('damascus', 0.6372509002685547),
 ('tbilisi', 0.6322181820869446),
 ('erdogan', 0.6258037090301514),
 ('moscow', 0.6217040419578552),
 ('brussels', 0.6181437969207764),
 ('skopje', 0.6164302229881287),
 ('cyprus', 0.606403112411499)]

In [24]:
model2.most_similar('teacher')

[('student', 0.8083398938179016),
 ('school', 0.7545564770698547),
 ('teaching', 0.7521439790725708),
 ('taught', 0.741184651851654),
 ('teachers', 0.7291542887687683),
 ('graduate', 0.7134961485862732),
 ('instructor', 0.7077120542526245),
 ('students', 0.6828974485397339),
 ('teaches', 0.6552315354347229),
 ('education', 0.6528989672660828)]

In [25]:
model2.most_similar('doctor')

[('physician', 0.7673240303993225),
 ('nurse', 0.75215083360672),
 ('dr.', 0.7175194025039673),
 ('doctors', 0.7080884575843811),
 ('patient', 0.7074184417724609),
 ('medical', 0.6995992660522461),
 ('surgeon', 0.6905338168144226),
 ('hospital', 0.6900930404663086),
 ('psychiatrist', 0.658909797668457),
 ('dentist', 0.6447421312332153)]

In [28]:
model2.most_similar(positive=['woman', 'son'], negative=['man'], topn=1)

[('daughter', 0.9090957641601562)]

In [29]:
model2.most_similar(positive=['woman', 'father'], negative=['man'], topn=1)

[('mother', 0.9024619460105896)]

In [25]:
model2.most_similar(positive=['woman', 'uncle'], negative=['man'], topn=1)

[('aunt', 0.8368030190467834)]

In [33]:
model2.most_similar(positive=['ankara', 'germany'], negative=['berlin'], topn=1)

[('turkey', 0.81471186876297)]

In [34]:
model2.most_similar(positive=['teach', 'doctor'], negative=['treat'], topn=1)

[('teacher', 0.7610154151916504)]

In [35]:
model2.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)

[('queen', 0.7698540687561035)]

In [29]:
model2.most_similar(positive=['love', 'jealous'], negative=['hate'], topn=1)

[('lover', 0.7032662630081177)]