## Word_embedding

Word embedding, bir kelime veya ifade için düz bir vektör olarak ifade edilmesidir. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere öğrenilir. Bu sayede, yapay zeka modelleri kelimeler arasındaki ilişkileri daha iyi anlayabilir

Word embedding, metin verileri kullanılarak öğrenilir. Örneğin, bir metin corpus'u (büyük metin veritabanı) kullanılarak, her kelime için çevresindeki kelimeler ile ilişkisini öğrenir. Bu ilişki, kelime ve çevresindeki kelimeler arasındaki co-occurrence (ortak görünüm) frekansı olarak tanımlanır. Daha sonra, bu co-occurrence verileri kullanarak, her kelime için bir vektör oluşturulur. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere tasarlanır.

Örneğin, "king" ve "queen" kelimeleri sıklıkla aynı metinlerde görülür ve benzer anlamlar taşır, bu nedenle oluşan vektörleri birbirine yakın olacak. Ancak "king" ve "orange" kelimeleri sıklıkla aynı metinlerde görülmez ve farklı anlamlar taşır, bu nedenle oluşan vektörleri birbirinden uzak olacak.

## Feature Representation (Feature Extraction for word embeddings)

word embbeding vektöründe yeralan ve genellikle -1 ve +1 (Bazı pre-trained modellerde bu değer -1 ve +1'den büyük olabilir.) arasında değer alan elemanların her birine feature representation denir. Bu feature representationların model tarafından oluşturulması sürecisine ise feature extraction denir.

ML'de, feature extraction, veri kümesinde bulunan özellikleri veya nitelikleri belirlemek için kullanılan bir yöntemdir. Bu özellikler, veri kümesindeki verileri anlamlı bir şekilde ifade etmelerine olanak tanır. Bu özellikler, veri kümesinden manuel olarak seçilir.

DL'de ise, feature extraction, veri kümesindeki özellikleri öğrenmek için kullanılan bir yöntemdir. Bu yöntem için kullanılan yöntemler arasında Convolutional Neural Network (CNN) ve Recurrent Neural Network (RNN) gibi yapay sinir ağları yer almaktadır. Bu yapay sinir ağları, veri kümesinden özellikleri otomatik olarak öğrenir ve bu özellikler, veri kümesindeki verileri daha anlamlı bir şekilde ifade etmelerine olanak tanır.

Özet olarak, ML'de özellikler manuel olarak kullanıcı tarafından seçilirken, DL'de özellikler otomatik model tarafından tespit edilerek öğrenilir.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [None]:
#bu şekilde dilin gramer yapısını ögenebilir..kelimeler arasında anlamsal ilişki kurabilir..
#sıklıkla aynı text içinde kullanılan kelimler arasında bir anlamsal ilişki kurar.
#play ile joke arasında yada play joke laugh arasında gibi..
#Feature Representation çoğunlukla -1 ile +1 arasındadır.corpusumuzda geçen bütün girdilere bakıp

## Word2Vec

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [None]:
#sonraki tokenleri tahmin etme
#window_size=2 ise önceki ve sonraki iki kelimeyi alıyor. 

In [1]:
# pip install gensim
# conda install -c conda-forge gensim

# gensim kütüphanesi anaconda'da default yüklü olarak geliyor.

In [1]:
from nltk.tokenize import word_tokenize
import pandas as pd
from gensim.models import Word2Vec

import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('newspaper.zip', names = ["news"])
df

# pandas'ın read_csv fonksiyonu zip'li dosyaları da okuyabiliyor. 
# ziplediğimiz data(corpus) txt dosyası olduğundan dosyada belirlenmiş feture ismi/isimleri belirlenmemiştir. Bu sebeple 
# feature isimlendirmesi için names parametresini kullanıyoruz.
# names parametresi kullanılmaz ise ilk satırdaki text default olarak feature names olarak atanır.

Unnamed: 0,news
0,iran devlet televizyonu ülkedeki eyaletin sind...
1,gösterilerde fitnecilere ölüm münafıklara ölüm...
2,dini lider ali hamaney ve cumhurbaşkanı mahmud...
3,musevi ye ölüm ve idam idam sloganları duyuldu
4,muhalefet liderleri kaçtı mı aşure günü yaşana...
...,...
411520,dışişleri bakanlığı ndan yapılan yazılı açıkla...
411521,açıklamada abd nin ankara büyükelçiliği ve ist...
411522,seyahat uyarısı güncelleme kararının temmuz da...
411523,amerikalı turistlerin açıkça türkiye deki ulus...


In [3]:
df.news[0]

'iran devlet televizyonu ülkedeki eyaletin sinde yapılan reformcuları protesto amaçlı yürüyüşlere milyonlarca kişinin katıldığını bildirdi '

In [4]:
word_tokenize(df.news[0])
#bütün kelimeleri birer token haline getiriyor

['iran',
 'devlet',
 'televizyonu',
 'ülkedeki',
 'eyaletin',
 'sinde',
 'yapılan',
 'reformcuları',
 'protesto',
 'amaçlı',
 'yürüyüşlere',
 'milyonlarca',
 'kişinin',
 'katıldığını',
 'bildirdi']

In [5]:
corpus = []
for i in df.news:
    corpus.append(word_tokenize(i))
print(corpus[:5])

# word2vec algoritması tüm corpusun 2 boyutlu olmasını ister. Bu sebeple burdaki for döngüsü ile tüm documnetleri/satırları
# teker teker çekip word tokenlerine ayırıyoruz. Word_tokenize fonksiyonu default olarak texti word tokenlerine ayırıp bir 
# listeye atar. Bu listeler corpus listesine append edilerek corpus 2 boyutlu hale getiritir. 

[['iran', 'devlet', 'televizyonu', 'ülkedeki', 'eyaletin', 'sinde', 'yapılan', 'reformcuları', 'protesto', 'amaçlı', 'yürüyüşlere', 'milyonlarca', 'kişinin', 'katıldığını', 'bildirdi'], ['gösterilerde', 'fitnecilere', 'ölüm', 'münafıklara', 'ölüm', 'abd', 'ye', 'ölüm', 'ingiltere', 'ye', 'ölüm', 'sloganları', 'atıldı'], ['dini', 'lider', 'ali', 'hamaney', 've', 'cumhurbaşkanı', 'mahmud', 'ahmedinejad', 'ı', 'destekleyen', 'iranlılar', 'son', 'olaylarda', 'yeğeni', 'öldürülen', 'mir', 'hüseyin', 'musevi', 'başta', 'olmak', 'üzere', 'muhalefet', 'liderlerini', 'kınadılar'], ['musevi', 'ye', 'ölüm', 've', 'idam', 'idam', 'sloganları', 'duyuldu'], ['muhalefet', 'liderleri', 'kaçtı', 'mı', 'aşure', 'günü', 'yaşanan', 'çatışmalarda', 'devlet', 'kaynaklarına', 'göre', 'u', 'terörist', 'olmak', 'üzere', 'kişi', 'ölmüştü']]


In [6]:
model = Word2Vec(corpus, vector_size=100, window=5, min_count=5, sg=1)

# vector_size, kaç boyutlu word embeddings istiyorsak burda belirtiyoruz.
# Bir token ile diğer tokenler arasındaki anlamsal ilişkiler kurulurken bu tokenin kaç önce ve sonrasındaki tokenler dikkate 
# alınarak eğitim yapılmasını istiyorsak window parametresinde belirtiyoruz. Tavsiye edilen 5-15 sayıları arasındadır.
# min_count, corpusta 5 veya daha az geçen tokenler eğitime dahil edilmez. Genellikle 3,4,5 gibi sayılar tercih edilir.
# sg =1, eğitimi skipgram algoritması ile yap.küçük datalarda daha iyi sonuçlar verdiğini bildiğimiz için bunu kullandık.
# sg =0, eğitimi CBOW algoritması ile yap.(büyük datalar)

In [7]:
model.wv['ankara']

# 100 elemanlı/boyutlu word_embedding
#her biri feature representative

array([ 0.0763149 ,  0.2874647 , -0.29103225, -0.0329804 ,  0.1123765 ,
        0.03562887, -0.22000553,  0.92799395, -0.2136561 , -0.2957514 ,
       -0.27295083, -0.72568727, -0.24958636, -0.05291504,  0.14710318,
        0.76462233,  0.22283553, -0.39905852,  0.2355794 , -1.0204414 ,
        0.10845172,  0.40230495,  0.55038357,  0.06882747, -0.1093628 ,
        0.02867932, -0.14053199,  0.20333454, -0.24987897,  0.03631102,
        0.42728332,  0.35047045,  0.05567869, -0.49236038,  0.29412282,
        0.1928553 , -0.3471315 ,  0.09794161,  0.29641083, -0.36140844,
        0.38655344,  0.16168964,  0.2463676 , -0.07588045,  0.21977113,
        0.23812656, -0.14585051,  0.05113485,  0.5847098 , -0.60548836,
        0.30448115,  0.03334614, -0.04539326, -0.12047797, -0.3926821 ,
       -0.1426854 , -0.389989  , -0.3838337 , -0.3694748 ,  0.07258765,
       -0.15393881, -0.27769807,  0.0563567 , -0.13388741, -0.3674934 ,
       -0.07237834,  0.14905988,  0.2576924 , -0.00167913, -0.01

In [8]:
model.wv.most_similar('öğretmen')
# hangi tokenlerle anlamsal ilşki kurdu( topn) default 10 olduğu için 10 tanesini yazdırdı..
#aynı text içinde sıklıkla birlikte kullanılan kelimeleri getiriyor.

[('okuldaki', 0.7688637375831604),
 ('öğretmenin', 0.75687575340271),
 ('öğretmeni', 0.7447378635406494),
 ('öğrenci', 0.7276010513305664),
 ('öğrenciyle', 0.7257648706436157),
 ('öğrencisinin', 0.7226436734199524),
 ('erkek', 0.7137646675109863),
 ('erkekten', 0.7046815156936646),
 ('genç', 0.6971713900566101),
 ('öğrenciye', 0.6944299340248108)]

In [9]:
model.wv.most_similar('kırmızı')

[('çizgileri', 0.6894081830978394),
 ('sarı', 0.642266571521759),
 ('gömlekli', 0.6296823024749756),
 ('gömlekliler', 0.6219103932380676),
 ('turuncu', 0.614490270614624),
 ('renkli', 0.6029979586601257),
 ('halı', 0.6024373173713684),
 ('halıda', 0.5959362387657166),
 ('çizgi', 0.5912883281707764),
 ('bülten', 0.5892202854156494)]

In [10]:
model.wv.most_similar('eve')

[('evine', 0.8437948226928711),
 ('dükkana', 0.7633789777755737),
 ('mağazaya', 0.7227573394775391),
 ('apartmana', 0.7204285860061646),
 ('hapishaneye', 0.7142255902290344),
 ('odasına', 0.710573136806488),
 ('arabaya', 0.7090838551521301),
 ('köye', 0.7048309445381165),
 ('ofise', 0.7008160352706909),
 ('sinemaya', 0.6996248960494995)]

In [11]:
model.wv.most_similar('mavi')

[('marmara', 0.8915994763374329),
 ('gemisine', 0.6592506766319275),
 ('baskınıyla', 0.6433423757553101),
 ('dökme', 0.6271949410438538),
 ('baskınına', 0.622896671295166),
 ('filosundaki', 0.6164494156837463),
 ('filodaki', 0.5914203524589539),
 ('baskınının', 0.5870734453201294),
 ('komandolarının', 0.5866909623146057),
 ('dilemesiyle', 0.578904926776886)]

In [12]:
model.wv.most_similar('okul')

[('üniversite', 0.7285921573638916),
 ('kreş', 0.7135152816772461),
 ('hastane', 0.6789435148239136),
 ('okullara', 0.663569450378418),
 ('okulun', 0.6427738070487976),
 ('cemaatini', 0.6314557790756226),
 ('işyeri', 0.6254445910453796),
 ('mezarlık', 0.6209957599639893),
 ('kurumlarındaki', 0.6172617077827454),
 ('öğrencilerine', 0.6131166815757751)]

In [13]:
model.wv.most_similar(positive=['öğrenme', 'doktor'], negative=['tedavi'], topn=5)
#doktordan tedavi yi cıkarınca elimizde insructor gibi birşey döndürmesini beklerim ama yakalayamamış.

[('psikoloji', 0.646161675453186),
 ('çayır', 0.6428652405738831),
 ('doçent', 0.6418920159339905),
 ('dersin', 0.6384912133216858),
 ('driscoll', 0.6369926929473877)]

In [14]:
model.wv.most_similar(positive=['ankara', 'belçika'], negative=['brüksel'], topn=1)

[('hollanda', 0.654458224773407)]

In [15]:
model.save("word2vec.model")

In [16]:
model = Word2Vec.load("word2vec.model")

## Glove

In [17]:
from gensim.models import KeyedVectors

# KeyedVectors fonksiyonunu farklı bir formattaki word embeddingleri word2vec formatına dönüştürmek için kullanıyoruz.

In [18]:
glove_model = 'glove.6B.100d.txt'# eğitilmiş bir data, 6b 6 bilyon veri ile üretilmiş
model2 = KeyedVectors.load_word2vec_format(glove_model, no_header=True) #'glove.6B.100d.txt'
#no_header=True ile modelin boyutunu bilmiyorsa datanın hepsini dolaşıp kaç tane token olduğunu bulması gerek.

# 'glove.6B.100d.txt' word embedding textinde (vocab_size, vector_size) boyutuna ilişkin bir bildirim olmadığından KeyedVectors
# dönüştürücüsünün tüm texti tarayıp (vocab_size, vector_size) boyutunu tespit etmesi ve buna göre ilgili token/kelimelere
# karşılık gelen vektörleri döndürmesi gerekir. Bunu yapabilmesi için no_header=True olarak düzenleniyor.

In [19]:
model2['teacher']
#daha önce eğitilmiş olduğu için sayılar herkeste aynı sayılar olarak görünür.wordembeddingler aynı
# burada çok büyük data ile eğitildiği için yakaladığı anlamsal ilişkiler cok daha doğru..

array([ 0.44374 ,  0.67311 , -0.51096 ,  0.20882 , -0.10662 ,  0.55098 ,
       -0.035593,  0.25126 , -0.32789 ,  1.0762  , -0.49637 , -0.4298  ,
        0.36764 ,  0.57894 , -0.25027 , -0.41021 ,  0.086998, -0.16843 ,
       -0.85764 ,  1.0404  , -1.0314  ,  0.095147,  0.30729 ,  0.12348 ,
        0.22745 , -0.52157 , -0.72478 , -1.0843  ,  0.035966,  0.62985 ,
       -1.0991  ,  0.67161 ,  0.33797 ,  0.14551 , -0.90049 , -0.064415,
       -0.75247 ,  0.21741 ,  0.51594 , -0.46291 , -0.77598 ,  0.40705 ,
        0.1889  , -0.43402 ,  0.23202 , -0.081453, -0.3882  , -0.34444 ,
        0.080225, -0.28274 , -0.38869 , -0.58152 , -0.25558 ,  1.0027  ,
       -0.11114 , -1.5402  , -0.16761 , -0.26558 ,  0.9325  ,  0.069397,
        0.96618 ,  0.15449 , -0.22905 , -0.1761  ,  0.13225 , -0.55741 ,
        0.9234  , -0.04845 ,  0.50202 ,  1.0144  , -0.1256  ,  0.30486 ,
        0.090808,  0.17642 , -0.23146 ,  0.68386 ,  0.37269 , -0.37316 ,
       -0.025728, -1.0279  , -0.33142 ,  0.036028, 

In [20]:
model2.most_similar('ankara')

[('turkey', 0.7512096762657166),
 ('istanbul', 0.6787630319595337),
 ('turkish', 0.6690374612808228),
 ('damascus', 0.6372509002685547),
 ('tbilisi', 0.6322181820869446),
 ('erdogan', 0.6258037090301514),
 ('moscow', 0.6217040419578552),
 ('brussels', 0.6181439161300659),
 ('skopje', 0.6164302825927734),
 ('cyprus', 0.6064029932022095)]

In [21]:
model2.most_similar('teacher')

[('student', 0.8083399534225464),
 ('school', 0.7545564770698547),
 ('teaching', 0.7521439790725708),
 ('taught', 0.741184651851654),
 ('teachers', 0.7291542887687683),
 ('graduate', 0.7134960293769836),
 ('instructor', 0.7077120542526245),
 ('students', 0.6828974485397339),
 ('teaches', 0.6552315354347229),
 ('education', 0.6528989672660828)]

In [22]:
model2.most_similar('doctor')

[('physician', 0.7673239707946777),
 ('nurse', 0.75215083360672),
 ('dr.', 0.7175194025039673),
 ('doctors', 0.7080884575843811),
 ('patient', 0.7074184417724609),
 ('medical', 0.6995992660522461),
 ('surgeon', 0.6905338168144226),
 ('hospital', 0.6900930404663086),
 ('psychiatrist', 0.658909797668457),
 ('dentist', 0.6447421312332153)]

In [23]:
model2.most_similar(positive=['woman', 'son'], negative=['man'], topn=1)
#eğitimin kalitesi ölçülüyor
#son dan man özelliğini çıkarırsam  ne kalır. woman yani daugther

[('daughter', 0.9090957045555115)]

In [24]:
model2.most_similar(positive=['woman', 'father'], negative=['man'], topn=1)

[('mother', 0.9024619460105896)]

In [25]:
model2.most_similar(positive=['woman', 'uncle'], negative=['man'], topn=1)

[('aunt', 0.836803138256073)]

In [26]:
model2.most_similar(positive=['ankara', 'germany'], negative=['berlin'], topn=1)

[('turkey', 0.81471186876297)]

In [27]:
model2.most_similar(positive=['teach', 'doctor'], negative=['treat'], topn=1)

[('teacher', 0.7610154151916504)]

In [28]:
model2.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)

[('queen', 0.7698541283607483)]

In [29]:
model2.most_similar(positive=['love', 'jealous'], negative=['hate'], topn=1)

[('lover', 0.7032662630081177)]