## WORD EMBEDDING

Word embedding, bir kelime veya ifadenin düz bir vektör olarak ifade edilmesidir. Bu vektörler, kelimelerin arasındaki benzerlikleri yansıtmak üzere model tarfından öğrenilir. Bu sayede, yapay zeka modelleri kelimeler arasındaki ilişkileri daha iyi anlayabilir

Word embedding, metin verileri kullanılarak öğrenilir. Örneğin, bir metin corpus'u (büyük metin veritabanı) kullanılarak, her kelime için çevresindeki kelimeler ile ilişkisini öğrenir. Bu ilişki, kelime ve çevresindeki kelimeler arasındaki co-occurrence (ortak görünüm) frekansı olarak tanımlanır. Daha sonra, bu co-occurrence verileri kullanarak, her kelime için bir vektör oluşturulur. Bu vektörler, kelimelerin anlamları arasındaki benzerlikleri yansıtmak üzere tasarlanır.

Örneğin, "öğretmen", "öğrenci", "not verme" kelimeleri sıklıkla aynı metinlerde görülür ve benzer anlamlar taşır, bu nedenle oluşan vektörleri birbirine yakın olacak. Ancak "öğretmen" ve "portakal" kelimeleri sıklıkla aynı metinlerde görülmez ve farklı anlamlar taşır, bu nedenle oluşan vektörleri birbirinden uzak olacak.

Word embedding is the expression of a word or phrase as a flat vector. These vectors are learned by the model to reflect similarities between words. In this way, AI models can better understand the relationships between words

Word embedding is learned using text data. For example, using a text corpus (large text database), it learns for each word its relationship with the words around it. This relationship is defined as the co-occurrence frequency between the word and its surrounding words. Then, using this co-occurrence data, a vector is created for each word. These vectors are designed to reflect the similarities between the meanings of the words.

For example, the words "teacher", "student", "grading" often appear in the same texts and have similar meanings, so their resulting vectors will be close to each other. However, the words "teacher" and "orange" do not often appear in the same texts and have different meanings, so their vectors will be far apart.


## Word2Vec

In [2]:
!pip install gensim
!conda install -c conda-forge gensim

/bin/bash: line 1: conda: command not found


In [3]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [4]:
from nltk.tokenize import word_tokenize
import pandas as pd
from gensim.models import Word2Vec
import nltk

In [5]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [7]:
df = pd.read_csv("/content/drive/MyDrive/GENAI-LLM/1-newspaper.zip", names = ["news"])
df
# pandas'ın read_csv fonksiyonu zip'li dosyaları da okuyabiliyor.
# ziplediğimiz data(corpus) txt dosyası olduğundan dosyada belirlenmiş feature ismi/isimleri yoktur. Bu sebeple
# feature isimlendirmesi için names parametresini kullanıyoruz.
# names parametresi kullanılmaz ise ilk satırdaki text default olarak feature names olarak atanır.

# pandas' read_csv function can also read zip files.
# Since the data (corpus) we zip is a txt file, there are no feature name(s) specified in the file. For this reason
# we use the names parameter for feature naming.
# If the names parameter is not used, the text in the first line is assigned as feature names by default.

Unnamed: 0,news
0,iran devlet televizyonu ülkedeki eyaletin sind...
1,gösterilerde fitnecilere ölüm münafıklara ölüm...
2,dini lider ali hamaney ve cumhurbaşkanı mahmud...
3,musevi ye ölüm ve idam idam sloganları duyuldu
4,muhalefet liderleri kaçtı mı aşure günü yaşana...
...,...
411520,dışişleri bakanlığı ndan yapılan yazılı açıkla...
411521,açıklamada abd nin ankara büyükelçiliği ve ist...
411522,seyahat uyarısı güncelleme kararının temmuz da...
411523,amerikalı turistlerin açıkça türkiye deki ulus...


In [8]:
df["news"][0]

'iran devlet televizyonu ülkedeki eyaletin sinde yapılan reformcuları protesto amaçlı yürüyüşlere milyonlarca kişinin katıldığını bildirdi '

In [9]:
word_tokenize(df["news"][0])

['iran',
 'devlet',
 'televizyonu',
 'ülkedeki',
 'eyaletin',
 'sinde',
 'yapılan',
 'reformcuları',
 'protesto',
 'amaçlı',
 'yürüyüşlere',
 'milyonlarca',
 'kişinin',
 'katıldığını',
 'bildirdi']

In [10]:
%%time
corpus = [word_tokenize(i) for i in df.news]
corpus[:5]

# word2vec algoritması tüm corpusun 2 boyutlu olmasını ister. Bu sebeple burdaki for döngüsü ile tüm documnetleri/satırları
# teker teker çekip word tokenlerine ayırıyoruz. Word_tokenize fonksiyonu default olarak texti word tokenlerine ayırıp bir
# listeye atar.

# word2vec algorithm wants the whole corpus to be 2-dimensional. For this reason, the for loop here is used to move all documnets/rows
# one by one we extract and split it into word tokens. By default, the word_tokenize function will split the text into word tokens and create a
# assigns to the list.

CPU times: user 47.3 s, sys: 1.19 s, total: 48.5 s
Wall time: 48.8 s


[['iran',
  'devlet',
  'televizyonu',
  'ülkedeki',
  'eyaletin',
  'sinde',
  'yapılan',
  'reformcuları',
  'protesto',
  'amaçlı',
  'yürüyüşlere',
  'milyonlarca',
  'kişinin',
  'katıldığını',
  'bildirdi'],
 ['gösterilerde',
  'fitnecilere',
  'ölüm',
  'münafıklara',
  'ölüm',
  'abd',
  'ye',
  'ölüm',
  'ingiltere',
  'ye',
  'ölüm',
  'sloganları',
  'atıldı'],
 ['dini',
  'lider',
  'ali',
  'hamaney',
  've',
  'cumhurbaşkanı',
  'mahmud',
  'ahmedinejad',
  'ı',
  'destekleyen',
  'iranlılar',
  'son',
  'olaylarda',
  'yeğeni',
  'öldürülen',
  'mir',
  'hüseyin',
  'musevi',
  'başta',
  'olmak',
  'üzere',
  'muhalefet',
  'liderlerini',
  'kınadılar'],
 ['musevi', 'ye', 'ölüm', 've', 'idam', 'idam', 'sloganları', 'duyuldu'],
 ['muhalefet',
  'liderleri',
  'kaçtı',
  'mı',
  'aşure',
  'günü',
  'yaşanan',
  'çatışmalarda',
  'devlet',
  'kaynaklarına',
  'göre',
  'u',
  'terörist',
  'olmak',
  'üzere',
  'kişi',
  'ölmüştü']]

In [11]:
from gensim.utils import effective_n_jobs

effective_n_jobs(-1)

# bilgisayarınızdaki eğitim için kullanabileceğiniz max çekirdek sayısını gösterir.

# indicates the maximum number of cores on your computer that you can use for training.

2

In [12]:
%%time
model = Word2Vec(sentences=corpus,
                 alpha = 0.025,
                 vector_size=100,
                 window=5,
                 min_count=5,
                 sg=1,
                 workers=effective_n_jobs(-1))

# vector_size, kaç boyutlu word embeddings istiyorsak burda belirtiyoruz.
# Bir token ile diğer tokenler arasındaki anlamsal ilişkiler kurulurken bu tokenin kaç önce ve sonrasındaki tokenler dikkate
# alınarak eğitim yapılmasını istiyorsak window parametresinde belirtiyoruz. Tavsiye edilen 5-15 sayıları arasındadır.
# min_count, corpusta 5 veya daha az geçen tokenler eğitime dahil edilmez. Genellikle 3,4,5 gibi sayılar tercih edilir.
# sg =1, eğitimi skipgram algoritması ile yap.
# sg =0, eğitimi CBOW algoritması ile yap.
# alpha= learning rate
# workers=eğitim için kullanacağımız çekirdek sayısı

# vector_size, this is where we specify how big word embeddings we want.
# How many tokens before and after this token are taken into account when establishing semantic relationships between a token and other tokens
#If we want training to be done by taking #, we specify it in the window parameter. The recommended number is between 5 and 15.
# min_count, tokens with 5 or less occurrences in the corpus are not included in the training. Usually numbers like 3,4,5 are preferred.
# sg =1, train with the skipgram algorithm.
# sg =0, train with the CBOW algorithm.
# alpha= learning rate
# workers=number of cores we will use for training

CPU times: user 4min 13s, sys: 591 ms, total: 4min 13s
Wall time: 2min 27s


In [14]:
model.wv["ankara"]
# 100 dimensional embedding

array([-0.25360307,  0.17129561,  0.21035098, -0.28426895,  0.18265857,
       -0.13061622,  0.02302907,  0.6592007 , -0.0346442 , -0.4234017 ,
       -0.03688671, -0.79144675, -0.3616798 , -0.0837153 ,  0.3591176 ,
        0.83387154, -0.11217764, -0.1617908 ,  0.04854663, -0.8709855 ,
       -0.08347872,  0.3056215 ,  0.61448663, -0.15683088, -0.0477133 ,
        0.00139448, -0.5077969 , -0.21343146, -0.43329436,  0.5994757 ,
        0.1043253 ,  0.2690264 ,  0.34605277, -0.6958436 , -0.63511366,
        0.14641045,  0.00553049, -0.39908174,  0.14620541, -0.4240781 ,
        0.4499629 , -0.3137366 ,  0.2717869 , -0.14113232,  0.12160922,
        0.2284008 ,  0.24139762,  0.43867907,  0.9304602 , -0.40677062,
        0.24344718, -0.03503416, -0.36749497,  0.10100814,  0.02326082,
        0.09739173, -0.02570247, -0.2005627 , -0.7117016 , -0.37779856,
       -0.1885886 , -0.4132531 , -0.4471867 ,  0.1387265 , -0.10640043,
        0.04094469,  0.17849249,  0.3200195 , -0.14587991,  0.07

In [15]:
model.wv["samsun"]

array([ 0.05255378,  0.67348343,  0.2497672 ,  0.13191013,  0.83440435,
       -0.32427406, -0.23677447,  0.5764318 , -0.02900703, -0.3899129 ,
       -0.274988  , -0.5490962 , -0.01908151, -0.1998273 , -0.18440627,
        0.13001922,  0.06715295,  0.01359755,  0.40654567, -0.22683196,
       -0.2864634 , -0.0646713 ,  0.2162586 ,  0.08157401, -0.18199024,
        0.02622105, -0.24293707,  0.178381  ,  0.00515397, -0.15520248,
        0.288516  ,  0.3179472 , -0.06007677, -0.07640858, -0.04764662,
        0.02105106,  0.40260366, -0.38674825,  0.2692952 , -0.5200416 ,
        0.19467278,  0.29974222, -0.11514972, -0.22157474, -0.08033751,
        0.18747471, -0.07634086,  0.16254126,  0.27312928, -0.19211324,
        0.11683851, -0.2533463 ,  0.06130785, -0.4435415 , -0.50288403,
        0.2723357 ,  0.10435537, -0.32310498, -0.4679537 , -0.25654337,
        0.01915246,  0.35852036, -0.42791283,  0.5652649 ,  0.18045887,
       -0.18742143,  0.29123142, -0.01906335, -0.1696915 ,  0.53

In [18]:
model.wv["atakum"]

KeyError: "Key 'atakum' not present"

In [20]:
model.wv.most_similar("samsun")

[('gap', 0.861132800579071),
 ('tekirdağ', 0.8396734595298767),
 ('yolculu', 0.8281273245811462),
 ('balıkesir', 0.8212180137634277),
 ('kuşadası', 0.8139795660972595),
 ('muğla', 0.8139556050300598),
 ('giresun', 0.8138068914413452),
 ('bindikleri', 0.8136529326438904),
 ('patra', 0.8122808337211609),
 ('havalandı', 0.8106662631034851)]

In [22]:
model.wv.most_similar("öğretmen")

[('okuldaki', 0.7739822268486023),
 ('öğretmeni', 0.7681606411933899),
 ('öğretmenin', 0.7537562251091003),
 ('erkekten', 0.715997576713562),
 ('öğrenciye', 0.7055880427360535),
 ('öğrenciyle', 0.7031122446060181),
 ('öğrenci', 0.6984686255455017),
 ('tecavüzcü', 0.6965761184692383),
 ('kreş', 0.6961989998817444),
 ('veliler', 0.6961734294891357)]

In [23]:
model.wv.most_similar("not")

[('tercüme', 0.6948563456535339),
 ('yazıyı', 0.6431792974472046),
 ('peçete', 0.6319090127944946),
 ('tasdik', 0.6287675499916077),
 ('yazmayı', 0.6231768131256104),
 ('tekzip', 0.6212449669837952),
 ('ihtiva', 0.6207912564277649),
 ('çalış', 0.6197056174278259),
 ('tasnif', 0.6193894147872925),
 ('yazısını', 0.6189468502998352)]

In [27]:
model.wv.most_similar(positive=["öğrenme", "doktor"], negative=["tedavi"], topn=5)

[('almancayı', 0.6648053526878357),
 ('psikoloji', 0.6608626842498779),
 ('inceliklerini', 0.6533471345901489),
 ('dersin', 0.6510429978370667),
 ('özenli', 0.6507148742675781)]

In [28]:
model.wv.most_similar(positive=["ankara", "belçika"], negative=["brüksel"], topn=5)

[('hollanda', 0.6141901612281799),
 ('fransa', 0.6061499118804932),
 ('italya', 0.5810335278511047),
 ('danimarka', 0.5741097331047058),
 ('avusturya', 0.5722252130508423)]

In [29]:
model.save("/content/drive/MyDrive/GENAI-LLM/word2vec.model")

In [None]:
model = Word2Vec.load("/content/drive/MyDrive/GENAI-LLM/word2vec.model")

## Glove

In [30]:
from gensim.models import KeyedVectors
# KeyedVectors fonksiyonunu farklı bir formattaki word embeddingleri word2vec formatına dönüştürmek için kullanıyoruz.

# We use the KeyedVectors function to convert word embeddings in a different format to word2vec format.

In [37]:
glove_model = "/content/drive/MyDrive/GENAI-LLM/glove.6B.100d.txt"

model2 = KeyedVectors.load_word2vec_format(glove_model, binary=False, no_header=True)

In [38]:
model2["teacher"]

array([ 0.44374 ,  0.67311 , -0.51096 ,  0.20882 , -0.10662 ,  0.55098 ,
       -0.035593,  0.25126 , -0.32789 ,  1.0762  , -0.49637 , -0.4298  ,
        0.36764 ,  0.57894 , -0.25027 , -0.41021 ,  0.086998, -0.16843 ,
       -0.85764 ,  1.0404  , -1.0314  ,  0.095147,  0.30729 ,  0.12348 ,
        0.22745 , -0.52157 , -0.72478 , -1.0843  ,  0.035966,  0.62985 ,
       -1.0991  ,  0.67161 ,  0.33797 ,  0.14551 , -0.90049 , -0.064415,
       -0.75247 ,  0.21741 ,  0.51594 , -0.46291 , -0.77598 ,  0.40705 ,
        0.1889  , -0.43402 ,  0.23202 , -0.081453, -0.3882  , -0.34444 ,
        0.080225, -0.28274 , -0.38869 , -0.58152 , -0.25558 ,  1.0027  ,
       -0.11114 , -1.5402  , -0.16761 , -0.26558 ,  0.9325  ,  0.069397,
        0.96618 ,  0.15449 , -0.22905 , -0.1761  ,  0.13225 , -0.55741 ,
        0.9234  , -0.04845 ,  0.50202 ,  1.0144  , -0.1256  ,  0.30486 ,
        0.090808,  0.17642 , -0.23146 ,  0.68386 ,  0.37269 , -0.37316 ,
       -0.025728, -1.0279  , -0.33142 ,  0.036028, 

In [39]:
model2.most_similar("ankara")

[('turkey', 0.7512096166610718),
 ('istanbul', 0.6787630319595337),
 ('turkish', 0.6690374612808228),
 ('damascus', 0.6372509002685547),
 ('tbilisi', 0.6322181820869446),
 ('erdogan', 0.6258037090301514),
 ('moscow', 0.6217040419578552),
 ('brussels', 0.6181437969207764),
 ('skopje', 0.6164302229881287),
 ('cyprus', 0.606403112411499)]

In [40]:
model2.most_similar("teacher")

[('student', 0.8083398938179016),
 ('school', 0.7545564770698547),
 ('teaching', 0.7521439790725708),
 ('taught', 0.741184651851654),
 ('teachers', 0.7291542887687683),
 ('graduate', 0.7134961485862732),
 ('instructor', 0.7077120542526245),
 ('students', 0.6828974485397339),
 ('teaches', 0.6552315354347229),
 ('education', 0.6528989672660828)]

In [41]:
model2.most_similar("doctor")

[('physician', 0.7673240303993225),
 ('nurse', 0.75215083360672),
 ('dr.', 0.7175194025039673),
 ('doctors', 0.7080884575843811),
 ('patient', 0.7074184417724609),
 ('medical', 0.6995992660522461),
 ('surgeon', 0.6905338168144226),
 ('hospital', 0.6900930404663086),
 ('psychiatrist', 0.658909797668457),
 ('dentist', 0.6447421312332153)]

In [42]:
model2.most_similar(positive=["woman", "son"], negative=["man"], topn=1)

[('daughter', 0.9090957641601562)]

In [43]:
model2.most_similar(positive=["woman", "father"], negative=["man"], topn=1)

[('mother', 0.9024619460105896)]

In [44]:
model2.most_similar(positive=["woman", "uncle"], negative=["man"], topn=1)

[('aunt', 0.8368030190467834)]

In [45]:
model2.most_similar(positive=["ankara", "germany"], negative=["berlin"], topn=1)

[('turkey', 0.81471186876297)]

In [46]:
model2.most_similar(positive=["teach", "doctor"], negative=["treat"], topn=1)

[('teacher', 0.7610154151916504)]