Task 5. Basic semantic analysis of a Turkish corpus that will be downloaded from Internet will be done with statistical approaches. Accordingly, in the corpus;

- a list of all words (vocabulary) and their frequencies,

- a list of bigram and trigram tokens that have been used at least 5 times,

- the most similar two words using Latent Semantic Analysis should be determined.

In [133]:
import nltk
import re
import unicodedata
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import TruncatedSVD
from nltk.corpus import stopwords
from collections import Counter


In [134]:
bodytext = open(r'TUA_Tubitak.txt', 'r', encoding='utf-8')
df=bodytext.read()

In [135]:
def basic_clean(text):
  wnl = nltk.stem.WordNetLemmatizer()
  stopwords = nltk.corpus.stopwords.words('turkish') 
  words = re.sub(r'[^\w\s]', '', text).split()
  return [wnl.lemmatize(word) for word in words if word not in stopwords]

In [136]:
words = basic_clean(df)
words

['Yer',
 'gözlem',
 'uyduları',
 'geliştirme',
 'çalışmalarının',
 'ilk',
 'adımları',
 '1999',
 'yılına',
 'kadar',
 'uzanmaktadır',
 '2000',
 'yılından',
 'itibaren',
 'çalışmalar',
 'hızlanmış',
 '20012003',
 'yılları',
 'arasında',
 'Devlet',
 'Planlama',
 'Teşkilatından',
 'sağlanan',
 'destekle',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'ada',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'beri',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'dahi',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'gönderilen',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'teknoloji',
 'transferi',
 'yöntemiyle',
 'Türkiyenin',
 'uzay',
 'serüveni',
 'başlamış',
 'BİLSAT',
 'Uydusu',
 'yapılmıştır',
 'Uydunun',
 'yapımında',
 'İngiliz',
 'uydu',
 'teknolojileri',
 'şirketi',
 'olan',
 'SSTL',
 'Surrey',
 'Satellite',
 'Technology',
 'LimitedSurrey',
 'işbirliği',
 'yapılmıştırsistem',
 'verisi',
 'Bu',
 'kapsamda',
 '2001',
 'yılında',
 'sekiz',
 'araştırmacı',

In [137]:
from nltk.probability import FreqDist
fdist=FreqDist(words)
fdist.most_common(10)

[('uydu', 12),
 ('çözünürlüklü', 11),
 ('GÖKTÜRK', 10),
 ('2', 10),
 ('test', 9),
 ('yüksek', 9),
 ('uydusu', 8),
 ('Yakın', 8),
 ('Kızıl', 8),
 ('teknoloji', 7)]

In [138]:

bigrams=nltk.ngrams(words,2)
bigramsFrequency=Counter(bigrams)
valuesOfBigrams=list(bigramsFrequency.values())
bigramlist=list(bigramsFrequency)

for x in range(0,len(bigramlist)):
    if(valuesOfBigrams[x]>4):
        print(bigramlist[x],"is used",valuesOfBigrams[x],"times")

('teknoloji', 'transferi') is used 7 times
('transferi', 'yöntemiyle') is used 7 times
('test', 'konularında') is used 6 times
('yüksek', 'çözünürlüklü') is used 9 times
('GÖKTÜRK', '2') is used 9 times
('Yakın', 'Kızıl') is used 8 times
('Kızıl', 'Ötesi') is used 7 times


In [139]:
trigrams1 = nltk.ngrams(words,3)
trigramsFrequency1 = Counter(trigrams1)
valuesofTrigrams1 = list(trigramsFrequency1.values())
trigramlist1 = list(trigramsFrequency1)

for x in range(0, len(trigramlist1)):
    if(valuesofTrigrams1[x] > 4):
        print(trigramlist1[x], " is used ", valuesofTrigrams1[x], " times")

('teknoloji', 'transferi', 'yöntemiyle')  is used  7  times
('Yakın', 'Kızıl', 'Ötesi')  is used  7  times


In [140]:
bodytext = open(r'TUA_Tubitak.txt', 'r', encoding='utf-8')
body = bodytext.readlines()
vectorizer = CountVectorizer()
bag_of_words = vectorizer.fit_transform(body)
bag_of_words.todense()

matrix([[0, 1, 0, ..., 0, 1, 1],
        [0, 0, 0, ..., 0, 0, 0],
        [1, 0, 1, ..., 0, 0, 1],
        [0, 0, 0, ..., 0, 0, 0],
        [0, 0, 0, ..., 1, 0, 0]], dtype=int64)

Gizli semantik analiz ( LSA ), doğal dil işlemede , özellikle de dağıtımsal anlambilimde , bir dizi belge ile bunların içerdiği terimler arasındaki ilişkileri, belgeler ve terimlerle ilgili bir dizi kavram üreterek analiz eden bir tekniktir

In [141]:
svd = TruncatedSVD(n_components=1)
lsa = svd.fit_transform(bag_of_words)
topic_encoded_df = pd.DataFrame(lsa, columns=["topic_1"])
topic_encoded_df["body"] = body
print(topic_encoded_df[["body", "topic_1"]])

                                                body    topic_1
0  Yer gözlem uyduları geliştirme çalışmalarının ...  20.798785
1                                                 \n   0.000000
2  BiLSAT projesi ile elde edilen deneyim kullanı...  13.340620
3                                                 \n   0.000000
4  2007-2012 yılları arasında ise Türk Hava Kuvve...  16.688790


In [142]:
dictionary = vectorizer.get_feature_names()
print(dictionary)

['100mbps', '12', '15', '16', '18', '1999', '20', '2000', '2001', '2003', '2004', '2007', '2011', '2012', 'ada', 'adımları', 'alanları', 'algılama', 'alt', 'alınmıştır', 'ana', 'aralık', 'arasında', 'araştırmacı', 'ayrıca', 'bant', 'bantlı', 'bağımsız', 'başarmıştır', 'başarılı', 'başarıyla', 'başlamış', 'baştan', 'beri', 'bi', 'bilge', 'bilgisayarı', 'bilsat', 'bir', 'birikime', 'birisi', 'birlikte', 'bu', 'böylelikle', 'büyütülmüş', 'canlı', 'civarında', 'da', 'daha', 'dahi', 'dan', 'dağ', 'de', 'den', 'deneyim', 'destekle', 'desteği', 'devlet', 'devreye', 'değil', 'dpt', 'edilen', 'ekipmanlar', 'ekipmanları', 'elde', 'entegrasyon', 'fazla', 'firması', 'fırlatılan', 'gard', 'garip', 'gel', 'gelen', 'geliştirdiği', 'geliştirilen', 'geliştirilerek', 'geliştirilmiş', 'geliştirme', 'gerçek', 'gerçekleştirilmesini', 'gerçekleştirilmiştir', 'getirmektedir', 'gezgi', 'giden', 'gidenler', 'gidenlerle', 'göktürk', 'gönderilen', 'gönderilmiştir', 'göre', 'göreceli', 'görevini', 'görkemli', 'gö

In [143]:
encoding_matrix = pd.DataFrame(svd.components_, index=['topic_1'], columns=dictionary).T
print(encoding_matrix)

             topic_1
100mbps     0.015005
12          0.023394
15          0.015005
16          0.018771
18          0.018771
...              ...
ürünlerdir  0.023394
ın          0.037542
şekilde     0.018771
şirketi     0.023394
şleme       0.038399

[287 rows x 1 columns]


1'e yakın değerler çok benzer belgeleri temsil ederken, 0'a yakın değerler çok farklı belgeleri temsil eder.

In [144]:
encoding_matrix['topic_1'].sort_values(ascending=False)

ve              0.414912
uydu            0.242547
uzay            0.213673
çözünürlüklü    0.211103
ile             0.209907
                  ...   
hızında         0.015005
bilsat          0.015005
bilgisayarı     0.015005
bilge           0.015005
olduğunu        0.015005
Name: topic_1, Length: 287, dtype: float64