In [1]:
from collections import Counter

In [2]:
words = ["Ali", "Mehmet", "Zeynep", "Ali", "Mehmet"]

In [3]:
Counter(words)

Counter({'Ali': 2, 'Mehmet': 2, 'Zeynep': 1})

In [4]:
ornek_metin = "Doğal dil işleme, bilgisayarların insan dilini anlama, işleme ve üretme yeteneğini geliştirmeyi amaçlayan bir bilim dalıdır. Doğal dil işleme teknikleri, günümüzde birçok uygulamada kullanılmaktadır."

In [5]:
ornek_metin

'Doğal dil işleme, bilgisayarların insan dilini anlama, işleme ve üretme yeteneğini geliştirmeyi amaçlayan bir bilim dalıdır. Doğal diş işleme teknikleri, günümüzde birçok uygulamada kullanılmaktadır.'

In [6]:
#Bu metni kelimelerine ayırıp noktalama işaretlerini kaldıralım, hangi kelime kaç defa geçiyor bulalım.

In [2]:
import re

In [3]:
def text_preprocessing(text):
    text = re.sub(r"[^\w\s]", "", text.lower())
    return text.split()

In [9]:
text_preprocessing(ornek_metin)

['doğal',
 'dil',
 'işleme',
 'bilgisayarların',
 'insan',
 'dilini',
 'anlama',
 'işleme',
 've',
 'üretme',
 'yeteneğini',
 'geliştirmeyi',
 'amaçlayan',
 'bir',
 'bilim',
 'dalıdır',
 'doğal',
 'diş',
 'işleme',
 'teknikleri',
 'günümüzde',
 'birçok',
 'uygulamada',
 'kullanılmaktadır']

In [10]:
def word_freq(text):
    return Counter(text_preprocessing(text))

In [12]:
words = word_freq(ornek_metin)

In [13]:
for word, freq in words.items():
    print(f"{word} : {freq}")

doğal : 2
dil : 1
işleme : 3
bilgisayarların : 1
insan : 1
dilini : 1
anlama : 1
ve : 1
üretme : 1
yeteneğini : 1
geliştirmeyi : 1
amaçlayan : 1
bir : 1
bilim : 1
dalıdır : 1
diş : 1
teknikleri : 1
günümüzde : 1
birçok : 1
uygulamada : 1
kullanılmaktadır : 1


# N Grams

N-gram'lar, dildeki ardışık öğelerden oluşan dizilerdir ve genellikle doğal dil işleme (NLP) alanında kullanılır. Bir metni küçük parçalara ayırarak, kelime ya da harf düzeyinde örüntüleri analiz etmeye yarar. Örneğin, unigram bir kelimeyi, bigram ise ardışık iki kelimeyi ifade eder. N-gram'lar, dil modellemesi, metin tahminleme ve sınıflandırma gibi birçok uygulamada kullanılır.

In [14]:
n_grams = ["Ali", "Mehmet", "Zeynep", "Ali", "Mehmet"]

In [15]:
# bigram -> [("Ali", "Mehmet"), ("Mehmet", "Zeynep"), ("Zeynep", "Ali"), ("Ali", "Mehmet")]

In [19]:
bi_gram = [tuple(n_grams[i:i+2]) for i in range(len(n_grams) + 1 - 2)]

In [20]:
bi_gram

[('Ali', 'Mehmet'), ('Mehmet', 'Zeynep'), ('Zeynep', 'Ali'), ('Ali', 'Mehmet')]

In [21]:
Counter(bi_gram)

Counter({('Ali', 'Mehmet'): 2, ('Mehmet', 'Zeynep'): 1, ('Zeynep', 'Ali'): 1})

In [22]:
tri_gram = [tuple(n_grams[i:i+3]) for i in range(len(n_grams) + 1 - 3)]

In [23]:
tri_gram

[('Ali', 'Mehmet', 'Zeynep'),
 ('Mehmet', 'Zeynep', 'Ali'),
 ('Zeynep', 'Ali', 'Mehmet')]

In [24]:
Counter(tri_gram)

Counter({('Ali', 'Mehmet', 'Zeynep'): 1,
         ('Mehmet', 'Zeynep', 'Ali'): 1,
         ('Zeynep', 'Ali', 'Mehmet'): 1})

In [25]:
# Yukarıdaki örnek metni bigram ve trigram'lara bölünüz.

# 4.Hafta

In [5]:
def generate_ngrams(text, n):
    words = text_preprocessing(text)
    return [tuple(words[i:i+n]) for i in range(len(words) + 1 - n)]

In [6]:
bi_gram = generate_ngrams(ornek_metin, 2)

In [8]:
tri_gram = generate_ngrams(ornek_metin, 3)

In [10]:
for bigram, freq in Counter(bi_gram).most_common():
    print(f"{bigram} : {freq}")

('doğal', 'dil') : 2
('dil', 'işleme') : 2
('işleme', 'bilgisayarların') : 1
('bilgisayarların', 'insan') : 1
('insan', 'dilini') : 1
('dilini', 'anlama') : 1
('anlama', 'işleme') : 1
('işleme', 've') : 1
('ve', 'üretme') : 1
('üretme', 'yeteneğini') : 1
('yeteneğini', 'geliştirmeyi') : 1
('geliştirmeyi', 'amaçlayan') : 1
('amaçlayan', 'bir') : 1
('bir', 'bilim') : 1
('bilim', 'dalıdır') : 1
('dalıdır', 'doğal') : 1
('işleme', 'teknikleri') : 1
('teknikleri', 'günümüzde') : 1
('günümüzde', 'birçok') : 1
('birçok', 'uygulamada') : 1
('uygulamada', 'kullanılmaktadır') : 1


In [11]:
for trigram, freq in Counter(tri_gram).most_common():
    print(f"{trigram} : {freq}")

('doğal', 'dil', 'işleme') : 2
('dil', 'işleme', 'bilgisayarların') : 1
('işleme', 'bilgisayarların', 'insan') : 1
('bilgisayarların', 'insan', 'dilini') : 1
('insan', 'dilini', 'anlama') : 1
('dilini', 'anlama', 'işleme') : 1
('anlama', 'işleme', 've') : 1
('işleme', 've', 'üretme') : 1
('ve', 'üretme', 'yeteneğini') : 1
('üretme', 'yeteneğini', 'geliştirmeyi') : 1
('yeteneğini', 'geliştirmeyi', 'amaçlayan') : 1
('geliştirmeyi', 'amaçlayan', 'bir') : 1
('amaçlayan', 'bir', 'bilim') : 1
('bir', 'bilim', 'dalıdır') : 1
('bilim', 'dalıdır', 'doğal') : 1
('dalıdır', 'doğal', 'dil') : 1
('dil', 'işleme', 'teknikleri') : 1
('işleme', 'teknikleri', 'günümüzde') : 1
('teknikleri', 'günümüzde', 'birçok') : 1
('günümüzde', 'birçok', 'uygulamada') : 1
('birçok', 'uygulamada', 'kullanılmaktadır') : 1
