# Olasılıksal Dil Modelleri (Modeling)

### 1)N-Gram Modelleri

In [3]:
import nltk 
from nltk.util import ngrams
from nltk.tokenize import word_tokenize 
from collections import Counter

**Örnek Veri Seti Oluşturma**

In [2]:
corpus = [
    "I love apple",
    "I love him",
    "I love NLP",
    "You love me",
    "He loves apple",
    "They love apple",
    "I love you and you love me"
]

Dil modeli yapmak istiyoruz. Amaç 1 kelimeden sonra gelecek kelimeyi tahmin etmek : metin türetmek/oluşturmak bunun için n-gram dil modeli 
kullanacağız.

**Verileri Tokenize Hale Getirme**

In [4]:
tokens = [word_tokenize(sentence.lower()) for sentence in corpus]
tokens

[['i', 'love', 'apple'],
 ['i', 'love', 'him'],
 ['i', 'love', 'nlp'],
 ['you', 'love', 'me'],
 ['he', 'loves', 'apple'],
 ['they', 'love', 'apple'],
 ['i', 'love', 'you', 'and', 'you', 'love', 'me']]

**Bigram (2'li)kelime grupları oluşturma**

In [5]:
bigrams = []
for token_list in tokens:
    bigrams.extend(list(ngrams(token_list,2)))
bigrams

[('i', 'love'),
 ('love', 'apple'),
 ('i', 'love'),
 ('love', 'him'),
 ('i', 'love'),
 ('love', 'nlp'),
 ('you', 'love'),
 ('love', 'me'),
 ('he', 'loves'),
 ('loves', 'apple'),
 ('they', 'love'),
 ('love', 'apple'),
 ('i', 'love'),
 ('love', 'you'),
 ('you', 'and'),
 ('and', 'you'),
 ('you', 'love'),
 ('love', 'me')]

In [6]:
bigrams_freq = Counter(bigrams)
bigrams_freq

Counter({('i', 'love'): 4,
         ('love', 'apple'): 2,
         ('you', 'love'): 2,
         ('love', 'me'): 2,
         ('love', 'him'): 1,
         ('love', 'nlp'): 1,
         ('he', 'loves'): 1,
         ('loves', 'apple'): 1,
         ('they', 'love'): 1,
         ('love', 'you'): 1,
         ('you', 'and'): 1,
         ('and', 'you'): 1})

**Trigrams (3'lü) Liste Oluşturma**

In [7]:
trigrams = []
for token_list in tokens:
    trigrams.extend(list(ngrams(token_list,3)))
trigrams

[('i', 'love', 'apple'),
 ('i', 'love', 'him'),
 ('i', 'love', 'nlp'),
 ('you', 'love', 'me'),
 ('he', 'loves', 'apple'),
 ('they', 'love', 'apple'),
 ('i', 'love', 'you'),
 ('love', 'you', 'and'),
 ('you', 'and', 'you'),
 ('and', 'you', 'love'),
 ('you', 'love', 'me')]

In [8]:
trigrams_freq = Counter(trigrams)
trigrams_freq

Counter({('you', 'love', 'me'): 2,
         ('i', 'love', 'apple'): 1,
         ('i', 'love', 'him'): 1,
         ('i', 'love', 'nlp'): 1,
         ('he', 'loves', 'apple'): 1,
         ('they', 'love', 'apple'): 1,
         ('i', 'love', 'you'): 1,
         ('love', 'you', 'and'): 1,
         ('you', 'and', 'you'): 1,
         ('and', 'you', 'love'): 1})

**Modeli Testi**

In [9]:
# "i love" bigramdan sonra "you" veya "apple" gelme olasılıklarını hesaplayalım
bigram = ("i","love") # Hedef bigram

# "i love you" olma olasılığı
prob_you = trigrams_freq[("i","love","you")]/bigrams_freq[bigram]
print(f"You kelimesinin olma olasılığı:{prob_you}")

# "i love apple" olma olasılığı
prob_apple = trigrams_freq[("i","love","apple")]/bigrams_freq[bigram]
print(f"apple kelimesinin olam olasılığı:{prob_apple}")

You kelimesinin olma olasılığı:0.25
apple kelimesinin olam olasılığı:0.25
