##  Olasılıksal Dil Modelleri
- Dilin yapısını ve düzenini anlamak ve modellemek için kullanılan istatistiksel yöntemlerdir..
- NLP pipeline sürecinde modelleme kısmında yer alır.



- N-Gram Modelleri - 
- Gizli Markow modelleri (hidden markow models HMM)
- Maximum Entropy modelleri (MaxEnt)

## N-Gram Modelleri 
- N-Gram modelleri ,bir dizideki (genellikle cümledeki) ardışık kelime veya karakter gruplarının olasıklıklarını tahmin eder.
- Burada "n" gruptaki öğe sayısını belirtir.



- Kullanım 
    - bir cümlede bir kelimenin hangi olasıklıkla diğer bir kelimeden sonra geleceğini tahmin etmek için kullanılır.
- Avantajlar 
    - Basit hızlı
    - Yerel bağlantıları iyi yakalar
- Dezavantajlar
    - Bağlam sınırlaması- uzun mesafeleri zor yakalar
    - Veri Gereksinimi     

In [1]:
from collections import Counter
import nltk
from nltk.util import ngrams
from nltk.tokenize import word_tokenize



In [2]:
corpus = [
    
    "I love you",
    "I love apple",
    "I love programming",
    "You love me",
    "She loves apple",
    "They love you",
    "I love you",
    "You love me"
]

In [5]:
[ word_tokenize(sentence.lower())for sentence in corpus ]

[['i', 'love', 'you'],
 ['i', 'love', 'apple'],
 ['i', 'love', 'programming'],
 ['you', 'love', 'me'],
 ['she', 'loves', 'apple'],
 ['they', 'love', 'you'],
 ['i', 'love', 'you'],
 ['you', 'love', 'me']]

In [6]:
tokens= [ word_tokenize(sentence.lower())for sentence in corpus ]

In [7]:
# n gram  -> 2

bigrams = []
for token_list in tokens:
    bigrams.extend(list(ngrams(token_list,2)))

In [8]:
print(bigrams)

[('i', 'love'), ('love', 'you'), ('i', 'love'), ('love', 'apple'), ('i', 'love'), ('love', 'programming'), ('you', 'love'), ('love', 'me'), ('she', 'loves'), ('loves', 'apple'), ('they', 'love'), ('love', 'you'), ('i', 'love'), ('love', 'you'), ('you', 'love'), ('love', 'me')]


In [9]:
bigrams_freq = Counter(bigrams)

In [11]:
print(bigrams_freq)

Counter({('i', 'love'): 4, ('love', 'you'): 3, ('you', 'love'): 2, ('love', 'me'): 2, ('love', 'apple'): 1, ('love', 'programming'): 1, ('she', 'loves'): 1, ('loves', 'apple'): 1, ('they', 'love'): 1})


In [12]:
trigrams = []
for token_list in tokens:
    trigrams.extend(list(ngrams(token_list,3)))
    
trigrams_freq = Counter(trigrams)

print(trigrams_freq)

Counter({('i', 'love', 'you'): 2, ('you', 'love', 'me'): 2, ('i', 'love', 'apple'): 1, ('i', 'love', 'programming'): 1, ('she', 'loves', 'apple'): 1, ('they', 'love', 'you'): 1})


In [15]:
# "I love " bigramından sonra you veya apple gelme olasılığını hesapla "

bigram = ("i","love")

prob_you = trigrams_freq[("i","love","you")]/bigrams_freq[bigram]
prob_apple = trigrams_freq[("i","love","apple")]/bigrams_freq[bigram]


In [17]:
print("you kelimesinin olma olasılığı ",prob_you)
print("apple olma olasılığı : ", prob_apple)

you kelimesinin olma olasılığı  0.5
apple olma olasılığı :  0.25


## Hidden Markow Models
- bir dizi gözlemin (kelimeler veya karakterler gibi) arkasında gizli bir durum dizisinin olduğu varsayımına dayanır
- HMM,her bir durumun belirli bir olasılıkla başka bir duruma geceğini ve her durumun belirli bir gözlemi üreteceğini varsayar

- Kullanım 
    - Konuşma Tanıma
    - Dil modelleme
    - Parça etiketleme (part of speech tagging)( kelimelerin fiil özne olarak tanımlanması)
- Avantajlar 
    - Bağlam modelleme 
    - Verimli Algoritmalar
- Dezavantajlar
    - Basitleştirici varsayımlar 
    - Eğitim zorluğu -yeterli veri yoksa sorun
    


In [18]:
import nltk 
from nltk.tag import hmm 


In [19]:
# exp dataset

train_data = [
    [("I","PRP"),("am","VBP"),("a","DT"),("student","NN")],
    [("you","PRP"),("are","VBP"),("a","DT"),("teacher","NN")],
    
    
    
]

In [20]:
trainer= hmm.HiddenMarkovModelTrainer()
hmm_tagger= trainer.train(train_data)

In [23]:
# new sentence

test_sentence = "I m a teacher".split()

tags=hmm_tagger.tag(test_sentence)

print("etiketli cümle : " ,tags)


etiketli cümle :  [('I', 'PRP'), ('m', 'PRP'), ('a', 'PRP'), ('teacher', 'PRP')]


## Working on big dataset



In [9]:
import nltk 
from nltk.tag import hmm
from nltk.corpus import conll2000

nltk.download("conll2000", download_dir="C:\llm\.venv\Lib\site-packages\\nltk")
nltk.data.path = [r'C:\llm\.venv\Lib\site-packages\nltk']


[nltk_data] Downloading package conll2000 to C:\llm\.venv\Lib\site-
[nltk_data]     packages\nltk...
[nltk_data]   Package conll2000 is already up-to-date!


In [12]:
train_data= conll2000.tagged_sents("train.txt")
test_data = conll2000.tagged_sents("test.txt")


trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)

test_sentence = "I m not going to park".split()
tags = hmm_tagger.tag(test_sentence)


print(tags)

[('I', 'PRP'), ('m', 'NN'), ('not', 'NN'), ('going', 'NN'), ('to', 'NN'), ('park', 'NN')]


# Maximum Entropy Modelleri MAXENT

- Bir olasılık dağılmını tahmin ederken mümkün olduğunca az varsayımda bulunmayı hedefler

- Kullanım 
    - özellikle sınıflandırma görevlerinde 
    - bir cümlenin bir sınıfa pozitif negatif duygu gibi ait olma olasığını tahmin edebilir

- Avantajlar 
    - Esneklik 
    - İyi genelleme 
- Dezavantaj 
    - Hesaplama maliyetleri
    - Özellik mühendisliği 




In [1]:
from nltk.classify import MaxentClassifier



#train dataset
train_data = [
    ({"love":True,"amazing":True},"positive"),
    ({"hate":True,"terrible":True},"negative"),
    ({"happy":True,"joy":True},"positive"),
    ({"sad":True,"depressed":True},"negative")
    
    
    
    
    
]

In [2]:
classifier=MaxentClassifier.train(train_data,max_iter=10)

  ==> Training (10 iterations)

      Iteration    Log Likelihood    Accuracy
      ---------------------------------------
             1          -0.69315        0.500
             2          -0.40547        1.000
             3          -0.28768        1.000
             4          -0.22314        1.000
             5          -0.18232        1.000
             6          -0.15415        1.000
             7          -0.13353        1.000
             8          -0.11778        1.000
             9          -0.10536        1.000
         Final          -0.09531        1.000


In [3]:
test_sentence = "I love this amazing movie "

In [5]:
features= {word : (word in test_sentence.lower().split()) for word in ["love","amazing","hate","terrible","happy","joy","depressed","sad"
                                                        ]}

In [6]:
label = classifier.classify(features)
print(label)

positive
