### 6.2 N-Gramlar Modelleri

In [None]:
# Avantajlar 
# - Basit ve hızlı 
# - Yerel bağıntıları iyi yakalar 
# Dezavantajlar 
# - Bağlam sınırlaması
# - Veri Gereksinimi

### 6.3 

In [2]:
import nltk 
from nltk.util import ngrams
from nltk.tokenize import word_tokenize 

from collections import Counter

# ornek veri seti olustur
corpus = [ 
    "I love apple",
    "I love him",
    "I love NLP",
    "You love me",
    "He loves apple",
    "I love you and love me"
]

"""
Problem tanimi yapalim: 
   dil modeli yapmak istiyoruz 
   amac 1 kelimeden sonra gelecek kelimeyi tahmin etmek: metin turetmek/olusturmak
   bunun icin n gram dil modelini kullanıcaz 

   ex: I ...(love) ...(apple)
"""
# veriler token haline getir
tokens = [word_tokenize(sentence.lower()) for sentence in corpus]

In [3]:
# bigram 2 li kelime grupları olustur
bigrams = []
for token_list in tokens :
    bigrams.extend(list(ngrams(token_list, 2)))
bigrams_freq = Counter(bigrams)

In [5]:
# trigram 3 li kelime grupları olustur
trigrams = []
for token_list in tokens :
    trigrams.extend(list(ngrams(token_list, 3)))
trigrams_freq = Counter(trigrams)

In [None]:
# model testing

# "i love" bigram2indan sonra "you" veya "apple" kelimelerinin gelme olasılıklarını hesaplayalım
bigram =("i","love") # hedef bigram 
# " i love you " olma olasılıgı
prob_you = trigrams_freq[("i","love","you")] / bigrams_freq[bigram]
print(f"you kelimesini olma olasılıgı : {prob_you}")

# i love apple olma olaslıgı
prob_apple= trigrams_freq[("i","love","apple")] / bigrams_freq[bigram]
print(f"apple kelimesini olma olasılıgı : {prob_apple}")

you kelimesini olma olasılıgı : 0.25
apple kelimesini olma olasılıgı : 0.25


### 6.4 Hidden Markov Models ( HMM )

In [8]:
# Kullamım:
#     - Konusma tanıma 
#     - Dil modelleme
#     - Parça etiketleme ( Part pf Speech Tagging )
# Avantajlar:
#     - Bağlam Modelleme
#     - Vrimli Algoritmalar
# Dezavantajlar:
#     - Basitestirici Varsayımlar
#     - Egitim zorlugu

### 6.5 HMM 

In [4]:
import nltk
from nltk.tag import hmm

# ornek traning daa tanimla 
train_data = [
    [("I", "PRP"), ("am", "VBP"), ("a", "DT"), ("teacher", "NN")],
    [("You", "PRP"), ("are", "VBP"), ("a", "DT"), ("student", "NN")]
]

# train HMM
trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)

# yeni bir cumle olustur ve cumlenin icersinde bulunan her bir sozcugun turunu etiketle

test_sentence = "I am a student".split() # cumelyi liste haline getir
tags = hmm_tagger.tag(test_sentence)
print(f"yeni cumle 1: {tags}")

test_sentence = "He is a driver".split() # cumelyi liste haline getir
tags = hmm_tagger.tag(test_sentence)
print(f"yeni cumle 2: {tags}")

yeni cumle 1: [('I', 'PRP'), ('am', 'VBP'), ('a', 'DT'), ('student', 'NN')]
yeni cumle 2: [('He', 'PRP'), ('is', 'PRP'), ('a', 'PRP'), ('driver', 'PRP')]


  X[i, j] = self._transitions[si].logprob(self._states[j])
  O[i, k] = self._output_logprob(si, self._symbols[k])
  P[i] = self._priors.logprob(si)
  O[i, k] = self._output_logprob(si, self._symbols[k])


### 6.6 HMM 2

In [8]:
# https://www.cnts.ua.ac.be/conll2000/chunking/

In [None]:
import nltk
from nltk.tag import hmm
from nltk.corpus import conll2000

# gerekli veri setini iceriye aktar 
nltk.download("conll2000", quiet=True) # quiet=True indirme esnasında ekranda bilgi vermesin

train_data = conll2000.tagged_sents("train.txt")
test_data = conll2000.tagged_sents("test.txt")

print(f"train_data: {train_data[:1]}")

train_data: [[('Confidence', 'NN'), ('in', 'IN'), ('the', 'DT'), ('pound', 'NN'), ('is', 'VBZ'), ('widely', 'RB'), ('expected', 'VBN'), ('to', 'TO'), ('take', 'VB'), ('another', 'DT'), ('sharp', 'JJ'), ('dive', 'NN'), ('if', 'IN'), ('trade', 'NN'), ('figures', 'NNS'), ('for', 'IN'), ('September', 'NNP'), (',', ','), ('due', 'JJ'), ('for', 'IN'), ('release', 'NN'), ('tomorrow', 'NN'), (',', ','), ('fail', 'VB'), ('to', 'TO'), ('show', 'VB'), ('a', 'DT'), ('substantial', 'JJ'), ('improvement', 'NN'), ('from', 'IN'), ('July', 'NNP'), ('and', 'CC'), ('August', 'NNP'), ("'s", 'POS'), ('near-record', 'JJ'), ('deficits', 'NNS'), ('.', '.')]]


In [5]:
# train hmm 
trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)

# yeni cumle ve test 
test_sentence = " I like going to school".split()
tags = hmm_tagger.tag(test_sentence)
print(f"yeni cumle: {tags}")

yeni cumle: [('I', 'PRP'), ('like', 'IN'), ('going', 'VBG'), ('to', 'TO'), ('school', 'NN')]


### 6.7 Maximum Entropy Models ( MaxEnt )

In [None]:
# Kullanım: 
#     -MaxEnt modelelri ozellkle sınıflandırma görevleirinde kullanılır 
#     -Örn, bir cumle belirli bir sınıfa ( poz , neg duygu gibi) ait olma olasılıgını tahmin edebilir 
# Avantajlar: 
#     -Esneklik
#     -İyi Genelleme
# Dezavantajlar:
#     -Hesaplama Maliyetleri
#     -Özellik Mühendisliği

### 6.8 MaxEnt 2

In [1]:
from nltk.classify import MaxentClassifier

# veri seti tanımşama 
train_data = [ 
    ({"love": True, "amazing": True, "happy":True, "terrible":False}, "positive" ),
    ({"hate": True, "terrible": True}, "negative"),
    ({"joy": True, "happy": True, "hate": False}, "positive"),
    ({"sad": True, "depressed": True, "love": False}, "negative")
]

#train maximum entropy classifier
classifier = MaxentClassifier.train(train_data, max_iter = 10)

# yeni cumle ile test
test_sentence = "I love this movie and it was amazing"
features = {word:(word in test_sentence.lower().split()) for word in [ "love", "amazing", "happy", "terrible", "hate", "joy", "sad", "depressed"]}
label = classifier.classify(features)
print(f"Result: {label}")

  ==> Training (10 iterations)

      Iteration    Log Likelihood    Accuracy
      ---------------------------------------
             1          -0.69315        0.500
             2          -0.40641        1.000
             3          -0.28861        1.000
             4          -0.22397        1.000
             5          -0.18304        1.000
             6          -0.15479        1.000
             7          -0.13410        1.000
             8          -0.11829        1.000
             9          -0.10582        1.000
         Final          -0.09573        1.000
Result: positive
