<a href="https://colab.research.google.com/github/gulcihanglmz/natural-language-processing/blob/main/hidden_markov_models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
'''
Gizli Markov Modeli (HMM), gözlemlediğimiz şeylerin arkasında aslında göremediğimiz (gizli)
bazı durumlar olduğunu ve bu durumların birbirine belli olasılıklarla geçtiğini varsayan bir modeldir.

Gözlemlediğimiz şeylerin arkasında gizli bir yapı (durumlar) vardır. Bu yapılar hem birbirine geçiş yapar hem de gözlemleri üretir.

Diyelim ki senin elinde sadece hava durumu raporlarını gözlemleyebiliyorsun:

“Bugün güneşli.”

“Bugün yağmurlu.”

“Bugün kapalı.”

Ama aslında bu hava durumu, göremediğin hava sistemleri (mesela "yüksek basınç", "alçak basınç") tarafından belirleniyor.
İşte bu göremediğimiz hava sistemleri gizli durumlar olur.
Ve her bir sistem:
Belirli olasılıkla başka bir sisteme geçiyor.
Ve kendine ait bir hava durumu üretiyor.


Usage:
· Speech recognition
· Language modeling
· Part-of-Speech Tagging
Advantages
· Context Modeling
· Efficient Algorithms
Disadvantages
· Simplifying Assumptions
· Difficulty of Training

'''

In [None]:
# POS : part of speach (kelimelerin uygun sözcük türünü bulma çalışması)

In [None]:
import nltk
from nltk.tag import hmm

In [None]:
# Örnek eğitim verisi
train_data = [
    ("Bugün hava çok güzel.", "JJ NN VB JJ NN"),
    ("Yağmur yağıyor.", "NN VB"),
    ("Güneşli bir gün.", "JJ DT NN") ,
]

In [None]:
# Veriyi tokenleştirme (Boşluklarla ayrılan kelimeleri ayırma) ve etiketleme
# Bu adımda, her cümlenin kelimeleri ile ilgili POS etiketlerini eşleştireceğiz.
train_data_tagged = []
for sentence, tags in train_data:
    tokens = sentence.split()
    if len(tokens) != len(tags.split()):
        print(f"Hata: Cümle ile etiket sayıları uyuşmuyor: {sentence} - {tags}")
        continue  # Cümle ve etiket uzunlukları uyuşmuyorsa bu cümleyi atla.

    train_data_tagged.append(list(zip(tokens, tags.split())))

# HMM modeli oluşturma
trainer = hmm.HiddenMarkovModelTrainer()
tagger = trainer.train_supervised(train_data_tagged)

# Modelin test edilmesi (isteğe bağlı)
test_sentence = "Hava yarın güzel olacak"
test_tokens = test_sentence.split()
tagged_sentence = tagger.tag(test_tokens)
tagged_sentence

Hata: Cümle ile etiket sayıları uyuşmuyor: Bugün hava çok güzel. - JJ NN VB JJ NN


  X[i, j] = self._transitions[si].logprob(self._states[j])
  O[i, k] = self._output_logprob(si, self._symbols[k])
  P[i] = self._priors.logprob(si)
  O[i, k] = self._output_logprob(si, self._symbols[k])


[('Hava', 'NN'), ('yarın', 'NN'), ('güzel', 'NN'), ('olacak', 'NN')]

# HMM with conll2000 dataset

In [None]:
import nltk
from nltk.tag import hmm
from nltk.corpus import conll2000 # nltk lib'den bir dataset

In [None]:
nltk.download('conll2000')

[nltk_data] Downloading package conll2000 to /root/nltk_data...
[nltk_data]   Unzipping corpora/conll2000.zip.


True

In [None]:
train_data = conll2000.tagged_sents('train.txt')
test_data = conll2000.tagged_sents('test.txt')

In [None]:
train_data[:1]

[[('Confidence', 'NN'), ('in', 'IN'), ('the', 'DT'), ('pound', 'NN'), ('is', 'VBZ'), ('widely', 'RB'), ('expected', 'VBN'), ('to', 'TO'), ('take', 'VB'), ('another', 'DT'), ('sharp', 'JJ'), ('dive', 'NN'), ('if', 'IN'), ('trade', 'NN'), ('figures', 'NNS'), ('for', 'IN'), ('September', 'NNP'), (',', ','), ('due', 'JJ'), ('for', 'IN'), ('release', 'NN'), ('tomorrow', 'NN'), (',', ','), ('fail', 'VB'), ('to', 'TO'), ('show', 'VB'), ('a', 'DT'), ('substantial', 'JJ'), ('improvement', 'NN'), ('from', 'IN'), ('July', 'NNP'), ('and', 'CC'), ('August', 'NNP'), ("'s", 'POS'), ('near-record', 'JJ'), ('deficits', 'NNS'), ('.', '.')]]

In [None]:
# train hmm
trainer = hmm.HiddenMarkovModelTrainer()
hmm_tagger = trainer.train(train_data)

In [None]:
# new sentence
test_sentence = "Hava bugün güzel"
tags = hmm_tagger.tag(test_sentence.split())
tags

  X[i, j] = self._transitions[si].logprob(self._states[j])
  O[i, k] = self._output_logprob(si, self._symbols[k])
  P[i] = self._priors.logprob(si)
  O[i, k] = self._output_logprob(si, self._symbols[k])


[('Hava', 'NN'), ('bugün', 'NN'), ('güzel', 'NN')]