Süper—**Boltzmann Machines (BM)** bölümüne girerken ihtiyacın olan “büyük resim” şurada:

# 1) Enerji-tabanlı modeller (EBM) fikri

* Bir **yapılandırmanın** (görünür + gizli değişkenler) “iyi/uygun” olmasını **düşük enerji** ile ifade ederiz.
* Olasılık, **Boltzmann dağılımı** ile verilir:

  $$
  P(\mathbf{v},\mathbf{h})=\frac{\exp\{-E(\mathbf{v},\mathbf{h})\}}{Z},\quad
  Z=\sum_{\mathbf{v},\mathbf{h}}\exp\{-E(\mathbf{v},\mathbf{h})\}
  $$
* **Hedef:** Parametreleri öyle öğren ki **gerçek verinin** enerjisi düşük, “modelin kendi ürettiği” konfigürasyonların enerjisi yüksek olsun.

# 2) RBM: Pratik Boltzmann Makinesi

* **RBM (Restricted BM)**: Görünür (visible) ve gizli (hidden) düğümler **iki parçalı (bipartite)** bir graf; **gizli-gizli** ve **görünür-görünür** bağlantı **YOK**.
* Bu kısıt sayesindedir ki:

  * **Koşullu dağılımlar** ayrışır → $P(\mathbf{h}|\mathbf{v})=\prod_j P(h_j|\mathbf{v})$, $P(\mathbf{v}|\mathbf{h})=\prod_i P(v_i|\mathbf{h})$.
  * **Gibbs örnekleme** ile hızlı ileri-geri numune alabiliriz.
* **RBM enerji (Bernoulli-Bernoulli için klasik form):**

  $$
  E(\mathbf{v},\mathbf{h})= -\mathbf{b}^\top \mathbf{v} - \mathbf{c}^\top \mathbf{h} - \mathbf{v}^\top W \mathbf{h}
  $$

  (Sürekli veriler için **Gaussian-Bernoulli RBM**, kategori için **Softmax RBM** vb.)
* **Eğitim (maksimum olabilirlik)** gradyanı iki terimden oluşur:

  $$
  \nabla \log P(\text{data}) = 
  \underbrace{\langle \mathbf{v}\mathbf{h}^\top\rangle_{\text{data}}}_{\text{pozitif faz}}
  -\underbrace{\langle \mathbf{v}\mathbf{h}^\top\rangle_{\text{model}}}_{\text{negatif faz}}
  $$

  Pozitif faz: veriden gelen eşleşmeler; negatif faz: modelin örneklediği eşleşmeler.

## Contrastive Divergence (CD-k)

* **Z** (bölüşüm fonksiyonu) doğrudan hesaplanamaz → **CD-k** ile yaklaşırız:

  1. Veriden $\mathbf{v}^{(0)}$ al,
  2. $\mathbf{h}^{(0)} \sim P(\mathbf{h}|\mathbf{v}^{(0)})$,
  3. $\mathbf{v}^{(1)} \sim P(\mathbf{v}|\mathbf{h}^{(0)})$, … k adım,
  4. Gradyanı $\langle v h^\top\rangle_{\text{data}} - \langle v h^\top\rangle_{\text{k-adım}}$ ile güncelle.
* **CD-1** pratikte çok kullanılır (hızlı ve çoğu görevde yeterli).

# 3) BM / RBM vs “klasik” yapay sinir ağları

* **Amaç:** RBM/BM **generative** (olasılıksal model), klasik ANN/CNN çoğunlukla **discriminative** (girdi→etiket).
* **Eğitim:** RBM’de **örnekleme** (Gibbs), ANN’de **deterministik ileri geçiş + backprop**.
* **Kullanım:** RBM’ler **özellik çıkarımı**, **boyut indirgeme**, **öneri sistemleri** (Netflix Prize döneminde popüler) gibi **denetimsiz/yarı-denetimli** işlerde öne çıktı.

# 4) DBN vs DBM (Derin yapılar)

* **DBN (Deep Belief Network)**:

  * **Üstteki iki katman**: **RBM** (çift yönlü/undirected),
  * **Alt katmanlar**: yönlü (top-down) bağlantılar.
  * **Katman katman (greedy) RBM ön-eğitimi** + sonradan ince ayar (fine-tune) ile sınıflandırma için kullanılır.
* **DBM (Deep Boltzmann Machine)**:

  * **Tüm katmanlar** undirected ve etkileşimli.
  * **Daha güçlü ama eğitimi zor**; çıkarım için genelde **variational/mean-field** gerekir.

# 5) Nerelerde işe yarar?

* **Öneri sistemleri** (kullanıcı-film matrislerini modelleme; eksik girdileri tamamlama).
* **Boyut indirgeme / özellik öğrenme** (RBM → denetimli modele giriş).
* **Görüntü/Metin** için **temsil öğrenme** (özellikle 2006–2013 arası).
* **Gürültü giderme**, **veri tamamlama** (maskelenen girişleri örneklemek).

# 6) Neden bugün daha az popüler?

* **Autoencoder/Variational Autoencoder (VAE), GAN, büyük denetimli modeller** pratikte RBM/DBN’leri büyük ölçüde geçti.
* Yine de **enerji-tabanlı düşünme** (pozitif/negatif faz, serbest enerji, örnekleme) derin öğrenme sezgisini güçlendirir; **modern EBM’ler** (Score Matching / Diffusion) aynı aileden fikirler taşır.

# 7) Videolarda özellikle dikkat et:

* **Boltzmann dağılımı** ve **enerji fonksiyonu** (E ↓ ⇒ P ↑).
* **RBM faktörizasyonu** (bipartite yapı → hızlı koşullu örnekleme).
* **CD-k mantığı** (pozitif/negatif faz) ve **neden k=1 çoğu zaman yeter**.
* **DBN’in katman-katman ön-eğitimi** ile derin ağların eskiden nasıl “başlatıldığı”.
* **DBM’in** neden daha güçlü ama **zor eğitildiği** (yaklaşık çıkarım şart).

---


Elbette—**Boltzmann Machines (BM)** ve özellikle **RBM (Restricted Boltzmann Machine)**’i **çok basit** bir dille özetleyeyim:

---

## BM / RBM nedir?

* **Amaç:** Veriye “iyi” diyebileceğimiz kalıpları **öğrenmek** (etiket olmadan).
* **Fikir:** Her veri örneğine bir **enerji** puanı verilir. **Düşük enerji = iyi/olası**, **yüksek enerji = kötü/olası değil**.
* **RBM:** İki katman var: **Girdi (visible)** ve **Gizli (hidden)**. Aralarında bağlantı var; **aynı katman içinde yok**. Bu kısıt sayesinde eğitim **kolaylaşıyor**.

---

## Neden “enerji” diyoruz?

* Sistemi şöyle düşün: “Parçalar (özellikler) bir araya geldiğinde **uyumlu** olan birleşimler **daha düşük enerjiye** sahip.”
* Model, veride **sık ve uyumlu** görünen kombinasyonlara **düşük enerji** vermeyi öğrenir.

---

## Nasıl öğreniyor? (Contrastive Divergence – CD-1 mantığı)

1. **Pozitif faz:** Gerçek veriyi veriyoruz → model “hangi gizli özellikler yansın?” diye bakıyor. (Veriyle **yakın**laşma)
2. **Negatif faz:** Model bir de **kendi ürettiği** (örneklediği) veriye bakıyor → “Benim uydurduğum örnekler de böyle mi?” (Uzaklaşma)
3. **Güncelle:** Ağırlıkları, **veriye yaklaşacak**, **uydurmaya uzaklaşacak** şekilde ayarla.

   > Pratikte çoğu zaman **CD-1** (1 ileri-geri örnekleme adımı) yeterli olur: hızlı ve işe yarar.

---

## Klasik sinir ağından farkı ne?

* **Klasik ANN/CNN:** Genelde “girdi → etiket” öğrenir (**sınıflandırma/Regresyon**).
* **RBM/BM:** Etiketsiz şekilde **kalıp/temsil** öğrenir (**üretici/generative** bakış).
* Eğitimde **örnekleme** (Gibbs) kullanır; ANN’de **deterministik** ileri+geri yayılım vardır.

---

## Nerede işe yarar?

* **Özellik çıkarımı / boyut indirgeme:** Veriyi gizli özelliklere dönüştürür, sonra bu özellikleri başka modellere verirsin.
* **Öneri sistemleri:** Kullanıcı-film beğeni matrislerinde eksik yerleri doldurmak (eski Netflix Prize döneminde popülerdi).
* **Gürültü giderme / veri tamamlama:** Eksik ya da bozuk veriyi “mantıklı” hale getirme.

---

## DBN ve DBM (derin sürümler)

* **DBN (Deep Belief Network):** RBM’leri **üst üste** koy, katman katman **ön-eğit**, sonra ince ayar yap → sınıflandırmada kullan.
* **DBM (Deep Boltzmann Machine):** Tüm katmanlar çift yönlü; **daha güçlü ama eğitmesi zor** (yaklaşık çıkarım gerekir).

---

## Bugün neden daha az duyuyoruz?

* **Autoencoder / VAE / GAN** ve büyük denetimli modeller pratikte RBM’lerin yerini büyük ölçüde aldı.
* Yine de **enerji-tabanlı düşünme** (pozitif/negatif faz) modern tekniklere (diffusion, score-based) giden yolun temeli.

---

### Aklında böyle kalsın

* **RBM = Enerji oyunu:** Gerçek veriye **düşük**, uydurma veriye **yüksek** enerji.
* **Öğrenme = İt–çek:** Veriye yaklaş, modelin uydurduğundan uzaklaş (**CD-1**).
* **Kullanım = Temsil/Öneri:** İyi özet/temsil çıkarır, öneri/eksik doldurma yapar.

İstersen bir sonraki adımda, 10–15 satırlık **CD-1 eğitim döngüsünü sahte küçük bir veriyle** (oyuncak örnek) gösterebilirim; tamamen adım adım, sayıları görerek.
