# Derin Öğrenme (Deep Learning) Temelleri: Colab Ders Notu

Bu ders notu, derin öğrenmenin temel kavramlarına ve popüler mimarilerine kapsamlı bir giriş sunmaktadır. Her bir başlık altında ilgili kavramları ve işlevlerini bulacaksınız.

---

## 1. Derin Öğrenmeye Giriş

**Derin Öğrenme (Deep Learning)**, **Makine Öğrenimi'nin** bir alt dalıdır. Temel ilhamını insan beyninin çalışma prensibinden, özellikle de **biyolojik sinir ağlarından** alır.

* **Amaç:** Çok katmanlı (yani "derin") yapay sinir ağları kullanarak verilerden **karmaşık özellikleri otomatik olarak öğrenmeyi** hedefler.
* **Etkin Olduğu Alanlar:** Özellikle **görüntü, ses veya metin gibi yapılandırılmamış (unstructured) verilerde** son derece başarılıdır.

---

## 2. Temel Kavramlar

### 2.1. Yapay Sinir Ağı (Artificial Neural Network - ANN)

* **Tanım:** Birbirine bağlı **"nöron"** adı verilen işlem birimlerinden (düğümlerden) oluşur.
* **İşleyiş:** Her nöron, girdi alır, üzerinde matematiksel işlemler yapar (çoğunlukla ağırlıklandırma ve toplama) ve bir çıktı üretir. Bu çıktı, genellikle bir sonraki katmandaki nöronlara girdi olarak verilir.

### 2.2. Katmanlar (Layers)

Sinir ağları, işlevlerine göre farklı katmanlar halinde düzenlenir:

* **Girdi Katmanı (Input Layer):**
    * Modelin ilk katmanıdır.
    * Dış dünyadan **ham veriyi (görüntü pikselleri, ses sinyalleri, metin kelimeleri vb.)** doğrudan alır.
* **Gizli Katmanlar (Hidden Layers):**
    * Girdi ve çıktı katmanları arasında yer alan katmanlardır.
    * Modelin en kritik öğrenme sürecinin gerçekleştiği yerdir.
    * Girdiden **karmaşık ve soyut özellikleri** (örneğin, bir resimdeki kenarları, dokuları, daha sonra nesne parçalarını) öğrenirler.
    * **Derin öğrenme**, genellikle **birden fazla gizli katmana** sahip ağları ifade eder; bu "derinlik" ağın daha karmaşık hiyerarşik temsilleri öğrenmesini sağlar.
* **Çıktı Katmanı (Output Layer):**
    * Ağın son katmanıdır.
    * Modelin nihai **tahminini, sınıflandırmasını veya regresyon çıktısını** üretir.
    * Nöron sayısı, çözülmeye çalışılan probleme göre değişir (örneğin, ikili sınıflandırma için 1 nöron, 10 sınıf için 10 nöron).

### 2.3. Nöron (Neuron)

* **Tanım:** Bir katmandaki temel **işlem birimidir**. Biyolojik bir nörona benzer şekilde, girdileri işler ve bir çıktı üretir.
* **İşleyiş:**
    1.  Girdileri alır.
    2.  Her girdiyi kendi **ağırlığı (weight)** ile çarpar.
    3.  Tüm ağırlıklı girdileri toplar ve bir **bias (önyargı)** değeri ekler.
    4.  Elde edilen toplamı bir **aktivasyon fonksiyonundan** geçirerek nöronun nihai çıktısını üretir.

### 2.4. Ağırlıklar (Weights) ve Biaslar (Biases)

* **Ağırlıklar:**
    * Modelin **öğrenme sürecinde ayarlanan temel parametrelerdir**.
    * Bir girdinin (veya bir önceki nöronun çıktısının) bir sonraki nöronun çıktısını **ne kadar etkileyeceğini** belirler. Yüksek ağırlık, o girdinin daha önemli olduğu anlamına gelir.
* **Biaslar:**
    * Bir nöronun aktivasyon eşiğini (threshold) ayarlayan ek bir parametredir.
    * Modelin belirli bir girdiye bakılmaksızın ne kadar aktif olması gerektiğini belirler.

### 2.5. Aktivasyon Fonksiyonu (Activation Function)

* **Tanım:** Nöronun ağırlıklı girdiler toplamına ve bias'a uyguladığı **doğrusal olmayan (non-linear)** bir fonksiyondur.
* **Neden Önemli?**
    * Sinir ağına **doğrusal olmayanlık** kazandırır. Eğer aktivasyon fonksiyonları olmasaydı veya sadece doğrusal olsalardı, ne kadar katman eklersek ekleyelim, ağ sadece doğrusal ilişkileri öğrenebilirdi ve karmaşık problemleri çözemezdi.
    * Örnekler:
        * **ReLU (Rectified Linear Unit):** $f(x) = \max(0, x)$. Genellikle gizli katmanlarda tercih edilir, çünkü hesaplaması basittir ve gradyan sönümlenmesi sorununu azaltmaya yardımcı olur.
        * **Sigmoid:** $f(x) = 1 / (1 + e^{-x})$. Çıktıyı 0 ile 1 arasına sıkıştırır. İkili sınıflandırma problemlerinin çıktı katmanında (olasılık tahmini için) kullanılabilir.
        * **Tanh (Hyperbolic Tangent):** $f(x) = (e^x - e^{-x}) / (e^x + e^{-x})$. Çıktıyı -1 ile 1 arasına sıkıştırır.

### 2.6. Geri Yayılım (Backpropagation)

* **Tanım:** Sinir ağlarının ağırlıklarını ve biaslarını **güncellemek için kullanılan temel bir algoritmadır**.
* **İşleyiş:**
    1.  Model bir tahmin yapar.
    2.  Tahmin ile gerçek değer arasındaki **hatayı (kaybı)** hesaplar (Kayıp Fonksiyonu ile).
    3.  Bu hatayı (gradyanları) ağın çıktı katmanından girdi katmanına doğru **geri yayar**.
    4.  Geri yayılım sırasında, her bir ağırlığın ve bias'ın bu hataya ne kadar katkıda bulunduğunu hesaplar.
    5.  Bu bilgilerle ağırlıklar ve biaslar, hatayı minimize edecek şekilde güncellenir.

### 2.7. Optimizasyon Algoritması (Optimizer)

* **Tanım:** Geri yayılımdan gelen hata bilgisini kullanarak, ağın **ağırlıklarını ve biaslarını nasıl güncelleyeceğine karar veren yöntemdir**.
* **Amaç:** Kayıp fonksiyonunu minimize etmek ve modelin daha iyi tahminler yapmasını sağlamaktır.
* **Örnekler:**
    * **Gradyan İnişi (Gradient Descent):** Ağırlıkları, kayıp fonksiyonunun gradyanının (eğimi) tersi yönünde küçük adımlarla günceller.
    * **SGD (Stochastic Gradient Descent):** Gradyan inişinin bir çeşididir, her eğitim örneğinden sonra ağırlıkları günceller.
    * **Adam:** Popüler ve genellikle hızlı bir optimizasyon algoritmasıdır. Öğrenme oranını dinamik olarak ayarlar.

### 2.8. Kayıp Fonksiyonu (Loss Function / Cost Function)

* **Tanım:** Modelin **tahminlerinin gerçek değerlerden ne kadar saptığını ölçen** bir fonksiyondur.
* **Amaç:** Eğitim sırasında bu fonksiyonun çıktısını (kayıp değerini) **minimize etmeye** çalışılır. Kayıp ne kadar düşükse, modelin performansı o kadar iyidir.
* **Örnekler:**
    * **Ortalama Kare Hata (Mean Squared Error - MSE):** Regresyon problemleri için yaygın kullanılır.
    * **Çapraz Entropi (Cross-Entropy):** Sınıflandırma problemleri için yaygın kullanılır.

### 2.9. Epoch

* **Tanım:** Eğitim veri kümesinin **tamamının** sinir ağından **bir kez ileri ve geri geçirilmesi** işlemidir (ileri yayılım ve geri yayılımın tamamlanması).
* **İşleyiş:** Model, genellikle birden fazla epoch boyunca eğitilir, böylece tüm veri kümesi üzerinde birden fazla kez öğrenme ve ağırlık güncelleme fırsatı bulur.

### 2.10. Batch Boyutu (Batch Size)

* **Tanım:** Ağırlıkların güncellenmeden önce aynı anda işlenen **eğitim örneği sayısıdır**.
* **İşleyiş:** Örneğin, 1000 resminiz varsa ve batch boyutu 32 ise, model 32 resimi işledikten sonra ağırlıklarını günceller ve bu işlemi 1000/32 = 32 kez tekrarlayarak bir epoch'u tamamlar.
* **Avantajları:** Daha büyük batch boyutları eğitimi hızlandırabilir (paralel işlemleme sayesinde) ancak genelleme yeteneğini düşürebilir. Daha küçük batch boyutları daha kararlı gradyanlar sağlayabilir.

### 2.11. Öğrenme Oranı (Learning Rate)

* **Tanım:** Optimizasyon algoritmasının her adımda **ağırlıkları ne kadar değiştireceğini belirleyen** bir hiperparametredir.
* **Önem:**
    * **Yüksek öğrenme oranı:** Modelin ağırlıkları çok hızlı değiştirmesine neden olabilir, bu da optimum noktayı aşmasına (overshooting) ve istikrarsız bir eğitime yol açabilir.
    * **Düşük öğrenme oranı:** Modelin çok yavaş öğrenmesine neden olabilir, bu da eğitimin çok uzun sürmesine veya yerel bir minimumda takılı kalmasına yol açabilir.
* **İnce Ayar:** Doğru öğrenme oranını bulmak, modelin başarılı bir şekilde eğitilmesi için kritik öneme sahiptir.

---

## 3. Bazı Temel Derin Öğrenme Mimarileri

### 3.1. Evrişimli Sinir Ağları (Convolutional Neural Networks - CNN)

* **Özellik:** Özellikle **görüntü işleme görevleri** (görüntü sınıflandırma, nesne tespiti vb.) için tasarlanmıştır.
* **Temel Bileşenler:**
    * **Evrişim (Convolution) Katmanları:** Görüntüdeki yerel desenleri ve özellikleri (kenarlar, köşeler, dokular) yakalamak için filtreler kullanır.
    * **Havuzlama (Pooling) Katmanları:** Görüntü boyutunu küçültür ve en önemli özellikleri özetler (örneğin, MaxPooling).
* **Avantajları:** Görüntüdeki hiyerarşik özellikleri otomatik olarak öğrenme yeteneği.

### 3.2. Tekrarlayan Sinir Ağları (Recurrent Neural Networks - RNN)

* **Özellik:** **Sıralı veriler** (metin, konuşma, zaman serileri gibi) için uygundur.
* **Temel Mekanizma:** Önceki adımlardan gelen bilgiyi **"hafızalarında"** (gizli durumlarında) tutabilirler. Bu sayede, dizinin önceki elemanlarına dayanarak mevcut elemanları işleyebilirler.
* **Sorunlar:** Uzun dizilerde **uzun vadeli bağımlılıkları öğrenmede zorlanabilirler** (vanishing/exploding gradient problemi).

### 3.3. Uzun Kısa Süreli Bellek (Long Short-Term Memory - LSTM) ve Gated Recurrent Unit (GRU)

* **Özellik:** RNN'lerin **daha gelişmiş ve popüler versiyonlarıdır**.
* **Avantajları:**
    * **Hafıza Kapıları (Gates):** "Unutma", "girdi" ve "çıktı" kapıları gibi özel mekanizmalar kullanarak bilgiyi daha etkili bir şekilde depolayabilir, hatırlayabilir ve unutabilirler.
    * Bu sayede, **uzun vadeli bağımlılıkları öğrenmede** standart RNN'lerden çok daha başarılıdırlar, özellikle uzun metinler veya konuşmalar gibi sıralı verilerde.

### 3.4. Transformerlar

* **Özellik:** Özellikle **doğal dil işleme (NLP)** alanında devrim yaratmış modern bir mimaridir.
* **Temel Mekanizma:**
    * **Dikkat Mekanizması (Attention Mechanism):** Bir dizideki farklı pozisyonlar arasındaki ilişkileri doğrudan modelleyerek, bir kelimenin anlamının cümlenin diğer kısımlarıyla nasıl ilişkili olduğunu "öğrenmelerini" sağlar. RNN'lerin aksine, uzun mesafeli bağımlılıkları çok daha etkili bir şekilde yakalayabilirler.
    * **Paralel İşleme:** RNN'lerin aksine sıralı işlemeye bağımlı değildirler, bu da çok büyük veri kümelerinde çok daha hızlı eğitime olanak tanır.
* **Uygulamalar:** Makine çevirisi, metin özetleme, chatbotlar ve büyük dil modelleri (LLM'ler) gibi birçok NLP görevinde yaygın olarak kullanılırlar.

---

Bu ders notu, derin öğrenmenin ana hatlarını ve temel bileşenlerini anlamanız için bir başlangıç noktasıdır. Her bir kavram ve mimari, kendi içinde derinlemesine incelenebilecek geniş bir alandır. Daha detaylı bilgi için Dr. Murat Altun'un "Yapay Zekâ ve Makine Öğrenmesi" gibi kaynaklarına başvurabilirsiniz.