<a href="https://colab.research.google.com/github/kkaradag2/ML/blob/main/LinearRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Linear Regression

Gerçek dünyadaki birçok problemde, bir değişkenin başka bir değişkenle olan ilişkisini anlamak isteriz. Örneğin bir ürünün reklam bütçesi arttıkça satış miktarının nasıl değiştiği, bir öğrencinin ders çalışma süresi ile aldığı not arasındaki ilişki ya da bir evin oda sayısı arttıkça fiyatının nasıl değiştiği gibi. Bu tip problemlerde amaç, elimizdeki verilere bakarak bu ilişkiyi mümkün olduğunca basit ama anlamlı bir şekilde modellemektir.

Linear regression bu amaçla kullanılan en temel yöntemlerden biridir. Temel amacı : bağımlı değişken $y$, bağımsız değişken $x$ ile doğrusal bir ilişkiye sahiptir. Bu ilişki matematiksel olarak şu şekilde ifade edilir:

$$
f(x) = wx + b
$$

Burada:

- $x$ bağımsız değişken. Örneğin, bir evin oda sayısı yada öğrencinin ders çalışma süresi
- $y$ bağımlı değişken. Örneğin, bir evin fiyatı, öğrencinin sınavda aldığı not
- $w$ eğimi temsil eder. Yani $x$ bir birim arttığında $y$’nin ne kadar değişeceğini söyler.
- $b$ ise **bias** (kesim noktası) olarak adlandırılır ve doğrunun $y$-eksenini kestiği noktayı ifade eder.

Bu fonksiyon aynı zamanda modelimizin tahmin fonksiyonudur

$$
\hat{y} = wx + b
$$

şeklinde yazılır. Amaç, elimizdeki veriler için en uygun $w$ ve $b$ değerlerini bulmaktır.

![Linear Regression Grafikleri](https://raw.githubusercontent.com/kkaradag2/ML/refs/heads/main/assets/linear_regression_graf.png)

Grafik olarak bakıldığında, elimizde bazı veri noktaları vardır ve biz bu noktalara en iyi uyan doğruyu çizmeye çalışırız. Böylece bize bilmediğimiz yeni bir bilgi geldiğinde (örneğin bir binanın oda sayıs) bu veriyi tahmin modelimize koyarak bir tahnin yapmaya çalışırız.

Grafikte, $w$ doğrunun eğimini belirlerken, $b$ doğrunun yukarı veya aşağı kaymasını sağlar. Eğer $b=0$ olsaydı doğru orijinden geçmek zorunda kalırdı; fakat gerçek hayatta çoğu problemde u durum mantıklı değildir. (Bir evin bedava olamayacağı gibi). Bu yüzden bias terimi modele esneklik kazandırır, bir başlangıç değeri oluşturur.


## Hata (Error) ve Loss (Kayıp) Fonksiyonu

Modelin ne kadar iyi olduğunu anlayabilmek için tahmin edilen değer ile gerçek değer arasındaki farkı ölçmemiz gerekir. Bu farka hata (**error**) denir:

$$
\text{hata} = \hat{y} - y
$$

Ancak tek bir veri noktası için hataya bakmak yeterli değildir. Birden fazla veri noktası olduğunda tüm hataları tek bir sayı ile ifade etmek isteriz. Bunun için en sık kullanılan yöntem, hataların karesinin ortalamasını almaktır. Bu da loss (kayıp) fonksiyonudur:

$$
L(w,b) = \frac{1}{n}\sum_{i=1}^{n}(\hat{y}_i - y_i)^2
$$

Kare alınmasının nedeni, hataların pozitif veya negatif olmasına bakmaksızın büyüklüklerini ölçebilmek ve türev almayı matematiksel olarak kolaylaştırmaktır.

---

## $w$ ve $b$ Nasıl Bulunur? Gradient Descent

Şimdi asıl kritik noktaya geliyoruz: $w$ ve $b$’yi nasıl bulacağız?

Amaç, bu loss fonksiyonunu **minimum yapan** $w$ ve $b$ değerlerini bulmaktır. Bunun için **gradient descent** yöntemi kullanılır.

Gradient descent’in temel fikri şudur: Eğer $w$’yi çok az değiştirirsek loss artıyor mu azalıyor mu? Aynı soru $b$ için de sorulur. Bu sorunun cevabını **türev** verir. Bu yüzden loss fonksiyonunun $w$ ve $b$’ye göre türevini alırız:

$$
\frac{\partial L}{\partial w}, \quad \frac{\partial L}{\partial b}
$$

Türevlerin işareti bize hangi yönde ilerlememiz gerektiğini söyler:

- Türev **pozitifse** parametreyi azaltırız.
- Türev **negatifse** parametreyi artırırız.

Güncelleme kuralları:

$$
w = w - \alpha \frac{\partial L}{\partial w}
$$

$$
b = b - \alpha \frac{\partial L}{\partial b}
$$

Buradaki $\alpha$ öğrenme oranıdır (**learning rate**). Adımın ne kadar büyük atılacağını belirler.

---

## Sayısal Örnek (Tek Veri Noktası)

Basit olması açısından tek bir veri noktası ele alalım:

$$
(x,y) = (2,5)
$$

Modelimiz:

$$
\hat{y} = wx + b
$$

Bu veri noktası için hata:

$$
\hat{y} - y = (2w + b - 5)
$$

Loss fonksiyonu:

$$
L(w,b) = (2w + b - 5)^2
$$

Şimdi türevleri alalım. Burada zincir kuralı kullanılır. Genel olarak:

$$
\frac{d}{dx}(u^2) = 2u \cdot \frac{du}{dx}
$$

### $w$’ye göre türev

$$
\frac{\partial L}{\partial w}
= 2(2w+b-5)\cdot 2
= 4(2w+b-5)
$$

### $b$’ye göre türev

$$
\frac{\partial L}{\partial b}
= 2(2w+b-5)
$$

Başlangıç değerlerini:

$$
w_0 = 0, \quad b_0 = 0
$$

olarak seçelim.

Bu noktadaki türevler:

$$
\frac{\partial L}{\partial w} = 4(-5) = -20
$$

$$
\frac{\partial L}{\partial b} = 2(-5) = -10
$$

Öğrenme oranını:

$$
\alpha = 0.1
$$

seçelim.

Güncelleme sonrası:

$$
w_1 = 0 - 0.1(-20) = 2
$$

$$
b_1 = 0 - 0.1(-10) = 1
$$

Yeni parametrelerle tahmin:

$$
\hat{y} = 2\cdot 2 + 1 = 5
$$

Gerçek değerle aynı olduğu için hata sıfırdır ve loss da sıfır olur.

Bu örnekte tek adımda doğru sonuca ulaşılmasının nedeni, yalnızca tek bir veri noktası olması ve problemin tam belirlenmiş olmasıdır. Genel durumda, özellikle çok sayıda veri noktası varken gradient descent birçok adımda yavaş yavaş minimuma yaklaşır.

---

## Üç Veri Noktalı Örnek

Şimdi tek bir veri noktası yerine üç veri noktası içeren daha gerçekçi bir örnek ele alalım. Veri setimiz şu olsun:

$$
(x,y) = \{(1,2), (2,3), (3,5)\}
$$

Modelimiz yine aynıdır:

$$
\hat{y} = wx + b
$$

Ama artık üç farklı tahmin ve üç farklı hata vardır.

### Tahminler

$$
\hat{y}_1 = w(1) + b
$$

$$
\hat{y}_2 = w(2) + b
$$

$$
\hat{y}_3 = w(3) + b
$$

### Hatalar

$$
e_1 = (w+b-2)
$$

$$
e_2 = (2w+b-3)
$$

$$
e_3 = (3w+b-5)
$$

Loss fonksiyonu (kare hataların ortalaması):

$$
L(w,b)=\frac{1}{3}\Big[(w+b-2)^2 + (2w+b-3)^2 + (3w+b-5)^2\Big]
$$

Amaç, bu fonksiyonu minimum yapan $w$ ve $b$ değerlerini bulmaktır.

---

## Türevlerin Alınması

### $w$’ye göre türev

$$
\frac{\partial L}{\partial w}
=
\frac{1}{3}\Big[
2(w+b-2)\cdot 1
+ 2(2w+b-3)\cdot 2
+ 2(3w+b-5)\cdot 3
\Big]
$$

Açarsak:

$$
\frac{\partial L}{\partial w}
=
\frac{2}{3}\Big[
(w+b-2) + 2(2w+b-3) + 3(3w+b-5)
\Big]
$$

### $b$’ye göre türev

$$
\frac{\partial L}{\partial b}
=
\frac{1}{3}\Big[
2(w+b-2) + 2(2w+b-3) + 2(3w+b-5)
\Big]
$$

---

## Sayısal Güncelleme (Başlangıç Noktası)

Başlangıç değerlerini:

$$
w_0 = 0, \quad b_0 = 0
$$

olarak seçelim.

Bu durumda hatalar:

$$
e_1 = -2,\quad e_2 = -3,\quad e_3 = -5
$$

Türevleri yerine koyalım.

$$
\frac{\partial L}{\partial w}
=
\frac{2}{3}\big[(-2)+2(-3)+3(-5)\big]
=
\frac{2}{3}(-23)
=
-\frac{46}{3}
$$

$$
\frac{\partial L}{\partial b}
=
\frac{2}{3}\big[(-2)+(-3)+(-5)\big]
=
\frac{2}{3}(-10)
=
-\frac{20}{3}
$$

Öğrenme oranını yine:

$$
\alpha = 0.1
$$

olarak alalım.

### Parametre Güncellemesi

$$
w_1 = 0 - 0.1\left(-\frac{46}{3}\right)
= \frac{4.6}{3}
\approx 1.53
$$

$$
b_1 = 0 - 0.1\left(-\frac{20}{3}\right)
= \frac{2}{3}
\approx 0.67
$$

Bu noktada model artık:

$$
\hat{y} = 1.53x + 0.67
$$

şeklindedir.

Bu doğru, veri noktalarının hiçbirinden tam olarak geçmez ama hepsine ortalama anlamda daha yakındır. Gradient descent’in amacı da budur: tek bir noktayı değil, tüm veriyi birlikte en iyi açıklayan doğruyu bulmak.

Bu örnekte tek adımda sıfır hata elde edilmez. Çünkü artık problem tam belirlenmiş değildir ve model, farklı noktalar arasındaki dengeyi kurmak zorundadır. Gradient descent bu dengeyi her adımda biraz daha iyileştirerek kurar.

Varsayımlar:

- Veri: $(1,2),(2,3),(3,5)$
- Loss: MSE
- Öğrenme oranı: $\alpha = 0.1$
- Başlangıç: $w_0=0,; b_0=0$

## İterasyonlara Göre Değişim

| İterasyon | $w$ | $b$ | $\frac{\partial L}{\partial w}$ | $\frac{\partial L}{\partial b}$ | Açıklama |
|----------|-----|-----|----------------------------------|----------------------------------|----------|
| 0  | $0.00$ | $0.00$ | $-\frac{46}{3}\approx -15.33$ | $-\frac{20}{3}\approx -6.67$ | Başlangıç noktası |
| 1 | $1.53$ | $0.67$ | $\approx -3.78$ | $\approx -1.56$ | Hata azaldı, gradyan küçüldü |
| 2 | $1.91$ | $0.82$ | $\approx -0.93$ | $\approx -0.38$ | Minimuma yaklaşma |

