<a href="https://colab.research.google.com/github/kkaradag2/ML/blob/main/LinearRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Linear Regression

Gerçek dünyadaki birçok problemde, bir değişkenin başka bir değişkenle olan ilişkisini anlamak isteriz. Örneğin bir ürünün reklam bütçesi arttıkça satış miktarının nasıl değiştiği, bir öğrencinin ders çalışma süresi ile aldığı not arasındaki ilişki ya da bir evin oda sayısı arttıkça fiyatının nasıl değiştiği gibi. Bu tip problemlerde amaç, elimizdeki verilere bakarak bu ilişkiyi mümkün olduğunca basit ama anlamlı bir şekilde modellemektir.

Linear regression bu amaçla kullanılan en temel yöntemlerden biridir. Temel varsayımı şudur: Bağımlı değişken $y$, bağımsız değişken $x$ ile doğrusal bir ilişkiye sahiptir. Bu ilişki matematiksel olarak şu şekilde ifade edilir:<br/>

$f(x) = wx + b$

<br/>

Burada $w$ eğimi temsil eder. Yani
$x$ bir birim arttığında $y$’nin ne kadar değişeceğini söyler.

$b$ ise bias (kesim noktası) olarak adlandırılır ve doğrunun $y$-eksenini kestiği noktayı ifade eder.

Bu fonksiyon aynı zamanda modelimizin tahmin fonksiyonudur ve genellikle:
<br/>

$\hat{y} = wx + b$

<br/>
şeklinde yazılır. Amaç, elimizdeki veriler için en uygun $w$ ve $b$ değerlerini bulmaktır.

![Linear Regression – Kötü ve İyi Model Karşılaştırması](https://raw.githubusercontent.com/kkaradag2/ML/main/assets/linear_regression_graf.png)


Grafik olarak bakıldığında, elimizde bazı veri noktaları vardır ve biz bu noktalara en iyi uyan doğruyu çizmeye çalışırız. $w$ doğrunun eğimini belirlerken, $b$ doğrunun yukarı veya aşağı kaymasını sağlar. Eğer $b=0$
olsaydı doğru orijinden geçmek zorunda kalırdı; ancak gerçek hayatta çoğu problem için bu durum mantıklı değildir. (bedava ev olmayacağı gibi) Bu yüzden bias terimi modele esneklik kazandırır.

Modelin ne kadar iyi olduğunu anlayabilmek için tahmin edilen değer ile gerçek değer arasındaki farkı ölçmemiz gerekir. Bu farka hata (error) denir:
<br/>

$hata = \hat{y} - y$

<br/>

Ancak tek bir veri noktası için hataya bakmak yeterli değildir. Birden fazla veri noktası olduğunda tüm hataları tek bir sayı ile ifade etmek isteriz. Bunun için en sık kullanılan yöntem, hataların karesinin ortalamasını almaktır. Bu da loss (kayıp) fonksiyonudur:

<br/>
$$L(w,b) = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2$$
<br/>

Burada $(\hat{y} - y)$ 'nin karesinin alınmasının nedeni, hataların pozitif veya negatif olmasına bakmaksızın büyüklüklerini ölçebilmek ve türev almayı matematiksel olarak kolaylaştırmaktır.

Şimdi asıl kritik nokta:
$w$ ve $b$’yi nasıl bulacağız?
Amaç, bu loss fonksiyonunu minimum yapan $w$ ve $b$ değerlerini bulmaktır. Bunun için gradient descent yöntemi kullanılır.

**Gradient descent**’in temel fikri şudur: Eğer $w$’yi çok az artırırsak loss artıyor mu azalıyor mu? Aynı soru $b$ için de sorulur. Bu sorunun cevabını türev verir. Bu yüzden loss fonksiyonunun $w$ ve $b$’ye göre türevini alırız.
<br/>

$\frac{\partial L}{\partial w}$, $\frac{\partial L}{\partial b}$

<br/>

Türevlerin işareti bize hangi yönde ilerlememiz gerektiğini söyler. Eğer türev pozitifse parametreyi azaltırız, negatifse artırırız.
$w$ ve $b$'nin güncelleme kuralları şu şekildedir:
<br/>
$w = w - \alpha \frac{\partial L}{\partial w}$
<br/>
$b = b - \alpha \frac{\partial L}{\partial b}$

<br/>

Buradaki $α$ öğrenme oranıdır (learning rate). Adımın ne kadar büyük atılacağını belirler.

## Sayısal Örnek
Basit olması açısından tek bir veri noktası yani $(x,y)=(2,5)$ noktasını alamım. Burada modelimiz $\hat{y} = wx + b$ olacaktır. Buradan hata ölçümü ile başlayabiliriz.

$\hat{y} - y = wx + b$ hatayı matematiksel olarak yanlız bıratığımızda;

$\hat{y} = (wx + b) - y $ olacaktır.

şimdi x gördüğümüz yere 2, y gördüğümüz yere 5 koyarsak.

$\hat{y} = (2w + b - 5) $

Loss fonksiyonu:

$L(w,b) = (2w + b - 5)^2$  olarak yazılacaktır. Şimdi türevleri alalım. Burada zincir kuralı kullanılır. Genel olarak:

$\frac{d}{dx}(u^2) = 2u \cdot \frac{du}{dx}$

Önce $w$’ye göre türev:

$\frac{\partial L}{\partial w} = 2(2w+b-5) \cdot 2 = 4(2w+b-5)$

sonra $b$’ye göre türev hesaplanır:

$\frac{\partial L}{\partial b} = 2(2w+b-5)$



