# Çoklu Doğrusal Regresyon

Temel amaç, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır.

hata kareler toplamını minimize edecek şekilde katsayı tahminlerini bulmaya çalışalım.

bağımlı değişkeni etkilediği belirlenen değişkenler aracılığıyla bağımlı değişkenin değerlerinin tahmin edilmesi 

bağımlı değişkeni etkilediği düşünülen bağımsız değişkenlerden hangisinin, hangilerinin bağımlı değişkeni ne yönde, ne şekilde etkilediğini tespit edebilmek aralarındaki ilişkiyi tanımlamaya çalışmaktır. örneğin bir değişken negatif yönlü etkileyebilir. kilometre artışı araba fiyatını negatif etkiler, vites durumu pozif etkileyebilir.

bu değişkenlerin bağımlı değişkene olan etkileri yönü bunların şiddetleriyle ilgili yorumlanabilir modeller çıkaralım

![Ekran Resmi 2023-08-20 16.14.19.png](attachment:a1dcd619-e923-4b51-bc33-5c2965956644.png)

bu denklem çözüldüğünde katsayılar elde edilecektir.

### Doğrusal Regresyonun Varsayımları
* Hatalar normal dağılır. Hatalar gerçek değerlerle tahmin edilen değerler arasındaki farklardır.
* Hatalar birbirinden bağımsızdır ve aralarında otokorelasyon yoktur.
* Her bir gözlem için hata terimleri varyansları sabittir.
* Değişkenler ile hata terimi arasında ilişki yoktur.
* Bağımsız değişkenler arasında çoklu doğrusal ilişki problemi yoktur.

bu varsayımlar gerçekleştiğinde çok değerli yorumlama imkanı sağlar 

### Regresyon Modellerinin Avantaj ve Dezavantajları
* İyi anlaşılırsa diğer tüm ML ve DL konuları çok rahat kavranır.
* Doğrusallık nedensellik yorumları yapılabilmesini sağlar, bu durum aksiyoner ve stratejik modelleme imkanı verir. yani çok başarılı bir tahmin performansı sergileyen bir algoritmayı kullandığımızda bizim elimize sadece belirli değerler geldiğinde bu değerlere karşılık oluşabilecek tahmin değeri vardır. başarılıdır ve tahmin değeri vardır. buradaki doğrusallık bize neden sonuç anlamında yorumlar yapabilme imkanı sağlar.
* Değişkenlerin etki düzeyleri ve anlamlılıkları değerlendirilebilir
* Bağımlı değişkendeki değişkenliğin açıklanma başarısı ölçülebilir. R-squared
* Model anlamlılığı değerlendirilebilir. Değişkenlerin anlamlılığı bağımsız değişkenlerin bağımlı değişkene olan etkisi şiddeti ve yönü gibi çok zengin yorumlanabilirlik özellikleri vardır.
* Varsayımları vardır. çoklu doğrusal bağlantı problemi, bağımsız değişkenlerin birbirleri arasında çok yüksek korelasyon olması anlamına gelir bunlar bazı problemlere sebep olur. bu problemleri giderebilmek adına PCR yöntemi önerilmiştir. otokorelasyon problemi
* Aykırı gözlemlere duyarlıdır.

# Çoklu Doğrusal Regresyon - Model

In [1]:
import pandas as pd

In [2]:
ad = pd.read_csv("Advertising.csv", usecols=[1,2,3,4])

In [3]:
df = ad.copy()
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [4]:
# bağımlı sales değişkenini dışarıda bırakıp, bağımsız değişkenleri seçeceğim
X = df.drop("sales", axis=1)
X.head()

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4


In [5]:
# bağımlı değişken
y = df["sales"]
y.head()

0    22.1
1    10.4
2     9.3
3    18.5
4    12.9
Name: sales, dtype: float64

In [6]:
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict
# train_test_split: train - test ayrımı için bir fonksiyon
# cross_val_score: 
# cross_val_predict: tahmin için

In [7]:
# test ve train ayırma işlemlerini gerçekleştireceğiz. 80-20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state=42)

In [8]:
X_train.shape # 160 gözlem birimi, 3 değişken

(160, 3)

In [9]:
y_train.shape

(160,)

In [10]:
X_test.shape

(40, 3)

In [11]:
y_test.shape

(40,)

In [12]:
# bütün veri seti
training = df.copy()
training.shape # veri setimizin ilk hali

(200, 4)

### Çoklu Doğrusal Regresyon Modelini Kurma: Statsmodels ile

In [13]:
import statsmodels.api as sm

In [14]:
## Statsmodels
lm = sm.OLS(y_train, X_train) # model nesnemizi oluşturduk

In [15]:
model = lm.fit()
model.summary()

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.982
Model:,OLS,Adj. R-squared (uncentered):,0.982
Method:,Least Squares,F-statistic:,2935.0
Date:,"Mon, 21 Aug 2023",Prob (F-statistic):,1.28e-137
Time:,13:28:52,Log-Likelihood:,-336.65
No. Observations:,160,AIC:,679.3
Df Residuals:,157,BIC:,688.5
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040

0,1,2,3
Omnibus:,11.405,Durbin-Watson:,1.895
Prob(Omnibus):,0.003,Jarque-Bera (JB):,15.574
Skew:,-0.432,Prob(JB):,0.000415
Kurtosis:,4.261,Cond. No.,13.5


- R-squared, değeri artmış çünkü modelde hem değişken artması hemde satış değişkeninin değişkenliğinin yaklaşık %98'ini açıklıyoruz.
- F-statistic:	2935. ve Prob (F-statistic):	1.28e-137 baktığımızda model anlamlıdır.
- katsayıları(coef) incelediğimizde P>t'ye baktığımızda bütün katsayıların anlamlı olduğu görülür. bu modelde bağımlı değişken satışları açıklamak için kullanmak üzere modele aldığımız bütün değişkenler anlamlı 
- katsayılara bakarsak(coef) TV harcamalarındaki 1 birimlik artış satışlarda ortalama 0.0531 kadar artışa sebep oluyor.
- radio için yapılacak 1 birimlik harcama artışı satışlarda ortalama 0.2188 kadar artışa sebep oluyor.

- eğer hedefte bir sürekli değişken varsa öncelikle mutlaka bir doğrusal modele sokulup bu değişkenlerin analitik anlamda bağımlı değişkene olan etkilerinin anlamlı olup olmadığına mutlaka bakılmalı

In [16]:
model.summary().tables[1]

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040


f-statistic, r-squared, adj. r-squared aralarında ne fark vardır?
* r-squared ve adj. r-squared bağımlı değişkendeki(y) değişikliğin bağımsız değişkenlerce açıklanabilme oranını vermektedir.modeldeki bağımsız değişkenler elimizdeki bağımlı değişkenin varyansının r-squared kadarını açıklar. değişimi kastediyorum. açıklanabilirlik oranıdır.
* f-statistic ise modelin anlamlılığını değerlendirir. anlamlı mı değil mi? bu model anlamlı mı?

* varyans açıklama başarımız r-squared
* model anlamlı mı? f-statistic
* tahmin başarısı f-statistic ve r-squared bunlar doğrusal modellerde bakılabilecek değerlerdir. modellerin tahmin başarısını değerlendirmek için mse, rmse gibi değerlere bakıyor olacağız.
* model doğrulama, validasyon yöntemleridir.

### Çoklu Doğrusal Regresyon Modelini Kurma: scikit-learn ile

In [17]:
from sklearn.linear_model import LinearRegression

In [18]:
lm = LinearRegression()
model=lm.fit(X_train, y_train) # modeli oluşturdum

In [19]:
model.intercept_ # sabit katsayı

2.979067338122631

In [20]:
model.coef_ # bütün bağımsız değişkenlerin katsayılarını ifade ediyor

array([0.04472952, 0.18919505, 0.00276111])

# Çoklu Doğrusal Regresyon - Tahmin

kurmuş olduğumuz model ile tahmin işlemi gerçekleştireceğiz.

* model denklemi: Sales = 2.97 + TV*0.04 + radio*0.18 + newspaper*0.002
* Örneğin 30 birim TV harcaması, 10 birim radio harcaması, 40 birimde gazete harcaması olduğunda satışların tahmini değeri ne olur?

In [21]:
# 3 tane bağımsız değişken ve katsayıları var
# model yardımıyla yapalım
yeni_veri = [[30], [10], [40]]
tv_rd_np = pd.DataFrame(yeni_veri).T
tv_rd_np

Unnamed: 0,0,1,2
0,30,10,40


In [22]:
# TV'de 30, radyo'da 10, gazetede 40 birimlik harcama yaptığımızda 
# satışlarımızın beklenen değeri 6.32 olacaktır.
model.predict(tv_rd_np)

array([6.32334798])

#### Tahmin Başarımızı Değerlendirelim

In [23]:
from sklearn.metrics import mean_squared_error, r2_score

In [24]:
import numpy as np

* y_train: train içerisindeki gerçek y değerlerimiz
* model.predict(X_train): model X_train üzerinden tahmin ettiği y_train tahmin değerleri
* model.predict fonksiyonu bağımsız değişkenleri kullanarak y tahminleri oluşturuyor(y şapkaları) yani traindeki tahmin edilen y değerleri

#### Eğitim Seti için Tahmin Başarımız

In [26]:
rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))
rmse # eğitim hatamız

1.6447277656443373

#### Test Seti için Tahmin Başarımız

#### Test Hatası

* test setinin bağımlı değişkeni: y_test
* eğitim seti üzerinden modeli eğittim: model
* test etmek için dışarıda bırakılan X bağımsız değişkenlerini, test setindeki girmiş oluyoruz: X_test
* eğitim veri setiyle kurup katsayılarına ulaştığım modeli kullanarak modelin daha önce hiç görmediği bağımsız değişken değerlerinden oluşan test setinin değerlerini kullanarak bir tahmin üreteceğim: model.predict(X_test)
* model.predict(X_test): y tahmin değerleri olur
* X_test test seti üzerinden hazırladığım y tahmin değerlerini, test setinin içerisinde olan y_test değerleriyle karşılaştıracağım.

In [27]:
rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test)))
rmse # test seti hatası

1.78159966153345

# Model Doğrulama / Model Tuning İşlemi

çoklu doğrusal regresyon modelinde beta0dan başka dışsal parametre olarak görülebilecek bir parametre yok. aslında beta0da dışsal parametre değil dolayısıyla burada model tuning işlemini model doğrulama işlemi olarak ele almış olacağız model doğrulamanın görmüş olduğumuz yöntemlerce mantığını ele alıp değerlendirip bu çoklu doğrusal regresyon modeli için model tuning'i model doğrulamak olarak uygulamış olacağız.

model doğrulama yöntemleriyle yani test-train, k-katlı cross validation gibi yöntemlerle yapmak istediğimiz şey elde ettiğimiz hataları, daha doğru hatalar olarak elde etmeye çalışmak çabasıydı. 

In [28]:
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [29]:
X = df.drop("sales",axis=1)
y = df["sales"]

In [39]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=144)

In [40]:
# model oluşturdum
lm = LinearRegression()
model = lm.fit(X_train, y_train)

In [41]:
# eğitim hatası
rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))
rmse

In [42]:
# eğitim veri seti üzerinden R-squared değeri
model.score(X_train, y_train)

0.8971614078663419

random_state değerini değiştirdikçe rmse ve R-squared değerleri de değişir. dolayısıyla modelin beliri bir kısmını seçeceğiz ama hangi kısmını seçeceğiz? işte bu problemi ortadan kaldırabilmek adına, giderebilmek adına cross validation yöntemi kullanılır. örneğin 10 katlı bir cross validation yöntemiyle hesaplama işlemi yapalım.

In [43]:
# kurmuş olduğumuz model, bağımsız değişken X, bağımlı değişken y, 10 katlı cross validation
cross_val_score(model, X, y, cv=10, scoring="r2")

array([0.87302696, 0.8581613 , 0.92968723, 0.89013272, 0.93146498,
       0.93138735, 0.7597901 , 0.91217097, 0.83891753, 0.92882311])

10 tane birbirinden farklı R2 değeri geldi.

In [44]:
# ortalamasını alalım
cross_val_score(model, X, y, cv=10, scoring="r2").mean()
# bu işlemi bütün veri seti için yaptım(X, y)

0.8853562237979616

işte bizim modelimizin daha güvenilir, valide edilmiş, doğrulanmış r-squared değeri budur.

#### train için elde ettiğimiz R-squared değerleri

In [46]:
# eğitim veri seti üzerinden R-squared değeri
model.score(X_train, y_train)

0.8971614078663419

In [47]:
# train veri seti için valide edilmiş skor
cross_val_score(model, X_train, y_train, cv = 10, scoring = "r2").mean()

0.8733783298422939

valide etmek daha doğru hata elde etme imkanı verir.

#### eğitim seti için rmse hesaplayalım

In [50]:
# eğitim hatası
rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))
rmse

1.6748559274650712

In [51]:
# negatif değer üreteceği için başına - değeri koydum
# eğitim setine yönelik olrak 10 adet rmse değeri ürettim
# valide edildi
rmse = np.sqrt(-cross_val_score(model, 
                 X_train, 
                 y_train,
                 cv = 10, 
                 scoring = "neg_mean_squared_error")).mean()
rmse

1.6649345607872932

gerçek eğitim hatası, valide edilmiş hatadır. daha doğru bir sonuca erişmiş oldum. 

#### test seti için rmse hesaplayalım

In [52]:
# rmse test hatası
np.sqrt(mean_squared_error(y_test, model.predict(X_test)))

1.6640263686701033

In [53]:
# valide edilmiş model üzerinden rmse test hatası
np.sqrt(-cross_val_score(model,
                        X_test,
                        y_test,
                        cv = 10,
                        scoring = "neg_mean_squared_error")).mean()

1.7399924960346642

### _**2 tane dikkat edilmesi gereken konu var:**_
1. ifade ettiğimiz train hatasıyla test hatasının birbirinden farklılaşıyor olacağı
2. eğitim hatasının test hatasının kötü bir tahmincisi olması durumu

eğitim hatasının yanıltıcı olduğu görülür.

valide edilmemiş hata yanıltıcıdır.

In [52]:
# rmse test hatası
np.sqrt(mean_squared_error(y_test, model.predict(X_test)))

1.6640263686701033

In [53]:
# valide edilmiş model üzerinden rmse test hatası
# gerçek test hatası
np.sqrt(-cross_val_score(model,
                        X_test,
                        y_test,
                        cv = 10,
                        scoring = "neg_mean_squared_error")).mean()

1.7399924960346642

In [54]:
# eğitim hatası
rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))
rmse

1.6748559274650712

In [51]:
# negatif değer üreteceği için başına - değeri koydum
# eğitim setine yönelik olrak 10 adet rmse değeri ürettim
# valide edildi
rmse = np.sqrt(-cross_val_score(model, 
                 X_train, 
                 y_train,
                 cv = 10, 
                 scoring = "neg_mean_squared_error")).mean()
rmse

1.6649345607872932

Eğitim setini valide ederek hatalara erişmek valide edilmiş modelin katsayılarını parametrelerini kullanarak tahmin üreten modeller yapmak