## Çoklu Doğrusal Regresyon

**Tanım:**Temel amaç, bağımlı değişkenler ile bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır. Hata kareler toplamını minimize edecek şekilde katsayı tahminlerini bulmaya çalışarak bunu yaparız.

**Doğrusal Regresyon Varsayımları**
 * Hatalar normal dağılır.
 * Hatalar birbirinden bağımsızdır ve aralarında otokorelasyon yoktur.
 * Her bir gözlem için hata terimleri varyansları eşittir.
 * Değişkenler ile hata terimi arasında ilişki yoktur.
 * Bağımsız değişkenler arasında çoklu doğrusal ilişki problemi yoktur.

**Regresyon Modellerinin**

**Avantaj**
 * İyi anlaşılırlar ML(Makine Öğrenmesi) ve DL(Derin Öğrenme) konuları çok rahat kavranır.
 * Doğrusallık nedensellik yorumları yapılabilmesini sağlar, bu durum aksiyoner ve stratejik modelleme imkanı verir.
 * Değişkenlerin etki düzeyleri ve anlamlılıkları değerlendirilebilir.
 * Bağımlı değişkendeki değişkenliğin açıklanma başarısı ölçülebilir.
 
**Dezavantaj**
 * Varsayımları vardır.
 * Aykırım gözlemlere duyarlıdır.

#### Model

In [1]:
import pandas as pd
ad = pd.read_csv("Advertising.csv",usecols=[1,2,3,4])
df = ad.copy()
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [8]:
# Sckit-Learn içerisinden test-train bölme işlemi için bir fonksyionu çağıracağız.
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict

In [60]:
# Df içersinden drop  fonksiyonunu kullanarak Sales değişkenin dışarda bırakarak tüm bağımsız değikenleri seçme işlemi
X = df.drop("sales",axis=1)
# Sales değişkenini de y'ye atıyoruz.
y = df["sales"]

# Veri setimiz test-train olarak ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state=42)

In [10]:
X_train.shape

(160, 3)

In [11]:
y_train.shape

(160,)

In [12]:
X_test.shape

(40, 3)

In [13]:
y_test.shape

(40,)

**Yukarıdaki değerler veri seti %80 train %20 test olarak bölündüğü için bu değerleri vermektedir.**

In [16]:
# Veri setinin kopyasını traninh adında bir değişkene atıyoruz.
training = df.copy()

In [15]:
training.shape

(200, 4)

#### Stats Model ile Modelleme


Eğer yorumlama yapmak gibi ihtiyaçlarımız var ise StatsModel kütüphanesini kullanmamız gerekmektedir.

In [18]:
import statsmodels.api as sm
lm = sm.OLS(y_train, X_train)

In [19]:
model = lm.fit()
model.summary()

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.982
Model:,OLS,Adj. R-squared (uncentered):,0.982
Method:,Least Squares,F-statistic:,2935.0
Date:,"Wed, 27 Jan 2021",Prob (F-statistic):,1.28e-137
Time:,16:17:47,Log-Likelihood:,-336.65
No. Observations:,160,AIC:,679.3
Df Residuals:,157,BIC:,688.5
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040

0,1,2,3
Omnibus:,11.405,Durbin-Watson:,1.895
Prob(Omnibus):,0.003,Jarque-Bera (JB):,15.574
Skew:,-0.432,Prob(JB):,0.000415
Kurtosis:,4.261,Cond. No.,13.5


#### Scikit-Learn ile Modelleme

In [20]:
from sklearn.linear_model import LinearRegression

In [21]:
lm = LinearRegression()
model = lm.fit(X_train, y_train)

In [22]:
# Modelin sabit katsayısı
model.intercept_

2.979067338122631

In [25]:
# Bağımsız değişkenler için katsayılar
model.coef_

array([0.04472952, 0.18919505, 0.00276111])

#### Tahmin

        Model Denklemi:
        Sales = 2.97 + TV*0.04 + radio*0.18 + newspaper*0.002

Örneğin 30 birim TV harcaması, 10 birim radio harcaması ve 40 birimde newspaper harcaması olduğunda satışların tahmini değeri ne olur ?

In [29]:
yeni_veri = [[30],[10],[40]]
# Dataframe'e çevirme yapıyoruz.
yeni_veri = pd.DataFrame(yeni_veri).T
# Veri setimizi predict fonksiyonunun algılayabileceği ve model nesnesine göndereceği bir formata getirdik.

In [30]:
model.predict(yeni_veri)

array([6.32334798])

In [38]:
# Modelimizin tahmin başarısına bakma
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score

In [39]:
# Eğitim seti hatası --> Şuan olan olay train içerisindeki gerçek değerlerimiz(y) ve bu gerçek değerleri modelleyerek train üzerinden tahmin ettiğimiz y tahmin değerleri
rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))

In [40]:
rmse

1.644727765644337

In [41]:
# Test seti hatası -->
rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test)))

In [42]:
rmse

1.7815996615334508

#### Model Tuning / Model Doğrulama

In [43]:
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [57]:
X = df.drop("sales",axis = 1)
y = df["sales"]
X_train, X_test, y_train, y_test = train_test_split(X, y , test_size = 0.20, random_state = 144)
lm = LinearRegression()
model = lm.fit(X_train, y_train)

In [58]:
# Eğitim Hatası
np.sqrt(mean_squared_error(y_train, model.predict(X_train)))

1.6748559274650712

In [59]:
# r-kare değeri
model.score(X_train, y_train)

0.8971614078663419

Random_State değerini değiştirdikçe eğitim hatamız ve r-kare skor değerimiz değişecektir.

Modelin belirli bir kısmını seçiceğiz ama hangi belirli kısmını seçeceğiz ile ilgili bir problemimiz var. Bu problemi ortadan kaldırabilmek adına **Cross Validation** yöntemi kullanılır.
 * Örneğin 10 katlı cross-validation yöntemi ile bir hesaplama işlemi yapalım.

In [61]:
# Argüman olarak oluşturduğumuz model, X bağımsız değişkenler, y bağımlı değişken ve cross-validation katsayısı
cross_val_score(model, X, y, cv=10, scoring = "r2")

array([0.87302696, 0.8581613 , 0.92968723, 0.89013272, 0.93146498,
       0.93138735, 0.7597901 , 0.91217097, 0.83891753, 0.92882311])

Yukarıdaki değerlere baktığımız zaman birbirinde farklı r-kare değeri geldi.

In [68]:
# Ortalamasını alarak bizim modelimizin daha güvenilir, doğrulanmış r-kare değeri
cross_val_score(model, X, y, cv=10, scoring = "r2").mean()

0.8853562237979616

In [69]:
# Eğitim setimiz için 10 adet eğitim hatası (rmse) oluşturuldu ve her biri biribirinden farklı bunların karekökünün ortalaması alarak bunu valide etmiş oluyoruz ve gerçek eğitim hatam bu diyebilriz. 
np.sqrt(-cross_val_score(model,
                        X_train, 
                        y_train,
                        cv=10, 
                        scoring = "neg_mean_squared_error")).mean()

1.651352373031333