## Çoklu Doğrusal Regresyon

Temel amaç, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır.

#### Doğrusal Regresyon Varsayımları

Hatalar normal dağılır.

Hatalar birbirinden bağımsızdır ve aralarında otokorelasyon yoktur.

Her bir gözlem için hata terimleri varyansları sabittir.

Değişkenler ile hata terimi arasında ilişiki yoktur.

Bağımsız değişkenler arasında çoklu doğrusal ilişki problemli yoktur.

#### Regresyon Modellerinin Avantaj ve Dezavantajları

İyi anlaşılırsa diğer tüm ML ve DL konuları çok rahat kavranır.

Doğrusallık nedensellik yorumları yapılabilmesini sağlar, bu durum aksiyoner ve stratejik modelleme imkanı verir.

Değişkenlerin etki düzeyleri ve anlamlılıkları değerlendirilebilir.

Bağımlı değişkendeki değişkenliğin açıklanma başarısı ölçülebilir.

Model anlamlılığı değerlendirilebilir.

**Varsayımları vardır.**

**Aykırı gözlemlere duyarlıdır.**

In [1]:
import pandas as pd
ad = pd.read_csv("Advertising.csv", usecols=[1,2,3,4])
df = ad.copy()
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [4]:
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict

X = df.drop("sales", axis=1)
y = df["sales"]

In [12]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.20, random_state=42)

In [13]:
X_train.shape

(160, 3)

In [14]:
y_train.shape

(160,)

In [15]:
X_test.shape

(40, 3)

In [16]:
y_test.shape

(40,)

In [17]:
training = df.copy()
training.shape

(200, 4)

#### Statsmodels

In [24]:
import statsmodels.api as sm
lm = sm.OLS(y_train, X_train)

In [25]:
model = lm.fit()
model.summary()

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.982
Model:,OLS,Adj. R-squared (uncentered):,0.982
Method:,Least Squares,F-statistic:,2935.0
Date:,"Mon, 18 Oct 2021",Prob (F-statistic):,1.28e-137
Time:,12:26:53,Log-Likelihood:,-336.65
No. Observations:,160,AIC:,679.3
Df Residuals:,157,BIC:,688.5
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040

0,1,2,3
Omnibus:,11.405,Durbin-Watson:,1.895
Prob(Omnibus):,0.003,Jarque-Bera (JB):,15.574
Skew:,-0.432,Prob(JB):,0.000415
Kurtosis:,4.261,Cond. No.,13.5


In [26]:
model.summary().tables[1]

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040


#### Scikit-Learn model

In [27]:
from sklearn.linear_model import LinearRegression

In [29]:
lm = LinearRegression()
model = lm.fit(X_train , y_train)

In [30]:
model.intercept_

2.979067338122629

In [31]:
model.coef_

array([0.04472952, 0.18919505, 0.00276111])

## Çoklu Doğrusal Regresyon Tahmin

#### Tahmin

Model Denklemi: 
    
Sales = 2.97 + TV * 0.04 + Radio * 0.18 + newspaper * 0.002

Örneğin 30 birim TV harcaması, 10 birim radio harcaması, 40 birim de gazete harcaması olduğunda satışların tahmini değeri ne olur? 

In [32]:
yeni_veri = [[30],[10],[40]]
yeni_veri = pd.DataFrame(yeni_veri).T

In [35]:
model.predict(yeni_veri)

array([6.32334798])

In [36]:
import numpy as np

In [37]:
from sklearn.metrics import mean_squared_error, r2_score

In [38]:
rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))

In [40]:
rmse # eğitim hatası

1.644727765644337

In [41]:
rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test)))
rmse

1.7815996615334502

## Çoklu Doğrusal Regresyon Model Tuning / Model Doğrulama

In [42]:
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [43]:
np.sqrt(mean_squared_error(y_train, model.predict(X_train))) # trainler

1.644727765644337

In [54]:
np.sqrt(mean_squared_error(y_test, model.predict(X_test))) #testler

1.7815996615334502

In [45]:
model.score(X_train, y_train)

0.8957008271017818

In [48]:
cross_val_score(model, X_train , y_train , cv=10, scoring="r2").mean()

0.791354859691634

In [51]:
-cross_val_score(model,
                 X_train,
                 y_train,
                 cv=10,
                 scoring="neg_mean_squared_error")

array([5.57303426, 2.86235681, 2.06504684, 1.09186983, 1.66159795,
       2.50694042, 2.92821679, 2.01207197, 7.2250041 , 1.66156243])

In [52]:
np.sqrt(-cross_val_score(model,
                 X_train,
                 y_train,
                 cv=10,
                 scoring="neg_mean_squared_error"))

array([2.36072749, 1.69185011, 1.43702708, 1.04492575, 1.28902985,
       1.58333206, 1.71120332, 1.41847523, 2.68793677, 1.28901607])

In [53]:
np.sqrt(-cross_val_score(model,
                 X_train,
                 y_train,
                 cv=10,
                 scoring="neg_mean_squared_error")).mean()

1.6513523730313335

In [55]:
np.sqrt(-cross_val_score(model,
                 X_test,
                 y_test,
                 cv=10,
                 scoring="neg_mean_squared_error")).mean()

1.8462778823997095

**Train hatası ile test hatası birbirinden farklıdır ve eğitim hatası test hatasının kötü bir tahmincisidir.**