# Çoklu Doğrusal Regresyon
Temel amaç, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır. <br>
Bir diğer amaç hata kareler toplamını minumum yapmaktır. <br>
<br>
Bunu inceleyen araştırmacının iki amacı vardır:
 - Bağımlı değişkeni etkilediği belirlenen değişkenler aracılıyla bağımlı değişkenin değerlerinin tahmin edilmesidir.
 - Bağımlı değişkeni etkileyen değişkenler (yönü,şiddeti)

### Doğrusal Regresyonun Varsayımları
- Hatalar normal dağılır.
- Hatalar birbirinden bağımsızdır ve aralarında otokorelasyon yoktur. (otokorelasyon: bir regresyon modelinde hata terimlerinin birbiriyle ilişkili olma haline denmektedir)
- Her bir gözlem için hata terimleri varyansları sabittir.
- Değişkenler ile hata terimi arasında ilişki yoktur.
- Bağımsız değişkenler arasında çoklu doğrusal ilişki problemi yoktur.

---

In [50]:
import pandas as pd
import numpy as np
ad = pd.read_csv("Advertising.csv", usecols=[1,2,3,4])
df = ad.copy()
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [51]:
X = df.drop("sales",axis=1)
X[0:10]

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4
5,8.7,48.9,75.0
6,57.5,32.8,23.5
7,120.2,19.6,11.6
8,8.6,2.1,1.0
9,199.8,2.6,21.2


In [52]:
y = df["sales"]
y[0:10]

0    22.1
1    10.4
2     9.3
3    18.5
4    12.9
5     7.2
6    11.8
7    13.2
8     4.8
9    10.6
Name: sales, dtype: float64

In [53]:
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict
import statsmodels.api as sm

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.20,random_state=42)

In [54]:
X_train.shape

(160, 3)

In [55]:
y_train.shape

(160,)

In [56]:
X_test.shape

(40, 3)

In [57]:
y_test.shape

(40,)

In [58]:
training = df.copy()
training.shape

(200, 4)

In [59]:
lm = sm.OLS(y_train,X_train)
model = lm.fit()
model.summary()

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.982
Model:,OLS,Adj. R-squared (uncentered):,0.982
Method:,Least Squares,F-statistic:,2935.0
Date:,"Fri, 20 Mar 2020",Prob (F-statistic):,1.28e-137
Time:,12:32:40,Log-Likelihood:,-336.65
No. Observations:,160,AIC:,679.3
Df Residuals:,157,BIC:,688.5
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040

0,1,2,3
Omnibus:,11.405,Durbin-Watson:,1.895
Prob(Omnibus):,0.003,Jarque-Bera (JB):,15.574
Skew:,-0.432,Prob(JB):,0.000415
Kurtosis:,4.261,Cond. No.,13.5


r^2 ile satış değişkeninin yaklaşık %98'ini açıklıyoruz.Bu gerçek hayat için çok iyi. <br>
Katsayıları'da incelediğimizde hepsi anlamlı(0,0,0.003). <br>
coef => artışı temsil etmektedir.

In [60]:
model.summary().tables[1] #katsayılar

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0531,0.001,36.467,0.000,0.050,0.056
radio,0.2188,0.011,20.138,0.000,0.197,0.240
newspaper,0.0239,0.008,3.011,0.003,0.008,0.040


r^2 ile düzeltilmiş r^2 arasında bağımlı değişkendeki değişikiğin bağımsız değişkenlerce açıklanabilme oranını vermektedir. <br>
F-statistic => modelin anlamılığını belirtir.

In [62]:
model.coef_ # bağımsız değişkenlerin katsayısı

array([0.04472952, 0.18919505, 0.00276111])

---
### Örnek
Model denklemi:<br>
Sales = 2.97 + TV\*0.04 + radio\*0.18 + newspaper*0.002 <br>
Örneğin 30 birim TV harcamasi, 10 birim radio harcamasi, 40 birimde gazete harcaması olduğunda satışların tahmini değeri ne olur? 

In [63]:
yeni_veri = [[30],[10],[40]]
yeni_veri = pd.DataFrame(yeni_veri).T
yeni_veri

Unnamed: 0,0,1,2
0,30,10,40


In [64]:
model.predict(yeni_veri)

array([6.32334798])

In [72]:
y_train[0:10]

79     11.0
197    12.8
38     10.1
24      9.7
122    11.6
195     7.6
29     10.5
19     14.6
143    10.4
86     12.0
Name: sales, dtype: float64

In [71]:
model.predict(X_train)[0:10]

array([ 9.68827502, 12.67337707, 10.0553326 ,  8.20010235, 13.49562077,
        5.42585998,  9.2767456 , 14.14222434,  8.83116901, 11.63897134])

In [73]:
from sklearn.metrics import mean_squared_error, r2_score

rmse = np.sqrt(mean_squared_error(y_train,model.predict(X_train)))

In [74]:
rmse # eğitim hatası

1.644727765644337

In [76]:
#test hatası
rmse = np.sqrt(mean_squared_error(y_test,model.predict(X_test)))

In [77]:
rmse

1.7815996615334502