# Çoklu Doğrusal Regresyon
* Temel amaç, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyon bulmaktır
*  araştırmanın 2  amacı , bağımlı değişkeni etkilediği belirlenen değişkenler vasıtasıyla bağımlı değişkenin değerlerini tahmin etmek. 2.  Bağımlı değişkeni etkiledğini düşünülen bağımsız değişkenlerden hangisi veya hangilerinin daha çok etkilediğini tespit etmek ve aralarında ki ilişkiyi tanımlayamaya çalışmaktır.
* $Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \dots + \beta_j X_{ij} + \epsilon_i$
- $B_i$ Model içindeki bağımsız değişkenlerin etkilerini kontrol etmek için kullanılıyor.
* $\Sigma{\epsilon_i^2} = \Sigma{(y_i- \hat{y}_i)^2}$
* $\hat_{B} = (X^T {X)^-1  X^T Y$


# Doğrusal Regresyonun Varsayımları
* Hatalar Normal Dağılır
* Hatalar birbirinden bağımsızdır ve aralrında otokorelasyon yoktur.
* Her bir gözlem için hata terimleri varyansları sabittir.
* Değişkenler ile hata terimi arasında ilişki yoktur.
* Bağımsız değişkenler arasında çoklu doğrusal ilişki problemi yoktur.

### Regresyon modellerinin avantajları ve dezavantajları
* iyi anlaşılırsa tüm ML ve DL konuları çok rahat kavranır
* doğrusallık nedensellik yorum yapulabilmesini sağlar, bu durum aksiyoner ve stratejik modelleme imkanı verir.
* Değişkenlerin etki düzeyleri ve anlamlılıları değerlendirilebilir.
* Bağımlı değişkende değişkenliğin açıklanma başarısı ölçülebilir. 
* Model anlamlılığı değerlendire bilir
##### Eksiler/uğraştırıcı yanları: 
* Varsayımları vardır
* Aykırı gözleme duyarlıdır.

# Çoklu Doğrusal Regresyon Model Uygulama

In [43]:
import pandas as pd
df = pd.read_csv('Advertising.csv')

In [44]:
df.drop(columns= ['Unnamed: 0'], inplace = True)

In [45]:
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [46]:
X= df.drop(columns=['sales'], axis=1)

In [47]:
y =  pd.DataFrame(df['sales'])  ####/// y= df[['sales']] aynı isi yapardı

In [48]:
y.head()

Unnamed: 0,sales
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [49]:
X.head()

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4


* iki farklı şekilde model kuracamayı öğreneceğiz
## 1. Statsmodels ile model kurmak

In [50]:
import statsmodels.api as sm

In [51]:
lm = sm.OLS(y,X)

In [52]:
model= lm.fit()

In [53]:
model

<statsmodels.regression.linear_model.RegressionResultsWrapper at 0x16ecfd27850>

In [54]:
model.summary() #R^2 değeri bağımsız değişkenlerin bağımlı değişikliği açıklama yüzdesidir.
# yani veri setimizde ki 'sales' bağımlı değişkenini 'diğer değişkenler' tarafından açıklanma açıklığa kavuşturulma yüzdesi 0.982 miş oldukça yüksek ! 
## R^2 değişken sayısı arttıkça şişmeye meyilldir ancak bunun için Adj. R^2 ye bakabiliriz, düzeltimiş halidir.
# F istatistiği modelin anlamlılığını test etmek için kullanılan istatistiktir. F istatistiğinin p-val değeri Prob f istatistiği şekilnde ifade edilmiş.
# burada p-val 0.05 den küçük olduğu için model anlamlı.

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.982
Model:,OLS,Adj. R-squared (uncentered):,0.982
Method:,Least Squares,F-statistic:,3566.0
Date:,"Sat, 30 Dec 2023",Prob (F-statistic):,2.43e-171
Time:,20:17:18,Log-Likelihood:,-423.54
No. Observations:,200,AIC:,853.1
Df Residuals:,197,BIC:,863.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0538,0.001,40.507,0.000,0.051,0.056
radio,0.2222,0.009,23.595,0.000,0.204,0.241
newspaper,0.0168,0.007,2.517,0.013,0.004,0.030

0,1,2,3
Omnibus:,5.982,Durbin-Watson:,2.038
Prob(Omnibus):,0.05,Jarque-Bera (JB):,7.039
Skew:,-0.232,Prob(JB):,0.0296
Kurtosis:,3.794,Cond. No.,12.6


## Sckit learn ile model kurmak

In [55]:
from sklearn.linear_model import LinearRegression
lm= LinearRegression()

In [56]:
model = lm.fit(X,y)

In [57]:
model.intercept_

array([2.93888937])

In [58]:
model.coef_

array([[ 0.04576465,  0.18853002, -0.00103749]])

# Çoklu doğrusal Regresyon Tahmin
* Sales= 2.94+ TV*0.04+ radio * 0.19 - newspaper * 0.001

 30 birim TV, 10 birim radio, 40 birim gazete

In [63]:
2.94+ 30 * 0.04+ 10 * 0.19 - 40 * 0.001

5.999999999999999

In [70]:
yeni_veri= [[300],[120],[400]]

In [71]:
yeni_veri = pd.DataFrame(yeni_veri).T

In [72]:
yeni_veri

Unnamed: 0,0,1,2
0,300,120,400


In [73]:
model.predict(yeni_veri)



array([[38.87688782]])

In [74]:
from sklearn.metrics import mean_squared_error

In [75]:
y.head() # gerçek değerler

Unnamed: 0,sales
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [76]:
model.predict(X)[0:10] 

array([[20.52397441],
       [12.33785482],
       [12.30767078],
       [17.59782951],
       [13.18867186],
       [12.47834763],
       [11.72975995],
       [12.12295317],
       [ 3.72734086],
       [12.55084872]])

In [89]:
MSE = mean_squared_error(y, model.predict(X)) # gerçek değerler ile tahmin edilen değerleri karşılaştırıp mse'yi bulduk , X ten faydalandık, X elde olan bağımsız değişkenlerden di , y ise gerçek, elde olan Bağımlı değişken
##MSE
MSE

2.784126314510936

In [83]:
import numpy as np
RMSE = np.sqrt(MSE)
RMSE

1.6685701407225697

# Çoklu Doğrusal Regresyon Model Tuning (Model Doğrulama)

In [90]:
X.head()

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4


In [91]:
y.head()

Unnamed: 0,sales
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [92]:
## sınama seti
from sklearn.model_selection import train_test_split

In [93]:
?train_test_split

[1;31mSignature:[0m
[0mtrain_test_split[0m[1;33m([0m[1;33m
[0m    [1;33m*[0m[0marrays[0m[1;33m,[0m[1;33m
[0m    [0mtest_size[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mtrain_size[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mrandom_state[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mshuffle[0m[1;33m=[0m[1;32mTrue[0m[1;33m,[0m[1;33m
[0m    [0mstratify[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Split arrays or matrices into random train and test subsets.

Quick utility that wraps input validation,
``next(ShuffleSplit().split(X, y))``, and application to input data
into a single call for splitting (and optionally subsampling) data into a
one-liner.

Read more in the :ref:`User Guide <cross_validation>`.

Parameters
----------
*arrays : sequence of indexables with same length / shape[0]
    Allowed inputs are lists, numpy arrays, scipy-sparse

In [119]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.20 , random_state= 1) #(bağımsız,bağımlı.

In [111]:
X_train.head()

Unnamed: 0,TV,radio,newspaper
16,67.8,36.6,114.0
51,100.4,9.6,3.6
97,184.9,21.0,22.0
164,117.2,14.7,5.4
71,109.8,14.3,31.7


In [112]:
y_train.head()

Unnamed: 0,sales
16,12.5
51,10.7
97,15.5
164,11.9
71,12.4


In [108]:
y_test.head()

Unnamed: 0,sales
135,11.6
127,8.8
191,9.9
66,9.5
119,6.6


In [109]:
X_test.head()

Unnamed: 0,TV,radio,newspaper
135,48.3,47.0,8.5
127,80.2,0.0,9.2
191,75.5,10.8,6.0
66,31.5,24.6,2.2
119,19.4,16.0,22.3


In [113]:
lm = LinearRegression()
model= lm.fit(X_train, y_train)

In [120]:
np.sqrt(mean_squared_error(y_train,model.predict(X_train))) # eğitim hatası, train hatası

1.7456930519261673

In [121]:
np.sqrt(mean_squared_error(y_test,model.predict(X_test))) # test hatası, test hatası

1.3202673532801203

In [122]:
#k-fold cross validation
from sklearn.model_selection import cross_val_score

In [126]:
cross_val_score(model,X_train,y_train, cv =10, scoring='neg_mean_squared_error')

array([-1.62375953, -3.81875608, -3.43828142, -2.27748673, -7.25325414,
       -1.88303708, -2.80517715, -3.68594486, -1.12810834, -3.96330989])

In [131]:
# cv mse 'train'
np.mean(-cross_val_score(model,X_train,y_train, cv =10, scoring='neg_mean_squared_error'))

3.187711520944357

In [132]:
# cv rmse 'train'
np.sqrt(np.mean(-cross_val_score(model,X_train,y_train, cv =10, scoring='neg_mean_squared_error')))

1.7854163438661463

In [133]:
# cv rmse tüm veri
np.sqrt(np.mean(-cross_val_score(model,X,y, cv =10, scoring='neg_mean_squared_error')))

1.7492763126843385