# **Çoklu Doğrusal Regresyon**
Temel amaç bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır


Çoklu doğrusal regresyonda bağımlı değişkeni etkileyen bağımsız değişkenlerin etkileri vasıtasıyla bağımlı değişkeni **tahmin etmek** için kullanılır.


Ayrıca bağımlı değişkeni etkileyen bağımsız değişkenlerin hangi veya hangilerinin daha çok etkilediğini **tespit etmek** için de kullanılır.



---




Beta1, beta2... ifadeleri bağımsız değişkenlerin bağımlı değişkene etki ettiği katsayılardır.




In [4]:
import pandas as pd
df=pd.read_csv("/content/Advertising.csv")
df = df.iloc[:, 1:]
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [10]:
x=df.drop('sales',axis=1) #bağımsız değişkenler
y=df[["sales"]] #bağımlı değişkenler

In [11]:
y.head()

Unnamed: 0,sales
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [8]:
x.head()

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4


# **Statsmodels ile model kurmak**

In [14]:
import statsmodels.api as sm

Lm yani lineer modelin kısaltılmışı şeklinde isimlendirdik. regresyon modelini kurmak için gerekli fonksiyonu çağırıyoruz (OLS()). Burada birinci argümana bağımlı değişken ikinci argümana ise bağımsız değişkenler atanır.

In [15]:
lm=sm.OLS(y,x)

In [16]:
model=lm.fit()

In [17]:
model.summary() #çoklu doğrusal regresyonun model çıktısı

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.982
Model:,OLS,Adj. R-squared (uncentered):,0.982
Method:,Least Squares,F-statistic:,3566.0
Date:,"Tue, 04 Jun 2024",Prob (F-statistic):,2.43e-171
Time:,10:43:16,Log-Likelihood:,-423.54
No. Observations:,200,AIC:,853.1
Df Residuals:,197,BIC:,863.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0538,0.001,40.507,0.000,0.051,0.056
radio,0.2222,0.009,23.595,0.000,0.204,0.241
newspaper,0.0168,0.007,2.517,0.013,0.004,0.030

0,1,2,3
Omnibus:,5.982,Durbin-Watson:,2.038
Prob(Omnibus):,0.05,Jarque-Bera (JB):,7.039
Skew:,-0.232,Prob(JB):,0.0296
Kurtosis:,3.794,Cond. No.,12.6


**R-squared:** Bağımsız değişkenlerin bağımlı değişkeni açıklama yüzdesidir.


**Adj-Rsquared(düzeltilmiş r kare değeri):** R kare değeri formülasyonundan dolayı modele ne kadar değişken eklenirse o kadar artmaya meyillidir ve bu durum model için işe yaramayan değişkenlerin de eklenmesine neden olabilir. Düzeltilmiş r kare değeri ise bu durumdan arındırılmış r kare değerini vermektedir. Bu değer bize daha sağlıklı bir açıklanabilirlik oranı vermektedir.

**F-statistic (F istatistiği):** Modelin anlamlılığını test etmek için kullanılan istatistiktir.

**Prob (F-statistic) (F istatistiğinin P value değeri):**0.05 den küçük olması modelin anlamlı olduğunu gösterir.


---


**Coef:** Değişkenlerin modele etkisinin katsayısını ifade eder.

**std err:** Elimizdeki katsayıların standart hatasıdır.

**t ve 	P>|t|:** Değerleri modeldeki değişkenlerin model için anlamlı olup olmadığını gözlemlememize yarar ve bu modelde tüm değerler model için anlamlıdır.

**Coef Yorumu:** Diğer değişkenler sabit olduğunda. TV değişkenindeki bir birimlik artık sales değişkininde ortalama 0.05 birimlik artışa neden olacaktır.



# **Scikit Learn ile model kurmak**



In [18]:
from sklearn.linear_model import LinearRegression
lm=LinearRegression()

In [20]:
model = lm.fit(x,y)

In [21]:
model.intercept_ #Sabit

array([2.93888937])

In [23]:
model.coef_ #Değişkenlerin katsayı değerleri

array([[ 0.04576465,  0.18853002, -0.00103749]])

# **Tahmin**

**Sales = 2.94 + TV * 0.04 + radio * 0.18 - newspaper * 0.001**

* Çoklu doğrusal regresyon modeli bize tv, radio, newspaper değerlerinin katsayılarını veren fonksiyondur.

*30 birim tv, 10 birim radio, 40 birim gazete harcaması olursa*

In [25]:
Yeni_Veri = [[30],[10], [40]]

In [26]:
yeni_veri = pd.DataFrame(Yeni_Veri).T #elimizde artık birden fazla değişken olduğu için

In [27]:
yeni_veri

Unnamed: 0,0,1,2
0,30,10,40


In [28]:
model.predict(yeni_veri)



array([[6.15562918]])

# **Modelin Başarısını Değerlendirelim**

In [30]:
from sklearn.metrics import mean_squared_error

In [31]:
y.head()

Unnamed: 0,sales
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [36]:
model.predict(x)[0:10] #Gerçek değerleri bulduğumuz model ile tahmin ettiriyoruz.

array([[20.52397441],
       [12.33785482],
       [12.30767078],
       [17.59782951],
       [13.18867186],
       [12.47834763],
       [11.72975995],
       [12.12295317],
       [ 3.72734086],
       [12.55084872]])

In [37]:
MSE = mean_squared_error(y,model.predict(x)) #Sol taraf gerçek değerler(y), sağ taraf tahmin edilen değerler(x)#MSE İstatistiğimiz
MSE

2.784126314510936

In [38]:
import numpy as np
RMSE = np.sqrt(MSE)
RMSE

1.6685701407225697

# **Model Tuning (Model Doğrulama)**

Veri setini test - train olarak ayırıp bunlar üzerinden bir model doğrulama işlemi gerçekleştireceğiz.

In [39]:
x.head()

Unnamed: 0,TV,radio,newspaper
0,230.1,37.8,69.2
1,44.5,39.3,45.1
2,17.2,45.9,69.3
3,151.5,41.3,58.5
4,180.8,10.8,58.4


In [40]:
y.head()

Unnamed: 0,sales
0,22.1
1,10.4
2,9.3
3,18.5
4,12.9


In [41]:
#Sınama Seti
from sklearn.model_selection import train_test_split

In [43]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=99) #Veri setini %20 ye %80 ayırdık.

In [45]:
x_train.head() #Train setinin bağımsız değişkenleri

Unnamed: 0,TV,radio,newspaper
16,67.8,36.6,114.0
51,100.4,9.6,3.6
97,184.9,21.0,22.0
164,117.2,14.7,5.4
71,109.8,14.3,31.7


In [46]:
y_train.head() #Train setinin bağımlı değişkenleri

Unnamed: 0,sales
16,12.5
51,10.7
97,15.5
164,11.9
71,12.4


In [49]:
x_test.head()

Unnamed: 0,TV,radio,newspaper
135,48.3,47.0,8.5
127,80.2,0.0,9.2
191,75.5,10.8,6.0
66,31.5,24.6,2.2
119,19.4,16.0,22.3


In [47]:
y_test.head()

Unnamed: 0,sales
135,11.6
127,8.8
191,9.9
66,9.5
119,6.6


**test edelim**

In [50]:
lm=LinearRegression()
model = lm.fit(x_train,y_train)

**Eğitim Hatası**

In [51]:
np.sqrt(mean_squared_error(y_train, model.predict(x_train))) #x train değerlerini kullanarak bir tahminde bulunacağım ve bunu y train değerleri ile karşılaştıracağım.


1.7236824822650754

**Test Hatası**

In [52]:
np.sqrt(mean_squared_error(y_test, model.predict(x_test)))

1.4312783138301641

# **K- Katlı Cross Validation**

Train setine yönelik elde edeceğimiz hatayı daha doğru değerlendirebilmek için bu yöntemi kullanıyoruz. Örneğin random state değerini 1 alsaydım sonuç daha yanıltıcı olacaktı.

In [53]:
from sklearn.model_selection import cross_val_score

In [54]:
cross_val_score(model,x_train, y_train, cv=10, scoring="neg_mean_squared_error")

array([-2.1019073 , -2.48953197, -3.09704214, -2.34694216, -3.68175761,
       -1.8691401 , -3.18173007, -4.1927349 , -2.17128376, -8.03821974])

Burada, train seti üzerinden 10 farklı hata hesaplandı. Yani train seti kendi içerisinde 10 parçaya bölündü 9 parçayla önce model kuruldu dışarıda kalan 1 parça tahmin edildi ve bunu 10 defa farklı şekilde yaptı. Bunların ortalamasını aldığımızda elimizde bir adet hata değeri olacak.

In [56]:
#cv MSE Değeri
np.mean(-cross_val_score(model,x_train, y_train, cv=10, scoring="neg_mean_squared_error") ) #içerisinde negatif değerler olduğu için başına "-" konulmuştur.

3.3170289742341246

In [57]:
#cv RMSE Değeri
np.sqrt(np.mean(-cross_val_score(model,x_train, y_train, cv=10, scoring="neg_mean_squared_error") ))

1.8212712522395242