# Çoklu Doğrusal Regresyon (Multiple Linear Regression)

Temel amaç, bağımlı ve bağımsız değişkenLER arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır.

## Teori

Nasıl?  
Hata Kareler Toplamını minimize edecek şekilde katsayıları bularak.

Amaçlar:
* Katsayıları bulmak
* Hangi bağımsız değişkenin bağımlı değişkene ne kadar ve ne yönde korelasyona sahip olduğunu bulmak.

![image.png](imagee12.png)

![image.png](imagee13.png)

Teorik olarak bu kısım çok önemli fakat sektörde çok önemli değil

---

![image.png](imagee14.png)

## Model

In [1]:
import pandas as pd 
ad = pd.read_csv("Advertising.csv", usecols=[1, 2, 3, 4])
df = ad.copy()
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [2]:
X = df.drop("sales", axis=1)
y = df['sales']

In [3]:
from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=41)

In [4]:
X_train.shape

(160, 3)

In [5]:
y_train.shape

(160,)

### Statsmodels

In [6]:
import statsmodels.api as sm
lm = sm.OLS(y_train, X_train)

In [7]:
model = lm.fit()
model.summary()

0,1,2,3
Dep. Variable:,sales,R-squared (uncentered):,0.984
Model:,OLS,Adj. R-squared (uncentered):,0.984
Method:,Least Squares,F-statistic:,3198.0
Date:,"Wed, 12 Feb 2025",Prob (F-statistic):,1.7299999999999998e-140
Time:,14:20:21,Log-Likelihood:,-330.71
No. Observations:,160,AIC:,667.4
Df Residuals:,157,BIC:,676.6
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0539,0.001,38.820,0.000,0.051,0.057
radio,0.2268,0.010,22.263,0.000,0.207,0.247
newspaper,0.0117,0.007,1.589,0.114,-0.003,0.026

0,1,2,3
Omnibus:,0.464,Durbin-Watson:,1.914
Prob(Omnibus):,0.793,Jarque-Bera (JB):,0.201
Skew:,0.053,Prob(JB):,0.904
Kurtosis:,3.138,Cond. No.,13.1


Burada satış değişkeninin değişkenliğini %98 açıklanmıştır. Çünkü diğer feature'ler de eklendi. F-stats R^2 vs. gibi değerler çok iyi çıktı.

**Önemli Tavsiye**: Sürekli sayılarla ilgili bir analiz yapıyorsak veya elimizde sürekli sayılarla ilgili veri varsa önce lineer modele sokup katsayıların, R kare, F-stats değerlerinin anlamlı olup olmadığına bakmalıyız. Özellikle statsmodels kütüphanesi bize çok değerli bilgiler sunmakta.

In [8]:
model.summary().tables[1]

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
TV,0.0539,0.001,38.820,0.000,0.051,0.057
radio,0.2268,0.010,22.263,0.000,0.207,0.247
newspaper,0.0117,0.007,1.589,0.114,-0.003,0.026


### scikit-learn

In [9]:
from sklearn.linear_model import LinearRegression

In [10]:
lm = LinearRegression()
model = lm.fit(X_train, y_train)
model

In [11]:
model.intercept_

2.7888984470444047

In [12]:
model.coef_

array([ 0.04604721,  0.19548316, -0.00388396])

### Tahmin

Model denklemi:  

Sales = 2.97 + TV\*0.04 + radio\*0.18 + newspaper\*0.002  

Örneğin 30 birim TV harcaması, 10 birim radio harcaması, 40 birim gazete harcaması olduğunda satışların tahmini değeri ne olur?

In [13]:
yeni_veri = [[30], [10], [40]]
yeni_veri = pd.DataFrame(yeni_veri).T
yeni_veri

Unnamed: 0,0,1,2
0,30,10,40


In [14]:
model.predict(yeni_veri)



array([5.96978772])

In [15]:
from sklearn.metrics import mean_squared_error
import numpy as np

rmse = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))
rmse  # BU BIZIM EGITIM HATAMIZ

1.6083727014444487

In [16]:
rmse = np.sqrt(mean_squared_error(y_test, model.predict(X_test)))
rmse  # BU DA TEST HATASI

1.9057489115676043

## Model Tuning/Model Doğrulama

In [17]:
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [18]:
X = df.drop('sales', axis=1)
y = df['sales']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=144)

lm = LinearRegression()
model = lm.fit(X_train, y_train)

In [22]:
model.score(X_train, y_train)

0.897161407866342

In [23]:
cross_val_score(model, X_train, y_train, cv=10, scoring='r2').mean()

0.8733783298422942

In [25]:
np.sqrt(-cross_val_score(model, 
                         X_train,
                         y_train,
                         cv=10, 
                         scoring='neg_mean_squared_error').mean())

1.746190549785076

In [26]:
np.sqrt(-cross_val_score(model, 
                         X_test,
                         y_test,
                         cv=10, 
                         scoring='neg_mean_squared_error').mean())

1.8213882488500595

- `train_test_split` ile validation set oluşturmak yerine **cross-validation**, validation sürecini otomatik yapar.  
- `cross_val_score` fonksiyonu **her fold’da validation setini farklı belirlediği için** ayrıca `val_X, val_y` ayrılmasına gerek kalmaz.  
- Bu yöntem **daha güvenilir bir model değerlendirmesi sağlar**, çünkü model farklı validation setlerinde test edilmiş olur.

Önce model doğrulaması yapılır sonra test edilir.

In [19]:
np.sqrt(mean_squared_error(y_train, model.predict(X_train)))

1.674855927465071

In [21]:
np.sqrt(mean_squared_error(y_test, model.predict(X_test)))

1.6640263686701027