# Çoklu Doğrusal Regresyon

## Basit Doğrusal Regresyon

${\displaystyle y = \alpha + \beta x}$
<br>
**Satış = a + b (Ay) + e**
<br><br>
${\displaystyle y_i = \alpha + \beta x_i + \epsilon_i}$
<br><br>
## Çoklu Doğrusal Regresyon

${\displaystyle y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \epsilon}$
<br>
**Boy = a + b (Kilo) + c (Yaş) + d (Ayakkabı No) + e**
<br><br>
## p-value (Olasılık Değeri)

* H0: null hypotesis: Farksızlık hipotezi, sıfır hipotezi, boş hipotez
* H1: Alternatif hipotez
* p-değeri: olasılık değeri (genelde 0.05 alınır)
    * p-değeri küçüldükçe H0 hatalı olma ihtimali artar
    * p-değeri büyüdükçe H1 hatalı olma ihtimali artar
    
## Değişken Seçiminde Farklı yaklaşımlar

* Bütün değişkenleri dahil etmek
    * Şayet değişken seçimi (selection) yapıldıysa ve değişkenlerden eminsek
    * Zorunluluk varsa (örn. Bankadaki kredi skorları için geliştirilen modelin başarısının ölçülmesi)
    * Keşif için (diğer 4 yöntemi kullanmadan önce bir ön fikir elde etmek için)
* **Adım adım karşılaştırmalar**
    * Geriye doğru eleme (Backward elimination)
        * 1- Significance Level (SL) seçilir (genelde 0.05)
        * 2- Bütün değişkenler kullanılarak bir model inşa edilir
        * 3- En yüksek p-value değerine sahip olan değişken ele alınır ve şayet P>SL ise 4.adıma, değilse son adıma (6. adım) gidilir
        * 4- Bu aşamada 3. adımda seçilen ve en yüksek p-değerine sahip değişken sistemden kaldırılır
        * 5- Makine öğrenmesi güncellenir ve 3.adıma geri dönülür
        * 6- Makine öğrenmesi sonlandırılır
    * İleri seçim (Forward selection)
        * 1- Significanle Level (SL) seçilir (genelde 0.05)
        * 2- Bütün değişkenler kullanılarak bir model inşa edilir
        * 3- En düşük p-value değerine sahip olan değişken ele alınır
        * 4- Bu aşamada 3. adımda seçilen değişken sabit tutularak yeni bir değişken daha seçilir ve sisteme eklenir
        * 5- Makine öğrenmesi güncellenir ve 3. adıma geri dönülür, şayet en düşün p-value değerine sahip değişken için P<SL şartı sağlanıyorsa 3. adıma dönülür, sağlanmıyorsa biter (6. adıma geçilir)
        * 6- Makine öğrenmesi sonlandırılır
    * İki yönlü eleme (Bidirectional elimination)
        * 1- Significanle Level (SL) seçilir (genelde 0.05)
        * 2- Bütün değişkenler kullanılarak bir model inşa edilir
        * 3- En düşük p-value değerine sahip olan değişken ele alınır
        * 4- Bu aşamada 3.adımda seçilen değişken sabit tutularak diğer bütün değişkenler sistmee dahil edilir ve en düşük p-value değeerine sahip olan sistemde kalır
        * 5- SL değerinin altında olan değişkenler sistemde kalır ve eski değişkenlerden hiçbirisi sistemden çıkarılamaz
        * 6- Makine öğrenmesi sonlandırılır
* Skor karşılaştırması (Score comparsion)
    * 1- Başarı kriteri belirlenir
    * 2- Bütün olası regresyon modelleri inşa edilir (ikili seçim olur)
    * 3- Başta belirlenen kriteri (1. adım) en iyi sağlayan yöntem seçilir
    * 4- Makine öğrenmesi sonlandırılır

In [82]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import statsmodels.api as sm

from warnings import filterwarnings
filterwarnings('ignore')

In [42]:
veriler = pd.read_csv("../Docs/veriler.csv")
print(veriler)
yas = veriler.iloc[:,1:4].values
print(yas)

# Encoder: Kategorik -> Numeric
ulke = veriler.iloc[:,0:1].values
print(ulke)

le = preprocessing.LabelEncoder()

ulke[:,0] = le.fit_transform(veriler.iloc[:,0])

print(ulke)

ohe = preprocessing.OneHotEncoder()
ulke = ohe.fit_transform(ulke).toarray()
print(ulke)

# Encoder: Kategorik -> Numeric
c = veriler.iloc[:,-1:].values
print(c)

le = preprocessing.LabelEncoder()

c[:,-1] = le.fit_transform(veriler.iloc[:,-1])

print(c)


# Numpy dizileri dataframe donusumu
sonuc = pd.DataFrame(data=ulke, index = range(22), columns = ['fr','tr','us'])
print(sonuc)

sonuc2 = pd.DataFrame(data=Yas, index = range(22), columns = ['boy','kilo','yas'])
print(sonuc2)

cinsiyet = veriler.iloc[:,-1].values
print(cinsiyet)

sonuc3 = pd.DataFrame(data = c[:,:1], index = range(22), columns = ['cinsiyet'])
print(sonuc3)


# Dataframe birlestirme islemi
s=pd.concat([sonuc,sonuc2], axis=1)
print(s)

s2=pd.concat([s,sonuc3], axis=1)
print(s2)

# Verilerin egitim ve test icin bolunmesi

x_train, x_test,y_train,y_test = train_test_split(s,sonuc3,test_size=0.33, random_state=0)


regressor = LinearRegression()
regressor.fit(x_train,y_train)

y_pred = regressor.predict(x_test)

   ulke  boy  kilo  yas cinsiyet
0    tr  130    30   10        e
1    tr  125    36   11        e
2    tr  135    34   10        k
3    tr  133    30    9        k
4    tr  129    38   12        e
5    tr  180    90   30        e
6    tr  190    80   25        e
7    tr  175    90   35        e
8    tr  177    60   22        k
9    us  185   105   33        e
10   us  165    55   27        k
11   us  155    50   44        k
12   us  160    58   39        k
13   us  162    59   41        k
14   us  167    62   55        k
15   fr  174    70   47        e
16   fr  193    90   23        e
17   fr  187    80   27        e
18   fr  183    88   28        e
19   fr  159    40   29        k
20   fr  164    66   32        k
21   fr  166    56   42        k
[[130  30  10]
 [125  36  11]
 [135  34  10]
 [133  30   9]
 [129  38  12]
 [180  90  30]
 [190  80  25]
 [175  90  35]
 [177  60  22]
 [185 105  33]
 [165  55  27]
 [155  50  44]
 [160  58  39]
 [162  59  41]
 [167  62  55]
 [174  70  47]
 

NameError: name 'Yas' is not defined

In [46]:
boy = s2.iloc[:,3:4].values
sol = s2.iloc[:,:3]
sag = s2.iloc[:,4:]

veri = pd.concat([sol,sag],axis=1)

x_train, x_test,y_train,y_test = train_test_split(veri,boy,test_size=0.33, random_state=0)

In [49]:
r2 = LinearRegression()
r2.fit(x_train,y_train)

y_pred = r2.predict(x_test)
print(x_test)
print("***")
print(y_test)
print("***")
print(y_pred)

     fr   tr   us  kilo   yas  cinsiyet
20  1.0  0.0  0.0  66.0  32.0       1.0
10  0.0  0.0  1.0  55.0  27.0       0.0
14  0.0  0.0  1.0  62.0  55.0       0.0
13  0.0  0.0  1.0  59.0  41.0       0.0
1   0.0  1.0  0.0  36.0  11.0       0.0
21  1.0  0.0  0.0  56.0  42.0       1.0
11  0.0  0.0  1.0  50.0  44.0       0.0
19  1.0  0.0  0.0  40.0  29.0       1.0
***
[[164.]
 [165.]
 [167.]
 [162.]
 [125.]
 [166.]
 [155.]
 [159.]]
***
[[171.32610583]
 [150.79419897]
 [159.52390196]
 [155.56079945]
 [138.7522241 ]
 [164.40013226]
 [148.66201955]
 [150.10245674]]


In [52]:
# Geri Eleme Yöntemi

X = np.append(arr = np.ones((22,1)).astype(int), values = veri, axis = 1)
X

array([[  1.  ,   0.  ,   1.  ,   0.  ,  30.  ,  10.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  36.  ,  11.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  34.  ,  10.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  30.  ,   9.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  38.  ,  12.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  90.  ,  30.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  80.  ,  25.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  90.  ,  35.  ,   0.  ],
       [  1.  ,   0.  ,   1.  ,   0.  ,  60.  ,  22.  ,   0.  ],
       [  1.  ,   0.  ,   0.  ,   1.  , 105.  ,  33.  ,   0.  ],
       [  1.  ,   0.  ,   0.  ,   1.  ,  55.  ,  27.  ,   0.  ],
       [  1.  ,   0.  ,   0.  ,   1.  ,  50.  ,  44.  ,   0.  ],
       [  1.  ,   0.  ,   0.  ,   1.  ,  58.  ,  28.45,   0.  ],
       [  1.  ,   0.  ,   0.  ,   1.  ,  59.  ,  41.  ,   0.  ],
       [  1.  ,   0.  ,   0.  ,   1.  ,  62.  ,  55.  ,   0.  ],
       [  1.  ,   1.  ,  

In [53]:
X_l = veri.iloc[:,[0,1,2,3,4,5]].values
X_l

array([[  0.  ,   1.  ,   0.  ,  30.  ,  10.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  36.  ,  11.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  34.  ,  10.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  30.  ,   9.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  38.  ,  12.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  90.  ,  30.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  80.  ,  25.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  90.  ,  35.  ,   0.  ],
       [  0.  ,   1.  ,   0.  ,  60.  ,  22.  ,   0.  ],
       [  0.  ,   0.  ,   1.  , 105.  ,  33.  ,   0.  ],
       [  0.  ,   0.  ,   1.  ,  55.  ,  27.  ,   0.  ],
       [  0.  ,   0.  ,   1.  ,  50.  ,  44.  ,   0.  ],
       [  0.  ,   0.  ,   1.  ,  58.  ,  28.45,   0.  ],
       [  0.  ,   0.  ,   1.  ,  59.  ,  41.  ,   0.  ],
       [  0.  ,   0.  ,   1.  ,  62.  ,  55.  ,   0.  ],
       [  1.  ,   0.  ,   0.  ,  70.  ,  47.  ,   1.  ],
       [  1.  ,   0.  ,   0.  ,  90.  ,  28.45,   1.  ],
       [  1.  ,   0.  ,   0.  ,

In [54]:
model = sm.OLS(boy,X_l).fit()
model.summary()

0,1,2,3
Dep. Variable:,y,R-squared:,0.854
Model:,OLS,Adj. R-squared:,0.82
Method:,Least Squares,F-statistic:,24.95
Date:,"Fri, 04 Feb 2022",Prob (F-statistic):,6.34e-07
Time:,22:58:31,Log-Likelihood:,-76.564
No. Observations:,22,AIC:,163.1
Df Residuals:,17,BIC:,168.6
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,57.5435,4.414,13.037,0.000,48.231,66.856
x2,107.8349,6.181,17.445,0.000,94.793,120.877
x3,108.4499,9.419,11.514,0.000,88.577,128.323
x4,0.7523,0.101,7.478,0.000,0.540,0.965
x5,0.2217,0.234,0.948,0.356,-0.272,0.715
x6,57.5435,4.414,13.037,0.000,48.231,66.856

0,1,2,3
Omnibus:,3.344,Durbin-Watson:,2.976
Prob(Omnibus):,0.188,Jarque-Bera (JB):,2.015
Skew:,0.732,Prob(JB):,0.365
Kurtosis:,3.234,Cond. No.,1.01e+18


# Ödev

In [56]:
veriler = pd.read_csv("../Docs/odev_tenis.csv")
veriler

Unnamed: 0,outlook,temperature,humidity,windy,play
0,sunny,85,85,False,no
1,sunny,80,90,True,no
2,overcast,83,86,False,yes
3,rainy,70,96,False,yes
4,rainy,68,80,False,yes
5,rainy,65,70,True,no
6,overcast,64,65,True,yes
7,sunny,72,95,False,no
8,sunny,69,70,False,yes
9,rainy,75,80,False,yes


In [59]:
# İlk kolon OneHotEncoding, son 2 kolon label encoding

In [69]:
# play kolonu için label encoding
play = veriler.iloc[:,-1:].values
le = preprocessing.LabelEncoder()
play[:,-1] = le.fit_transform(veriler.iloc[:,-1])
play

array([[0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0]], dtype=object)

In [70]:
# windy kolonu için label encoding

# windy = veriler.iloc[:,-2:-1].values
# le = preprocessing.LabelEncoder()
# windy[:,-1] = le.fit_transform(veriler.iloc[:,-1])
# windy

In [77]:
# Alternatif encoding işlemi

veriler2 = veriler.apply(preprocessing.LabelEncoder().fit_transform)

c = veriler2.iloc[:,:1]
ohe = preprocessing.OneHotEncoder()
c=ohe.fit_transform(c).toarray()
print(c)

havadurumu = pd.DataFrame(data = c, index = range(14), columns=['o','r','s'])
sonveriler = pd.concat([havadurumu,veriler.iloc[:,1:3]],axis = 1)
sonveriler = pd.concat([veriler2.iloc[:,-2:],sonveriler], axis = 1)
sonveriler

[[0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]]


Unnamed: 0,windy,play,o,r,s,temperature,humidity
0,0,0,0.0,0.0,1.0,85,85
1,1,0,0.0,0.0,1.0,80,90
2,0,1,1.0,0.0,0.0,83,86
3,0,1,0.0,1.0,0.0,70,96
4,0,1,0.0,1.0,0.0,68,80
5,1,0,0.0,1.0,0.0,65,70
6,1,1,1.0,0.0,0.0,64,65
7,0,0,0.0,0.0,1.0,72,95
8,0,1,0.0,0.0,1.0,69,70
9,0,1,0.0,1.0,0.0,75,80


In [78]:
# Verilerin eğitim ve test için bölünmesi

x_train, x_test,y_train,y_test = train_test_split(sonveriler.iloc[:,:-1],sonveriler.iloc[:,-1:],test_size=0.33, random_state=0)

regressor = LinearRegression()
regressor.fit(x_train,y_train)

y_pred = regressor.predict(x_test)
y_pred

array([[84.45365573],
       [63.93839954],
       [85.76050662],
       [64.21013241],
       [75.06793322]])

In [83]:
# Backward elimination

X = np.append(arr = np.ones((14,1)).astype(int), values=sonveriler.iloc[:,:-1], axis=1 )
X_l = sonveriler.iloc[:,[0,1,2,3,4,5]].values
r_ols = sm.OLS(endog = sonveriler.iloc[:,-1:], exog =X_l)
r = r_ols.fit()
r.summary()

0,1,2,3
Dep. Variable:,humidity,R-squared:,0.294
Model:,OLS,Adj. R-squared:,-0.148
Method:,Least Squares,F-statistic:,0.6653
Date:,"Sat, 05 Feb 2022",Prob (F-statistic):,0.661
Time:,00:14:50,Log-Likelihood:,-49.542
No. Observations:,14,AIC:,111.1
Df Residuals:,8,BIC:,114.9
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,-4.0286,7.229,-0.557,0.593,-20.698,12.641
x2,-8.2778,8.029,-1.031,0.333,-26.793,10.237
x3,52.3891,50.214,1.043,0.327,-63.404,168.183
x4,55.6337,45.233,1.230,0.254,-48.673,159.940
x5,49.4291,48.337,1.023,0.336,-62.035,160.893
x6,0.4920,0.597,0.825,0.433,-0.884,1.868

0,1,2,3
Omnibus:,0.935,Durbin-Watson:,2.416
Prob(Omnibus):,0.627,Jarque-Bera (JB):,0.823
Skew:,0.389,Prob(JB):,0.663
Kurtosis:,2.103,Cond. No.,2080.0


**p-değeri x1 üzerinde çok yüksek olduğu için x1 değeri atılmalıdır**

In [84]:
sonveriler = sonveriler.iloc[:,1:]

X = np.append(arr = np.ones((14,1)).astype(int), values=sonveriler.iloc[:,:-1], axis=1 )
X_l = sonveriler.iloc[:,[0,1,2,3,4]].values
r_ols = sm.OLS(endog = sonveriler.iloc[:,-1:], exog =X_l)
r = r_ols.fit()
r.summary()

0,1,2,3
Dep. Variable:,humidity,R-squared:,0.266
Model:,OLS,Adj. R-squared:,-0.06
Method:,Least Squares,F-statistic:,0.8165
Date:,"Sat, 05 Feb 2022",Prob (F-statistic):,0.546
Time:,00:16:23,Log-Likelihood:,-49.809
No. Observations:,14,AIC:,109.6
Df Residuals:,9,BIC:,112.8
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
x1,-6.2865,6.909,-0.910,0.387,-21.916,9.343
x2,36.6564,39.905,0.919,0.382,-53.615,126.927
x3,41.9135,36.464,1.149,0.280,-40.573,124.400
x4,35.1064,39.339,0.892,0.395,-53.884,124.097
x5,0.6484,0.506,1.282,0.232,-0.496,1.793

0,1,2,3
Omnibus:,0.887,Durbin-Watson:,2.36
Prob(Omnibus):,0.642,Jarque-Bera (JB):,0.81
Skew:,0.424,Prob(JB):,0.667
Kurtosis:,2.181,Cond. No.,1730.0


In [87]:
# İlk kolonu (windy) çıkarma
x_train = x_train.iloc[:,1:]
x_test = x_test.iloc[:,1:]

regressor.fit(x_train,y_train)

y_pred = regressor.predict(x_test)
y_pred

array([[81.86890756],
       [69.08571429],
       [83.46722689],
       [71.86890756],
       [75.69579832]])