<!-- # Multiple Linear Regression -->

<h1 style="text-align:center;">Multiple Linear Regression</h1>

#### Basit Doğrusal Regresyon:

$y = \alpha + \beta x$

$y_i = \alpha +  \beta x_i + \epsilon_i.$

#### Çoklu Doğrusal Regresyon:

$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \epsilon.$

### p-value

- **$H_0$ (null hypothesis):** Farksızlık hipotezi, sıfır hipotezi, boş hipotez.
- **$H_1$:** Alternatif hipotez.
- **$p$-değeri:** olasılık değeri (genelde 0.05 alınır), **$H_0$** hipotezinin çürütülmesi için gerekli olan eşiktir. Dolayısıyla:
  - **$p$** değeri küçüldükçe **$H_0$** hatalı olma ihtimali artar.
  - **$p$** değeri büyüdükçe **$H_1$** hatalı olma ihtimali artar.

## Değişken Seçimi
- Bütün Değişkenleri Dahil Etmek.
- [Geriye Doğru Eleme (Backward Elimination)](#Backward-Elimination)
- [İleri Seçim (Forward Selection)](#Forward-Selection)
- [İki Yönlü Eleme (Bidirectional Elimination)](#Bidirectional-Elimination)
- Skor Karşılaştırması (Score Comparison)

### Backward Elimination
<!-- <h3 id="backward-elimination">Backward Elimination</h3> -->

1. Significance Level ($SL$) seçilir (genelde 0.05)
2. Bütün değişkenler kullanılarak bir model inşa edilir.
3. En **yüksek** $p$-value değerine sahip olan değişken ele alınır ve şayet $p>SL$ ise 4. adıma, değilse son adıma (6. adım) gidilir.
4. Bu aşamada, 3. adımda seçilen ve en yüksek $p$-değerine sahip değişken sistemden kaldırılır.
5. Makine öğrenmesi güncellenir ve 3. adıma geri dönülür.
6. Makine öğrenmesi sonlandırılır.

### Forward Selection
<!-- <h3 id="forward-selection">Forward Selection</h3> -->

1. Significance Level ($SL$) seçilir (genelde 0.05).
2. Bütün değişkenler kullanılarak bir model inşa edilir.
3. En **düşük** $p$-value değerine sahip olan değişken ele alınır.
4. Bu aşamada, 3. adımda seçilen değişken sabit tutularak yeni bir değişken daha seçilir ve sisteme eklenir
5. Makine öğrenmesi güncellenir. Şayet en düşük $p$-value sahibi değişken için $p<SL$ şartı sağlanılıyorsa 3. adıma geri dönülür, sağlanmıyorsa 6. adıma geçilir.
6. Makine öğrenmesi sonlandırılır.

### Bidirectional Elimination

1. Significance Level $(SL)$ seçilir (genelde 0.05).
2. Bütün değişkenler kullanılarak bir model inşa edilir.
3. En **düşük** $p$-value değerine sahip olan değişken alınır.
4. Bu aşamada, 3. adımda seçilen değişken sabit tutularak diper bütün değişkenler sisteme dahil edilir ve en düşük $p$-value sahibi sistemde kalır.
5. $SL$ değerinin altında olan değişkenler sistemde kalır ve eski değişkenlerden hiçbirisi sistemden çıkarılmaz.
6. Makine öğrenmesi sonlandırılır.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [2]:
veriler = pd.read_csv("veriler.csv")

In [3]:
ulke = veriler.iloc[:,0:1].values
ulke

array([['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['tr'],
       ['us'],
       ['us'],
       ['us'],
       ['us'],
       ['us'],
       ['us'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr'],
       ['fr']], dtype=object)

In [4]:
from sklearn import preprocessing

le = preprocessing.LabelEncoder()

In [5]:
ulke[:,0] = le.fit_transform(veriler.iloc[:,0])

In [6]:
ulke

array([[1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [2],
       [2],
       [2],
       [2],
       [2],
       [2],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0]], dtype=object)

In [7]:
ohe = preprocessing.OneHotEncoder()
ulke = ohe.fit_transform(ulke).toarray()
ulke

array([[0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [0., 0., 1.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.],
       [1., 0., 0.]])

In [8]:
countryOHE = pd.DataFrame(data=ulke, index = range(22), columns= ["fr","tr","us"])
countryOHE

Unnamed: 0,fr,tr,us
0,0.0,1.0,0.0
1,0.0,1.0,0.0
2,0.0,1.0,0.0
3,0.0,1.0,0.0
4,0.0,1.0,0.0
5,0.0,1.0,0.0
6,0.0,1.0,0.0
7,0.0,1.0,0.0
8,0.0,1.0,0.0
9,0.0,0.0,1.0


In [9]:
hwa=pd.DataFrame(data=veriler.iloc[:,1:4],index=range(22),columns=["boy","kilo","yas"])
inputs = pd.concat([hwa, countryOHE],axis=1)
inputs

Unnamed: 0,boy,kilo,yas,fr,tr,us
0,130,30,10,0.0,1.0,0.0
1,125,36,11,0.0,1.0,0.0
2,135,34,10,0.0,1.0,0.0
3,133,30,9,0.0,1.0,0.0
4,129,38,12,0.0,1.0,0.0
5,180,90,30,0.0,1.0,0.0
6,190,80,25,0.0,1.0,0.0
7,175,90,35,0.0,1.0,0.0
8,177,60,22,0.0,1.0,0.0
9,185,105,33,0.0,0.0,1.0


In [10]:
c = veriler.iloc[:,-1:].values
c

array([['e'],
       ['e'],
       ['k'],
       ['k'],
       ['e'],
       ['e'],
       ['e'],
       ['e'],
       ['k'],
       ['e'],
       ['k'],
       ['k'],
       ['k'],
       ['k'],
       ['k'],
       ['e'],
       ['e'],
       ['e'],
       ['e'],
       ['k'],
       ['k'],
       ['k']], dtype=object)

In [11]:
c[:,-1] = le.fit_transform(veriler.iloc[:,-1])
c

array([[0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [1]], dtype=object)

In [19]:
gender = pd.DataFrame(data=c, index=range(len(c)), columns=["cinsiyet"])
gender

Unnamed: 0,cinsiyet
0,0
1,0
2,1
3,1
4,0
5,0
6,0
7,0
8,1
9,0


In [12]:
from sklearn.model_selection import train_test_split

In [16]:
x_train, x_test, y_train, y_test = train_test_split(inputs,gender,test_size=0.33, random_state=0)

In [17]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()

X_train = sc.fit_transform(x_train)
X_test = sc.fit_transform(x_test)

In [18]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()

In [20]:
regressor.fit(X_train, y_train)

In [21]:
y_pred = regressor.predict(X_test)

In [24]:
y_test

Unnamed: 0,cinsiyet
20,1
10,1
14,1
13,1
1,0
21,1
11,1
19,1


In [27]:
y_pred_df = pd.DataFrame(data=y_pred,index=range(len(y_pred)), columns=["Predicted Values"])
y_test.reset_index(drop=True, inplace=True)

result = pd.concat([y_pred_df, y_test],axis=1)
result

Unnamed: 0,Predicted Values,cinsiyet
0,-0.768218,1
1,0.697271,1
2,0.243901,1
3,0.268131,1
4,0.127634,0
5,0.067097,1
6,0.659091,1
7,0.990809,1
