## OLS (Ordinary Least Squares) Tablosu Okuma

https://www.statsmodels.org/stable/index.html

### 1- Datayı import edelim

* OLS kavramının daha iyi anlaşılması açısından Basit Lineer Regresyon üzerinde çalışacağız.

In [1]:
# Gerekli kütüphaneleri import edelim

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Dataframe'i oluşturalım

adv_df = pd.read_csv("data/Advertising.csv", index_col=0)

In [3]:
# input - output
data = adv_df[["TV", "sales"]]

# input -> feature (X)
X = data["TV"]

# output
y = data["sales"]

### 2- Hazırlık

Boyut kontrolü yapmamız lazım.

shape -> `(n_samples, n_features)`

shape -> `(n, p)`

In [4]:
# Önce Input ve Output'un şekline bakalım
# X'in şekli

print(f"X(Input)'in şekli: {X.shape}")

X(Input)'in şekli: (200,)


In [5]:
# y'nin şekli

print(f"y(Output)'nin şekli: {y.shape}")

y(Output)'nin şekli: (200,)


In [6]:
# X - Input için (200, 1) şeklinde yeniden şekillendirme yapalım. 
# y - Output için (200, 1) şeklinde yeniden şekillendirme yapalım.

# X : (200, 1) -> 200 adet Örnek Gözlem, 1 adet Sütun/Feature(TV)
# y : (200, 1) -> 200 adet Örnek Gözlem, 1 adet Sütun/Feature(Label)

X = X.values.reshape(-1, 1) # -1 : 200 adet satırı tut(values), 1 : Bir adet boyut ekle
y = y.values.reshape(-1, 1) # -1 : 200 adet satırı tut(values), 1 : Bir adet boyut ekle

In [7]:
print(f"X(Input)'in şekli: {X.shape}")

X(Input)'in şekli: (200, 1)


In [8]:
print(f"y(Output)'nin şekli: {y.shape}")

y(Output)'nin şekli: (200, 1)


### 3- Train-Test Split

Toplam 200 verimizi Train-Test olarak ikiye ayıracağız.

Train: %70

Test: %30

Train Data: X_train, y_train

Test Data: X_test, y_test

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [9]:
# scikit-learn'den import

from sklearn.model_selection import train_test_split

In [10]:
# train_test_split() metodu geriye X_train, X_test, y_train, y_test değerlerini döner
# Train Data -> X_train, y_train
# Test Data -> X_test, y_test

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

In [11]:
# Şekilleri print edelim
# Yukarıda gördüğünüz üzere test için toplam verinin %30'unu train için ise toplam verinin %70'ini ayırdık.
# Toplam 200 verimiz olduğuna göre train için 140 test için 60 veri ayrılır.

print(f"X_train'in şekli/boyutu: {X_train.shape}")
print(f"y_train'in şekli/boyutu: {y_train.shape}")
print(f"X_test'in şekli/boyutu: {X_test.shape}")
print(f"y_test'in şekli/boyutu: {y_test.shape}")

X_train'in şekli/boyutu: (140, 1)
y_train'in şekli/boyutu: (140, 1)
X_test'in şekli/boyutu: (60, 1)
y_test'in şekli/boyutu: (60, 1)


***

## Statsmodels OLS

In [12]:
import statsmodels.api as sm

  from pandas import Int64Index as NumericIndex


https://www.statsmodels.org/stable/examples/notebooks/generated/ols.html

In [13]:
# statsmodels modülünü kullanarak OLS() (Ordinary Least Squares) metodunu çalıştıracağız.
# statsmodels OLS metodu beta_0 için otomatik olarak değer atamaz.
# Bu nedenle beta_0 için 1 katsayısını bizim eklememiz lazım.
# Bu katsayıyı add_constant() metodu ile ekleyebiliriz.

X_train_ols = sm.add_constant(X_train)

In [14]:
X_train

array([[213.4],
       [151.5],
       [205. ],
       [142.9],
       [134.3],
       [ 80.2],
       [239.8],
       [ 88.3],
       [ 19.4],
       [225.8],
       [136.2],
       [ 25.1],
       [ 38. ],
       [172.5],
       [109.8],
       [240.1],
       [232.1],
       [ 66.1],
       [218.4],
       [234.5],
       [ 23.8],
       [ 67.8],
       [296.4],
       [141.3],
       [175.1],
       [220.5],
       [ 76.4],
       [253.8],
       [191.1],
       [287.6],
       [100.4],
       [228. ],
       [125.7],
       [ 74.7],
       [ 57.5],
       [262.7],
       [262.9],
       [237.4],
       [227.2],
       [199.8],
       [228.3],
       [290.7],
       [276.9],
       [199.8],
       [239.3],
       [ 73.4],
       [284.3],
       [147.3],
       [224. ],
       [198.9],
       [276.7],
       [ 13.2],
       [ 11.7],
       [280.2],
       [ 39.5],
       [265.6],
       [ 27.5],
       [280.7],
       [ 78.2],
       [163.3],
       [213.5],
       [293.6],
       [

In [15]:
X_train_ols

array([[  1. , 213.4],
       [  1. , 151.5],
       [  1. , 205. ],
       [  1. , 142.9],
       [  1. , 134.3],
       [  1. ,  80.2],
       [  1. , 239.8],
       [  1. ,  88.3],
       [  1. ,  19.4],
       [  1. , 225.8],
       [  1. , 136.2],
       [  1. ,  25.1],
       [  1. ,  38. ],
       [  1. , 172.5],
       [  1. , 109.8],
       [  1. , 240.1],
       [  1. , 232.1],
       [  1. ,  66.1],
       [  1. , 218.4],
       [  1. , 234.5],
       [  1. ,  23.8],
       [  1. ,  67.8],
       [  1. , 296.4],
       [  1. , 141.3],
       [  1. , 175.1],
       [  1. , 220.5],
       [  1. ,  76.4],
       [  1. , 253.8],
       [  1. , 191.1],
       [  1. , 287.6],
       [  1. , 100.4],
       [  1. , 228. ],
       [  1. , 125.7],
       [  1. ,  74.7],
       [  1. ,  57.5],
       [  1. , 262.7],
       [  1. , 262.9],
       [  1. , 237.4],
       [  1. , 227.2],
       [  1. , 199.8],
       [  1. , 228.3],
       [  1. , 290.7],
       [  1. , 276.9],
       [  1

In [16]:
# statsmodels OLS modeli oluştur
# OLS() önce y sonra X alır.

sm_model = sm.OLS(y_train, X_train_ols)

In [17]:
# OLS modelinin sonuçlarını al

result = sm_model.fit()

In [18]:
# OLS Özet tablosunu yazdır

print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.613
Model:                            OLS   Adj. R-squared:                  0.611
Method:                 Least Squares   F-statistic:                     219.0
Date:                Tue, 15 Mar 2022   Prob (F-statistic):           2.84e-30
Time:                        13:01:32   Log-Likelihood:                -370.62
No. Observations:                 140   AIC:                             745.2
Df Residuals:                     138   BIC:                             751.1
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.9897      0.548     12.762      0.0

* **TABLODA NELER ÖNEMLİ?**
    * **`R-squared` değeri**
        * R-squared = Coefficient of Determination = Doğruluk Oranı
    * **`Adj. R-squared` değeri**
    * **`coef` değerleri**
        * const = $\hat \beta_0$
        * x1 = $ \hat \beta_1$
            * $y$ = 6.9897 + 0.0465 * $X_1$ 
    * **`std err` : Standard Error değeri**
        * $\hat \beta_0$ ve $\hat \beta_1$ katsayılarının ortalama olarak ne kadar hata yaptığını belirten değer.
    * `t` değeri
    * `P` değeri