# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
startups = pd.read_csv('../input/50-startups/50_Startups.csv')
df = startups.copy()

İlk 5 gözlemini yazdıralım.

In [None]:
df.head()

Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()

Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape

Eksik verileri kontrol edelim.

In [None]:
df.isnull().sum()

Korelasyon matrisi çizdirelim.

In [None]:
df.corr()

* Korelasyon katsayısı 1`e yaklaştıkça değişkenler arasındaki ilişkinin gücü artar.
* En güçlü ilişki R&D Spend ile Profit arasındadır.

Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
corr = df.corr()
sns.heatmap(corr,
           xticklabels=corr.columns.values,
           yticklabels=corr.columns.values);

R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(x = "R&D Spend", y = "Profit", data = df);

Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
df.hist(figsize = (15,15))
plt.show

Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T

State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df["State"].unique()

get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df_State = pd.get_dummies(df["State"], prefix="(", prefix_sep='State) ')

In [None]:
df_State

State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
df.drop(["State"], axis = 1, inplace = True)
df = pd.concat([df,df_State], axis = 1)

In [None]:
df.head()

In [None]:
df.drop(["(State) New York"], axis = 1, inplace = True)

In [None]:
df.head()

Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
x = df.drop("Profit", axis = 1) 
# Bağımsız Değişkenler

y = df["Profit"]
#Bağımlı Değişkenler

Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
x 
#Bağımsız Değişkenler

In [None]:
y
#Bağımlı Değişkenler

Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
from sklearn.model_selection import train_test_split
x_Train, x_Test, y_Train, y_Test = train_test_split(x, y, test_size = 0.20, random_state = 42)

4 parça değişkeni kontrol edelim.

In [None]:
x_Train

In [None]:
x_Test

In [None]:
y_Train

In [None]:
y_Test

LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression
lm = LinearRegression()

Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
model = lm.fit(x_Train, y_Train)

Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
y_pred = lm.predict(x_Test)
y_pred

Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
df = pd.DataFrame({"Gerçek Değerler": y_Test, "Tahmin Edilen Değerler": y_pred, "Değerler Arasındaki Fark": abs(y_pred-y_Test)})
df

sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

(MAE) Ortalama Mutlak Hata (Mean Absolute Error): Ortalama mutlak hata iki sürekli değişken arasındaki farkın ölçüsüdür. 

In [None]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_Test,y_pred)

MAE

(MSE) Ortalama Kare Hata  (Mean Squared Error): Ortalama kare hata bir regresyon eğrisinin bir dizi noktaya ne kadar yakın olduğunu söyler.

In [None]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_Test,y_pred)

MSE

(RMSE) Kök Ortalama Kare Hata (Root Mean Square Error): Tahmin hatalarının standart sapmasıdır.

In [None]:
import math

RMSE = math.sqrt(MSE)

RMSE

Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
lm.score(x_Train, y_Train)

lmleyenler statsmodel kullanarak hangi özniteliklerin model için %95 güvenilirlikle ne kadar anlamlı olup olmadığına da bakabilir. Modelde bazı feature selection işlemleri yaparak tekrardan eğitip yeni sonuçlar mukayese edilebilir.

In [None]:
import statsmodels.api as sm

StatsModel = sm.OLS(y,x).fit()

In [None]:
StatsModel.summary()

* R² değeri (0.988) bağımsız değişkenlerin bağımlı değişkendeki değişikliği açıklama yüzdesidir.
* F-statistic değeri (735.7) modelin anlamlılığını test etmek için kullanılır.
* Prob (F-statistic) değeri (6.07e-42) modelin anlamlı olup olmadığı bilgisini verir.
* Prob (F-statistic) değeri (6.07e-42) 0.05`ten küçük olduğu için model anlamlıdır.
* coef değeri bağımsız değişkenlerin katsayılarını ifade eder.
* std err değeri bağımsız değişkenlerin katsayılarının doğruluk seviyesini ifade eder.
* t değeri anlamlılığı ifade eder.
* P>|t| koşulu sağlanırsa ve bu değer 0.05`ten küçükse anlamlı bir değer olarak kabul edilir.