# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

import os

print(os.listdir("../input"))

Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
df = pd.read_csv('../input/various-expenses-and-the-profits-of-50-startups/50_Startups.csv')

İlk 5 gözlemini yazdıralım.

In [None]:
df.head()

Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()

Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape

Eksik verileri kontrol edelim.

In [None]:
df.isna().sum()

Korelasyon matrisi çizdirelim.

In [None]:
df.corr()

Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
corr = df.corr();
fig, ax = plt.subplots(figsize=(8,7))
sns.heatmap(corr, annot=True, ax=ax, linewidths=1, xticklabels=True, yticklabels=True);

R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(x = "R&D Spend", y = "Profit", data = df)  #Yüksek ve pozitif korelasyon.

Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
sns.pairplot(df, kind  = "reg")

Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T

State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df["State"].unique()

get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df_state = pd.get_dummies(df["State"])
df_state.head()

In [None]:
df = pd.concat([df, df_state], axis = 1)

In [None]:
df.head()

State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
# Kategorik değişkenin sınıf sayısından daha az sayıda dummy değişken olmalıdır. 
df.drop(["California", "State"], axis = 1, inplace = True)

In [None]:
df.head()

Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
X = df.drop("Profit", axis = 1)
y = df["Profit"]

Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
# bağımsız değişkenler : R&D Spend, Administration, Marketing Spend, Florida, New York 
X 

In [None]:
# bağımlı değişken : Profit 
y

Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.20, random_state = 42)

4 parça değişkeni kontrol edelim.

In [None]:
X_train # verilerin kırkını modeli eğitmek için ayırdık.

In [None]:
X_test # verilerden on tanesini test için ayırdık.

In [None]:
y_train

In [None]:
y_test

LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression
lm = LinearRegression()

Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
model = lm.fit(X_train, y_train)
model.score(X_train, y_train)

Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
y_pred = model.predict(X_test) # X_test'i vererek y_test'i tahmin etmesini isteyelim.
y_pred

Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
test = pd.DataFrame(X_test).copy() # copy kullanılmazsa değişikler x_test için de gerçekleşir.
test["Profit"] = y_test  # gerçek değerler
test["Predicted_Profit"] = y_pred  # tahmini değerler
test["Fark"] = abs(y_pred - y_test) # gerçek ve tahmini değerler arasındaki fark

test

sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score

In [None]:
# MAE
MAE = mean_absolute_error(y_test, y_pred)
MAE

In [None]:
# MSE (Hata kareler ortalaması)
MSE = mean_squared_error(y_test, y_pred)
MSE

In [None]:
# RMSE değeri için MSE değerinin karekökü alınabilir.
RMSE = np.sqrt(MSE)
RMSE

Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
# R-Squared değeri bağımsız değişkenlerin bağımlı değişkendeki değişikliği açıklama yüzdesidir. Bire ne kadar yaklaşırsa o kadar anlamlıdır. 
r2_score(y_train, model.predict(X_train))

Dileyenler statsmodel kullanarak hangi özniteliklerin model için %95 güvenilirlikle ne kadar anlamlı olup olmadığına da bakabilir. Modelde bazı feature selection işlemleri yaparak tekrardan eğitip yeni sonuçlar mukayese edilebilir.

In [None]:
import statsmodels.api as sm
stmodel = sm.OLS(y, X).fit()

In [None]:
# Adj. R-Squared değeri düzeltilmiş R-Squared değeridir. 
# Prob(F-statistic) değeri 0.05'ten küçük olduğunda model anlamlıdır denilebilir.
# std err katsayıların hata oranını verir ve ne kadar düşükse doğruluk seviyesi o kadar yüksek olur.

stmodel.summary()

In [None]:
from sklearn import model_selection
from sklearn.model_selection import cross_val_score, cross_val_predict

In [None]:
cross_val_score(model, X_train, y_train, cv = 10, scoring = "r2")

In [None]:
# tüm gözlemler test ve train olmak üzere yer değiştirdiğinden eğitim başarısı düştü.
cross_val_score(model, X_train, y_train, cv = 10, scoring = "r2").mean()