# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import preprocessing


Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
startups  = pd.read_csv("../input/50-startups/50_Startups.csv")
df = startups.copy()

İlk 5 gözlemini yazdıralım.

In [None]:
df.head()

Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()

Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape

Eksik verileri kontrol edelim.

In [None]:
df.isnull().sum()

Korelasyon matrisi çizdirelim.

In [None]:
df.corr()

Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(),
             vmin=-1, vmax=1, center=0,
            annot = True, linewidth = 2);
#1-R&D Spend ile Profit arasında pozitif güçlü bir ilişki vardır.
#2-Yine Marketing Spend ile Profit arasında ilki kadar güçlü olmasa da pozitif bir ilişki vardır.
#3-Yine R&D Spend ile Marketing Spend arasında ilki kadar güçlü olmasa da pozitif bir ilişki vardır.

R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(x = "R&D Spend", y = "Profit", data = df);

Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
df.hist(figsize =(16,12))
plt.show()
#Histogram grafikleri genelde dağılıma bakmak için kullanılır.
#figsize:Grafiğin boyutunu belirler. Parantez içinde yazılan ilk değer grafiğin enini, ikincisi boyutunu belirtir.

Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T


State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df["State"].unique()

get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df_State = pd.get_dummies(df["State"])
df_State
#c = b , b=a , a=c

In [None]:
df = pd.concat([df,df_State],axis =1)

In [None]:
df.head()

State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
df.drop(["State","Florida"], axis = 1, inplace = True)

In [None]:
df

Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
x = df.drop("Profit", axis = 1)
y = df["Profit"]

Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
x #bağımsız değişkenler

In [None]:
y #bağımlı değişken(profit)

Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
from sklearn.model_selection import train_test_split
xTrain, xTest, yTrain, yTest = train_test_split(x, y, test_size = 0.20, random_state = 42)

#Bu şekilde sklearn.model_selection modülünden yalnızca train_test_split'i içe aktarılmış olur ve yalnızca bunu kullanabiliriz
#Çünkü biz from sklearn.model_selection import train_test_split komutunu verdiğimizde,
#sklearn.model_selection modülünü değil, bu modül içindeki bir nitelik olan train_test_split’i içe aktarmış oluyoruz.-*

4 parça değişkeni kontrol edelim.

In [None]:
xTest

In [None]:
xTrain

In [None]:
yTest

In [None]:
yTrain

LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression
lm = LinearRegression()

Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
lm.fit(xTrain, yTrain)


Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
yPredict=lm.predict(xTest) 
yPredict

Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
df = pd.DataFrame({"Gerçek veriler" : yTest, "Tahmin edilen veriler" : yPredict,"Hata payı sonucu" : abs(yTest - yPredict)})
df

sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

In [None]:
import sklearn.metrics as metrics
import math

mae = metrics.mean_absolute_error(yTest, yPredict)
mse = metrics.mean_squared_error(yTest, yPredict)
rmse = math.sqrt(mse)

print("Hata Mutlak Ortalama Değeri(MAE):",mae) 
print("Hata Kareler Ortalaması Değeri(MSE):", mse) 
print("Hata Kareler Ortalamasının Karekök Değeri(RMSE):", rmse) 

Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
print("R Squared=", lm.score(xTrain, yTrain))


Dileyenler statsmodel kullanarak hangi özniteliklerin model için %95 güvenilirlikle ne kadar anlamlı olup olmadığına da bakabilir. Modelde bazı feature selection işlemleri yaparak tekrardan eğitip yeni sonuçlar mukayese edilebilir.

In [None]:
import statsmodels.api as sm
sttmodel = sm.OLS(y, x).fit()
sttmodel.summary()