# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt


Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
startups = pd.read_csv("../input/50-startups/50_Startups.csv") # Pandas kütüphanesi ile datasetimizi startups'a aktardık
df = startups.copy()

İlk 5 gözlemini yazdıralım.

In [None]:
df.head(5)

Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()

Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape 


> -> *50 gözlem, 5 öznitelikten oluşmaktadır*

Eksik verileri kontrol edelim.

In [None]:
df.isna().sum() 

> -> *Eksik verimiz yoktur*

Korelasyon matrisi çizdirelim.

In [None]:
df.corr()



> -> *Korelasyon "1.0" değerine yaklaştıkça 2 değer arası ilişki o kadar güçlüdür. 
Burada "R&D Spend" ve "Profit" değeri 1.0 'e en yakın (0.972) ve pozitif değerdir.
Dolayısıyla "En Güçlü" ve "Pozitif" ilişki bu değerler arasındadır.*

Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
sns.heatmap(df.corr());

> -> Renklendirme sayesinde korelasyonları daha net görebiliyoruz.
"Administration" ve "Marketing Spend" kesişimlerinde siyah renkten korelasyonun sıfıra yakın olduğunu anlıyoruz. "R&D Spend" ve "Profit" kesişimlerindeki krem renkten korelasyonun 1'e çok yakın olduğunu kolaylıkla anlayabiliriz.

R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(x = "R&D Spend", y = "Profit", data = df ); 


> -> *Başlangıçta ivmeli bir artış varken, daha sonra grafikte doğrusal artış gözlenmektedir.*

Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
df.hist(figsize =(13,10))
plt.show()

Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T


> -> *Ortalamaya göre standart sapması en yüksek olan "Marketing Spend" dir. En yüksek varyansa sahip değer budur.
 Ortalamaya göre standart sapması en düşük değer ise "Administration" dır. Dolayısıyla varyansı en düşük değer budur.*

State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df["State"].unique()

get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df_State = pd.get_dummies(df["State"])

In [None]:
df_State.head(10)

In [None]:
df_State.columns = ['California','Florida','New York']

In [None]:
df_State.head(10)

State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
df.drop(["State"], axis=1 , inplace =True)
df=pd.concat([df,df_State],axis=1)

In [None]:
df.head()

In [None]:
df.drop(["New York"], axis=1, inplace = True)
df.head()

Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
X = df.drop(["Profit"] , axis = 1) # Bağımsız değişkenler listesi
Y = df["Profit"] # Bağımlı değişkenler listesi

Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
X  # Bağımsız değişkenler listesini yazdıralım


In [None]:
Y  # Bağımlı değişkenler listesini yazdıralım

Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
from sklearn.model_selection import train_test_split#train test modellerini oluştumak için gerekli olacaktır.
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.4, train_size = 0.4, random_state = 0, shuffle=1)
# Verilerin test ve train için kullanılak miktarı seçtik (4/10),
# Verilerin karışık gitmesi için "shuffle=1" yazdık,

4 parça değişkeni kontrol edelim.

In [None]:
X_train

In [None]:
X_test

In [None]:
Y_train

In [None]:
Y_test

LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression #Lineer(Doğrusal) regresyonu uygulamak için gerekli kütüphaneyi ekliyoruz.
model=LinearRegression()  

Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
model.fit(X_train, Y_train)

Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
Y_pred=model.predict(X_test)
Y_pred # Y_pred'in içeriğini görelim

Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
df = pd.DataFrame({"Gerçek Veriler" : Y_test, "Tahmin Edilen" : Y_pred,"Hata Payı" : abs(Y_test - Y_pred)})

df   
# Gerçek Veriler ile Tahminler arsındaki farklarında mutlak değerlerini yazdırıyoruz

> -> Tahminlerimiz ile gerçek verileri karşılaştırdığımızda 2.000 ile 25.000 arası değişen hata paylarını görmekteyiz. Gerçek hata oranımızı yukarıdaki verilere göz gezdirerek anlayamayız. 
Dolayısıyla MAE, MSE, RMSE değerlerini hesaplamalıyız.

sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

In [None]:
import sklearn.metrics as metrics

mae = metrics.mean_absolute_error(Y_test, Y_pred)
mse = metrics.mean_squared_error(Y_test, Y_pred)
rmse = math.sqrt(mse)

print("Mean Absolute Error(MAE):",mae) #  Hata Mutlak Oralaması
print("Mean Squared Error (MSE):", mse) # Hata Kare Ortalaması 
print("Root Mean Squared Error (RMSE):", rmse) # Hata kareler ortalamasının karekökü  

> -> Hata paylarımızın mutlak ortalamasını 9221 olarak buluyoruz.


Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
print("R Squared=", model.score(X_train, Y_train))

Dileyenler statsmodel kullanarak hangi özniteliklerin model için %95 güvenilirlikle ne kadar anlamlı olup olmadığına da bakabilir. Modelde bazı feature selection işlemleri yaparak tekrardan eğitip yeni sonuçlar mukayese edilebilir.

In [None]:
import statsmodels.api as sm
sttmodel = sm.OLS(Y, X).fit()
sttmodel.summary()