# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
startups = pd.read_csv("../input/50-startups/50_Startups.csv") # Pandas aracılığı ile datasetimizi tanıttık
df = startups.copy() # kopyasını aldık bu yüzden herhangi bir sorun oluşursa 

İlk 5 gözlemini yazdıralım.

In [None]:
df.head(5)

Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()

Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape

Eksik verileri kontrol edelim.

In [None]:
df.isna().sum() # eksik verimiz yok

Korelasyon matrisi çizdirelim.

In [None]:
df.corr()

Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
corr = df.corr()
sns.heatmap(corr, 
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values);

R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(x = "R&D Spend", y = "Profit", data = df, color="blue");

Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
df.hist(bins=12)
# sns.pairplot(df) gibi plotlar ile de farklı çözüm yöntemleri vardır
# Histogram çizdirme işlemi Matplotlib kütüphanesinde yer almaktadır.

## Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T

State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df.State.unique()

get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df_State = pd.get_dummies(df["State"])

In [None]:
df_State.head()

In [None]:
df_State.columns = ['California','Florida','New York']
df_State.head() # İsimleri değiştirebiliyoruz fakat aynı isimleri verdim ki ilerideki işlemlerde sorun oluşmasın.

State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
df = pd.concat([df, df_State], axis = 1)
df.drop(["California", "State"], axis = 1, inplace = True) # California State'ini dropluyoruz yani çıkarıyoruz.
# Bunu yaparken df üzerinden işlem yapıyoruz çünkü df gerçek veri setimizin kopyasıdır.
# İkinci çalıştırmada hata vericektir çünkü California'yı bulamayacaktır.

In [None]:
df.head()

Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
Y = df.iloc[:,3].values
X = df[['R&D Spend', 'Administration', 'Marketing Spend']]
# X = df.iloc[:,:-3].values de yazılabilirdi.3 sütunu hariç tut demek
# X = df.drop("Profit", axis = 1) de yazılabilirdi.
# X bağımlı değişkeni açıklamakta kullanılan değişken veya değişkenler
# Y açıklamak istenilen hedef değişken.
# x bağımsız değişken ve profit hariç değişkenler, y ise profit olmalıdır
# Basit regresyon bir tane bağımlı değişken bir tane de bağımsız değişkenden oluşmaktadır
# Çoklu regresyon ise, bir adet bağımlı değişken ve birden fazla bağımsız değişkenin bir arada bulunduğu modeldir

Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
X

In [None]:
Y

Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
from sklearn.model_selection import train_test_split # Değişkenlerimizi eğitim ve test olmak üzere ikiye bölebilmek için gerekli
# kütüphane
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 1/3, random_state = 42, shuffle=1)
# x ve y verilerinin 2/3 ü eğitim için  1/3 ü test için yollanacağını ve bu verilerin karışık gideceğini yazdık

4 parça değişkeni kontrol edelim.

In [None]:
X_train

In [None]:
X_test

In [None]:
Y_train

In [None]:
Y_test

LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression # Doğrusal(Lineer) Regresyon için gerekli kütüphane
model=LinearRegression()

Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
model.fit(X_train, Y_train)

Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
Y_pred=model.predict(X_test)

Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
df_gozlem = pd.DataFrame({"Gerçek" : Y_test, "Tahmin Edilen" : Y_pred})

df_gozlem

sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

In [None]:
import sklearn.metrics as metrics # MAE, MSE, RMSE her birine erişebileceğimiz kütüphane

mae = metrics.mean_absolute_error(Y_test, Y_pred)
mse = metrics.mean_squared_error(Y_test, Y_pred)
rmse = np.sqrt(mse) # Rmse = Kök Mse

print("Mean Absolute Rrror(MAE):",mae) #  Ortalama Mutlak Hata
print("Mean Squared Error (MSE):", mse) # Ortalama Kare Hata
print("Root Mean Squared Error (RMSE):", rmse) # Kök Ortalama Kare Hata (MSE'nin kök alınmış hali)

Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
model.score(X_train, Y_train)

Dileyenler statsmodel kullanarak hangi özniteliklerin model için %95 güvenilirlikle ne kadar anlamlı olup olmadığına da bakabilir. Modelde bazı feature selection işlemleri yaparak tekrardan eğitip yeni sonuçlar mukayese edilebilir.

In [None]:
import statsmodels.api as sm # gerekli kütüphanemiz

In [None]:
model = sm.OLS(Y, X).fit()

In [None]:
print(model.summary())