# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

import os

print(os.listdir("../input"))

Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
df = pd.read_csv('../input/50-startups/50_Startups.csv')

**1)** İlk 5 gözlemini yazdıralım.

In [None]:
df.head()

**2)** Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()

**3)** Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape

**4)** Eksik verileri kontrol edelim.

In [None]:
df.isna()

In [None]:
df.isna().sum()

**5)** Korelasyon matrisi çizdirelim.

In [None]:
df.corr()

**6)** Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
corr = df.corr()
sns.heatmap(corr, 
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values);

**7)** R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(df["R&D Spend"], df["Profit"], color="salmon");  # R&D Spend ve Profit değerlerinin dağılımını görüntüledik.

In [None]:
# Saçılım grafiğini (Scatterplot) inceleyecek olursak korelasyon ilişkisini pozitif yönde doğrusal olarak belirleyebiliriz.

**8)** Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
df.hist(color="salmon")
# Bins değeri belirtmemize gerek kalmadan da varsayılan (default) olarak 10 olur.

In [None]:
# R&D için olan değerler 0 - 175000 arasında [Her aralık 17500 olarak bölünmüş.],
# Administration için olan değerler 50000 - 180000 arasında [Her aralık 13000 olarak bölünmüş.],
# Marketing için olan değerler 0 - 450000 arasında [Her aralık 45000 olarak bölünmüş.], 
# Profit için olan değerler 15000 - 175000 arasında [Her aralık 16000 olarak bölünmüş.].
# Değerleri yaklaşık olarak aldık.

**9)** Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T

**10)** State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df["State"].unique()

**11)** get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df.head()

In [None]:
df["State"] = pd.Categorical(df["State"])

In [None]:
state_dummies = pd.get_dummies(df["State"], prefix = "State")

In [None]:
df = pd.concat([df,state_dummies],axis = 1)

In [None]:
df.head()

**12)** State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
df.drop(["State","State_New York"],axis = 1, inplace = True)

In [None]:
df.head()

**13)** Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
x = df.drop("Profit",axis = 1)
y = df["Profit"]

**15)** Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
x

In [None]:
y

In [None]:
# Tahmin edeceğimiz değişken yani bağımlı değişkenimizi y olarak ikinci parametrede, bağımsız değişkenimizi ise x olarak birinci parametrede veriyoruz.

# Bu da şu anlama gelmiş oluyor: State bilgilerini al ve ona karşılık gelen profit değerlerini öğren, ve optimum katsayı ve sabit değerden oluşan bir denklem oluştur.

**16)** Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
from sklearn.model_selection import train_test_split # Değişkenlerimizi eğitim ve test olmak üzere ikiye bölebilmek için gerekli
# kütüphane
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 3/4)
# x ve y verilerinin 3/4 ü eğitim için  1/4 ü test için yollanacağını ve bu verilerin rastgele dağılcağını belirttik.

**17)** 4 parça değişkeni kontrol edelim.

In [None]:
x_train

In [None]:
y_train

In [None]:
x_test

In [None]:
y_test

**18)** LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()

**19)** Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
model.fit(x_train, y_train)

**20)** Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
y_pred = model.predict([[100000, 50000, 150000, 0, 1]])

In [None]:
y_pred

**21)** Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
df["predict_Profit"] = model.predict(x)
df.sample(10)

**22)** sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

In [None]:
import sklearn.metrics as metrics
import math

# MAE = Mean Absolute Error = Ortalama Mutlak Hata
# MSE = Mean Squared Error = Ortalama Kare Hata
# RMSE = Root Mean Squared Error = Kök Ortalama Kare Hata

# RMSE , MSE nin kökü alınmış halidir.

In [None]:
MAE = metrics.mean_absolute_error(df["Profit"],df["predict_Profit"])
MAE

In [None]:
MSE = metrics.mean_squared_error(df["Profit"],df["predict_Profit"])
MSE

In [None]:
RMSE = math.sqrt(MSE)
RMSE

**23)** Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
model.score(x_train, y_train)

In [None]:
# R Squared değeri 1'e ne kadar yakın ise modeldeki bağımsız değişkenlerin bağımlı değişkeni ifade edebilme oranı o kadar iyidir.

**24)** (Tercihen) statsmodel kullanarak hangi özniteliklerin model için %95 güvenilirlikle ne kadar anlamlı olup olmadığına da bakabilir. Modelde bazı feature selection işlemleri yaparak tekrardan eğitip yeni sonuçlar mukayese edilebilir.

In [None]:
import statsmodels.api as sm

In [None]:
sts_model = sm.OLS(y,x).fit()

In [None]:
sts_model.summary()