# Doğrusal Regresyon Egzersizleri

50 adet Startup'ın araştırma ve geliştirmeye yönelik harcaması, yönetime yönelik harcaması, pazarlama harcaması, kazandıkları kar miktarı ve kuruldukları lokasyon bilgisi bulunmaktadır. Amaç kar miktarını tahmin etmektir. Bu bir sayısal tahmin problemidir ve bağımlı değişkenimiz "Profit".

Numpy, matplotlib.pyplot, pandas ve seaborn kütüphanelerini çekirdeğe dahil edelim.

In [None]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

# numpy: Çok boyutlu diziler ve matrisler için destek eklerken, bu dizilerde çalışmak için yüksek düzeyli matematiksel fonksiyonların geniş bir koleksiyonudur.
# seaborn: matplotlib tabanlı bir Python veri görselleştirme kitaplığıdır. Bilgilendirici istatistiksel grafikler çizmek için üst düzey bir arayüz sağlar
# pandas: Bu kütüphane temel olarak zaman etiketli serileri ve sayısal tabloları işlemek için bir veri yapısı oluşturur ve bu şekilde çeşitli işlemler bu veri yapısı üzerinde gerçekleştirilebilir olur.
# Matplotlib: python'da görselleştirme aracı olarak hizmet veren düşük seviyeli bir grafik çizim kitaplığıdır.

Dizinde bulunan veri çerçevemizi startups değişkenine atayalım. startups değişkenini df değişkenine kopyalayarak kullanmaya başlayalım.

In [None]:
startups = pd.read_csv("../input/50-startupscsv/50_Startups.csv");
df = startups.copy()

İlk 5 gözlemini yazdıralım.

In [None]:
df.head()
# "head" fonksiyonu; konuma bağlı olarak nesne için ilk n satırı döndürür. Nesnenizin içinde doğru veri türü olup olmadığını hızlı bir şekilde test etmek için kullanışlıdır.

Veri çerçevesinin bilgilerini görüntüleyelim.

In [None]:
df.info()
# "info" fonksiyonu bilgi endeksi,veri tipi, boş olmayan değerler ve bellek kullanımı da dahil olmak üzere bir DataFrame hakkında bilgi verir.

Kaç gözlem ve öznitelikten oluştuğunu görüntüleyelim.

In [None]:
df.shape
# "shape" fonksiyonu işlevli bir dizinin şeklini döndürür ve bu şekil tam sayılardan oluşur bu sayılar satır - stün belirtecidir. 

Eksik verileri kontrol edelim.

In [None]:
df.isna().sum()
# "isna" foksiyonu; eksik değerleri tespit etmek için kullanılır.
# "sum"  fonsiyonunu da bu eksik değerlerimizin kaç adet olduğunu öğrenmek için bu kısımda kullanıyoruz.

Korelasyon matrisi çizdirelim.

In [None]:
corr = df.corr();
corr
# "corr" fonksiyonu; veri setindeki tüm sütunların ikili korelasyonunu bulmak için kullanılır.

Seaborn ile korelasyon matrisinin ısı haritasını çizdirelim.

In [None]:
corr = df.corr()
sns.heatmap(corr,
            xticklabels=corr.columns.values, 
            yticklabels= corr.columns.values)
# "heatmap"; verileri 2 boyutlu bir biçimde temsil etmenin bir yoludur. Veri değerleri grafikte renkler olarak temsil edilir. Isı haritasının amacı, bilgilerin renkli bir görsel özetini sağlamaktır.

R&D Spend ve Profit arasındaki korelasyonu daha iyi görebilmek için scatterplot çizdirelim.

In [None]:
sns.scatterplot(y="R&D Spend", x ="Profit",data= df)
# "scatterplot" fonksiyonu; iki farklı değişkenin arasındaki ilişkiyi belirlemek için kullanılır. İlgili iki değişkenin arasında direkt olarak bir ilişki bulunup bulunmadığı ve bu ilişkinin ne derece güçlü olduğu görülebilir. 

Sayısal değişkenlerin dağılımını görmek için df üzerinden histogram çizdirelim.

In [None]:
df.hist(figsize = (10,13))
plt.show()
# hist fonksiyonu histogram çizmek için kullanılır.

Veri çerçevesinin temel istatistik değerlerini görüntüleyelim.

In [None]:
df.describe().T
# "decribe" fonksiyonu; tanımlayıcı istatistikler, NaN değerler hariç bir veri kümesinin dağılımının merkezi eğilimini, şeklini ve dağılımını özetleyenleri içerir.

State'a ait benzersiz değerleri görüntüleyelim.

In [None]:
df["State"].unique()
# "unique" fonksyonu; Verileri analiz ederken, belirli sütunlardadaki benzersiz değerleri görüntülemek için kullanılır. 

get_dummies yardımıyla State'a dair kategorik öznitelik çıkarımlarında bulunalım. Çünkü State'ların birbirine üstünlüğü yok, nominaller. Ordinal değil.

In [None]:
df['State'] = pd.Categorical(df['State'])

In [None]:
dfDummies = pd.get_dummies(df['State'],prefix = 'State')
# get_dummies veri işleme için kullanılır ve Kategorik verileri dummy ya da indicator değişkenlerine dönüştürür

In [None]:
dfDummies

State özniteliğini silip dummy olarak yaratılan State'lardan da birisini hariç tutarak veri çerçevemizi güncelleyelim.

In [None]:
df = pd.concat([df, dfDummies], axis=1)
df.drop("State", axis = 1)
df.drop("State_California", axis = 1)
# concat fonksiyonu pandas nesnelerini, belirli bir eksen boyunca birleştirir.
# drop fonksiyonu belirtilen etiketleri satırlardan veya sütunlardan siler.

In [None]:
df.head()

Veri çerçevemizi bağımlı ve bağımsız değişkenler olmak üzere bölütleyelim.

In [None]:
x = df.drop("Profit",axis =1)
y = df["Profit"]

Bağımlı ve bağımsız değişkenleri kontrol edelim.

In [None]:
x

In [None]:
y

Bu bağımlı ve bağımsız değişkenlerden train ve test olmak üzere 4 parça oluşturalım. Bunu yapmak için train_test_split kullanalım.

In [None]:
from sklearn.model_selection import train_test_split
# istendigi uzere import ediyoruz

In [None]:
x_egit, x_test, y_egit, y_test = train_test_split(x, y, test_size = 0.20, random_state = 42)
#train_test_split fonksiyonu dizileri veya matrisleri rastgele bir diziye ve test alt kümelerine ayırır.

4 parça değişkeni kontrol edelim.

In [None]:
x_egit

In [None]:
x_test

In [None]:
 y_egit

In [None]:
y_test

LinearRegression'u çekirdeğe dahil edip modeli inşa edelim.

In [None]:
from sklearn.linear_model import LinearRegression

Modeli eğitmek için bağımlı bağımsız değişkenlerden oluşturulan eğitim verilerini verelim.

In [None]:
lm = LinearRegression()
model = lm.fit(x_egit, y_egit)
#Linear Regression(Doğrusal ilkelleme) iki değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur.
#fit fonksiyonunu kullanarak modele atama yapiyoruz.

Modele daha önce görmediği bağımlı test değişkenini tahmin ettirelim. Bu tahmin değerlerimizi y_pred değişkenine atayalım.

In [None]:
y_pred = model.predict(x_test)
y_pred

Tahminleri ve gerçek değerleri bir veri çerçevesinde toplayıp üzerinde göz gezdirelim.

In [None]:
test = pd.DataFrame(x_test).copy()
test["Profit"] = y_test
test["predicted_profit"] = y_pred
test

sklearn bünyesinde barınan metrics'i çekirdeğe dahil edelim ve MAE, MSE, RMSE değerlerini görüntüleyelim.

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score

In [None]:
MAE = mean_absolute_error(test["Profit"], test["predicted_profit"])
MAE
#İstatistikte, ortalama mutlak hata (MAE), belirli bir modelin doğruluğunu ölçmenin bir yoludur.

In [None]:
MSE = mean_squared_error(y_test, model.predict(x_test))
MSE
#Istatistikte, ortalama kare hatası veya ortalama kare sapması, hataların karelerinin ortalamasını, yani tahmini değerler ile gerçek değer arasındaki ortalama kare farkını ölçer

In [None]:
RMSE = np.sqrt(mean_squared_error(test["Profit"], test["predicted_profit"]))
RMSE
#RMSE: Ortalama Karekök Sapması

Modelin R Squared değerini eğitim verileri üzerinden yazdıralım.

In [None]:
r2_score(y_egit, model.predict(x_egit))