In [1]:
# for array computations and loading data
import numpy as np

# for building linear regression models and preparing data
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import tensorflow as tf
np.set_printoptions(precision=2)
tf.get_logger().setLevel('ERROR')
tf.autograph.set_verbosity(0)

In [2]:
data = np.loadtxt("data/data.csv",delimiter=',')
data

array([[1651.  ,  432.65],
       [1691.82,  454.94],
       [1732.63,  471.53],
       [1773.45,  482.51],
       [1814.27,  468.36],
       [1855.08,  482.15],
       [1895.9 ,  540.02],
       [1936.71,  534.58],
       [1977.53,  558.35],
       [2018.35,  566.42],
       [2059.16,  581.4 ],
       [2099.98,  596.46],
       [2140.8 ,  596.71],
       [2181.61,  619.45],
       [2222.43,  616.58],
       [2263.24,  653.16],
       [2304.06,  666.52],
       [2344.88,  670.59],
       [2385.69,  669.02],
       [2426.51,  678.91],
       [2467.33,  707.44],
       [2508.14,  710.76],
       [2548.96,  745.19],
       [2589.78,  729.85],
       [2630.59,  743.8 ],
       [2671.41,  738.2 ],
       [2712.22,  772.95],
       [2753.04,  772.22],
       [2793.86,  784.21],
       [2834.67,  776.43],
       [2875.49,  804.78],
       [2916.31,  833.27],
       [2957.12,  825.69],
       [2997.94,  821.05],
       [3038.76,  833.82],
       [3079.57,  833.06],
       [3120.39,  825.7 ],
 

In [3]:
x = data[:,0]
y = data[:,1]

In [4]:
# Convert 1-D arrays into 2-D because the commands later will require it
x = np.expand_dims(x, axis=1)
y = np.expand_dims(y, axis=1)

Split data

In [5]:
x_train, x_, y_train, y_ = train_test_split(x,y, test_size=0.40, random_state=1)
x_valid, x_test, y_valid, y_test =train_test_split(x_, y_, test_size=0.5, random_state=1)

del x_, y_

In [6]:
print(f"the shape of the training set (input) is: {x_train.shape}")
print(f"the shape of the training set (target) is: {y_train.shape}\n")
print(f"the shape of the cross validation set (input) is: {x_valid.shape}")
print(f"the shape of the cross validation set (target) is: {y_valid.shape}\n")
print(f"the shape of the test set (input) is: {x_test.shape}")
print(f"the shape of the test set (target) is: {y_test.shape}")

the shape of the training set (input) is: (30, 1)
the shape of the training set (target) is: (30, 1)

the shape of the cross validation set (input) is: (10, 1)
the shape of the cross validation set (target) is: (10, 1)

the shape of the test set (input) is: (10, 1)
the shape of the test set (target) is: (10, 1)


In [7]:
# Scaling data 
scaler = StandardScaler()
x_train_scaled = scaler.fit_transform(x_train)

In [8]:
# Initialize the class
linear_model = LinearRegression()

# Train the model
linear_model.fit(x_train_scaled,y_train)

In [9]:
# Feed the scaled training set and get the predictions
yhat = linear_model.predict(x_train_scaled)

mse = mean_squared_error(y_train,yhat)/2
mse

406.19374192533127

StandardScaler, verilerinizi z-skoru ile ölçeklendirmek için kullanılan bir sınıftır. Z-skoru ile ölçeklendirme, her bir özelliğin ortalamasını 0 ve standart sapmasını 1 yapmak için verileri dönüştürür. Bu işlem sırasında fit ve transform adımları şu şekilde çalışır:

fit(): Bu metot, eğitim setinin ortalama ve standart sapmasını hesaplar. Ancak, bu aşamada hiçbir veri dönüştürülmez; sadece hesaplama yapılır.

transform(): Bu metot, daha önce hesaplanan ortalama ve standart sapmayı kullanarak verilerinizi dönüştürür. Burada eğitim setinin z-skorları hesaplanır.

fit_transform(): Bu metot, hem fit() hem de transform() işlemlerini tek bir adımda gerçekleştirir. Ancak, bu durumda, eğitim verisi üzerinde her iki işlem de aynı anda uygulanır.

Neden fit_transform() Yerine transform() Kullanmalıyız?
Eğitim Seti: İlk olarak, modelinizi eğitim seti üzerinde eğitirsiniz ve bu aşamada StandardScaler ile fit_transform() kullanarak eğitim verinizi ölçeklendirirsiniz. Bu işlemde eğitim verisinin ortalaması ve standart sapması hesaplanır.

Kross Validasyon Seti: Kross validasyon setine geldiğinizde, bu veri setini direkt olarak eğitim setinden elde ettiğiniz ortalama ve standart sapma değerleri ile ölçeklendirmelisiniz. Bu nedenle, kross validasyon setini ölçeklendirirken transform() kullanmalısınız. Böylece, kross validasyon setiniz, eğitim setinizin ölçeklendirilmiş versiyonuna uyumlu hale gelir.

Eğer fit_transform() kullanırsanız, kross validasyon setinin ortalaması ve standart sapmasını hesaplar ve bu durumda eğitim setindeki değerlerle uyumsuz sonuçlar elde edersiniz. Sonuç olarak, modeliniz yanlış tahminlerde bulunur.

In [10]:
# Scale cross validation
x_valid_scaled = scaler.transform(x_valid)
yhat = linear_model.predict(x_valid_scaled)
mse = mean_squared_error(y_valid,yhat)/2
mse

551.7789026952216

Polinom Özellikleri Eklemek: Lineer modelin yetersiz kaldığı durumlarda, modelin performansını artırmak için polinom özellikleri eklemeyi deneyebilirsiniz. Bu, modelin daha karmaşık ilişkileri öğrenmesine yardımcı olabilir.

In [11]:
poly =  PolynomialFeatures(degree=2, include_bias=False)

x_train_poly = poly.fit_transform(x_train)

In [13]:
scaler_poly = StandardScaler()
x_train_poly_scaled = scaler_poly.fit_transform(x_train_poly)
print(x_train_poly_scaled[:5])

[[ 1.43  1.47]
 [-0.28 -0.36]
 [ 1.71  1.84]
 [ 0.22  0.11]
 [ 0.15  0.04]]


In [14]:
model = LinearRegression()
model.fit(x_train_poly_scaled,y_train)

yhat = model.predict(x_train_poly_scaled)
training_mse = mean_squared_error(y_train,yhat)/2
print("Training MSE: ",training_mse)

# Valid
x_valid_poly = poly.transform(x_valid)
x_valid_poly_scaled = scaler_poly.transform(x_valid_poly)
yhat = model.predict(x_valid_poly_scaled)
valid_mse = mean_squared_error(y_valid,yhat)/2
print("Valid MSE: ", valid_mse)



Training MSE:  49.111609334025154
Valid MSE:  87.69841211111911
