<a href="https://colab.research.google.com/github/busrasencan/Regresyon_Modelleri/blob/master/regresyon_modelleri_kar%C5%9F%C4%B1la%C5%9Ft%C4%B1rmas%C4%B1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Kombine Çevrim Enerji Santrali Veri Seti (Combined Cycle Power Plant Data Set)**

Veri seti, santralin tam yük ile çalışmaya ayarlandığı 6 yıl (2006-2011) üzerinden Kombine Çevrim Santralinden toplanan 9568 veri noktası içermektedir. Tesisin net saatlik elektrik enerjisi çıkışını (EP) tahmin etmek için özellikler saatlik ortalama ortam değişkenleri Sıcaklık (T), Ortam Basıncı (AP), Bağıl Nem (RH) ve Egzoz Vakumundan (V) oluşur. Kombine çevrim enerji santrali (CCPP), gaz türbinleri (GT), buhar türbinleri (ST) ve ısı geri kazanım buhar jeneratörlerinden oluşur. Bir CCPP'de elektrik, bir döngüde birleştirilen ve bir türbinden diğerine aktarılan gaz ve buhar türbinleri tarafından üretilir. Vakum buhar türbininden toplanır ve üzerinde etkili olurken, ortam değişkenlerinin diğer üçü GT performansını etkiler. Veri seti normal dağılmaktadır ve eksik gözlem yoktur.



Özellikler saatlik ortalama ortam değişkenlerinden oluşur.
- Sıcaklık (AT) 1.81 ° C ve 37.11 ° C aralığında
- Egzoz Vakumu (V) 25.36-81.56 cm Hg aralığında 
- Ortam Basıncı (AP) 992.89-1033.30 milibar aralığında
- Bağıl Nem (RH) %25,56 ila %100,16 aralığında
- Net saatlik elektrik enerjisi çıkışı (PE) 420.26-495.76 MW aralığındadır.

Ortalamalar, tesis değişkenlerini her saniye ortam değişkenlerini kaydeden çeşitli sensörlerden alınır. Değişkenler normalleştirilmeden verilir.




https://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant

# **Çoklu Doğrusal Regresyon**
Çoklu doğrusal regresyonda amaç bağımlı ve bağımsız değişkenler arasındaki ilişkiyi ifade eden doğrusal fonksiyonu bulmaktır (hata kareler ortalaması minimum olmalıdır). 
1. Çoklu doğrusal regresyon ile bağımlı değişkeni etkileyen değerler vasıtasıyla bağımlı değişkenin değerini tahmin etmek
2.Etkilediği düşünülen bağımsız değişkenlerden hangisinin bağımlı değişkeni daha çok etkilediğini bulmak gibi iki önemli amacı daha vardır.

Varsayımları;
- Hatalar normal dağılır.
- Hatalar birbiirnden bağımsızdır ve aralarında otokorelasyon yoktur.
- Her bir gözlem için hata terimleri varyansları sabittir.
- Değişkenler ile hata terimi arasında ilişki yoktur.
- Bağımsız değişkenler arasında çoklu doğrusal ilişki problemi yoktur.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [None]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [34]:
dataset.head(10)

Unnamed: 0,AT,V,AP,RH,PE
0,14.96,41.76,1024.07,73.17,463.26
1,25.18,62.96,1020.04,59.08,444.37
2,5.11,39.4,1012.16,92.14,488.56
3,20.86,57.32,1010.24,76.64,446.48
4,10.82,37.5,1009.23,96.62,473.9
5,26.27,59.44,1012.23,58.77,443.67
6,15.89,43.96,1014.02,75.24,467.35
7,9.48,44.71,1019.12,66.43,478.42
8,14.64,45.0,1021.78,41.25,475.98
9,11.74,43.56,1015.14,70.72,477.5


In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Çoklu doğrusal regresyon için tahmin ve gerçek değerler;

In [None]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[431.43 431.23]
 [458.56 460.01]
 [462.75 461.14]
 ...
 [469.52 473.26]
 [442.42 438.  ]
 [461.88 463.28]]


In [None]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.9325315554761302

# **Polinom Regresyon**

Polinom regresyon, bağımsız değişken x ile bağımlı değişken y arasındaki ilişkinin, x cinsinden birinci derece polinom olarak modellendiği bir regresyon analizi şeklidir.Polinom regresyonu, x değeri ile E (y | x) olarak belirtilen y'nin karşılık gelen koşullu ortalaması arasındaki doğrusal olmayan bir ilişkiye uyar.Her ne kadar polinom regresyonu verilere doğrusal olmayan bir modele uysa da, istatistiksel bir tahmin problemi olarak doğrusaldır. Bu nedenle polinom regresyonu, çoklu doğrusal regresyonun özel bir durumu olarak kabul edilmektedir.

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
poly_reg = PolynomialFeatures(degree = 4)
X_poly = poly_reg.fit_transform(X_train)
regressor = LinearRegression()
regressor.fit(X_poly, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Polinom regresyon için tahmin ve gerçek değerler;

In [None]:
y_pred = regressor.predict(poly_reg.transform(X_test))
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[433.94 431.23]
 [457.9  460.01]
 [460.52 461.14]
 ...
 [469.53 473.26]
 [438.27 438.  ]
 [461.66 463.28]]


In [None]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.9458192606428147

# **Destek Vektör Regresyonu** (svr)

Makine öğreniminde, destek vektör makineleri, sınıflandırma ve regresyon analizi için kullanılan verileri analiz eden ilişkili öğrenme algoritmalarına sahip denetimli öğrenme modelleridir.Güçlü ve esnek modelleme tekniklerinden birisidir. Robust(dayanıklı yani aykırı değerlere karşı dayanıklı) bir regresyon modelidir. Amaç, bir marjin aralığına maksimum noktayı en küçük hatayla alabilecek şekilde doğru ya da eğriyi belirlemektir.

In [None]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
y = y.reshape(len(y),1)

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
sc_y = StandardScaler()
X_train = sc_X.fit_transform(X_train)
y_train = sc_y.fit_transform(y_train)

In [None]:
from sklearn.svm import SVR
regressor = SVR(kernel = 'rbf')
regressor.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


SVR(C=1.0, cache_size=200, coef0=0.0, degree=3, epsilon=0.1, gamma='scale',
    kernel='rbf', max_iter=-1, shrinking=True, tol=0.001, verbose=False)

Destek vektör regresyonu için tahmin ve gerçek değerler;

In [None]:
y_pred = sc_y.inverse_transform(regressor.predict(sc_X.transform(X_test)))
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[434.05 431.23]
 [457.94 460.01]
 [461.03 461.14]
 ...
 [470.6  473.26]
 [439.42 438.  ]
 [460.92 463.28]]


In [None]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.9480784049986258

# **Karar Ağaçları Regresyon**

Karar ağacı, ağaç yapısı şeklinde regresyon veya sınıflandırma modelleri oluşturur. Bir veri kümesini daha küçük ve daha küçük alt kümelere ayırırken, aynı zamanda ilişkili bir karar ağacı kademeli olarak geliştirilir. Nihai sonuç karar düğümleri ve yaprak düğümleri olan bir ağaçtır. Karar düğümünde  her biri test edilen öznitelik için değerleri temsil eden iki veya daha fazla dal vardır. Yaprak düğümü sayısal hedefe ilişkin bir kararı temsil eder. Bir ağaçta kök düğüm, en iyi yordayıcıya karşılık gelen en üst karar düğümüdür. Karar ağaçları hem kategorik hem de sayısal verileri işleyebilir.

Özellikle de karar analizinde, bir hedefe ulaşma olasılığı en yüksek olan stratejiyi belirlemeye yardımcı olmak için yaygın olarak kullanılır, ancak aynı zamanda makine öğreniminde de popüler bir araçtır.

In [None]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
from sklearn.tree import DecisionTreeRegressor
regressor = DecisionTreeRegressor(random_state = 0)
regressor.fit(X_train, y_train)

DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse', max_depth=None,
                      max_features=None, max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, presort='deprecated',
                      random_state=0, splitter='best')

Karar ağacı regresyonu için tahmin ve gerçek değerler;

In [None]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[431.28 431.23]
 [462.81 460.01]
 [460.06 461.14]
 ...
 [471.46 473.26]
 [437.76 438.  ]
 [462.55 463.28]]


In [None]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.9226091050550043

# **Rastgele Ormanlar Regresyonu**

Birden fazla algoritmanın ya da birden fazla ağacın bir araya gelerek toplu bir şekilde öğrenmesi ve tahmin etmeye çalışmasını sağlar.
Her karar ağacının yüksek varyansı vardır, ancak hepsini paralel olarak birleştirdiğimizde, sonuçta varyans düşüktür, çünkü her karar ağacı belirli örnek veriler üzerinde mükemmel bir şekilde eğitilir ve dolayısıyla çıktı bir karar ağacına bağlı değildir, birden fazla karar ağacına bağlıdır.  Bir regresyon problemi durumunda, nihai çıktı tüm çıktıların ortalamasıdır. 
Rastgele Orman, çoklu karar ağaçlarının kullanımı ile hem regresyon hem de sınıflandırma görevlerini yerine getirebilen ve genellikle Bootstrap ve Aggregation ismiyle bilinen bir tekniktir. Bunun arkasındaki temel fikir, bireysel karar ağaçlarına güvenmek yerine, nihai çıktıyı belirlemede birden fazla karar ağacını birleştirmektir. Her model için rasgele satır örneklemesi ve veri kümesi oluşturan örnek veri kümelerinden özellik örneklemesi gerçekleştirilir. Bu bölüme Bootstrap denir.

In [None]:
from sklearn.ensemble import RandomForestRegressor
regressor = RandomForestRegressor(n_estimators = 10, random_state = 0)
regressor.fit(X_train, y_train)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=10, n_jobs=None, oob_score=False,
                      random_state=0, verbose=0, warm_start=False)

Rastgele orman regresyonu için tahmin ve gerçek değerler;

In [None]:
y_pred = regressor.predict(X_test)
np.set_printoptions(precision=2)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[433.78 431.23]
 [457.99 460.01]
 [463.14 461.14]
 ...
 [470.16 473.26]
 [439.51 438.  ]
 [460.32 463.28]]


In [None]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.9615980699813017

En iyi model R-kare değeri 1'e en yakın olan Rastgele Orman Regresyonu modelidir. Bu veri için Rastgele orman ile tahmin yapmak daha güvenilirdir.