## Teori

# PCR (Principal Component Regression - Temel Bileşen Regresyonu)

Değişkenlere boyut indirgeme uygulandıktan sonra çıkan bileşenlere regresyon modeli kurulması fikrine dayanır.

![image.png](imagee15.png)

Temel Bileşen Analizi (PCA) uygulanarak 𝑋 değişkenlerinden daha az sayıda yeni bileşen (𝑇) elde edilir. Bundan sonra MLR(Multiple Linear Regression) uygulanır. MLR, multicollinearity problemiyle bilinir. Bu yöntem, değişkenler arasında çoklu doğrusal bağlantı (multicollinearity = varyansı ve yanlılığı artırır. Katsayı bulunması zorlaşır.) sorununu çözerek modeli daha kararlı hale getirir. Bu yeni oluşan değişkenler(sütunlar) birbirinden bağımsız olduğu için bu sorunu çözüyor.

Çoklu Boyut Laneti (Curse of Dimensionality), verinin boyut sayısı arttıkça (yani değişken sayısı arttıkça) ortaya çıkan problemleri ifade eden bir kavramdır. 

## Model

In [1]:
import pandas as pd 
hit = pd.read_csv("Hitters.csv")
df = hit.copy()
df = df.dropna(axis=0)
df.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,League,Division,PutOuts,Assists,Errors,Salary,NewLeague
1,315,81,7,24,38,39,14,3449,835,69,321,414,375,N,W,632,43,10,475.0,N
2,479,130,18,66,72,76,3,1624,457,63,224,266,263,A,W,880,82,14,480.0,A
3,496,141,20,65,78,37,11,5628,1575,225,828,838,354,N,E,200,11,3,500.0,N
4,321,87,10,39,42,30,2,396,101,12,48,46,33,N,E,805,40,4,91.5,N
5,594,169,4,74,51,35,11,4408,1133,19,501,336,194,A,W,282,421,25,750.0,A


In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 263 entries, 1 to 321
Data columns (total 20 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   AtBat      263 non-null    int64  
 1   Hits       263 non-null    int64  
 2   HmRun      263 non-null    int64  
 3   Runs       263 non-null    int64  
 4   RBI        263 non-null    int64  
 5   Walks      263 non-null    int64  
 6   Years      263 non-null    int64  
 7   CAtBat     263 non-null    int64  
 8   CHits      263 non-null    int64  
 9   CHmRun     263 non-null    int64  
 10  CRuns      263 non-null    int64  
 11  CRBI       263 non-null    int64  
 12  CWalks     263 non-null    int64  
 13  League     263 non-null    object 
 14  Division   263 non-null    object 
 15  PutOuts    263 non-null    int64  
 16  Assists    263 non-null    int64  
 17  Errors     263 non-null    int64  
 18  Salary     263 non-null    float64
 19  NewLeague  263 non-null    object 
dtypes: float64(1), 

In [3]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
AtBat,263.0,403.642586,147.307209,19.0,282.5,413.0,526.0,687.0
Hits,263.0,107.828897,45.125326,1.0,71.5,103.0,141.5,238.0
HmRun,263.0,11.619772,8.757108,0.0,5.0,9.0,18.0,40.0
Runs,263.0,54.745247,25.539816,0.0,33.5,52.0,73.0,130.0
RBI,263.0,51.486692,25.882714,0.0,30.0,47.0,71.0,121.0
Walks,263.0,41.114068,21.718056,0.0,23.0,37.0,57.0,105.0
Years,263.0,7.311787,4.793616,1.0,4.0,6.0,10.0,24.0
CAtBat,263.0,2657.543726,2286.582929,19.0,842.5,1931.0,3890.5,14053.0
CHits,263.0,722.186312,648.199644,4.0,212.0,516.0,1054.0,4256.0
CHmRun,263.0,69.239544,82.197581,0.0,15.0,40.0,92.5,548.0


In [4]:
dms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
dms.head()

Unnamed: 0,League_A,League_N,Division_E,Division_W,NewLeague_A,NewLeague_N
1,False,True,False,True,False,True
2,True,False,False,True,True,False
3,False,True,True,False,False,True
4,False,True,True,False,False,True
5,True,False,False,True,True,False


In [5]:
y = df['Salary']

In [6]:
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')
X_.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,PutOuts,Assists,Errors
1,315.0,81.0,7.0,24.0,38.0,39.0,14.0,3449.0,835.0,69.0,321.0,414.0,375.0,632.0,43.0,10.0
2,479.0,130.0,18.0,66.0,72.0,76.0,3.0,1624.0,457.0,63.0,224.0,266.0,263.0,880.0,82.0,14.0
3,496.0,141.0,20.0,65.0,78.0,37.0,11.0,5628.0,1575.0,225.0,828.0,838.0,354.0,200.0,11.0,3.0
4,321.0,87.0,10.0,39.0,42.0,30.0,2.0,396.0,101.0,12.0,48.0,46.0,33.0,805.0,40.0,4.0
5,594.0,169.0,4.0,74.0,51.0,35.0,11.0,4408.0,1133.0,19.0,501.0,336.0,194.0,282.0,421.0,25.0


In [7]:
X = pd.concat([X_, dms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,PutOuts,Assists,Errors,League_N,Division_W,NewLeague_N
1,315.0,81.0,7.0,24.0,38.0,39.0,14.0,3449.0,835.0,69.0,321.0,414.0,375.0,632.0,43.0,10.0,True,True,True
2,479.0,130.0,18.0,66.0,72.0,76.0,3.0,1624.0,457.0,63.0,224.0,266.0,263.0,880.0,82.0,14.0,False,True,False
3,496.0,141.0,20.0,65.0,78.0,37.0,11.0,5628.0,1575.0,225.0,828.0,838.0,354.0,200.0,11.0,3.0,True,False,True
4,321.0,87.0,10.0,39.0,42.0,30.0,2.0,396.0,101.0,12.0,48.0,46.0,33.0,805.0,40.0,4.0,True,False,True
5,594.0,169.0,4.0,74.0,51.0,35.0,11.0,4408.0,1133.0,19.0,501.0,336.0,194.0,282.0,421.0,25.0,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
317,497.0,127.0,7.0,65.0,48.0,37.0,5.0,2703.0,806.0,32.0,379.0,311.0,138.0,325.0,9.0,3.0,True,False,True
318,492.0,136.0,5.0,76.0,50.0,94.0,12.0,5511.0,1511.0,39.0,897.0,451.0,875.0,313.0,381.0,20.0,False,False,False
319,475.0,126.0,3.0,61.0,43.0,52.0,6.0,1700.0,433.0,7.0,217.0,93.0,146.0,37.0,113.0,7.0,False,True,False
320,573.0,144.0,9.0,85.0,60.0,78.0,8.0,3198.0,857.0,97.0,470.0,420.0,332.0,1314.0,131.0,12.0,False,False,False


In [8]:
from sklearn.model_selection import train_test_split, cross_val_score

X_train, X_test, y_train, y_test = train_test_split(X, 
                                                    y, 
                                                    test_size=0.25, 
                                                    random_state=12)

In [9]:
from sklearn.decomposition import PCA 
from sklearn.preprocessing import scale

pca = PCA()

PCA() içinde n_components belirtmezsen, varsayılan olarak tüm bileşenleri alır. Yani, aslında PCR uygulamamış oldun çünkü hiçbir değişkeni azaltmadın ve modeli yine tüm bileşenlerle eğittin.

Bu durumda PCR’ın amacı olan boyut azaltma gerçekleşmemiş oluyor. Amaç öğrenmek olduğu için

In [10]:
X_reduced_train = pca.fit_transform(scale(X_train))

`fit_transform()` fonksiyonunu kullanmamızın sebebi **PCA'nın eğitilmesi ve aynı anda dönüşümün uygulanmasıdır**.  

- **`fit()`** → PCA modelini **X_train** üzerinde eğitir (ana bileşenleri belirler).  
- **`transform()`** → Veriyi bu bileşenlere göre dönüştürür (boyutunu azaltır). (fit ten elde ettiğimiz modeli uygular.) 

Tek tek yazmak yerine `fit_transform()` kullanarak hem eğitme hem de dönüşüm işlemini tek adımda yapıyoruz.

X_reduced_train, değişken sayısı ve aralarındaki ilişkinin indirgendiği yeni veri setidir.

In [11]:
type(X_reduced_train)

numpy.ndarray

In [12]:
import numpy as np 
np.cumsum(np.round(pca.explained_variance_ratio_, decimals=4) * 100)[0:12]

array([38.43, 60.54, 71.43, 79.56, 84.79, 89.  , 92.17, 95.07, 96.41,
       97.42, 98.12, 98.74])

In [13]:
from sklearn.linear_model import LinearRegression

In [14]:
lm = LinearRegression()
pcr_model = lm.fit(X_reduced_train, y_train)

In [15]:
pcr_model.intercept_

548.410842639594

In [16]:
pcr_model.coef_

array([ 103.39695655,   26.66218312,   39.46647499,  -27.09267094,
        -60.83935536,   64.20154029,   50.95779931,  -34.64006882,
          5.46426123,   98.6223702 ,   11.07838028,   17.02192622,
       -225.00655195, -263.00059108,  -83.23587793,  437.01068424,
        503.03955911, -610.51262638,  477.5830403 ])

## Tahmin

In [17]:
from sklearn.metrics import mean_squared_error, r2_score

y_pred = pcr_model.predict(X_reduced_train)

In [18]:
y_pred[0:5]

array([461.21881114, 240.11921563, 367.80054501, 347.9341108 ,
       609.95079101])

In [19]:
np.sqrt(mean_squared_error(y_train, y_pred))

313.2376302696079

In [20]:
df['Salary'].mean()

535.9258821292775

In [21]:
r2_score(y_train, y_pred)

0.5416425442512238

In [22]:
pca2 = PCA()

In [23]:
X_reduced_test = pca2.fit_transform(scale(X_test))

In [24]:
y_test_pred = pcr_model.predict(X_reduced_test)

In [25]:
np.sqrt(mean_squared_error(y_test, y_test_pred))

310.00437167270144

## Model Tuning

In [34]:
lm = LinearRegression()  # Burada tune edebilecegimiz parametre degisken sayisidir. Manuel olarak ayarlarsak çok farklı bir hata durumu elde edilmez.
pcr_model = lm.fit(X_reduced_train[:, 0:10], y_train)
y_pred = pcr_model.predict(X_reduced_train[:, 0:10])
print(np.sqrt(mean_squared_error(y_train, y_pred)))

342.9052674195187


Cross Validation yöntemi ile optimum değişken sayısını bulacağız.

In [35]:
from sklearn import model_selection

cv_10 = model_selection.KFold(n_splits=10,
                             shuffle=True, 
                             random_state=1)

* cross_val_score(model, X, y, cv=5): K-Fold işlemini kendi içinde yapar.  
* KFold(n_splits=5): Fold'ları elle oluşturur, sonra cross_val_score içine koyabilirsin.

In [36]:
lm = LinearRegression()

In [37]:
RMSE = []

In [50]:
for i in np.arange(1, X_reduced_train.shape[1] + 1):

    score = np.sqrt(-1*model_selection.cross_val_score(lm,  
                                                     X_reduced_train[:, :i],  
                                                     y_train.ravel(),  
                                                     cv=cv_10,  
                                                     scoring='neg_mean_squared_error').mean())

    RMSE.append(score)

  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),
  y_train.ravel(),


![image.png](imagee16.png)

Burada optimum değişken sayısının 6 olduğunu görüyoruz.