# Temel Bileşen Analizi (PCA)

Temel fikir, çok değişkenli verinin ana özelliklerini daha az sayıda değişken/bileşen ile temsil etmektir.

Diğer bir ifade ile: küçük miktarda bir bilgi kaybını göze alıp değişken boyutunu azaltmaktır.

Doğrusal regresyon ve kuzenleri bölümünde de PCA vardı. 

bağımsız değişkenlerin içerisindeki bilgileri indirgediği için modelleme anlamında bir nedensellik kaybı olmasından dolayı modelleme anlamında tercih edilmez. 

neden sonuç bağlamında bir bağlantı aranmadığında PCA kullanılır ve başarılı sonuçlar elde edilebilir. 

oluşabilecek bilgi kaybı görece hata ve gürültü ile kıyaslanabilir ve küçük düzeyde olması gerekir.

bilgi kaybı veri seti içerisindeki toplam değişkenliktir. bu indirgeme işlemi sonrasında bu toplam değişkenlikten çok fazla bir şey kaybetmemeye çalışırız.ana özellikleri/değişkenliği muhafaza etmeye çalışırız.

veri içerisindeki varyansın büyük bir kısmı veri seti içerisindeki değişken sayısından daha az sayıda değişken ile yani bileşenle ifade edilmeye çalışılır

bu oluşan bileşenler arasında korelasyon yoktur.

değişken gruplarının varyanslarını ifade eden öz değerler ile veri setindeki değişkenler gruplandırılır. gruplar arasında en fazla varyansa sahip gruplar en önemli gruplardır. bunlar asal bileşenlerdir.

# Temel Bileşen Analizi (PCA) - Uygulama

In [18]:
import pandas as pd

In [19]:
df = pd.read_csv("USArrests.csv") # verileri aldım

In [20]:
df = df.copy()

In [21]:
df.index = df.iloc[:, 0] # 0. sütundaki değerleri indeks olarak atadım
df = df.iloc[:, 1:5] # 0. sütunu df'den kaldırmış oldum

In [22]:
df.head()

Unnamed: 0_level_0,Murder,Assault,UrbanPop,Rape
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,13.2,236,58,21.2
Alaska,10.0,263,48,44.5
Arizona,8.1,294,80,31.0
Arkansas,8.8,190,50,19.5
California,9.0,276,91,40.6


In [23]:
# indeks sütun ismini sildim
df.index.name = None 

In [24]:
df.head()

Unnamed: 0,Murder,Assault,UrbanPop,Rape
Alabama,13.2,236,58,21.2
Alaska,10.0,263,48,44.5
Arizona,8.1,294,80,31.0
Arkansas,8.8,190,50,19.5
California,9.0,276,91,40.6


temel bileşen analizini uygulayabilmek için önce bir değişkenleri standartlaştırma işlemi yapmak gerekmektedir.

In [8]:
from sklearn.preprocessing import StandardScaler

# df'i standartlaştıracağız
df = StandardScaler().fit_transform(df)
df[:5, 0:5]

array([[ 1.25517927,  0.79078716, -0.52619514, -0.00345116],
       [ 0.51301858,  1.11805959, -1.22406668,  2.50942392],
       [ 0.07236067,  1.49381682,  1.00912225,  1.05346626],
       [ 0.23470832,  0.23321191, -1.08449238, -0.18679398],
       [ 0.28109336,  1.2756352 ,  1.77678094,  2.08881393]])

In [9]:
# veri setine PCA'i uygulayalım 
# ve bunun sonucunda 2 bileşen üzerinden bir gözlem yapmaya çalışalım

In [10]:
from sklearn.decomposition import PCA

pca = PCA(n_components = 2) # 2 bileşenli bir model nesnesi oluşturdum
pca_fit = pca.fit_transform(df) # modeli kurdum

In [11]:
# bu iki bileşeni isimlendirelim
bilesen_df = pd.DataFrame(data = pca_fit,
                          columns = ["birinci_bilesen","ikinci_bilesen"])
bilesen_df.head()

Unnamed: 0,birinci_bilesen,ikinci_bilesen
0,0.985566,1.133392
1,1.950138,1.073213
2,1.763164,-0.745957
3,-0.14142,1.119797
4,2.52398,-1.542934


önceden 4 tane değişken vardı. bu 4 değişkeni 2 bileşenle temsil etmiş oluyoruz.

Bu bileşenlerin gerçek veri setinin taşıdığı bilginin ne kadarını taşıdığı, ne kadarını temsil ettiği bilgisine erişmek istersek  

In [12]:
# açıklanan varyans oranı
pca.explained_variance_ratio_

array([0.62006039, 0.24744129])

bileşelerin açıkladığı varyans değerleri:
* birinci_bilesen'in ana veri setinin yapısındaki varyansı değişkenliği açıklama oranı 0.62'dir.
* ikinci_bilesen'in ise bu varyansı açıklama oranı 0.24'tür.
* ikisini topladığımızda yaklaşık olarak 0.86 gibi bir değerdir. bu da veri setinin içerisindeki değişkenliğin bu iki bileşence yaklaşık %86'sının temsil edildiği görülmektedir.

1000 tane değişken olsun ve bu bir görüntü işleme problemi veya nümerik modelleme olsun. bu veri setinin içerisindeki bilgiyi %85-%95 temsil edecek şekilde veri seti 2 bileşene indirgenebilir.

3 bileşene indirgersek:

In [13]:
from sklearn.decomposition import PCA

pca = PCA(n_components = 3) # 3 bileşenli bir model nesnesi oluşturdum
pca_fit = pca.fit_transform(df) # modeli kurdum

In [14]:
# bu iki bileşeni isimlendirelim
bilesen_df = pd.DataFrame(data = pca_fit,
                          columns = ["birinci_bilesen","ikinci_bilesen","ucuncu_bilesen"])
bilesen_df.head()

Unnamed: 0,birinci_bilesen,ikinci_bilesen,ucuncu_bilesen
0,0.985566,1.133392,-0.444269
1,1.950138,1.073213,2.040003
2,1.763164,-0.745957,0.054781
3,-0.14142,1.119797,0.114574
4,2.52398,-1.542934,0.598557


In [15]:
# açıklanan varyans oranı
pca.explained_variance_ratio_

array([0.62006039, 0.24744129, 0.0891408 ])

varyans oranlarının düştüğü gözlemlenmektedir. dolayısıyla genelde çalışmalarda 2 bileşen, 3 bileşen mevcut değişkenliği açıklamak için yetiyor olacaktır.

kabul edilebilir bir hata miktarı kelimesinin karşılık geldiği yer burasıdır. belirli bir hata miktarını göze alıp veri setinin içerisindeki karmaşık yapıları daha basitçe özetlemek temsil etmek işlemi bu şekilde gerçekleşmiş oluyor.

In [16]:
from sklearn.cluster import KMeans
kmeans = KMeans()
k_fit = kmeans.fit(bilesen_df)
kumeler = k_fit.labels_

  super()._check_params_vs_input(X, default_n_init=10)


AttributeError: 'numpy.ndarray' object has no attribute 'index'

In [25]:
pd.DataFrame({"Eyaletler":df.index, "Kumeler":kumeler})[:10]

Unnamed: 0,Eyaletler,Kumeler
0,Alabama,1
1,Alaska,7
2,Arizona,3
3,Arkansas,4
4,California,6
5,Colorado,6
6,Connecticut,2
7,Delaware,4
8,Florida,3
9,Georgia,1


15-20 tane değişken olsun ve açıklanan varyans oranının değişimine göre bileşen sayısını nasıl seçebileceğimizi ele alalım:

In [None]:
# bileşen sayısını belirtmeden bir model nesnesi oluşturdum
pca = PCA().fit(df) # model kuruldu

In [None]:
import matplotlib.pyplot as plt
import numpy as np
# kümülatif sum fonk: cumsum
plt.plot(np.cumsum(pca.explained_variance_ratio_));

bileşen sayısına karar vermek için bu grafik kullanılabilir. veri setinin içerisindeki değişkenliğin %94'ünü 3 bileşenle açıklayabiliyorum.

0.0 da 1 tane bileşen vardır.

4 değişkenli veri setini 3 bileşen ile ifade ettiğimde %94'ünü temsil etmiş oluyorum