### PCA Yöntemi ile Boyut Azaltma Adımları

**1. Veri Setinin Standartlaştırılması:**
   - Veri setindeki tüm değişkenlerin ortalamasını sıfır yaparak ve standart sapmasını bir birim yaparak veriyi standartlaştırma adımıdır.

**2. Kovaryans Matrisinin Hesaplanması:**
   - Standartlaştırılmış veri üzerinden değişkenler arasındaki kovaryansı gösteren matrisin oluşturulmasıdır.

**3. Kovaryans Matrisinin Özdeğer ve Özvektörlerinin Bulunması:**
   - Kovaryans matrisinin özdeğerlerini ve bu özdeğerlere karşılık gelen özvektörlerini hesaplayarak değişkenlerin temel özelliklerini belirleriz.

**4. Özdeğerlerin Sıralanması ve Özvektörlerin Seçimi:**
   - Özdeğerler büyüklüklerine göre sıralanır ve istenilen boyutta (yeni boyut) en büyük özdeğerlere karşılık gelen özvektörler seçilir.

**5. Yeni Değişken Matrisinin Oluşturulması:**
   - Seçilen özvektörler yardımıyla orijinal veri setini yeni boyutlarda temsil eden bir matris oluşturulur.

**6. Boyut Azaltma ve Yeni Veri Setinin Oluşturulması:**
   - Önceki adımlarda elde edilen özvektörler kullanılarak orijinal veri seti yeni boyutlara indirgenir.

In [1]:
import numpy as np

In [2]:
np.random.seed(42)

# Veri Seti Oluşturma
data = {'X1': np.random.rand(100),
       'X2': np.random.rand(100),
       'X3': np.random.rand(100),
       'X4': np.random.rand(100),
       'X5': np.random.rand(100),
       'Y': np.random.rand(100)}

In [3]:
import pandas as pd

In [4]:
# Veri Setini Pandas DataFrame Yapısına Dönüştürme
df = pd.DataFrame(data)

In [5]:
# 1. Veri Setinin Standartlaştırılması
for column in df.columns[:-1]:  # 'Y' bağımlı değişken hariç
    mean_value = np.mean(df[column])
    std_dev = np.std(df[column])
    df[column] = (df[column] - mean_value) / std_dev

In [7]:
# Standartlaştırılmış Veri Setindeki Bağımsız Değişkenler Matrisi
X = df.drop('Y', axis = 1)

In [8]:
# 2. Kovaryans Matrisinin Hesaplanması
# COV = (X^T . X) / n

Cov = (X.T @ X) / len(X)

In [9]:
# 3. Kovaryans Matrisinin Özdeğer(Eigenvalue) ve Özvektörlerinin(Eigenvector) Bulunması
ozdegerler, ozvektorler = np.linalg.eig(Cov)

In [10]:
# 4. Özdeğerlerin(Eigenvalue) Sıralanması ve Özvektörlerin(Eigenvector) Seçilmesi
sirali_indexler = np.argsort(ozdegerler)[::-1] # Özdeğerlerin Indexlerinin Büyükten Küçüğe Sıralanması
sirali_ozdegerler = ozdegerler[sirali_indexler] # Özdeğerlerin Büyükten Küçüğe Sıralanması (fancy index)
sirali_vektorler = ozvektorler[sirali_indexler] # Özvektörlerin Büyükten Küçüğe Sıralanması (fancy index)

In [11]:
# İstenilen Boyutta Principal Componentların Seçilmesi
yeni_boyut = 2
principal_components = sirali_vektorler[: yeni_boyut]

In [12]:
# 5. Yeni Değişken Matrisinin Oluşturulması
X_yeni = X @ principal_components.T

In [13]:
# 6. Boyut İndirgenmiş Veri Setinin Oluşturulması
df_boyut_indirgenmis = pd.concat([X_yeni, df['Y']], axis=1, ignore_index=True)

In [21]:
df_boyut_indirgenmis.head()

Unnamed: 0,0,1,2
0,-0.115801,2.087674,0.698162
1,1.134779,-2.186291,0.536096
2,1.434576,-0.37702,0.309528
3,-0.387193,-0.491669,0.813795
4,-0.885918,0.146332,0.684731


**Scikit-learn Kütüphanesindeki PCA ile Boyut Azaltma**

In [14]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

In [15]:
np.random.seed(42)

# Veri Seti Oluşturma
data = {'X1': np.random.rand(100),
       'X2': np.random.rand(100),
       'X3': np.random.rand(100),
       'X4': np.random.rand(100),
       'X5': np.random.rand(100),
       'Y': np.random.rand(100)}

# Veri Setini Pandas DataFrame Yapısına Dönüştürme
df = pd.DataFrame(data)

# Standartlaştırılmış Veri Setindeki Bağımsız Değişkenler Matrisi
X = df.drop('Y', axis = 1)

In [16]:
# PCA model oluşturma
pca = PCA(n_components=2)

In [17]:
# Modeli fit etme
X_new = pca.fit_transform(X)

In [19]:
df_dimensional_reduced = pd.concat([pd.DataFrame(X_new), df['Y']], axis=1, ignore_index=True)

In [20]:
df_dimensional_reduced.head()

Unnamed: 0,0,1,2
0,-0.585185,0.07658,0.698162
1,0.407338,0.292742,0.536096
2,0.14577,0.101999,0.309528
3,0.127105,0.316258,0.813795
4,0.011463,-0.50478,0.684731
