In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA

## Dimensionality Reduction (PCA)
Prinsip dari dimensionality Reduction adalah mengurangi atribut yang memiliki sedikit informasi (tidak berpengaruh banyak pada model), sehingga pada proses pelatihan tidak akan memakan banyak waktu.
<br>
<br>
Ada beberapa teknik dalam pengurangan dimensi. Salah satu metode pengurangan dimensi yang terkenal adalah Principal Component Analysis atau sering disebut PCA.
<br>
<br>
Secara sederhana, tujuan dari PCA adalah mengurangi jumlah atribut pada dataset tanpa mengurangi informasi. Contohnya pada sebuah dataset harga rumah. `Pada PCA setiap atribut` disebut sebagai `principal component`. Jika terdapat 10 atribut pada dataset, berarti terdapat 10 principal component. Pada gambar di bawah terdapat histogram dari 10 principal component dan variance dari setiap principal component.
<br>
<img src="./image/dimensi1.jpeg" width="500px" align="left">
<br>
`PCA bekerja` dengan `menghitung variance dari tiap atribut`. `Variance adalah informasi yang dimiliki sebuah atribut`. Misal pada dataset rumah, atribut jumlah kamar memiliki variance atau informasi sebesar 92% dan warna rumah memiliki variance/informasi sebesar 4% tentang harga rumah terkait. Dari hasil perhitungan variance, atribut warna rumah dapat dibuang dari dataset karena tidak memiliki informasi yang cukup signifikan ketika kita ingin mempercepat pelatihan sebuah model.


### Load Data
Contoh dibawah ini menggunakan dataset Iris :

In [4]:
df = pd.read_csv('./datasets/Iris.csv')
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


Menentukan data/atribut dan target/label

In [5]:
X = df[df.columns[1:5]].values
y = df['Species'].values

Split data untuk data training dan testing, menggunakan train test split

In [6]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

#### Melihat Perbandingan Sebelum Menggunakan Reduksi Dimensi 
dibawah ini saya melatih semua atribut menggunakan metode klasifikasi dengan Decision Tree dengan hasil prediksi sebesar `> 90` diamana model dikatakan sangat baik.

In [7]:
tree = DecisionTreeClassifier()
tree.fit(x_train, y_train)
tree.score(x_test, y_test)

0.9666666666666667

Sebelum kita melakukan reduksi dimensi, pertama kita perlu tahu seberapa besar informasi pada setiap atribut, setalah itu kita `ambil nilai terbesar` dari `setiap atribut`, pada kasus ini kita memiliki 4 atribut yaitu `SepalLengthCm` `SepalWidthCm` `PetalLengthCm` `PetalWidthCm`.

In [8]:
pca = PCA(n_components=4)

.fit_transform untuk mengimplementasikan algoritma pca pada x_train

In [9]:
pca_atribute = pca.fit_transform(x_train)

Setelah itu kita lihat variance (informasi pada setiap atribut), berikut yang kita dapatkan dan yang nantinya kita gunakan 2 variance terbesar yaitu `SepalLengthCm` `SepalWidthCm`

In [11]:
pca.explained_variance_ratio_

array([0.92859758, 0.0474831 , 0.0193921 , 0.00452721])

Setelah kita menentukan atribut yang digunakan saatnya kita reduksi atributnya, kita buat data train dan test-nya seperti code berikut :

In [13]:
pca2 = PCA(n_components=2)
pca_x_train = pca2.fit_transform(x_train)
pca_x_test = pca2.fit_transform(x_test)

Saatnya kita lihat perbandingan prediksi sebelumnya yaitu kita mendapatkan hasil sebesar `0.9666666666666667`, dan setelah kita reduksi ternyata hasil prediksi tidak jauh berbeda, setelah kita lakukan reduksi dimensi kita menghasilkan hasil prediksi sebesar `0.9333333333333333`, yang dimana proses prediksi akan jauh lebih ringan dengan menerapkan reduksi dimensi.

In [14]:
model2 = DecisionTreeClassifier()
model2.fit(pca_x_train, y_train)

DecisionTreeClassifier()

Score yang didapat setelah reduksi dimensi

In [15]:
model2.score(pca_x_test, y_test)

0.9333333333333333

#### Confusion Matrix
Kita juga bisa melihat seberapa fit model kita menggunakan confusion matrix dibawah ini :

In [16]:
from sklearn.metrics import confusion_matrix

Hasil dari prediksi

In [17]:
pred = model2.predict(pca_x_test)

Pada Confusion Matrix kita bisa melihat bahwa model kita sangat fit, dari semua prediksi yang melenceng cuma 2

In [19]:
confusion_matrix(y_test, pred)

array([[11,  0,  0],
       [ 0, 11,  2],
       [ 0,  0,  6]], dtype=int64)