# Linear Discriminant Analysis (LDA)

Definisi: <br>
LDA merupakan teknik reduksi dimensi yang memanfaatkan label kelas untuk memaksimalkan separasi antar kelas

Keunggulan:
- Memaksimalkan separasi antar kelas
- cepat dalam komputasi dan cocok untuk data berukuran kecil
- Sangat baik untuk klasifikasi dengan jumlah fitur yang besar

dibandingkan dengan PCA yang dapat digunakan untuk regresi maupun klasifikasi. LDA hanya cocok untuk data klasifikasi saja, tidak cocok untuk regresi.

Khusus untuk tujuan klasifikasi, LDA dapat membantu menaikkan akurasi dibanding PCA. Jika penggunaan LDA memberikan hasil akurasi lebih rendah dari PCA, maka terdapat beberapa kondisi, yaitu:
- Kelas tidak terbagi rata dengan baik (class imbalance)
- Dataset non linear
- Terdapat outlier / noise

In [None]:
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
iris = load_iris()
x = iris.data
y = iris.target #target -> label

In [None]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 0, stratify = y)

stratify = y <br>
merupakan parameter yang berfungsi untuk memastikan bahwa proporsi label kelas dalam data training dan data testing sama.

In [None]:
y_train

array([1, 0, 0, 1, 2, 2, 1, 0, 1, 0, 0, 1, 0, 2, 0, 1, 1, 1, 1, 2, 2, 1,
       0, 2, 2, 2, 2, 1, 1, 2, 2, 2, 1, 0, 0, 2, 2, 1, 1, 2, 2, 0, 0, 1,
       0, 1, 2, 0, 0, 2, 1, 2, 1, 0, 0, 0, 0, 2, 0, 1, 1, 1, 2, 0, 1, 1,
       0, 1, 2, 1, 2, 0, 1, 2, 2, 1, 2, 0, 1, 0, 0, 2, 1, 2, 0, 0, 0, 0,
       0, 1, 2, 2, 2, 0, 2, 0, 2, 0, 1, 1, 1, 1, 0, 2, 2, 0, 1, 1, 0, 2,
       2, 2])

In [None]:
y_test

array([0, 0, 0, 0, 1, 1, 1, 0, 1, 2, 2, 2, 1, 2, 1, 0, 0, 2, 0, 1, 2, 1,
       1, 0, 2, 0, 0, 1, 2, 1, 0, 1, 2, 2, 0, 1, 2, 2])

Selanjutnya dilakukan uji coba menggunakan PCA dan LDA tanpa preprocessing StandardScaler

In [None]:
# Random Forest Classifier tanpa PCA dan LDA
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier

model1 = RandomForestClassifier(random_state=0)
model1.fit(x_train,y_train)
y_pred_test = model1.predict(x_test)
akurasi = accuracy_score(y_pred_test, y_test)
print(f"Hasil Akurasi Random Forest Classifier = {akurasi:.2%}")

Hasil Akurasi Random Forest Classifier = 94.74%


In [None]:
# Random Forest Classifier menggunakan PCA
pca = PCA(n_components= 2) #diubah menjadi 2 fitur
x_train_pca = pca.fit_transform(x_train)
x_test_pca = pca.fit_transform(x_test)

model_pca = RandomForestClassifier(random_state=0)
model_pca.fit(x_train_pca,y_train)
y_pred_test_pca = model_pca.predict(x_test_pca)

akurasi2 = accuracy_score(y_pred_test_pca, y_test)
print(f"Hasil Akurasi Random Forest Classifier = {akurasi2:.2%}")

Hasil Akurasi Random Forest Classifier = 97.37%


In [None]:
# Random Forest Classifier menggunakan LDA
lda = LDA(n_components= 2) #diubah menjadi 2 fitur
x_train_lda = lda.fit_transform(x_train, y_train)
x_test_lda = lda.transform(x_test)

model_lda = RandomForestClassifier(random_state=0)
model_lda.fit(x_train_lda,y_train)
y_pred_test_lda = model_lda.predict(x_test_lda)

akurasi3 = accuracy_score(y_pred_test_lda, y_test)
print(f"Hasil Akurasi Random Forest Classifier = {akurasi3:.2%}")

Hasil Akurasi Random Forest Classifier = 100.00%
