<a href="https://colab.research.google.com/github/berkayopak/MachineLearning/blob/master/MachineLearning_PCA_LDA_FDA_LogisticRegression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Makine Öğrenmesi Proje
### Ad Soyad: Berkay Opak
### No: 185112054
### Konu: PCA, LDA/FDA, indirgenmemiş verinin karşılaştırılması

In [1]:
import matplotlib.pyplot as plt
import numpy as np

from sklearn.datasets import fetch_openml
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, confusion_matrix

# Load data from https://www.openml.org/d/554
mnist = fetch_openml('mnist_784', version=1)

train_img, test_img, train_lbl, test_lbl = train_test_split(mnist.data, mnist.target, test_size=1/7.0, random_state=0)
scaler = StandardScaler()

# Fit on training set only.
scaler.fit(train_img)

# Apply transform to both the training set and the test set.
train_img = scaler.transform(train_img)
test_img = scaler.transform(test_img)

# Make an instance of the Model
pca = PCA()
pca.fit(train_img)

# Available solvers => svd, lsqr, eigen
lda = LDA()
lda.fit(train_img, train_lbl)

#PCA
train_img_pca = pca.transform(train_img)
test_img_pca = pca.transform(test_img)

#LDA
train_img_lda = lda.transform(train_img)
test_img_lda = lda.transform(test_img)

# all parameters not specified are set to their defaults
# default solver is incredibly slow which is why it was changed to 'lbfgs'
logisticRegrPca = LogisticRegression(solver = 'lbfgs', max_iter=1000, multi_class='auto')
logisticRegrPca.fit(train_img_pca, train_lbl)

scorePca = logisticRegrPca.score(test_img_pca, test_lbl)

logisticRegrLda = LogisticRegression(solver = 'lbfgs', max_iter=1000, multi_class='auto')
logisticRegrLda.fit(train_img_lda, train_lbl)

scoreLda = logisticRegrLda.score(test_img_lda, test_lbl)

logisticRegrSalt = LogisticRegression(solver = 'lbfgs', max_iter=1000, multi_class='auto')
logisticRegrSalt.fit(train_img, train_lbl)

scoreSalt = logisticRegrSalt.score(test_img, test_lbl)



# Giriş
İlgili indirgeme fonksiyonlarının yukarıdaki kodda tanımlamaları yapılmış ve salt verinin özellikleri bu algoritmalar aracılığıyla indirgenmiştir. Bu özellik indirgeme işlemlerinden önce, alınan verilere standardizasyon/optimizasyon işlemleri de uygulanmıştır. Aşağıda; çeşitli başarı ölçüm metodlarının sonuçları ve ilgili fonksiyon çıktılarının confusion matrix bilgileri gösterilmektedir.
## Salt (Özellikleri indirgenmemiş veri)
Aşağıdaki blokta; özellikleri indirgenmemiş(salt) verinin, logistic regression sınıflandırması sonucunda elde ettiği çıktılarının f measure, precision, recall sonuçlarını ve confusion matrix bilgisini görmekteyiz.



In [2]:
y_pred_salt = logisticRegrSalt.predict(test_img)
cm_salt = confusion_matrix(test_lbl, y_pred_salt)
f1_salt = f1_score(test_lbl, y_pred_salt, average="macro")
precision_salt = precision_score(test_lbl, y_pred_salt, average="macro")
recall_salt = recall_score(test_lbl, y_pred_salt, average="macro")
print("Salt Score : ", scoreSalt)
print("Salt F Measure Score : ", f1_salt)
print("Salt Precision Score : ", precision_salt)
print("Salt Recall Score : ", recall_salt)
print("Salt Confusion Matrix : ")
print(cm_salt)

Salt Score :  0.9129
Salt F Measure Score :  0.9114580180275705
Salt Precision Score :  0.9114629243034559
Salt Recall Score :  0.9115737161695305
Salt Confusion Matrix : 
[[ 958    0    4    1    3   10   11    2    6    1]
 [   0 1108    9    2    1    5    2    3    9    2]
 [   9   16  915   22   10    5   19   11   30    3]
 [   2    5   32  888    2   30    2   13   23   16]
 [   2    2    5    2  887    3    9   12    6   34]
 [  10    4    8   27   10  748   18    3   27    8]
 [   8    2   12    0   10   17  933    1    5    1]
 [   3    4   17    6   11    5    1  970    6   41]
 [   6   11   10   25    6   23    9    3  855   15]
 [   3    5    5   11   31    8    1   32    6  867]]


## PCA
Aşağıdaki blokta; PCA algoritmasıyla özellikleri indirgenmiş verinin, logistic regression sınıflandırması sonucunda elde ettiği çıktılarının f measure, precision, recall sonuçlarını ve confusion matrix bilgisini görmekteyiz.



In [3]:
y_pred_pca = logisticRegrPca.predict(test_img_pca)
cm_pca = confusion_matrix(test_lbl, y_pred_pca)
f1_pca = f1_score(test_lbl, y_pred_pca, average="macro")
precision_pca = precision_score(test_lbl, y_pred_pca, average="macro")
recall_pca = recall_score(test_lbl, y_pred_pca, average="macro")
print("PCA Score : ", scorePca)
print("PCA F MEASURE : ", f1_pca)
print("PCA Precision Score : ", precision_pca)
print("PCA Recall Score : ", recall_pca)
print("PCA Confusion Matrix : ")
print(cm_pca)

PCA Score :  0.9128
PCA F MEASURE :  0.9113566015329606
PCA Precision Score :  0.9113602753977317
PCA Recall Score :  0.9114726039349501
PCA Confusion Matrix : 
[[ 958    0    4    1    3   10   11    2    6    1]
 [   0 1108    9    2    1    5    2    3    9    2]
 [   9   16  915   22   10    5   19   11   30    3]
 [   2    5   32  888    2   30    2   13   23   16]
 [   2    2    5    2  887    3    9   12    6   34]
 [  10    4    8   27   10  748   18    3   27    8]
 [   9    2   12    0   10   17  932    1    5    1]
 [   3    4   17    6   11    5    1  970    6   41]
 [   6   11   10   25    6   23    9    3  855   15]
 [   3    5    5   11   31    8    1   32    6  867]]


## LDA
Aşağıdaki blokta; LDA algoritmasıyla özellikleri indirgenmiş verinin, logistic regression sınıflandırması sonucunda elde ettiği çıktılarının f measure, precision, recall sonuçlarını ve confusion matrix bilgisini görmekteyiz.



In [4]:
y_pred_lda = logisticRegrLda.predict(test_img_lda)
cm_lda = confusion_matrix(test_lbl, y_pred_lda)
f1_lda = f1_score(test_lbl, y_pred_lda, average="macro")
precision_lda = precision_score(test_lbl, y_pred_lda, average="macro")
recall_lda = recall_score(test_lbl, y_pred_lda, average="macro")
print("LDA Score : ", scoreLda)
print("LDA F MEASURE : ", f1_lda)
print("LDA Precision Score : ", precision_lda)
print("LDA Recall Score : ", recall_lda)
print("LDA Confusion Matrix : ")
print(cm_lda)

LDA Score :  0.8822
LDA F MEASURE :  0.8805073509181085
LDA Precision Score :  0.8807095396055367
LDA Recall Score :  0.8806199719035435
LDA Confusion Matrix : 
[[ 953    1    5    1    1   10   10    3   11    1]
 [   0 1087    7    4    2    4    1    7   26    3]
 [  13   19  896   29   15    1   23   12   27    5]
 [   1    6   44  857    1   40    5   18   25   16]
 [   1    6   10    0  883    3    7    4   10   38]
 [   7    5   13   33    9  719   18    7   40   12]
 [  11    4   20    1   10   21  909    1   11    1]
 [   6   19   17   11   23    7    0  918    4   59]
 [   5   38   11   38   13   33   10    3  787   25]
 [   6    1    6   13   57    8    2   52   11  813]]


#Sonuç
Logistic regression sınıflandırma algoritmasının girişine PCA algoritması ile özellikleri indirgenmiş veri verilmesiyle, salt veri verilmesinin çok büyük bir farklılık yaratmadığını görüyoruz. İki işlem için de confusion matrix aynı şekilde kalmakta fakat başarı skorlarında çok düşük oynamalar olmaktadır. Fakat PCA yerine LDA/FDA kullandığımızda; hem confusion matrix değişmekte, hem de başarı skorları arasında göz ardı edilemeyecek bir fark oluşmaktadır.