In [1]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Veri setine normalizasyon uygulama
def normalize_data(data):
    scaler = StandardScaler()
    normalized_data = scaler.fit_transform(data)
    return normalized_data

# PCA ve LDA uygulama
def apply_pca_lda(data):
    # PCA uygulama
    pca = PCA(n_components=2)
    pca_result = pca.fit_transform(data)
    # PCA sonuçlarını raporlama
    print("PCA için en ayırt edici öznitelikler:")
    print(pca.components_)
    
    # LDA uygulama
    lda = LinearDiscriminantAnalysis(n_components=1)
    lda_result = lda.fit_transform(data, labels)  # labels veri setinizdeki hedef değişkenin etiketlerini içermelidir
    # LDA sonuçlarını raporlama
    print("LDA için en ayırt edici öznitelikler:")
    print(lda.scalings_.T)
    
    return pca_result, lda_result

# Veri setini yükleme
data = pd.read_csv("veri-seti.txt", sep="\t", header=1, names=["PgnNum", "PlasGlu", "DiaBld", "TriSkn", "2HS", "BdyMss", "DiaPed", "Age", "Class"])

# Veri setinden öznitelikleri alma
labels = data['Class']
features = data.drop('Class', axis=1)

normalized_features = normalize_data(features)
pca_result, lda_result = apply_pca_lda(normalized_features)





PCA için en ayırt edici öznitelikler:
[[ 0.12631788  0.39243328  0.35947089  0.44054292  0.43683384  0.45215652
   0.27060956  0.1955599 ]
 [ 0.59404237  0.17528237  0.18550652 -0.33140493 -0.24788907 -0.09918102
  -0.12154879  0.6213597 ]]
LDA için en ayırt edici öznitelikler:
[[ 0.31712371  0.86144769 -0.20499458  0.00705992 -0.0911727   0.47754058
   0.22203214  0.13734025]]


3. Aşama PCA ve LDA değerleri verilmeden

In [27]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, accuracy_score
from sklearn.preprocessing import StandardScaler

# Veri setini %70-%30 olarak ayırmak
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)

# Verileri ölçeklendirmek
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Çoklu Doğrusal Regresyon analizi
linear_reg_model = LinearRegression()
linear_reg_model.fit(X_train_scaled, y_train)

# Elde ettiğiniz katsayıları raporlayın
print("Çoklu Doğrusal Regresyon Katsayıları:")
print(linear_reg_model.coef_)
print("Sabit Terim (Intercept):", linear_reg_model.intercept_)

# Multinominal Lojistik Regresyon analizi
logistic_reg_model = LogisticRegression(max_iter=1000)
logistic_reg_model.fit(X_train_scaled, y_train)

# Elde ettiğimiz sınıf olasılıklarını raporlamak
print("Multinominal Lojistik Regresyon Sınıf Olasılıkları:")
print(logistic_reg_model.predict_proba(X_train_scaled))

# Test kümesi için performans metriklerini hesaplamak
# Çoklu Doğrusal Regresyon için MSE (Ortalama Kare Hatası)
y_pred_linear_reg = linear_reg_model.predict(X_test_scaled)
mse_linear_reg = mean_squared_error(y_test, y_pred_linear_reg)
print("Çoklu Doğrusal Regresyon MSE:", mse_linear_reg)

# Multinominal Lojistik Regresyon için doğruluk (accuracy)
y_pred_logistic_reg = logistic_reg_model.predict(X_test_scaled)
accuracy_logistic_reg = accuracy_score(y_test, y_pred_logistic_reg)
print("Multinominal Lojistik Regresyon Doğruluk:", accuracy_logistic_reg)


Çoklu Doğrusal Regresyon Katsayıları:
[ 0.07379726  0.18212686 -0.01615283  0.0152169  -0.00509628  0.08563135
  0.05266221  0.02509427]
Sabit Terim (Intercept): 0.34888059701492535
Multinominal Lojistik Regresyon Sınıf Olasılıkları:
[[0.26906854 0.73093146]
 [0.81805854 0.18194146]
 [0.88978627 0.11021373]
 ...
 [0.9167018  0.0832982 ]
 [0.26144946 0.73855054]
 [0.96153557 0.03846443]]
Çoklu Doğrusal Regresyon MSE: 0.15529963144948852
Multinominal Lojistik Regresyon Doğruluk: 0.7922077922077922


In [None]:
3. Aşama PCA ve LDA değerleri verilmiş

In [22]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, accuracy_score

# Veri setimizi %70-%30 olarak ayırmak
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)

# PCA ve LDA dönüşümlerini uygulamak
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

lda = LinearDiscriminantAnalysis(n_components=1)
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)

# Çoklu Doğrusal Regresyon analizini uygulamak (PCA için)
linear_regression_model_pca = LinearRegression()
linear_regression_model_pca.fit(X_train_pca, y_train)

# Çoklu Doğrusal Regresyon modelinin katsayılarını raporlamak (PCA için)
print("PCA için Çoklu Doğrusal Regresyon Katsayıları:")
print(linear_regression_model_pca.coef_)

# Multinominal Lojistik Regresyon analizini uygulamak (LDA için)
logistic_regression_model_lda = LogisticRegression()
logistic_regression_model_lda.fit(X_train_lda, y_train)

# Multinominal Lojistik Regresyon modelinin katsayılarını raporlamak (LDA için)
print("LDA için Multinominal Lojistik Regresyon Katsayıları:")
print(logistic_regression_model_lda.coef_)

# Test verisi için performans metriklerini hesaplamak
# Çoklu Doğrusal Regresyon modeli için (PCA için)
y_pred_linear_pca = linear_regression_model_pca.predict(X_test_pca)
mse_linear_pca = mean_squared_error(y_test, y_pred_linear_pca)
print("PCA için Çoklu Doğrusal Regresyon MSE:", mse_linear_pca)

# Multinominal Lojistik Regresyon modeli için (LDA için)
y_pred_logistic_lda = logistic_regression_model_lda.predict(X_test_lda)
accuracy_logistic_lda = accuracy_score(y_test, y_pred_logistic_lda)
print("LDA için Multinominal Lojistik Regresyon Doğruluğu:", accuracy_logistic_lda)



PCA için Çoklu Doğrusal Regresyon Katsayıları:
[ 0.00070762 -0.006809  ]
LDA için Multinominal Lojistik Regresyon Katsayıları:
[[1.27898181]]
PCA için Çoklu Doğrusal Regresyon MSE: 0.17834299287802044
LDA için Multinominal Lojistik Regresyon Doğruluğu: 0.7878787878787878


In [None]:
4. Aşama PCA ve LDA değerleri verilmemiş

In [28]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# Veri setimizi %70-%30 olarak ayırmak
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)

# Karar ağacı sınıflandırma algoritmasını uygulamak
decision_tree_model = DecisionTreeClassifier()
decision_tree_model.fit(X_train, y_train)

# Ağaç yapısını görüntülemek
print("Karar Ağacı Yapısı:")
print(decision_tree_model.tree_)

# Test verisi için kestirimleri yapmak
y_pred = decision_tree_model.predict(X_test)

# Test verisi için performans metriklerini hesaplamak
accuracy = accuracy_score(y_test, y_pred)
print("Doğruluk (Accuracy) Oranı:", accuracy)

# Sınıflandırma raporunu görüntülemek
print("Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred))


Karar Ağacı Yapısı:
<sklearn.tree._tree.Tree object at 0x177dfdd80>
Doğruluk (Accuracy) Oranı: 0.696969696969697
Sınıflandırma Raporu:
              precision    recall  f1-score   support

           0       0.77      0.77      0.77       151
           1       0.56      0.56      0.56        80

    accuracy                           0.70       231
   macro avg       0.67      0.67      0.67       231
weighted avg       0.70      0.70      0.70       231



In [None]:
4. Aşama PCA ve LDA değerleri verilmiş

In [24]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Veri setimizi %70-%30 olarak ayırmak
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)

# PCA ve LDA dönüşümlerini uygulamak
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

lda = LinearDiscriminantAnalysis(n_components=1)
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)

# Karar ağacı sınıflandırma algoritmasını uygulamak (PCA için)
decision_tree_model_pca = DecisionTreeClassifier()
decision_tree_model_pca.fit(X_train_pca, y_train)

# Karar ağacı sınıflandırma algoritmasını uygulamak (LDA için)
decision_tree_model_lda = DecisionTreeClassifier()
decision_tree_model_lda.fit(X_train_lda, y_train)

# Test verisi için performans metriklerini hesaplamak (PCA için)
y_pred_pca = decision_tree_model_pca.predict(X_test_pca)
accuracy_pca = accuracy_score(y_test, y_pred_pca)
print("PCA için Karar Ağacı Sınıflandırma Doğruluğu:", accuracy_pca)

# Test verisi için performans metriklerini hesaplamak (LDA için)
y_pred_lda = decision_tree_model_lda.predict(X_test_lda)
accuracy_lda = accuracy_score(y_test, y_pred_lda)
print("LDA için Karar Ağacı Sınıflandırma Doğruluğu:", accuracy_lda)

# Sınıflandırma raporlarını görüntülemek (PCA için)
print("PCA için Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred_pca))

# Sınıflandırma raporlarını görüntülemek (LDA için)
print("LDA için Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred_lda))

# Konfüzyon matrislerini görüntülemek (PCA için)
print("PCA için Konfüzyon Matrisi:")
print(confusion_matrix(y_test, y_pred_pca))

# Konfüzyon matrislerini görüntülemek (LDA için)
print("LDA için Konfüzyon Matrisi:")
print(confusion_matrix(y_test, y_pred_lda))



PCA için Karar Ağacı Sınıflandırma Doğruluğu: 0.6363636363636364
LDA için Karar Ağacı Sınıflandırma Doğruluğu: 0.7316017316017316
PCA için Sınıflandırma Raporu:
              precision    recall  f1-score   support

           0       0.73      0.71      0.72       151
           1       0.48      0.50      0.49        80

    accuracy                           0.64       231
   macro avg       0.60      0.60      0.60       231
weighted avg       0.64      0.64      0.64       231

LDA için Sınıflandırma Raporu:
              precision    recall  f1-score   support

           0       0.79      0.80      0.80       151
           1       0.62      0.60      0.61        80

    accuracy                           0.73       231
   macro avg       0.70      0.70      0.70       231
weighted avg       0.73      0.73      0.73       231

PCA için Konfüzyon Matrisi:
[[107  44]
 [ 40  40]]
LDA için Konfüzyon Matrisi:
[[121  30]
 [ 32  48]]


In [None]:
5. Aşama PCA ve LDA değerleri verilmemiş

In [29]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Veri setimizi %70-%30 olarak ayırmak
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)

# Naive Bayes sınıflandırıcısını uygulamak
naive_bayes_model = GaussianNB()
naive_bayes_model.fit(X_train, y_train)

# Eğitim veri seti için sonuçları raporlamak
# Eğitim veri seti için doğruluk
train_accuracy = naive_bayes_model.score(X_train, y_train)
print("Eğitim Veri Seti Doğruluğu:", train_accuracy)

# Test veri seti için performans metriklerini hesaplamak
# Test veri seti için doğruluk
test_accuracy = naive_bayes_model.score(X_test, y_test)
print("Test Veri Seti Doğruluğu:", test_accuracy)

# Sınıflandırma raporunu görüntülemek
y_pred = naive_bayes_model.predict(X_test)
print("Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred))


Eğitim Veri Seti Doğruluğu: 0.7630597014925373
Test Veri Seti Doğruluğu: 0.7229437229437229
Sınıflandırma Raporu:
              precision    recall  f1-score   support

           0       0.76      0.83      0.80       151
           1       0.62      0.51      0.56        80

    accuracy                           0.72       231
   macro avg       0.69      0.67      0.68       231
weighted avg       0.71      0.72      0.72       231



In [None]:
5. Aşama PCA ve LDA değerleri verilmiş

In [26]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Veri setimizi %70-%30 olarak ayırmak
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.3, random_state=42)

# PCA ve LDA dönüşümlerini uygulamak
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

lda = LinearDiscriminantAnalysis(n_components=1)
X_train_lda = lda.fit_transform(X_train, y_train)
X_test_lda = lda.transform(X_test)

# Naive Bayes sınıflandırıcısını uygulamak (PCA için)
naive_bayes_model_pca = GaussianNB()
naive_bayes_model_pca.fit(X_train_pca, y_train)

# Naive Bayes sınıflandırıcısını uygulamak (LDA için)
naive_bayes_model_lda = GaussianNB()
naive_bayes_model_lda.fit(X_train_lda, y_train)

# Test verisi için performans metriklerini hesaplamak (PCA için)
y_pred_pca = naive_bayes_model_pca.predict(X_test_pca)
accuracy_pca = accuracy_score(y_test, y_pred_pca)
print("PCA için Naive Bayes Doğruluğu:", accuracy_pca)

# Test verisi için performans metriklerini hesaplamak (LDA için)
y_pred_lda = naive_bayes_model_lda.predict(X_test_lda)
accuracy_lda = accuracy_score(y_test, y_pred_lda)
print("LDA için Naive Bayes Doğruluğu:", accuracy_lda)

# Sınıflandırma raporlarını görüntülemek (PCA için)
print("PCA için Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred_pca))

# Sınıflandırma raporlarını görüntülemek (LDA için)
print("LDA için Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred_lda))

# Konfüzyon matrislerini görüntülemek (PCA için)
print("PCA için Konfüzyon Matrisi:")
print(confusion_matrix(y_test, y_pred_pca))

# Konfüzyon matrislerini görüntülemek (LDA için)
print("LDA için Konfüzyon Matrisi:")
print(confusion_matrix(y_test, y_pred_lda))




PCA için Naive Bayes Doğruluğu: 0.7489177489177489
LDA için Naive Bayes Doğruluğu: 0.7878787878787878
PCA için Sınıflandırma Raporu:
              precision    recall  f1-score   support

           0       0.76      0.89      0.82       151
           1       0.70      0.47      0.57        80

    accuracy                           0.75       231
   macro avg       0.73      0.68      0.70       231
weighted avg       0.74      0.75      0.73       231

LDA için Sınıflandırma Raporu:
              precision    recall  f1-score   support

           0       0.80      0.91      0.85       151
           1       0.76      0.56      0.65        80

    accuracy                           0.79       231
   macro avg       0.78      0.73      0.75       231
weighted avg       0.78      0.79      0.78       231

PCA için Konfüzyon Matrisi:
[[135  16]
 [ 42  38]]
LDA için Konfüzyon Matrisi:
[[137  14]
 [ 35  45]]
