<a href="https://colab.research.google.com/github/mehmetakifkucukkaya/machineLearning/blob/main/MakineOgrenmesi.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# - SORU 1 -> Min-Max Nomralizasyonu

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Veri setini yükleme
veri_seti = pd.read_csv("veri_seti.csv")

# MinMaxScaler kullanarak normalizasyon işlemi
scaler = MinMaxScaler()
normalizasyonlu_veri_seti = scaler.fit_transform(veri_seti)

# Normalleştirilmiş veri setini DataFrame'e dönüştürme
normalizasyonlu_veri_seti = pd.DataFrame(normalizasyonlu_veri_seti, columns=veri_seti.columns)

# Normalleştirilmiş veri setini dosyaya kaydetme
normalizasyonlu_veri_seti.to_csv("normalizasyonlu_veri_seti.csv", index=False)

print(normalizasyonlu_veri_seti)



In [None]:
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
import matplotlib.pyplot as plt


# PCA Model Oluşturulması ve Uygulanması
pca = PCA(n_components=2)
pca.fit(veri_seti)  # Ana veri setine PCA uygulanması
pca_components = pca.components_

pca_transformed = pca.transform(normalizasyonlu_veri_seti)  # PCA uygulanmış transformasyon öznitelik matrisi

# LDA Model Oluşturulması ve Uygulanması
lda = LDA(n_components=1)
lda.fit(normalizasyonlu_veri_seti, hedef_deger)  # LDA uygulanması
lda_components = lda.coef_

lda_transformed = lda.transform(normalizasyonlu_veri_seti)  # LDA uygulanmış transformasyon öznitelik matrisi

# PCA ve LDA'nın hangi özniteliklerle ilişkili olduğunun analizi
pca_important_features = [veri_seti.columns[i] for i in pca_components.argmax(axis=1)]
lda_important_features = [veri_seti.columns[i] for i in lda_components.argmax(axis=1)]

print("\nAyırt Edici Özellikler")
print("--------------------------------------------------------------------------------")

print("PCA için en ayırt edici öznitelikler")
print(pca_important_features)
print("\nLDA için en ayırt edici öznitelikler")
print(lda_important_features)


# Görselleştirme
plt.figure(figsize=(12, 6))

# PCA için
plt.subplot(1, 2, 1)
plt.title('PCA')
plt.scatter(pca_transformed[:, 0], pca_transformed[:, 1], c=hedef_deger, cmap='viridis', alpha=0.5)
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')

# LDA için
plt.subplot(1, 2, 2)
plt.title('LDA')
plt.scatter(lda_transformed, np.zeros_like(lda_transformed), c=hedef_deger, cmap='viridis', alpha=0.5)
plt.xlabel('Linear Discriminant 1')

plt.tight_layout()
plt.show()

In [None]:
# SORU 3 -> Çoklu Doğrusal Regresyon - Multinominal Lojistik Regresyon
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, mean_squared_error, precision_score, recall_score, f1_score, roc_curve, auc
import matplotlib.pyplot as plt

# Veri setini yükleme (veri_seti adında bir DataFrame olduğunu varsayalım)
veri_seti = pd.read_csv('veri_seti.csv')  # Veri setinin dosya yolu doğru olmalıdır

# Bağımsız değişkenler (X) ve bağımlı değişken (y) olarak ayırma
X = veri_seti.drop(columns=['Class variable (0 or 1)'])
y = veri_seti['Class variable (0 or 1)']

# Veriyi eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Çoklu Doğrusal Regresyon modelini eğitme
linear_reg_model = LinearRegression()
linear_reg_model.fit(X_train, y_train)

# Çoklu Doğrusal Regresyon modelinin katsayılarını raporlama
print("Çoklu Doğrusal Regresyon katsayıları:", linear_reg_model.coef_)

# Multinominal Lojistik Regresyon modelini eğitme
logistic_reg_model = LogisticRegression(max_iter=1000)
logistic_reg_model.fit(X_train, y_train)

# Multinominal Lojistik Regresyon modelinin katsayılarını raporlama
print("\nMultinominal Lojistik Regresyon katsayıları:", logistic_reg_model.coef_)

# Test seti üzerinde Çoklu Doğrusal Regresyon modelinin performansını değerlendirme
linear_reg_pred = linear_reg_model.predict(X_test)
linear_reg_mse = mean_squared_error(y_test, linear_reg_pred)
print("\nÇoklu Doğrusal Regresyon ortalama kare hatası:", linear_reg_mse)

# Test seti üzerinde Multinominal Lojistik Regresyon modelinin performansını değerlendirme
logistic_reg_pred = logistic_reg_model.predict(X_test)
logistic_reg_accuracy = accuracy_score(y_test, logistic_reg_pred)
print("\nMultinominal Lojistik Regresyon analizi doğruluk skoru:", logistic_reg_accuracy)

# Multinominal Lojistik Regresyon modelinin sınıflandırma raporunu görüntüleme
print("\nMultinominal Lojistik Regresyon sınıflandırma raporu:")
print(classification_report(y_test, logistic_reg_pred))

# Hassasiyet (Precision)
precision = precision_score(y_test, logistic_reg_pred)

# Duyarlılık (Recall)
recall = recall_score(y_test, logistic_reg_pred)

# F1 Skoru
f1 = f1_score(y_test, logistic_reg_pred)

# Doğruluk (Accuracy)
accuracy = accuracy_score(y_test, logistic_reg_pred)

# ROC Eğrisi ve AUC
logistic_reg_pred_prob = logistic_reg_model.predict_proba(X_test)[:, 1]
fpr, tpr, thresholds = roc_curve(y_test, logistic_reg_pred_prob)
roc_auc = auc(fpr, tpr)

# Sonuçları yazdırma
print("\nHassasiyet (Precision): {:.4f}".format(precision))
print("Duyarlılık (Recall): {:.4f}".format(recall))
print("F1 Skoru: {:.4f}".format(f1))
print("Doğruluk (Accuracy): {:.4f}".format(accuracy))
print("AUC: {:.4f}".format(roc_auc))

# ROC Eğrisini çizdirme
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend(loc="lower right")
plt.show()


In [None]:
# SORU 4 -> KARAR AĞACI
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_selection import SelectKBest, f_classif

# Veri setini yükleme (veri_seti adında bir DataFrame olduğunu varsayalım)
veri_seti = pd.read_csv('veri_seti.csv')  # Veri setinin dosya yolu doğru olmalıdır

# Bağımsız değişkenler (X) ve bağımlı değişken (y) olarak ayırma
X = veri_seti.drop(columns=['Class variable (0 or 1)'])
y = veri_seti['Class variable (0 or 1)']

# Veriyi eğitim ve test setlerine ayırma
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Karar ağacı modelini oluşturma ve eğitme
decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, y_train)

# Karar ağacı yapısının raporlanması
print("\nKarar Ağacı Yapısı:")
print(decision_tree.tree_)

# Test verisi için tahmin yapma ve performans metriklerinin hesaplanması
y_pred_tree = decision_tree.predict(X_test)
accuracy_tree = accuracy_score(y_test, y_pred_tree)
print("Karar Ağacı Doğruluk Oranı:", accuracy_tree)
print("Karar Ağacı Sınıflandırma Raporu:")
print(classification_report(y_test, y_pred_tree))

# Karar ağacını çizme
plt.figure(figsize=(12, 8))  # Boyutu ayarlama
plt.title('Karar Ağacı')
plot_tree(decision_tree, feature_names=veri_seti.columns[:-1], class_names=veri_seti.columns[-1], filled=True)
plt.show()


# Değişken Seçimi
selector = SelectKBest(score_func=f_classif, k=5)  # k en iyi öznitelik sayısı
X_new = selector.fit_transform(X, y)
print("En iyi 5 öznitelik:", X.columns[selector.get_support()])

# Budanmış karar ağacını oluşturma ve eğitme
pruned_decision_tree = DecisionTreeClassifier(ccp_alpha=0.01)  # ccp_alpha değeri isteğe bağlı olarak ayarlanabilir
pruned_decision_tree.fit(X_train, y_train)

# Budanmış karar ağacını görselleştirme
plt.figure(figsize=(12, 8))
plt.title('Karar Ağacı - Budanmış')
plot_tree(pruned_decision_tree, feature_names=veri_seti.columns[:-1], class_names=veri_seti.columns[-1], filled=True)
plt.show()

# Karışıklık matrisini elde etme
cm = confusion_matrix(y_test, y_pred_tree)

# Karışıklık matrisini görselleştirme
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, cmap='Blues', fmt='g', xticklabels=decision_tree.classes_, yticklabels=decision_tree.classes_)
plt.xlabel('Tahmin Edilen Sınıf')
plt.ylabel('Gerçek Sınıf')
plt.title('Karar Ağacı Karışıklık Matrisi')
plt.show()



In [None]:
# SORU 5 -> NAIVE BAYES
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_curve, auc, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt
import seaborn as sns

# Naive Bayes sınıflandırıcısını tanımlama ve eğitme
nb_classifier = GaussianNB()
nb_classifier.fit(X_train, y_train)

# Test seti üzerinde tahmin yapma
y_pred = nb_classifier.predict(X_test)

# Confusion Matrix
conf_matrix_nb = confusion_matrix(y_test, y_pred)

# Accuracy
accuracy_nb = accuracy_score(y_test, y_pred)

# Sensitivity ve Specificity
tn_nb, fp_nb, fn_nb, tp_nb = conf_matrix_nb.ravel()
sensitivity_nb = tp_nb / (tp_nb + fn_nb)
specificity_nb = tn_nb / (tn_nb + fp_nb)

# F1 Score
f1_score_nb = f1_score(y_test, y_pred)

# ROC Curve
fpr_nb, tpr_nb, thresholds_nb = roc_curve(y_test, nb_classifier.predict_proba(X_test)[:, 1])
roc_auc_nb = auc(fpr_nb, tpr_nb)

# Görselleştirmeler
plt.figure(figsize=(16, 6))

# Confusion Matrix Görselleştirme
plt.subplot(1, 2, 1)
sns.heatmap(conf_matrix_nb, annot=True, fmt='d', cmap='Blues', cbar=False)
plt.title('Confusion Matrix - Naive Bayes')
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')

# ROC Curve Görselleştirme
plt.subplot(1, 2, 2)
plt.plot(fpr_nb, tpr_nb, color='blue', lw=2, label='ROC curve (area = %0.2f)' % roc_auc_nb)
plt.plot([0, 1], [0, 1], color='red', linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve - Naive Bayes')
plt.legend(loc="lower right")

plt.tight_layout()
plt.show()

# Metriklerin Yazdırılması
print("Naive Bayes Doğruluk Oranı:", accuracy_nb)
print("Naive Bayes Hassasiyet (Sensitivity):", sensitivity_nb)
print("Naive Bayes Özgünlük (Specificity):", specificity_nb)
print("Naive Bayes F1 Skoru:", f1_score_nb)
print("\nNaive Bayes Sınıflandırma Raporu:\n", classification_report(y_test, y_pred))
print("Naive Bayes Karışıklık Matrisi:\n", conf_matrix_nb)

# Diğer Metriklerin Yazdırılması
print("Positive:", metrics['Positive'])
print("Negative:", metrics['Negative'])
print("True Positive:", metrics['True Positive'])
print("False Positive:", metrics['False Positive'])
print("True Negative:", metrics['True Negative'])
print("False Negative:", metrics['False Negative'])
print("Sensitivity:", metrics['Sensitivity'])
print("Specificity:", metrics['Specificity'])
print("Accuracy:", metrics['Accuracy'])
print("Recall:", metrics['Recall'])
print("Precision:", metrics['Precision'])
print("ROC AUC:", metrics['ROC AUC'])

# Metriklerin Görselleştirilmesi
metrics = {
    'Positive': len(y_test[y_test == 1]),
    'Negative': len(y_test[y_test == 0]),
    'True Positive': tp_nb,
    'False Positive': fp_nb,
    'True Negative': tn_nb,
    'False Negative': fn_nb,
    'Sensitivity': sensitivity_nb,
    'Specificity': specificity_nb,
    'Accuracy': accuracy_nb,
    'Recall': sensitivity_nb,
    'Precision': precision_score(y_test, y_pred),
    'ROC AUC': roc_auc_nb
}

metric_df = pd.DataFrame(list(metrics.items()), columns=['Metric', 'Value'])

plt.figure(figsize=(10, 6))
sns.barplot(x='Value', y='Metric', data=metric_df, palette='viridis', hue='Metric', legend=False)
plt.title('Naive Bayes Performans Metrikleri')
plt.xlabel('Değer')
plt.ylabel('Metrik')
plt.show()