In [69]:
import os  # Dosya ve dizin işlemleri yapmak için kullanılır.
import pandas as pd  # Veri işleme ve analiz için kullanılır. Pandas DataFrame'leri özellikle tablo formatındaki verilerle çalışmak için çok güçlüdür.
import numpy as np  # Sayısal işlemler ve büyük boyutlu veri kümeleri üzerinde matematiksel işlemler yapmak için kullanılır.
import matplotlib.pyplot as plt  # Veri görselleştirme için kullanılan bir kütüphane.
import seaborn as sns  # Daha gelişmiş ve estetik veri görselleştirme sağlayan bir kütüphane (Matplotlib ile birlikte çalışır).
import random  # Rastgele sayı üretmek veya rastgele seçimler yapmak için kullanılır.

from sklearn.metrics import (
    mean_squared_error,  # Ortalama karesel hata hesaplamak için .
    confusion_matrix,  # Sınıflandırma sonuçlarını gösteren bir hata matrisi oluşturur.
    f1_score,  # F1 skorunu hesaplar (kesinlik ve duyarlılığın harmonik ortalaması).
    recall_score,  # Duyarlılığı (recall) hesaplar: Gerçek pozitiflerin oranı.
    precision_score,  # Kesinliği (precision) hesaplar: Pozitif tahminlerin doğruluk oranı.
    mean_absolute_error,  # Ortalama mutlak hata hesaplar (regresyon problemleri için).
    r2_score,  # R-kare skorunu hesaplar (regresyon modelinin başarısını ölçmek için).
    classification_report,  # Sınıflandırma sonuçlarının özet raporunu üretir.
    accuracy_score,  # Modelin doğruluk oranını hesaplar (doğru tahminlerin oranı).
    hamming_loss,  # Hamming kaybını hesaplar (yanlış tahmin edilen örneklerin oranı).
    zero_one_loss,  # Hata oranını hesaplar (yanlış tahmin edilen örneklerin sayısı).
    matthews_corrcoef  # Matthews korelasyon katsayısını hesaplar (dengeli sınıflandırma performansı ölçer).
)
from sklearn.preprocessing import (
    MinMaxScaler,  # Verileri min-max ölçeklendirme yöntemiyle yeniden ölçekler (örneğin 0-1 aralığına getirir).
    StandardScaler  # Verileri standartlaştırır (ortalama 0, standart sapma 1 olacak şekilde yeniden ölçekler).
)
from sklearn.ensemble import RandomForestClassifier  # Rastgele orman algoritmasını kullanan bir sınıflandırma modeli.
from sklearn.svm import SVC  # Destek vektör makineleri (SVM) sınıflandırma algoritması.
from sklearn.model_selection import train_test_split  # Veri setini eğitim ve test kısımlarına böler.


In [71]:
df = pd.read_csv('credit-g.csv') #okuma işlemi

In [73]:
df.head() #ilk 5 satırı görüntüle

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,critical/other existing credit,radio/tv,1169,no known savings,>=7,4,male single,none,...,real estate,67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,existing paid,radio/tv,5951,<100,1<=X<4,2,female div/dep/mar,none,...,real estate,22,none,own,1,skilled,1,none,yes,bad
2,no checking,12,critical/other existing credit,education,2096,<100,4<=X<7,2,male single,none,...,real estate,49,none,own,1,unskilled resident,2,none,yes,good
3,<0,42,existing paid,furniture/equipment,7882,<100,4<=X<7,2,male single,guarantor,...,life insurance,45,none,for free,1,skilled,2,none,yes,good
4,<0,24,delayed previously,new car,4870,<100,1<=X<4,3,male single,none,...,no known property,53,none,for free,2,skilled,2,none,yes,bad


In [75]:
df.info() # DataFrame hakkında genel bilgi verir: sütun isimleri, veri tipleri, dolu olan değerlerin sayısı ve hafıza kullanımı.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   checking_status         1000 non-null   object
 1   duration                1000 non-null   int64 
 2   credit_history          1000 non-null   object
 3   purpose                 1000 non-null   object
 4   credit_amount           1000 non-null   int64 
 5   savings_status          1000 non-null   object
 6   employment              1000 non-null   object
 7   installment_commitment  1000 non-null   int64 
 8   personal_status         1000 non-null   object
 9   other_parties           1000 non-null   object
 10  residence_since         1000 non-null   int64 
 11  property_magnitude      1000 non-null   object
 12  age                     1000 non-null   int64 
 13  other_payment_plans     1000 non-null   object
 14  housing                 1000 non-null   object
 15  exist

In [77]:
df.describe().T  # DataFrame'in sayısal sütunları için özet istatistikleri verir (ortalama, standart sapma, minimum, maksimum vb.) ve ardından transpoze ederek (T) sütunları satır, satırları sütun yapar.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
duration,1000.0,20.903,12.058814,4.0,12.0,18.0,24.0,72.0
credit_amount,1000.0,3271.258,2822.736876,250.0,1365.5,2319.5,3972.25,18424.0
installment_commitment,1000.0,2.973,1.118715,1.0,2.0,3.0,4.0,4.0
residence_since,1000.0,2.845,1.103718,1.0,2.0,3.0,4.0,4.0
age,1000.0,35.546,11.375469,19.0,27.0,33.0,42.0,75.0
existing_credits,1000.0,1.407,0.577654,1.0,1.0,1.0,2.0,4.0
num_dependents,1000.0,1.155,0.362086,1.0,1.0,1.0,1.0,2.0


In [79]:
df.isnull().sum()  # DataFrame'deki her sütundaki eksik (NaN) değerlerin toplamını hesaplar ve gösterir.

checking_status           0
duration                  0
credit_history            0
purpose                   0
credit_amount             0
savings_status            0
employment                0
installment_commitment    0
personal_status           0
other_parties             0
residence_since           0
property_magnitude        0
age                       0
other_payment_plans       0
housing                   0
existing_credits          0
job                       0
num_dependents            0
own_telephone             0
foreign_worker            0
class                     0
dtype: int64

In [81]:
dosyaAdi = 'credit-g.csv' #işlenecek dosya adı
veri = pd.read_csv(dosyaAdi)#dataframe yükle okunan dosyayı

kategorik_sutunlar = veri.select_dtypes(include=['object']) # Veri tipleri 'object' (metin) olan sütunları seçer.
veri[kategorik_sutunlar.columns] = veri[kategorik_sutunlar.columns].apply(lambda x: pd.factorize(x)[0])# Kategorik sütunları sayısal değerlere dönüştürmek için:
 # Her kategorik sütunu sayısal değerlere (0, 1, 2, ...) dönüştürür.

# Yeni dosyanın kaydedileceği konumu ve adını belirlemek için:
yeni_dosya_adresi = os.path.join(os.path.dirname(dosyaAdi), 'num-credit-g.txt')

# Yeni dosyayı oluştur
veri.to_csv(yeni_dosya_adresi, index=False)

In [83]:
#Veri seti, `%67 eğitim ve %33 test oranında rastgele bölünür
def Egitim2Test1Parcala(dosyaAdi):
    # 1. Dosyayı okuma modunda aç
  f=open(dosyaAdi,"r")
    # 2. Dosyanın tüm satırlarını liste olarak oku
  satirlar=f.readlines()
    #ilk satırı başlık yap
  basliklar=satirlar[0]
    #ilk satırı dahil etme verileri al
  satirlar=satirlar[1:len(satirlar)]
    #rastgele sırala
  random.shuffle(satirlar)
     # 6. Satırların 2/3'ünü eğitim verisi, geri kalanını test verisi olarak ayır
  egitimVerisi=satirlar[0:int(len(satirlar)*2/3)]
  testVerisi=satirlar[int(len(satirlar)*2/3):len(satirlar)]

    #uzantıyı kaldır
  dosyaAdi=os.path.basename(dosyaAdi)
  dosyaAdi=os.path.splitext(dosyaAdi)[0]
    #eğitim data yeni dosyaya yaz
  f=open(dosyaAdi+"_EgitimVerisi.txt","w")
  f.write(basliklar)
  for satir in egitimVerisi:
    f.write(satir)
  f.close()
    #test datayı yeni dosyaya yaz
  f=open(dosyaAdi+"_TestVerisi.txt","w")
  f.write(basliklar)
  for satir in testVerisi:
    f.write(satir)
  f.close()

Egitim2Test1Parcala("num-credit-g.txt")

In [85]:
def RandomForesttahminEt(egitimVerisetiDosyaAdi,testVerisetiDosyaAdi):
  verisetiEgitim=pd.read_csv(egitimVerisetiDosyaAdi)
  verisetiTest=pd.read_csv(testVerisetiDosyaAdi)
  
# 2. Tahmin (çıktı) sütununun adını belirle (son sütun hedef değişkenidir)
  tahminSutunu=verisetiEgitim.columns[len(verisetiEgitim.columns)-1]
# 3. Eğitim veri setinden çıktı (hedef) sütununu ayır  
  ciktiVerisetiEgitim=verisetiEgitim[tahminSutunu]
  verisetiEgitim.drop(labels=[tahminSutunu],axis=1,inplace=True)
# 4. Test veri setinden çıktı (hedef) sütununu ayır  
  ciktiVerisetiTest=verisetiTest[tahminSutunu]
  verisetiTest.drop(labels=[tahminSutunu],axis=1,inplace=True)

# 5. Hedef değerleri numpy array'e dönüştür
  ciktiVerisetiTest=ciktiVerisetiTest.values
  print(verisetiTest.shape)
 # 6. Giriş verilerini numpy array'e dönüştür
  verisetiTest=verisetiTest.values
  print(verisetiEgitim.shape)

  verisetiEgitim=verisetiEgitim.values
  ciktiVerisetiEgitim=ciktiVerisetiEgitim.values
    
# 7. Random Forest modelini oluştur ve eğit
  classifier=RandomForestClassifier()
  classifier=classifier.fit(verisetiEgitim,ciktiVerisetiEgitim)
 # 8. Test veri seti üzerinde tahminler yap
  pre=classifier.predict(verisetiTest)
    
# 9. Performans ölçütlerini hesapla:
  cm=confusion_matrix(ciktiVerisetiTest,pre)
  accuracyScore=accuracy_score(ciktiVerisetiTest,pre)

  f1Macro=f1_score(ciktiVerisetiTest,pre,average='macro')
  f1Micro=f1_score(ciktiVerisetiTest,pre,average='micro')

  precisionScore=precision_score(ciktiVerisetiTest,pre,average='macro')
  recalscore=recall_score(ciktiVerisetiTest,pre,average='macro')
    
  hammingLoss=hamming_loss(ciktiVerisetiTest,pre)
  classificatonReport= classification_report(ciktiVerisetiTest,pre)
  zeroOneLoss= zero_one_loss(ciktiVerisetiTest,pre)
  matthewsCorrcoef=matthews_corrcoef(ciktiVerisetiTest,pre)

  cm = confusion_matrix(ciktiVerisetiTest, pre)
  accuracy = accuracy_score(ciktiVerisetiTest, pre)
  f1_macro = f1_score(ciktiVerisetiTest, pre, average='macro')
  f1_micro = f1_score(ciktiVerisetiTest, pre, average='micro')
  precision = precision_score(ciktiVerisetiTest, pre, average='macro')
  recall = recall_score(ciktiVerisetiTest, pre, average='macro')

  print('Accuracy Score: ', accuracy)
  print('Confusion Matrix: \n', cm)
  print('F1 Macro: ', f1_macro)
  print('F1 Micro: ', f1_micro)
  print('Precision Score: ', precision)
  print('Recall Score: ', recall)

  return [cm, accuracy]
# 12. Fonksiyonu eğitim ve test dosyası ile çağır
RandomForesttahminEt("num-credit-g_EgitimVerisi.txt","num-credit-g_TestVerisi.txt")

(334, 20)
(666, 20)
Accuracy Score:  0.7514970059880239
Confusion Matrix: 
 [[220  14]
 [ 69  31]]
F1 Macro:  0.6344431990505703
F1 Micro:  0.7514970059880239
Precision Score:  0.7250672818146866
Recall Score:  0.6250854700854701


[array([[220,  14],
        [ 69,  31]], dtype=int64),
 0.7514970059880239]

In [92]:
def svm_tahmin_et(egitimVerisetiDosyaAdi, testVerisetiDosyaAdi):
    verisetiEgitim = pd.read_csv(egitimVerisetiDosyaAdi)
    verisetiTest = pd.read_csv(testVerisetiDosyaAdi)

    tahminSutunu = verisetiEgitim.columns[-1]

    ciktiVerisetiEgitim = verisetiEgitim[tahminSutunu]
    verisetiEgitim.drop(labels=[tahminSutunu], axis=1, inplace=True)
    
    ciktiVerisetiTest = verisetiTest[tahminSutunu]
    verisetiTest.drop(labels=[tahminSutunu], axis=1, inplace=True)

    # 5. Verileri NumPy dizilerine dönüştür (SVC modeli ile uyumlu format)
    ciktiVerisetiTest = ciktiVerisetiTest.values
    verisetiTest = verisetiTest.values
    verisetiEgitim = verisetiEgitim.values
    ciktiVerisetiEgitim = ciktiVerisetiEgitim.values

    # SVM sınıflandırıcı modeli oluşturma
    classifier = SVC()
    classifier.fit(verisetiEgitim, ciktiVerisetiEgitim)
    predictions = classifier.predict(verisetiTest)

    # Sonuçları değerlendirme
    cm = confusion_matrix(ciktiVerisetiTest, predictions)
    accuracy = accuracy_score(ciktiVerisetiTest, predictions)
    f1_macro = f1_score(ciktiVerisetiTest, predictions, average='macro')
    f1_micro = f1_score(ciktiVerisetiTest, predictions, average='micro')
    precision = precision_score(ciktiVerisetiTest, predictions, average='macro')
    recall = recall_score(ciktiVerisetiTest, predictions, average='macro')

    print('Accuracy Score: ', accuracy)#doğruluk
    print('Confusion Matrix: \n', cm)#sınıflandırma karşamlıklık performansı matrisi
    print('F1 Macro: ', f1_macro)#kesinlilik ve duyarlılık harmonik ortalaması
    print('F1 Micro: ', f1_micro)
    print('Precision Score: ', precision)#pozitif sınıfın doğruluk oranı ölçeler
    print('Recall Score: ', recall)#Gerçek pozitif sınıfı doğru tahmin etme oranını ölçer.

    return [cm, accuracy]

svm_tahmin_et("num-credit-g_EgitimVerisi.txt", "num-credit-g_TestVerisi.txt")

Accuracy Score:  0.7245508982035929
Confusion Matrix: 
 [[231   3]
 [ 89  11]]
F1 Macro:  0.5134587370954462
F1 Micro:  0.7245508982035929
Precision Score:  0.7537946428571429
Recall Score:  0.5485897435897437


[array([[231,   3],
        [ 89,  11]], dtype=int64),
 0.7245508982035929]

In [89]:
#Confusion Matrix: Sınıflandırma hatalarını ve doğruları gösterir.
#Accuracy Score: Tahminlerin doğruluk oranını gösterir.
#F1 Macro: Farklı sınıflara göre ortalama F1 skoru (eşit ağırlıklı).
#F1 Micro: Tüm sınıfları beraber değerlendirerek F1 skoru hesaplar.
#Precision: Kesinlik oranını gösterir.
#Recall: Duyarlılık oranını gösterir..