# <font color=#025dfa> Kredi Puanı Sınıflandırması - Credit Score Classification

TR = Her yorum satırı kendisini üstündeki koda aittir. İlk olarak Türkçe, son olarak İngilizce yazıldı.

EN = Each comment line belongs to the code above it. It was first written in Turkish and lastly in English.

TR = Bu çalışmada, bankaların ve kredi kartı şirketlerinin müşterilerine verdikleri krediyi geri ödeyip ödemeyeceklerini müşteri bilgilerine bakarak tahmin eden bir model oluşturulacaktır.

EN = In this study, we will create a model that estimates whether banks and credit card companies will repay the loan they give to their customers by looking at customer information.

Kaynak/Source = https://thecleverprogrammer.com/2022/12/05/credit-score-classification-with-machine-learning/

In [1]:
pip install pycaret

Collecting pycaret
  Downloading pycaret-3.3.2-py3-none-any.whl.metadata (17 kB)
Collecting scipy<=1.11.4,>=1.6.1 (from pycaret)
  Downloading scipy-1.11.4-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.4/60.4 kB[0m [31m772.5 kB/s[0m eta [36m0:00:00[0m
[?25hCollecting joblib<1.4,>=1.2.0 (from pycaret)
  Downloading joblib-1.3.2-py3-none-any.whl.metadata (5.4 kB)
Collecting scikit-learn>1.4.0 (from pycaret)
  Downloading scikit_learn-1.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting pyod>=1.1.3 (from pycaret)
  Downloading pyod-2.0.1.tar.gz (163 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m163.8/163.8 kB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting imbalanced-learn>=0.12.0 (from pycaret)
  Downloading imbalanced_learn-0.12.3-py3-none-any.whl.metadata (8.3

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import nltk
import warnings
warnings.filterwarnings('ignore')

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout, BatchNormalization
from sklearn.preprocessing import normalize, scale
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from pycaret.classification import*

ModuleNotFoundError: No module named 'pycaret'

In [None]:
pd.set_option("display.max_columns",None)
# TR = En fazla kaç sütun olduğunu gösteriyor.
# EN = It shows the maximum number of columns.

In [None]:
df=pd.read_csv('Credit.csv')

In [None]:
df.head()

In [None]:
plt.figure(figsize=(20,20))
sns.heatmap(df.corr(numeric_only=True),annot=True,cmap='Blues');

In [None]:
setup(df,target='Credit_Score')

In [None]:
best_model=compare_models()

In [None]:
best_model=create_model('lr')

In [None]:
plot_model(best_model,plot='feature')

## <font color='#0F52BA'> Öznitelik Mühendisliği - Feature Engineering

### <font color=#007fff> Model - Modelling

In [None]:
x=df.drop('Credit_Score',axis=1)
y=df[['Credit_Score']]

In [None]:
x=pd.get_dummies(x,drop_first=True)
# Tr =  kategorik değişkenlerin sayısal değişkenlere dönüştürülmesi için kullanılır.
# En = It is used to convert categorical variables into numerical variables.

In [None]:
x=scale(x)

In [None]:
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=.20,random_state=42)
# TR = modelimizi eğittik.
# EN = We trained our model.

In [None]:
model=Sequential()
model.add(Dense(240,activation='relu'))
# TR = Bu katman, tüm giriş nöronlarına bağlantı kurar ve her nöronun ağırlıklarını öğrenir. 240 nöron var.
# Aktivasyon fonksiyonunu ReLU (Rectified Linear Unit) olarak ayarlar. ReLU fonksiyonu, negatif değerleri sıfıra dönüştürür ve pozitif değerleri olduğu gibi bırakır.
# EN = This layer connects all input neurons and learns the weights of each neuron. There are 240 neurons.
# Sets the activation function to ReLU (Rectified Linear Unit). The ReLU function converts negative values ​​to zero and leaves positive values ​​as is.

model.add(BatchNormalization())
# TR = Bu katman, modelin eğitim sürecini daha stabil hale getirmek için kullanılır.
# EN = This layer is used to make the training process of the model more stable.

model.add(MaxPooling2D(pool_size=(2, 2)))
# TR = Bu katman, giriş verisinin belirli bir bölgesindeki (pool size) maksimum değeri seçerek, özellik haritalarının boyutlarını küçültür.
# Havuzlama penceresinin boyutunu belirtir. 2x2 boyutunda bir pencere kullanılır.
# EN = This layer reduces the size of the feature maps by selecting the maximum value in a specific region (pool size) of the input data.
# It specifies the size of the pooling window. A 2x2 window is used.

model.add(Dense(120,activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Dense(64,activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Dense(24,activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Dense(12,activation='relu'))
model.add(BatchNormalization())
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
# TR = Derin öğrenme modelindeki çok boyutlu (2D, 3D vb.) verileri tek boyutlu bir vektöre dönüştürür.
# EN = It converts multidimensional (2D, 3D, etc.) data in the deep learning model into a one-dimensional vector.

model.add(Dense(2,activation='relu'))
model.add(Dropout(0.5))
# TR = Derin öğrenme modelinde aşırı uyumu (overfitting) azaltmak için kullanılır.
# EN = It is used to reduce overfitting in the deep learning model.

model.add(Dense(1,activation='sigmoid'))
# TR = Sigmoid aktivasyon fonksiyonu, her bir nöronun çıkışını 0 ile 1 arasında bir değere dönüştürür.
# Bu, özellikle ikili sınıflandırma problemlerinde her iki sınıfa ait olasılıkları tahmin etmek için uygundur.
# EN = The sigmoid activation function transforms the output of each neuron into a value between 0 and 1.
# This is particularly suitable for estimating probabilities of belonging to both classes in binary classification problems.

# TR = activation='sigmoid' iki sınıftan birine ait olup olmadığını tahmin etmek için kullanılır. Örneğin, bir e-postanın spam olup olmadığını sınıflandırmak.
# EN = activation='sigmoid' is used to predict whether an email belongs to one of two classes. For example, to classify whether an email is spam or not.

model.compile(loss='binary_crossentropy',optimizer='adam',metrics=['accuracy'])
# TR = loss='binary_crossentropy': İkili sınıflandırma problemleri için uygun bir kayıp fonksiyonudur. İki sınıf arasında ayrım yapmaya çalışırken modelin tahminlerinin ne kadar iyi olduğunu ölçer.
# EN = loss='binary_crossentropy': A loss function suitable for binary classification problems. It measures how well the model's predictions are when trying to distinguish between two classes.

# TR = optimizer='adam': Adam (Adaptive Moment Estimation) optimizasyon algoritması, modelin ağırlıklarını güncellerken kullanılan bir yöntemdir.
# EN = optimizer='adam': Adam (Adaptive Moment Estimation) optimization algorithm is a method used when updating the weights of the model.

# TR = metrics=['accuracy']: Modelin performansını değerlendirmek için kullanılan bir ölçümdür. Doğru sınıflandırılan örneklerin toplam örneklere oranını hesaplar.
# EN = metrics=['accuracy']: A metric used to evaluate the performance of the model. It calculates the ratio of correctly classified examples to total examples.

In [None]:
history=model.fit(x,y,epochs=250,batch_size=32, validation_split=.20,verbose=1)
#epochs=Eğitim verilerinin tamamının modele aktarıldığı ve ardından modelin güncellenmesi işleminin bir kez gerçekleştirildiği bir döngü olarak tanımlanabilir.
#batch_size=Bir şeferde kaç tane satır alacağını ve hesaplayacağını şöylüyor
#validation_split=train_test_split gibi
#verbose=Modelin eğitimi sırasında konsola (veya diğer çıktı cihazlarına) yazdırılan bilgi miktarını kontrol eder.

In [None]:
model.summary()

In [None]:
test_loss, test_acc = model.evaluate(x_test, y_test)
# TR = test_loss değişkeni, test verileri üzerinde hesaplanan kayıp değerini içerir. test_acc değişkeni, test verileri üzerinde hesaplanan doğruluk değerini içerir.
# EN = The test_loss variable contains the loss value calculated on the test data. The test_acc variable contains the accuracy value calculated on the test data.

print(f"Test doğruluğu: {test_acc:.4f}")

In [None]:
pred=model.predict(x_test)
# TR = modeli x_test ile predict özelliği ile tahmin ettik. predict=tahmin demek. Dahmin edip pred eşitledik.
# EN = We predicted the model with x_test and the predict feature. predict=means prediction. We guessed and equalized the pred.

In [None]:
accuracy_score(y_test, pred)
# TR = accuracy_score fonksiyonu ile y_test, pred kullanarak sonucumuzu bulduk.
# EN = We found our result using the accuracy_score function and y_test, pred.

In [None]:
confusion_matrix(y_test, pred)
# TR = confusion_matrix fonksiyonu ile y_test, pred kullanarak ne kadarını yanlış tahmin ettiğimizi buluyoruz
# EN = Using the confusion_matrix function and y_test, pred, we find out how much we guessed wrong.

# TR = 4 sayı değeri veriyor bize. Sol üst ve sağ alt doğru tahmin, sağ üst ve sol alt yanlış tahmin.
# EN = It gives us 4 number values. Upper left and lower right are correct guesses, upper right and lower left are incorrect guesses.

In [None]:
sns.heatmap(confusion_matrix(y_test, pred),annot=True);
# TR = Yukarıdakinin görsel versiyonu.
# EN = Visual version of the above.

In [None]:
print(classification_report(y_test, pred))
# TR = print içinde yazdık yoksa sayıların sıralanması bozuluyor.
# EN = We wrote it in print, otherwise the order of the numbers will be disrupted.

# TR = classification_report ile y_test, pred kullanarak precision, recall, f1-score ve support ulaştık.
# EN = We achieved precision, recall, f1-score and support using classification_report and y_test, pred.

# TR = Precision (Kesinlik): Doğru olarak pozitif tahmin edilen örneklerin, toplam pozitif tahmin edilen örnekler içindeki oranını gösterir. Yani, modelin pozitif sınıfı ne kadar doğru tahmin ettiğini ölçer.
# EN = Precision (Precision): It shows the ratio of correctly predicted positive samples among the total positive predicted samples. That is, it measures how accurately the model predicts the positive class.

# TR = Recall (Duyarlılık): Gerçek pozitif örneklerin, toplam pozitif örnekler içindeki oranını gösterir. Modelin pozitif sınıfı ne kadar iyi bulduğunu ölçer.
# EN = Recall (Sensitivity): Shows the ratio of true positive samples in total positive samples. It measures how well the model finds the positive class.

# TR = F1-score: Precision ve recall'un harmonik ortalamasıdır. Hem precision hem de recall'u dikkate alarak modelin genel performansını özetler.
# EN = F1-score: It is the harmonic mean of precision and recall. It summarizes the overall performance of the model, taking into account both precision and recall.

# TR = Support: Her sınıftan kaç örneğin bulunduğunu gösterir. Yani, gerçek etiketlerde her bir sınıfa ait kaç örnek olduğunu ifade eder.
# EN = Support: Shows how many examples of each class are available. That is, it expresses how many examples of each class there are in the real labels.

In [None]:
plt.plot(history.history['accuracy'],label='Accuracy')
plt.plot(history.history['val_accuracy'],label='Val_Accuracy')
plt.legend();