## Ders: Büyük Veri Setleri Üzerinde Veri Madenciliği
## Vize Sınavı Projesi

- Yazar: Süheyl ÇAVUŞOĞLU


Bu proje kapsamında; özellik seçimine bağlı temel boyut indirme yöntemlerinin (Missing Values, Single Unique Values, Collinear Features, Zero Importance Features, Low Importance Features) bir sınıflandırıcı başarısını nasıl etkilediği araştırılacaktır.
Yapılacaklar:
- Sınıflandırma maksadıyla çok boyutlu bir dataset (d>10) bulun.
- Bu dataset üzerinde 2 sınıflandırıcı başarısını elde edin.
- Github reposunda (https://github.com/WillKoehrsen/feature-selector) verilen özellik seçme yaklaşımları ile datasette boyut indirgeme gerçekleyin.
- Yeniden aynı sınıflandırıcıların başarısını test edin.
- Kodları ve raporu edestek5’e yükleyin. Rapor IEEE formatında özet, giriş, yöntem, örnek sonuçlar ve kaynakça bölümünden oluşmalıdır.


Not: Kodlar, benzerlik programından geçirildikten sonra değerlendirilecektir. İçeriğinizin başkası ile birebir aynı veya benzer olması durumunda değerlendirmeye alınmayacaktır. Python haricinde başka bir dilde gerçekleme yapacaklar da aynı adımları işletmelidir.

- Kullanılan Veri Setinin Linki: https://archive.ics.uci.edu/ml/datasets/bank+marketing

#### Attribute Information:

Input variables:
#### bank client data:
- 1 - age (numeric)
- 2 - job : type of job (categorical: 'admin.','blue-collar','entrepreneur','housemaid','management','retired','self-employed','services','student','technician','unemployed','unknown')
- 3 - marital : marital status (categorical: 'divorced','married','single','unknown'; note: 'divorced' means divorced or widowed)
- 4 - education (categorical: 'basic.4y','basic.6y','basic.9y','high.school','illiterate','professional.course','university.degree','unknown')
- 5 - default: has credit in default? (categorical: 'no','yes','unknown')
- 6 - housing: has housing loan? (categorical: 'no','yes','unknown')
- 7 - loan: has personal loan? (categorical: 'no','yes','unknown')
#### related with the last contact of the current campaign:
- 8 - contact: contact communication type (categorical: 'cellular','telephone')
- 9 - month: last contact month of year (categorical: 'jan', 'feb', 'mar', ..., 'nov', 'dec')
- 10 - day_of_week: last contact day of the week (categorical: 'mon','tue','wed','thu','fri')
- 11 - duration: last contact duration, in seconds (numeric). Important note: this attribute highly affects the output target (e.g., if duration=0 then y='no'). Yet, the duration is not known before a call is performed. Also, after the end of the call y is obviously known.Thus, this input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model.
#### other attributes:
- 12 - campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
- 13 - pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
- 14 - previous: number of contacts performed before this campaign and for this client (numeric)
- 15 - poutcome: outcome of the previous marketing campaign (categorical: 'failure','nonexistent','success')
#### social and economic context attributes:
- 16 - emp.var.rate: employment variation rate - quarterly indicator (numeric)
- 17 - cons.price.idx: consumer price index - monthly indicator (numeric)
- 18 - cons.conf.idx: consumer confidence index - monthly indicator (numeric)
- 19 - euribor3m: euribor 3 month rate - daily indicator (numeric)
- 20 - nr.employed: number of employees - quarterly indicator (numeric)

Output variable (desired target):
21 - y - has the client subscribed a term deposit? (binary: 'yes','no')



In [1]:
import pandas as pd # veri setimizi dataframe olarak okuyup üzerinde analizler yapabilmek için pandas'ı kullanacağım.
import numpy as np # veri seti üzerinde yapılacak manipülasyonlar için kullanacağım.
from sklearn.model_selection import train_test_split # modeli eğitirken train-test olarak ayırırken kullanacağım.
from sklearn.metrics import accuracy_score # model başarılarını ölçerken kullanacağım.
from sklearn.linear_model import LogisticRegression # veri seti üzerinde Logistic Regression modeli kurarken kullanacağım.
from sklearn.ensemble import RandomForestClassifier # veri seti üzerinde Random Forest modeli kurarken kullanacağım.
from sklearn.preprocessing import LabelEncoder # veri setindeki kategorik değişkenleri sayısal değişkenlere çevirmek için kullanacağım.

In [2]:
df = pd.read_csv("bank-additional-full.csv", sep = ";") # veri setini okudum.
df.head() # veri setinin ilk 5 satırını gözlemledim.

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,...,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed,y
0,56,housemaid,married,basic.4y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
1,57,services,married,high.school,unknown,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
2,37,services,married,high.school,no,yes,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
3,40,admin.,married,basic.6y,no,no,no,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no
4,56,services,married,high.school,no,no,yes,telephone,may,mon,...,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191.0,no


In [18]:
df.isnull().sum() # veri setindeki eksik değerleri kontrol ettim.

age               0
job               0
marital           0
education         0
default           0
housing           0
loan              0
contact           0
month             0
day_of_week       0
duration          0
campaign          0
pdays             0
previous          0
poutcome          0
emp.var.rate      0
cons.price.idx    0
cons.conf.idx     0
euribor3m         0
nr.employed       0
y                 0
dtype: int64

In [19]:
df.dtypes #kolonların veri tiplerini inceledim.

age                 int64
job                object
marital            object
education          object
default            object
housing            object
loan               object
contact            object
month              object
day_of_week        object
duration            int64
campaign            int64
pdays               int64
previous            int64
poutcome           object
emp.var.rate      float64
cons.price.idx    float64
cons.conf.idx     float64
euribor3m         float64
nr.employed       float64
y                  object
dtype: object

In [24]:
# kolonlarda veri tipi 'object' olanları sayısal değişkenlere çevireceğim. Bunun için öncelikle hangi kolonların object tipinde olduğunu görmek ve bu kolonlardaki her bir unique değeri yazdırmak için aşağıdaki for loop'undan yararlandım.

object_columns_list = df.select_dtypes(include=['object']).columns.tolist()

for i in object_columns_list:
    print("\n'{}' kolonunda yer alan tüm unique değerler:\n\n".format(i), df[i].unique())
    print("-"*100)


'job' kolonunda yer alan tüm unique değerler:

 ['housemaid' 'services' 'admin.' 'blue-collar' 'technician' 'retired'
 'management' 'unemployed' 'self-employed' 'unknown' 'entrepreneur'
 'student']
----------------------------------------------------------------------------------------------------

'marital' kolonunda yer alan tüm unique değerler:

 ['married' 'single' 'divorced' 'unknown']
----------------------------------------------------------------------------------------------------

'education' kolonunda yer alan tüm unique değerler:

 ['basic.4y' 'high.school' 'basic.6y' 'basic.9y' 'professional.course'
 'unknown' 'university.degree' 'illiterate']
----------------------------------------------------------------------------------------------------

'default' kolonunda yer alan tüm unique değerler:

 ['no' 'unknown' 'yes']
----------------------------------------------------------------------------------------------------

'housing' kolonunda yer alan tüm unique değerler:

 ['n

In [3]:
# verileri modelde okuyabilmek için kategorik değişkenleri encode ederek sayısal değişkenler haline getirmem gerekti.
# encoding yöntemlerinden label encoder ve one-hot encoder arasından label encoder'ı seçtim çünkü bazı kolonların nominal olarak değil de ordinal olarak değerlendirilmesi gerektiğini düşünüyorum.
# ayrıca label encoding, one-hot encoding'e göre daha hızlı ve daha az yer kaplamakta.

# veri setindeki ilk object tipindeki kolona örnek olması için label encoder uyguladım. LabelEncoder sınıfı ile 'job' kolonunda yer alan unique değerleri alfabetik olarak sıralayıp 0'dan başlayarak numaralandırdım.
label_encoder_job = LabelEncoder()
df['job'] = label_encoder_job.fit_transform(df['job'])
# numaralandırma yaptıktan sonra da hangi unique değere hangi sayının atandığını aşağıdaki şekilde yazdırdım.
category_mapping = dict(zip(label_encoder_job.classes_, label_encoder_job.transform(label_encoder_job.classes_)))
category_mapping

{'admin.': 0,
 'blue-collar': 1,
 'entrepreneur': 2,
 'housemaid': 3,
 'management': 4,
 'retired': 5,
 'self-employed': 6,
 'services': 7,
 'student': 8,
 'technician': 9,
 'unemployed': 10,
 'unknown': 11}

In [26]:
df.job.unique() # job kolonunda yer alan unique değerler alfabetik sıralanmadığında da şu şekilde görünüyor.

array([ 3,  7,  0,  1,  9,  5,  4, 10,  6, 11,  2,  8])

In [3]:
# job kolonundaki encode işleminde bir sorun olmadığını gördükten sonra 'object' tipindeki tüm kolonlara da label encoding uyguladım.
label_encoder = LabelEncoder()
object_columns = df.select_dtypes(include=["object"]).columns
df[object_columns] = df[object_columns].apply(label_encoder.fit_transform)

In [4]:
# veri setindeki tüm kolonlar modele uygun duruma getirildi. Şimdi bağımsız (features --> X) değişkenler ile  bağımlı değişkeni (y) ayıracağım.
X = df.drop("y", axis=1)
y = df["y"]
 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # bağımsız değişkenler ile bağımlı değişkeni, train - test olarak ayırdım. 
#Veri setinin %80' ini eğitim seti olarak %20' sini de test olarak ayırdım.

In [16]:
# veri setini train - test olarak da ayırdıktan sonra artık bir sınıflandırma modeli kurabiliriz. İlk modeli Lojistik Regresyon olarak belirledim.

log_reg = LogisticRegression(max_iter=320)  # maks iterasyonu 320'den büyük yaptığımda model başarısı düşmeye başladığı için 320'de bıraktım.
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)
accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)

print("Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg)

Logistic Regression Başarısı (Accuracy):  0.9115076474872542


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [18]:
# ödevde 2 tane farklı sınıflandırıcı modeli kurulması istendiği için şimdi 2. modeli kurabiliriz. İkinci model olarak da Random Forest algoritmasını belirledim.

rand_for = RandomForestClassifier()
rand_for.fit(X_train, y_train)
y_pred_rand_for = rand_for.predict(X_test)
accuracy_rand_for = accuracy_score(y_test, y_pred_rand_for)
print("Random Forest Accuracy: ", accuracy_rand_for)

Random Forest Accuracy:  0.91442097596504


Lojistik regresyon ile yaptığım denemede model başarısını %91.15, random forest ile de %91.44 buldum. Şimdi boyut azaltma yöntemlerinden, Low Importance Features yöntemini uygulayarak model başarısını kontrol edeceğim ve bu yöntemin model başarısı üzerindeki etkisini gözlemleyeceğim.

## Low Importance Features

In [6]:
import lightgbm as lgb # lightgbm kütüphanesi içerisinde feature importance'ı belirleyebileceğimiz fonksiyonlar mevcut dolayısıyla bunları kullanabiliriz.

model = lgb.LGBMClassifier() # LGBMClassifier sınıfını çağırdım.
model.fit(X_train, y_train) # bağımsız değişkenlerimin ve bağımlı değişkenimin train olarak ayırdığım kısmını LGBMClassifier ile fit ettim.

feature_importances = model.feature_importances_ # fit işlemi sonrasında model kurmuş oldum ve bu model sayesinde de bağımsız değişkenlerimin ne kadar önemli olduğunu saptayabildim.

In [7]:
importance_threshold = np.percentile(feature_importances, 25)  # model için önemli olan bağımsız değişkenler (kolonlar) için bir sınır değeri (yüzde 25) belirledim.
# Bu sınır değerden yüksek önem değerine sahip olan kolonları seçip modelde kullanacağım ve sonra da model başarısına nasıl yansıdığını gözlemleyeceğim.

selected_features = X.columns[feature_importances > importance_threshold] # belirlediğim sınır değerden yüksek olan kolonları seçtim.
X_train_reduced = X_train[selected_features] # düşük öneme sahip kolonları çıkarttıktan sonraki bağımsız değişken train seti
X_test_reduced = X_test[selected_features] # düşük öneme sahip kolonları çıkarttıktan sonraki bağımsız değişken test seti

In [8]:
removed_features = X.columns[feature_importances <= importance_threshold]  # çıkarılan kolonların hangileri olduğunu kontrol ettim.
print("Low Importance Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır: ", removed_features)

Low Importance Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır:  Index(['default', 'loan', 'contact', 'poutcome', 'nr.employed'], dtype='object')


In [34]:
log_reg_reduced = LogisticRegression(max_iter=320) # low importance features ile boyut azaltma işleminden sonra lojistik regresyon modelini tekrar kurdum (maks iterasyon sayısını ilk model ile aynı aldım).
log_reg_reduced.fit(X_train_reduced, y_train)
y_pred_log_reg_reduced = log_reg_reduced.predict(X_test_reduced)
accuracy_log_reg_reduced = accuracy_score(y_test, y_pred_log_reg_reduced)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("Low Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg)
print("Low Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg_reduced)

Low Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Logistic Regression Başarısı (Accuracy):  0.9115076474872542
Low Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Logistic Regression Başarısı (Accuracy):  0.9084729303228939


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [35]:
rand_for_reduced = RandomForestClassifier() # low importance features ile boyut azaltma işleminden sonra random forest modelini tekrar kurdum.
rand_for_reduced.fit(X_train_reduced, y_train)
y_pred_rand_for_reduced = rand_for_reduced.predict(X_test_reduced)
accuracy_rand_for_reduced = accuracy_score(y_test, y_pred_rand_for_reduced)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("Low Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Random Forest Başarısı (Accuracy): ", accuracy_rand_for)
print("Low Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Random Forest Başarısı (Accuracy): ", accuracy_rand_for_reduced)

Low Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Random Forest Başarısı (Accuracy):  0.91442097596504
Low Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Random Forest Başarısı (Accuracy):  0.9153920854576354


Low Importance Features boyut azaltma yöntemini uyguladıktan sonra Lojistik Regresyon'da model başarısının bir miktar azaldığını, Random Forest'da başarının bir miktar arttığını gördüm.

Şimdi de farklı bir boyut azaltma yöntemi olan Zero Importance Features yöntemini deneyip model başarılarını kontrol edeceğim. Bu yöntemde, bir modelin eğitimi sırasında herhangi bir özellik önemine sahip olmayan özellikler veri kümesinden çıkarılır. Bu özelliklerin çıkarılması, modelin karmaşıklığını azaltmaya ve performansını iyileştirmeye yardımcı olabilir.

## Zero Importance Values

In [36]:
# Low importance values yönteminde olduğu gibi Zero Importance Values yönteminde de lightgbm kütüphanesinden faydalanabiliriz.
# lightgbm kütüphanesini kullanarak LGBMClassifier sınıfını çağırdım ve modeli fit ettim.
model_zero = lgb.LGBMClassifier()
model_zero.fit(X_train, y_train)

feature_importances = model_zero.feature_importances_ # veri setimdeki kolonların önemini belirledim.

zero_importance_features_indices = np.where(feature_importances == 0)[0] 
zero_importance_features = X.columns[zero_importance_features_indices]
# önem değeri 0 olan yani önemsiz olarak seçilebilecek kolonları seçtim.

X_zero_importance_reduced = X.drop(zero_importance_features, axis=1) # önemsiz kolonları orijinal veri setimden çıkardım.

X_train_zero_importance, X_test_zero_importance, y_train_zero_importance, y_test_zero_importance = train_test_split(X_zero_importance_reduced, y, test_size=0.2, random_state=42) 
# hazırladığım veri setinde modelleri kurmak için train - test ayrımı yaptım.

In [37]:
# veri setimin son hali ile lojistij regresyon modeli kurdum ve maksimum iterasyonu yine orijinal veri seti üzerinde yaptığım modeldeki gibi (320) aldım.
log_reg_zero_importance = LogisticRegression(max_iter=320)
log_reg_zero_importance.fit(X_train_zero_importance, y_train_zero_importance)
y_pred_log_reg_zero_importance = log_reg_zero_importance.predict(X_test_zero_importance)
accuracy_log_reg_zero_importance = accuracy_score(y_test_zero_importance, y_pred_log_reg_zero_importance)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("Zero Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg)
print("Zero Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg_zero_importance)

Zero Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Logistic Regression Başarısı (Accuracy):  0.9115076474872542
Zero Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Logistic Regression Başarısı (Accuracy):  0.9115076474872542


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [39]:
# veri setimin son hali ile random forest modeli kurdum.
rand_for_zero_importance = RandomForestClassifier()
rand_for_zero_importance.fit(X_train_zero_importance, y_train_zero_importance)
y_pred_rand_for_zero_importance = rand_for_zero_importance.predict(X_test_zero_importance)
accuracy_rand_for_zero_importance = accuracy_score(y_test_zero_importance, y_pred_rand_for_zero_importance)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("Zero Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Random Forest Başarısı (Accuracy): ", accuracy_rand_for)
print("Zero Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Random Forest Başarısı (Accuracy): ", accuracy_rand_for_zero_importance)

Zero Importance Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Random Forest Başarısı (Accuracy):  0.91442097596504
Zero Importance Features Yöntemi İle Boyut Azaltmadan SONRAKİ Random Forest Başarısı (Accuracy):  0.9142995872784656


In [40]:
print("Zero Importance Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır: ", zero_importance_features) # hiç kolon çıkarılmamış?

Zero Importance Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır:  Index([], dtype='object')


In [41]:
len(X_zero_importance_reduced.columns) # kolon sayısı hala 20?

20

Zero Importance Features yöntemi ile boyut azaltıp modeli tekrar çalıştırdım ancak model sonuçlarının değişmediğini gördüm. Daha sonra Zero Importance Features yöntemi ile hangi kolonların çıkarıldığını inceledğimde ise aslında hiç kolon çıkarılmamış olduğunu gördüm. Yani veri setimdeki tüm kolonların model başarısında etkisi varmış. feature_importances_ değeri 0 olan hiçbir kolon olmadığını fark ettim. 

NOT: Zero Importance Features yöntemi ile boyut azaltmadan önceki ve azalttıktan sonraki Lojistik regresyon model başarıları hep aynı çıkıyor ancak Random Forest'ta Zero Importance Features yöntemi uygulandıktan sonraki sonuçlar, modeli her çalıştırdığımda değişiyor.
Aslında tüm modelleri kurarken random_state'i aynı aldım ancak Zero Importance Features uygulaması sırasında Random Forest algoritmasındaki random_state parametresinde bazı bozukluklar olabileceği kanaatindeyim. Çünkü random forest algoritmasının boyut azaltmadan önceki versiyonunda da herhangi bir değişiklik olmuyor yani randon_state parametresi çalışıyor gibi görünüyor.

Şimdi de farklı bir boyut azaltma yöntemi olan Collinear Features yöntemini deneyip model başarılarını kontrol edeceğim.

## Collinear Features

In [8]:
# Collinear Features yöntemindeki amaç birbiri ile yüksek korelasyona sahip kolonları belirleyip bu kolonlardan bazılarını çıkartabilmektir. 
# Bu sayede kolon sayısı azaltilabilecektir ayrıca çıkartılan kolona yüksek derecede benzeyen kolonlar modelde kullanılacağı için, kolon çıkartmak model başarısını minimum seviyede etkileyecektir.

correlation_matrix = X.corr() # ilk olarak bağımsız değişkenlerimin (features) birbirleri arasındaki korelasyonları belirledim.

correlation_threshold = 0.8 # birbirleriyle yüksek korelasyona sahip kolonları belirlemek için sınır değerimi % 80 olarak belirledim. Bu sınırı %80 seçmemin sebebi birbiri ile düşük korelasyona sahip kolonları modelden çıkartmamaya özen göstermektir. 
# Ayrıca %80'den fazla bir benzerlik ararsam da gereksiz kolonların modelde kalmasına sebep olabilir, hesaplama süresini uzatabilir ve hatta overfitting'e sebep olabilirim.

collinear_features = set() # veri setinden çıkartılacak kolonlar için boş bir küme hazırladım. kolonları seçip bu kümeye aktaracağım.

# şimdi hazırladığım korelasyon matrisi üzerinde gezip hangi satır ve sütunda 0.8'den büyük değerler var onları bulmalıyım. 
# 0.8'den büyük olan değere sahip kolonları seçip collinear_features isimli boş kümede bu kolonları toplayacağım ki daha sonra üzerinde işlemler yapabileyim, mesela orijinal veri setimden çıkartabileyim.

for i in range(len(correlation_matrix.columns)): # kolon sayısı kadar bir aralıkta geziyorum.
    for j in range(i): # gezdiğim sütun kadar satırda da gezmem gerekiyor. dolayısıyla üst satırın range'inde tekrar gezdim ki matristeki her bir hücreye (i,j) (örneğin 2,3 ya da 12,11 gibi) ulaşabileyim.
        if abs(correlation_matrix.iloc[i, j]) > correlation_threshold: # gezdiğim hücreler arasında negatif değerler de olabilir ama benim aradığım korelasyonda negatif veya pozitif olmasının bir önemi yok bu yüzden bu değerleri mutlak değer içerisinde (abs) gözlemledim.
                                                                       # aradığım şey korelasyonun %80'den büyük olması. pozitif veya negatif korelasyon olabilir.
            colname = correlation_matrix.columns[i]
            collinear_features.add(colname)  # %80'den büyük korelasyona sahip olan kolonları collinear_features isimli kümeme ekledim.

X_collinear_reduced = X.drop(collinear_features, axis=1) # yüksek korelasyona sahip kümeleri orijinal veri setimden çıkardım.

X_train, X_test, y_train, y_test = train_test_split(X_collinear_reduced, y, test_size=0.2, random_state=42) # veri setimin son hali ile modellerimi kurmak için train-test ayrımımı yaptım.


In [9]:
print("Collinear Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır: ", collinear_features)

Collinear Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır:  {'nr.employed', 'euribor3m'}


In [45]:
# veri setimin son hali için lojistik regresyon modeli kurdum ve çalıştırdım.
log_reg_collinear = LogisticRegression(max_iter=320)
log_reg_collinear.fit(X_train, y_train)
y_pred_log_reg_collinear = log_reg_collinear.predict(X_test)
accuracy_log_reg_collinear = accuracy_score(y_test, y_pred_log_reg_collinear)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("Collinear Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg)
print("Collinear Features Yöntemi İle Boyut Azaltmadan SONRAKİ Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg_collinear)

Collinear Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Logistic Regression Başarısı (Accuracy):  0.9115076474872542
Collinear Features Yöntemi İle Boyut Azaltmadan SONRAKİ Logistic Regression Başarısı (Accuracy):  0.9071376547705754


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [47]:
# veri setimin son hali için random forest modeli kurdum ve çalıştırdım.
rand_for_collinear = RandomForestClassifier()
rand_for_collinear.fit(X_train, y_train)
y_pred_rand_for_collinear = rand_for_collinear.predict(X_test)
accuracy_rand_for_collinear = accuracy_score(y_test, y_pred_rand_for_collinear)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("Collinear Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Random Forest Başarısı (Accuracy): ", accuracy_rand_for)
print("Collinear Features Yöntemi İle Boyut Azaltmadan SONRAKİ Random Forest Başarısı (Accuracy): ", accuracy_rand_for_collinear)

Collinear Features Yöntemi İle Boyut Azaltmadan ÖNCEKİ Random Forest Başarısı (Accuracy):  0.91442097596504
Collinear Features Yöntemi İle Boyut Azaltmadan SONRAKİ Random Forest Başarısı (Accuracy):  0.9142995872784656


Collinear Features boyut azaltma yöntemini uyguladıktan sonra hem Lojistik Regresyon'da hem de Random Forest'da başarı oranının bir miktar azaldığını gördüm.

Şimdi de bu veri setine uygulanabilen Low Importance Features ve Collinear Features yöntemlerini sırasıyla uygulayıp tekrar modelleri run edeceğim. İki yöntemi uyguladıktan sonraki model başarısını kontrol edeceğim.

## Low Importance Features + Collinear Features

In [6]:
model_2 = lgb.LGBMClassifier() # LGBMClassifier sınıfını çağırdım.
model_2.fit(X_train, y_train) # bağımsız değişkenlerimin ve bağımlı değişkenimin train olarak ayırdığım kısmını LGBMClassifier ile fit ettim.

feature_importances_2 = model_2.feature_importances_ # fit işlemi sonrasında model kurmuş oldum ve bu model sayesinde de bağımsız değişkenlerimin ne kadar önemli olduğunu saptayabildim.

In [7]:
importance_threshold_2 = np.percentile(feature_importances_2, 25)  # model için önemli olan bağımsız değişkenler (kolonlar) için bir sınır değeri (yüzde 25) belirledim.
# Bu sınır değerden yüksek önem değerine sahip olan kolonları seçip modelde kullanacağım ve sonra da model başarısına nasıl yansıdığını gözlemleyeceğim.

selected_features_2 = X.columns[feature_importances_2 > importance_threshold_2] # belirlediğim sınır değerden yüksek olan kolonları seçtim.
X_train_reduced = X_train[selected_features_2] # düşük öneme sahip kolonları çıkarttıktan sonraki bağımsız değişken train seti
X_test_reduced = X_test[selected_features_2] # düşük öneme sahip kolonları çıkarttıktan sonraki bağımsız değişken test seti

In [8]:
X_train_reduced.shape # bağımsız değişken sayısı 15'e düşmüş oldu.

(32950, 15)

In [9]:
X_test_reduced.shape

(8238, 15)

In [10]:
X_reduced = X.drop(['default', 'loan', 'contact', 'poutcome', 'nr.employed'], axis=1) # low importance features yönteminden sonra çıkartılacak kolonları orijinal veri setinden çıkarttım. Bu sayede Collinear Features yöntemini veri setinin son haline uygulayabilirim.

In [11]:
X_reduced.head() # Low importance features yöntemini uyguladıktan sonra veri seti bu hale gelmiş oldu.

Unnamed: 0,age,job,marital,education,housing,month,day_of_week,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m
0,56,3,1,0,0,6,1,261,1,999,0,1.1,93.994,-36.4,4.857
1,57,7,1,3,0,6,1,149,1,999,0,1.1,93.994,-36.4,4.857
2,37,7,1,3,2,6,1,226,1,999,0,1.1,93.994,-36.4,4.857
3,40,0,1,1,0,6,1,151,1,999,0,1.1,93.994,-36.4,4.857
4,56,7,1,3,0,6,1,307,1,999,0,1.1,93.994,-36.4,4.857


In [12]:
correlation_matrix_2 = X_reduced.corr() # ilk olarak bağımsız değişkenlerimin (features) birbirleri arasındaki korelasyonları belirledim.

In [13]:
correlation_threshold_2 = 0.8
collinear_features_2 = set() # veri setinden çıkartılacak kolonlar için boş bir küme hazırladım. kolonları seçip bu kümeye aktaracağım.

# şimdi hazırladığım korelasyon matrisi üzerinde gezip hangi satır ve sütunda 0.8'den büyük değerler var onları bulmalıyım. 
# 0.8'den büyük olan değere sahip kolonları seçip collinear_features isimli boş kümede bu kolonları toplayacağım ki daha sonra üzerinde işlemler yapabileyim, mesela orijinal veri setimden çıkartabileyim.

for i in range(len(correlation_matrix_2.columns)): # kolon sayısı kadar bir aralıkta geziyorum.
    for j in range(i): # gezdiğim sütun kadar satırda da gezmem gerekiyor. dolayısıyla üst satırın range'inde tekrar gezdim ki matristeki her bir hücreye (i,j) (örneğin 2,3 ya da 12,11 gibi) ulaşabileyim.
        if abs(correlation_matrix_2.iloc[i, j]) > correlation_threshold_2: # gezdiğim hücreler arasında negatif değerler de olabilir ama benim aradığım korelasyonda negatif veya pozitif olmasının bir önemi yok bu yüzden bu değerleri mutlak değer içerisinde (abs) gözlemledim.
                                                                       # aradığım şey korelasyonun %80'den büyük olması. pozitif veya negatif korelasyon olabilir.
            colname = correlation_matrix_2.columns[i]
            collinear_features_2.add(colname)  # %80'den büyük korelasyona sahip olan kolonları collinear_features isimli kümeme ekledim.

X_collinear_reduced_2 = X_reduced.drop(collinear_features_2, axis=1) # yüksek korelasyona sahip kümeleri orijinal veri setimden çıkardım.

X_train_reduced, X_test_reduced, y_train, y_test = train_test_split(X_collinear_reduced_2, y, test_size=0.2, random_state=42) 

In [14]:
print("Collinear Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır: ", collinear_features_2)

Collinear Features Yöntemi Uygulandıktan Sonra Çıkarılan Özellikler (kolonlar) şunlardır:  {'euribor3m'}


In [19]:
# veri setimin son hali için lojistik regresyon modeli kurdum ve çalıştırdım.
log_reg_last = LogisticRegression(max_iter=320)
log_reg_last.fit(X_train_reduced, y_train)
y_pred_log_reg_last = log_reg_last.predict(X_test_reduced)
accuracy_log_reg_last = accuracy_score(y_test, y_pred_log_reg_last)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("İlk Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg)
print("Son Logistic Regression Başarısı (Accuracy): ", accuracy_log_reg_last)

İlk Logistic Regression Başarısı (Accuracy):  0.9115076474872542
Son Logistic Regression Başarısı (Accuracy):  0.9062879339645545


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [20]:
# veri setimin son hali için random forest modeli kurdum ve çalıştırdım.
rand_for_last = RandomForestClassifier()
rand_for_last.fit(X_train_reduced, y_train)
y_pred_rand_for_last = rand_for_last.predict(X_test_reduced)
accuracy_rand_for_last = accuracy_score(y_test, y_pred_rand_for_last)

# boyut azaltmadan önceki ve sonraki model başarılarını ekrana yazdırdım.
print("İlk Random Forest Başarısı (Accuracy): ", accuracy_rand_for)
print("Son Random Forest Başarısı (Accuracy): ", accuracy_rand_for_last)

İlk Random Forest Başarısı (Accuracy):  0.91442097596504
Son Random Forest Başarısı (Accuracy):  0.9113862588006798


#### SONUÇ

- Orijinal veri seti üzerinde Lojistik Regresyon ve Random Forest algoritmalarını çalıştırdım ve model başarılarını gözlemledim.
- Veri seti üzerinde Missing Values, Single Unique Values, Collinear Features, Zero Importance Features, Low Importance Features yöntemlerinden Collinear Features, Zero Importance Features, Low Importance Features boyut azaltma yöntemlerini uyguladım.
- Boyut azaltma yöntemlerini uyguladıktan sonra yeni veri setleri üzerinde tekrar Lojistik Regresyon ve Random Forest algoritmalarını çalıştırdım ve model başarılarındaki değişiklikleri gözlemledim.
- Zero Importance Features boyut azaltma yöntemini uygulayıp model başarılarını karşılaştırdığımda bu yöntem ile aslında hiç boyut azaltamadığımı fark ettim ancak kodları da silmedim.
- Aynı şekilde Single Unique Values yöntemini uygulamayı denedim ancak o yöntem ile de boyut azaltılamadı dolayısıyla o yöntem için hiç model kurmadım.
- Veri setimde hiç eksik değer olmadığı için Missing Values boyut azaltma yöntemini uygulamayı denemedim.
- Son olarak veri setine Low Importance Features ve Collinear Features yöntemlerini sırasıyla uyguladım. Bu iki yöntem uygulandıktan sonraki veri seti üzerinde modelleri tekrar kurdum.
- Tüm boyut azaltma yöntemlerinin tek tek uygulanabileceği bir veri seti aradım ancak böyle bir veri seti bulamadım. Ben de bu veri seti üzerinde uygulayabileceğim yöntemleri uygulayıp yorumlamaya karar verdim.

Boyut azaltma yöntemlerini uyguladıktan sonra model başarılarının çok düşük miktar da olsa düştüğünü gördüm. Veri setimdeki sütun sayısı çok daha fazla olsaydı model sonuçlarındaki değişimleri çok daha rahat gözlemleyebilirdim.
Boyut sayısının azaltılması veri setinde bir miktar bilgi kaybına sebep olabilmektedir ancak model kurulurken harcanan süreyi de azaltmaktadır. Bazı durumlarda boyut azaltma yöntemleri sayesinde model başarısı artırılabilir ancak bu veri setinde model başarısının çok az miktarda azalan yönde değiştiğini gözlemledim.

Bir tek Low Importance Features Yöntemi'nde Random Forest algoritmasının başarısı bir miktar artmış olarak göründü ancak Random Forest algoritmasını her çalıştırdığımda bu değer değişiyor. Bazı durumlarda model başarısının Low Importance Features Yöntemi uygulandıktan sonra düştüğü de oldu.