In [140]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as sch
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import adjusted_rand_score

In [141]:
NUM = 11

In [142]:
df = pd.read_csv("bank.csv")

In [143]:
# ilk beş değer
df.head(5)

In [144]:
# son beş değer
df.tail(5)

In [145]:
# AGE-JOB scatter grafiği
plt.scatter(df['age'], df['job'], s=10, c='blue', label='Age-Job')
plt.title('AGE-JOB Scatter Graph')
plt.xlabel('Age')
plt.ylabel('Job')
plt.legend()
plt.show()

In [146]:
# HOUSING-BALANCE scatter grafiği
plt.scatter(df['housing'], df['balance'], s=10, c='orange', label='Housing-Balace')
plt.title('HOUSING-BALANCE Scatter Graph')
plt.xlabel('Housing')
plt.ylabel('Balance')
plt.legend()
plt.show()

In [147]:
# DURATION değeri NUM (11) değerinden fazla olan kişi sayısı
kisi_sayisi = (df['duration'] > NUM).sum()
kisi_sayisi

In [148]:
# Veri setinin correlation matrisi
corr_matrix = df.corr()
corr_matrix

In [149]:
# Her bir özellik kendisiyle en iyi pozitif korelasyona sahiptir.
# Veri setinde pozitif korelasyonu en fazla olan özellikler (kendileri hariç tutularak): pdays-previous (0.577562)

# Veri setinde negatif korelasyonu en fazla olan özellikler: day-pdays (-0.094352)

# Veri setinde korelasyonu en az olan özellikler: age-duration (-0.002367)

In [150]:
# Veri setinde sayısal olmayan kolonları (MARITAL, EDUCATION, HOUSING, LOAN) sayısallaştırma
df['marital'] = df['marital'].map({'married':1, 'single':0, 'divorced':2})
df['education'] = df['education'].map({'primary':0, 'secondary':1, 'tertiary':2, 'unknown':-1})
df['housing'] = df['housing'].map({'no':0, 'yes':1})
df['loan'] = df['loan'].map({'no':1, 'yes':0})

In [151]:
# Sayısallaştırılmış kolonların son hali
df.head()

In [152]:
# AGE, MARITAL, EDUCATION, HOUSING, LOAN, BALANCE, DURATION kolonlarını içeren yeni veri seti oluşturma
new_df = df[['age', 'marital', 'education', 'housing', 'loan', 'balance', 'duration']]
new_df.head()

In [153]:
# BALANCE kolunundaki her bir değeri NUM değeri ile çarpma
new_df['balance'] = new_df['balance'] * NUM

# Veri setinin son hali
new_df.head()

In [154]:
# Yeni veri seti kullanarak Dendrogram yardımı ile sınıflandırma sayısını bulma
new_df_vals = new_df.iloc[:, :].values

dendrogram = sch.dendrogram(sch.linkage(new_df_vals, method='ward'))
plt.xlabel('Bank Customers')
plt.ylabel('Euclidean Distance')
plt.title('Clusters')
plt.show()

In [155]:
# Yeni veri seti kullanarak Hierarchical Clustering uygulama
# Dendrogram grafiğine yardımı ile sınıflandırma sayısı 5 olarak bulundu
hier_clust = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')

# Her bir değeri uygun kümelere yerleştirme
hier_clust_pred = hier_clust.fit_predict(new_df_vals)

In [156]:
# Orjinal veri setinde Y sütunundaki sınıflandırma ve Hierarchial clustering ile
# bulunan sınıflandırma sonuçlarını karşılaştırarak başarım oranını bulma
y_values = df.iloc[:, [16]].values
y_values_pred = hier_clust.fit_predict(y_values)

succes_rate = adjusted_rand_score(y_values_pred, hier_clust_pred)
succes_rate