<a href="https://colab.research.google.com/github/sarp-u/Data-Mining/blob/main/data_mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Business Understanding

Projenin amacı bu adımda tanımlanır.
Projenin ana hedefinin ne olduğunu tüm proje paydaşlarıyla görüşüp akabinde proje sponsoru ile el sıkışarak doğru bir şekilde belirlenmelidir.
Yanlış anlaşılma veya düzgün anlaşılmama gibi durumlarda ileride büyük sıkıntılar ortaya çıkar çünkü bu adım data mining işleminin temelidir.
Bizim amacımız ise çalıştığımız bankadan almış olduğumuz veriler eşliğinde bankanın yeni ürünü olan BF1Kart'ı hangi müşterilere satabilecekleri konusunda bilgi veren verileri açığa çıkartmaktır. Bu işlemin sonucuna göre banka reklam hedef kitlesini vb şeylerini hayata geçirecektir.

## Data Understanding

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
from matplotlib import pyplot as plt 
from sklearn.preprocessing import LabelEncoder
csv_url = ('https://raw.githubusercontent.com/sarp-u/csv/main/bank_marketing_adal_v1.0%20(1).csv')
df = pd.read_csv(csv_url, sep= ';', decimal= ',')
print(df.shape)

Burada datayı analiz etmemiz için gerekli kütüphaneleri importladık. Daha sonrasında github'dan csv dosyamızı çekip df adlı variable'ın içine koyduk ve csv dosyamızın kaç sütun ve satırdan oluştuğna baktık

In [None]:
df.info()

İlk adımımız çalıştığımız datanın infosunu almak. Böylece Sütunlarımızı ve sütunların sahip olduğu değerlerin türlerini gözlemleriz

In [None]:
df.shape

Sütun ve satır sayısını gözlemleme

In [None]:
df.head()

Çalıştığımız datayı gözlemlemek ve içindeki değerlere bakmak için .head() fonksiyonunu kullandık

In [None]:
df.describe(include = 'all').transpose()

Çalıştığımız veri hakkında daha iyi bilgi almak için bu adımı kullanırız. Böylelikle integer değerler için standart sapma, ortalama değer min ve max gibi değerleri kolaylıkla görebiliriz. String değerleri için ise en çok kullanılan şeyi ve sıklığı gibi şeylere ulaşabiliriz. Genel olarak ise hangi değer data setimizde kaç kere kullanılmış vb şeylere ulaşırız.

In [None]:
df.sort_values(by = ['Alter','Kontostand'], ascending = True)

Artan sırayla yaş ve bankadaki para miktarına göre sıralama

In [None]:
duplicate_rows_data = df[df.duplicated()]
duplicate_rows_data

In [None]:
df = df.drop_duplicates()
df.head()

Tekrarlanan satırları bulup, bu satırları çıkarmamız gerekli

In [None]:
df.isnull().values.any()

Verilerimizin içerisinde herhangi bir şekilde boş bir kısım olup olmadığına baktık eğer false dönerse herhangi bir şekilde nan veya null değeri olmadığını görürüz.

In [None]:
#df.dropna(inplace = True)

Yukarıdaki kodda gördüğümüz üzere kodumuzda herhangi bir şekilde null veya NaN değerinde herhangi bir şey bulunmamakta. Ancak bulunduğu takdirde bu verileri işleme katamıyoruz ve daha sonrasında sıkıntılar çıkarabiliyor. Bu yüzden yapılabilecek yöntemlerden birisi bu değerleri düşürerek işleme almamaktır.

In [None]:
#df['Alter'].replace(np.NaN,df['Alter'].mean()).tail()

Yine varsayımsal olarak Yaş sütunumuzda eksik değerler olduğunu varsayalım. Bir diğer yaklaşım ise bu değerleri silmek yerine yerine yeni değerler atamaktır. Bu durumda yapılabilecek en iyi yaklaşım ortalama, medyan veya mod değerlerinden birisini seçmektir. Burada da yaptığımız işlem NaN değerindeki satırları yaş ortalaması ile değiştirmektir.

In [None]:
berufs = df['Beruf'].unique()
data = df['Beruf'].value_counts()
fig = plt.figure(figsize =(12, 7)) 
plt.pie(data, autopct='%1.1f%%', labels = berufs)
plt.show()


Berufs değerimizin içerisine bu data setteki her bir farklı iş değerini atıyoruz. Data değerimizde ise her bir meslekte kaç kişinin olduğuna ulaşırız. Daha sonrasında elde ettiğimiz bu verileri pasta grafiğini çizecek olan komutumuzu içersine yerleştirdiğimizde de gösterilen sonuç ortaya çıkar. Bu pasta grafiğine bakarak banka hesabı olan kişilerin çoğunluğunun hangi meslek grubundan olduğunu kolayca görebiliriz.

In [None]:
familienstand = df['Familienstand'].unique()
data = df['Familienstand'].value_counts()
y_pos = np.arange(len(familienstand))
plt.bar(y_pos, data, align='center', alpha=0.5, width= 0.4, color ='#540c8a')
plt.xticks(y_pos, familienstand)
plt.show()

Öncelikle grafiğini çizeceğimiz verinin hangi değerler olduğunu ve kaçar tane olduğunu bulmamız gerekiyor burada familienstand ve data değerleri ile birisinde hangi değerler olduğunu diğerinde bu değerlerden kaçar tane olduğunu görüyoruz. y_pos değerimizde de değerlerimizi sıralıyoruz. plt.bar kısmında ise bar yani sütun grafiğimizin değerlerini giriyoruz ve bunları büyükten küçüğe sıralıyor. .xticks kısmında hangi sütunun altına hangi değerin geleceği belirlenip yazılıyor.

In [None]:
plt.hist(df['Alter'], color = 'green', edgecolor = 'black',bins = 30)
plt.title('Age Distribution')
plt.xlabel('Age')
plt.ylabel('Population')

Yaş dağılımına ait histogramı çiziyoruz. Bu sayede bankamızdaki müşterilerin hangi yaş aralığında daha sık olduğunu görebiliyoruz. plt.hist fonksiyonu ile histogram çizeceğimizi belirtiyoruz, içerisindeki değerler ise anlaşılır sadece bins değeri önemli o da bu histogramın kaç parçaya bölüneceğini belirliyor.

In [None]:
sns.distplot(df['Kontostand'], hist=True, kde=True, 
             bins=50, color = 'teal', 
             hist_kws={'edgecolor':'black'},
             kde_kws={'linewidth': 3})

Burada da banka hesabındaki para miktarının yoğunluğunu gösteren grafiği çiziyoruz. .distplot ise yoğunluk grafiğini çiziyoruz. Daha düzgün ve gerçekçi olması adına bins değerimizi ne kadar büyük yaparsak o kadar iyi aslında. hist = True olduğunda sütun grafiklerini çiziyor, kde = True olduğunda da üzerindeki çizgi grafiğini çiziyor. Grafiğin renk, kalın vb özelleriklerine ulaşabilmemiz için hist ve kde değerlerini kullanmamız gerekiyor.


In [None]:
df[(df['Label'] == 1) & (df['Alter'] < 30) & (df['Ausbildung'] == 'Hochschulabschluss') & (df['Kontostand'] > 1000)].head()

Banka veya müşteri tarafından verilen spesifik kısıtlamara göre elimizdeki datalarla oynamamız çok basit. Sadece 1 satır kod ile verilen kısıtlamalara göre yeni bir data set oluşturabiliriz.

In [None]:
import seaborn as sns
corr = df.corr()
plt.figure(figsize=(12,9))
sns.heatmap(corr, 
            xticklabels=corr.columns.values,
            yticklabels=corr.columns.values,
            linewidth= 0.2,
            linecolor = 'black',
            annot = True,
            cmap="YlGnBu",
            )

Korelasyon ilişikisini gösterecek olursak. annot = True => her kare üzerindeki değerleri yazar, cmap matris'in rengi. Data setimizdeki 7 adet değerinin birbiri ile dolaylı ya da dolaylı olmadan oluşan ilişkisini gösteren grafik

In [None]:
fig, ax = plt.subplots(figsize=(20,6))
ax.scatter(df['Kontostand'], df['Alter'])
ax.set_xlabel('Kontostand')
ax.set_ylabel('Alter')
plt.show()

Data setimizdeki 2 farklı değer olan yaş ve banka hesabında bulunan para miktarı için çizilmiş Scatter plot yani Serpilme diyagramı

## Data Preprocessing

In [None]:
df.iloc[:5].values

.iloc sayesinde n'den m'ye kadar giden değerleri kolaylıkla inceleyebiliriz. Elimizdeki değerlerle çalışmak için numerik verilere sahip olmamız gerekli ancak gördüğümüz gibi Beruf, Familienstand, Ausbildung string türünde verilere sahip

In [None]:
label_encoder = LabelEncoder()
df['Beruf'] = label_encoder.fit_transform(df['Beruf'])
df['Familienstand'] = label_encoder.fit_transform(df['Familienstand'])
df['Ausbildung'] = label_encoder.fit_transform(df['Ausbildung'])
df.head()

String türünde olan 3 adet sütunu da integer'a çevirdiğimize göre veri inceleme işlemine bir adım daha yaklaşıyoruz. Lakin bu işlem sonunda şöyle bir sorun oluşuyor. Farklı türde işler, medeni durumlar veya öğrenim durumları için farklı integer değerleri atadı. Örneğin Familienstandda verheiratet için 2 ledig için 1 değerini atadı. Matematiksel olarak 2>1 ama bu evli bir bireyin değerinin bekar bir insandan daha yüksek olduğu anlamına gelmiyor ama bilgisayar bunu bilmiyor, o yüzden dummy variableları kullanmamız gerekiyor.

In [None]:
dummy = pd.get_dummies(df['Beruf']).astype(int)
dummy2 = pd.get_dummies(df['Familienstand'])
dummy3 = pd.get_dummies(df['Ausbildung'])
dummy

Yukarıda belirtilen sebepten dolayı bir şekilde bizlere verilmiş olan integerlarla oynamamız gerekiyor. Burada da yardımımıza dummy variable yetişiyor. Yapılan işlem kısaca Sütundaki kişi hangi değerdeki stringe sahipse o mesleği/medeni halini/eğitimi 1 geri kalan kısımlara 0 değerini atıyor. Bu işlem sayesinde bir mesleğin diğerine üstünlüğü vb gibi durumlar ortadan kalkıyor.

In [None]:
df = pd.concat([df,dummy, dummy2, dummy3], axis = 1)
df.head()

Burada ise oluşturduğum 3 adet dummy data setini kullanmakta olduğumuz data sete ekliyoruz. Belirtilen sütunları istediğimiz şekle dönüştürdüğümüze göre bu sütunlardan kurtulmamız gerekiyor.

In [None]:
df.drop(['Beruf','Familienstand','Ausbildung'], axis =1 )

Bu 3 değer yerine 1 ve 0 içeren sütunları ekledikten sonra bu değerler ile işimiz bitti.

In [None]:
from sklearn.model_selection import train_test_split
X = df.drop(['Label','Beruf','Familienstand','Ausbildung'], axis = 1)
y = df['Label']

Data setimizi çalıştıracağımız x ve y değerlerine ihtiyacımız var. Bağımsız değişkenimiz yani hedef değerimiz label değeri olduğu için bunu droplamamız lazım.(Diğer üçlü üstte droplanıyor ama kayıt edilmediği için burada da droplamamız lazım)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

X_test algoritmaya sokup öğreteceğimiz kısım, X_train bu algoritmanın üzerinde çalışacağı kısmı, y_train X_train ile alakalı bağımlı değişkenlerin olduğu kısım, y_test de X_test ile alakalı bağımlı değişkenlerin olduğu kısım. test_size= 0 ve 1 arasında 1 değer alır aldığı değere göre bu data set'in % kaçı ile çalışacağını belirler

In [None]:
X_train.shape

In [None]:
X_train

Son Adım olarak ise Feature Scalling yani Özellik Ölçeklendirme yapmamız lazım. Tablodan da görüldüğü üzere Yaş ve Bankadaki para arasında ölçek farkı var. Örneğin Yaşlar arasında 34 - 37, Para arasında 171 - 681 ciddi farklar var. Bir değer diğer değeri domine edebilir bunun önüne geçmemiz lazım. Bu algoritmamızda sıkıntı yaratıcak çünkü çoğu makine öğrenmesi algoritması öklid mesafesi kullanılır. Bu değerleri tekrar ölçeklendirmemiz lazım

![picture](https://hackernoon.com/hn-images/1*Ud6qCIDqDEn5k_q3YTaP1g.png)

In [None]:
X_test.shape

In [None]:
y_train.shape

In [None]:
y_test.shape

In [None]:
from sklearn.preprocessing import StandardScaler
standard_X = StandardScaler()

In [None]:
X_train = standard_X.fit_transform(X_train)
X_test = standard_X.fit_transform(X_test)

Wikipedia'dan da baktığımız da 3 adet yeniden ölçeklendirme var 
- min-max normalization
- mean normalization
- standardization

![picture](https://www.oreilly.com/library/view/hands-on-machine-learning/9781788393485/assets/7a9d8cb9-10f7-43b5-b52f-865fbbb0b69e.png)

Xscale = yeni x değeri
x = tablodaki değerimiz
mean = x değerinin ortalaması
sd = standart sapma
Bu formülü bu işlemde her bir değer için uygular

In [None]:
X_train.shape

In [None]:
X_train

Görüldüğü üzere datamızın sayısında herhangi bir değişme olmadı ama değerlerimize Standardizasyon uygulandı böylece daha doğru bir oranda sonuç elde edebileceğiz

## Modelling


In [None]:
from sklearn.ensemble import RandomForestClassifier
model_rf = RandomForestClassifier(random_state= 4711, n_estimators=200,max_depth=4)
model_rf.fit(X_train, y_train)

Bu adımda modellemede kullanacağımız algoritma olan random forest algoritmasını çağırıyoruz. random_state = datayı okumaya 1. satırdan değil de içine atanan satırdan başlanmasını söylüyor, n_estimators= algoritmamızdaki ağaç sayısını yani gözlemci sayısını belirler, max_depth search tree'nin dallanmasını gösteren parametre

In [None]:
model_rf.score(X_test,y_test)

Verilen modelimizin işleme sokulduktan sonra % kaç başarı ile çalıştığını gösterir. Accuracy yani tutarlılığımızı gösteriyor.

In [None]:
y_predicted = model_rf.predict(X_test)


Bu adımda aslında çıkması gereken sonucu y_predicted yani önceden beklenen değer içine atıyoruz

In [None]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_predicted)
cm

Bu adımda hata matrisimizin beklenen ve alınan sonucu karşılaştırmasını görüyoruz

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sn
plt.figure(figsize=(10,7))
sn.heatmap(cm, annot=True)
plt.xlabel('Predicted')
plt.ylabel('Truth')

Bir önceki adımda çizmiş olduğumuz matrisin görselleştirilmiş hali

Modelling işlemi önemli bir adım, bu sayede istenilen işe en uygun modelin hangisi olduğu ve hangisinin daha tutarlı olup olmadığını görebiliriz.

In [None]:
from sklearn.svm import SVC
model_SVC = SVC(kernel = 'rbf', random_state=4711)
model_SVC.fit(X_train, y_train)

y_pred_svm = model_SVC.decision_function(X_test)

Destek vektör makineleri, sınıflandırma ve regresyon analizi için verileri analiz eden ilişkili öğrenme algoritmalarına sahip denetimli öğrenme modelleridir. Burada yaptığımız işlem ise bir başka modellemeyi bize verilen datasete uygunluğunu ölçmektir. y_pred_svm'de yaptığımız şey X_testteki verilerinin her birisininin decision_function aracılığı ile yapmış olduğumuz düzlemdeki verilere olan uzaklığının tespitidir.

In [None]:
from sklearn.linear_model import LogisticRegression
model_logistic = LogisticRegression()
model_logistic.fit(X_train, y_train)

y_pred_logistic = model_logistic.decision_function(X_test)

Yukarıda yaptığımız işlemin aynısını bir diğer modelleme biçimi olan Lojistik Regresyon için uyguluyoruz

In [None]:
from sklearn.metrics import roc_curve, auc

logistic_fpr, logistic_tpr, treshold = roc_curve(y_test, y_pred_logistic)
auc_logistic = auc(logistic_fpr, logistic_tpr)

svm_fpr, svm_tpr, treshold = roc_curve(y_test, y_pred_svm)
auc_svm = auc(svm_fpr, svm_tpr)

plt.figure(figsize=(6,6), dpi=100)
plt.plot(svm_fpr, svm_tpr, linestyle='-', label= 'SVM (auc = %0.4f)' %auc_svm )
plt.plot(logistic_fpr, logistic_tpr, marker='.', label='Logistic (auc = %0.4f)' % auc_logistic)

plt.xlabel('FPR')
plt.ylabel('TPR')

plt.legend()
plt.show()

TPR doğru şekilde tanımlanan gerçek pozitiflerin yüzdesini ölçmek için kullanılır.
FPR belirli bir test için boş hipotezin yanlış bir şekilde reddedilme olasılığıdır.
Treshold dediğimiz de belirlenilen bir değerde bu değerin altında veya üstünde olması durumuna göre sınıflandırma yapılabilir.
Çizdğimiz ROC grafiği kısaca her bir trashold değeri için oluşturulan confusion matrix değerine denk gelir
AUC değeri çizilen grafiğin altında kalan alana tekabül eder. Yani çizilen grafiğimiz ne kadar doğruysa alan dolayısıyla auc değerimiz büyür aynı şey tam tersi için de geçerlidir auc değerimiz ne kadar büyükse çizdiğimiz grafik o kadar doğrudur diyebiliriz.
ilk adımda bu 2 değerin belirlenmesi için elde ettiğimiz ve gerçek olan 2 değerin karşılaştırması ile başlarız.
Diğer adımda yapılan işlem ise bu çizdiğimiz grafiğin altında kalan alanı hesaplama işlemidir. Sonuç ne kadar büyükse yanıt o kadar doğrudur


In [None]:
model_rf.score(X_test,y_test)

In [None]:
auc_logistic

In [None]:
auc_svm

Verilen 3 adet modellemeye göre en başarılı modellemenin SVM algoritması, en başarısız algoritmanın ise random forest olduğunu görürüz. Bu yüzden SVM algoritması ile devam etmemiz istenen sonucu daha iyi yakalayabileceğimizi gösteriyor.

## Evaluation

Modelling kısmında en verimli algoritmamız SVM algoritması çıkmıştı. Bu algoritmada, her bir veri maddesini belirli bir koordinatın değeri olan her özelliğin değeri ile birlikte n-boyutlu boşluğa bir nokta olarak çizilir. Ardından, iki sınıftan oldukça iyi ayrım yapan hiper-düzlemi bularak sınıflandırma gerçekleştirilir. 2 Boyutlu düzlemde ayrımı yapan şey vektör 3 boyutlu da düzlem n boyutlu da hiper - düzlemdir. 2 ve 3 boyutlu düzlemde ayrımları çizmek görsel olarak mümkünken n boyutlu da ancak matematiksel olarak tasvir edebiliriz.

In [None]:
df0 = df.loc[df['Label'] == 0]
df1 = df.loc[df['Label'] == 1]
df1.head()

Burada yaptığımız işlem sonucumuz yani target değerimizin 1 ve 0 olduğu durumlardaki her bir değeri düzleme yerleştirmek ve yerleştirdiğimiz bu verileri en başarılı şekilde bölmektir.

In [None]:
%matplotlib inline
plt.xlabel('Alter')
plt.ylabel('Kontostand')
plt.scatter(df0['Alter'], df0['Kontostand'], color = 'green', marker='+')
plt.scatter(df1['Alter'], df1['Kontostand'], color = 'blue', marker='.')

In [None]:
plt.xlabel('Alter')
plt.ylabel('Dauer')
plt.scatter(df0['Alter'], df0['Dauer'], color = 'green', marker='+')
plt.scatter(df1['Alter'], df1['Dauer'], color = 'blue', marker='.')

Yukarıdaki 2 örnekte görüldüğü üzere verilerimiz 2 boyutlu düzlem üzerine yerleştirilmiştir. Elimizde çok fazla veri bulunduğu için şuanda gözle görülebilir bir ayrım yapmamız çok zor. Lakin x ve y boyutuna ekstra olarak belki z boyutu da eklenirse ayrımı yapmak kolaylaşabilir.

In [None]:
# X = df.drop(['Label','Beruf','Familienstand','Ausbildung'], axis = 1)
# y = df['Label']

In [None]:
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

Aslında yukarıda yapılan işlemler bu iki işlem ile sınırlı değildir ama zaten yapılacak olan işlemler preprocessing kısmında yapıldığı için tekrar buraya yazmak anlamsız olur.

In [None]:
from sklearn.svm import SVC
model = SVC()

In [None]:
model.fit(X_train,y_train)

In [None]:
model.score(X_test,y_test)

In [None]:
y_predicted = model.predict(X_test)

Çalışacağımız algoritmaya ait kütüphaneyi importlamamız gerekli. Bu kütüphaneyi importladıktan sonra random forestta kullandığımız gibi değerlerimizi gerekli fonksiyonların içine yerleştiriyoruz.
model.score'a baktığımızda ise random forest algoritmasından daha iyi bir sonuç elde ettiğimizi görüyoruz.

In [None]:
from sklearn.metrics import confusion_matrix
cm2 = confusion_matrix(y_test, y_predicted)
cm2

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sn
plt.figure(figsize=(10,7))
sn.heatmap(cm, annot=True)
plt.xlabel('Predicted')
plt.ylabel('Truth')

Yine oluşturmuş olduğumuz confusion matrix'i burada görebiliriz.

## Deployment


Bu adımda, model, veri kümesinin kapsamı dışındaki yeni verilerde ve yeni paydaşlar tarafından kullanılır. Bu aşamadaki yeni etkileşimler, veri kümesi ve modeli için yeni değişkenleri ve ihtiyaçları ortaya çıkarabilir. Bu sebeple en başta belirlenmiş olan iş ihtiyaçlarında değişiklik ihtiyacı ortaya çıkabilir ve süreç değişiklik ihtiyaçları sebebi ile yeniden başlayabilir.

Aynı amaca hizmet eden elimizdekinden farklı verilere ihtiyacımız var lakin şuanda bizde bu veriler yok