# Day6 – Support Vector Machines - DEMO 3

Bu alıştırmada, bir spam sınıflandırıcısı oluşturmak için destek vektör makinelerini (SVM) kullanacağız. 

Nasıl çalıştıklarını görmek için bazı basit 2B veri kümelerinde SVM'lerle başlayacağız. Ardından, bir dizi ham e-posta üzerinde bazı ön işleme çalışmaları yapacağız ve spam olup olmadıklarını belirlemek için bir SVM kullanarak işlenen e-postalar üzerinde bir sınıflandırıcı oluşturacağız.

Yapacağımız ilk şey, basit bir 2 boyutlu veri kümesine bakmak ve değişen C değerleri için (doğrusal/lojistik regresyondaki düzenlileştirme terimine benzer) bir doğrusal SVM'nin veri kümesi üzerinde nasıl çalıştığını görmek. 

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#!ls "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day6-SupportVectorMachines/notebooks"

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day6-SupportVectorMachines/notebooks"
ROOT_DIR = "https://github.com/yapay-ogrenme/casgem-eu-project-training-on-data-mining/blob/main/PART1/Day6-SupportVectorMachines/notebooks"
DATASET_PATH = ROOT_DIR + "/datasets/"

## Verileri yükleyelim

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from scipy.io import loadmat
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

In [None]:
DATASET_FILE_PATH = DATASET_PATH +'ex6data1.mat?raw=true'
DATASET_FILE_PATH

In [None]:
!wget "{DATASET_FILE_PATH}"

In [None]:
!ls

In [None]:
!mv ex6data1.mat\?raw\=true ex6data1.mat

In [None]:
raw_data = loadmat('ex6data1.mat')
raw_data

Bunu, sınıf etiketinin bir sembolle gösterildiği bir dağılım grafiği olarak görselleştireceğiz (+ pozitif için, o negatif için).

In [None]:
data = pd.DataFrame(raw_data['X'], columns=['X1', 'X2'])
data['y'] = raw_data['y']

positive = data[data['y'].isin([1])]
negative = data[data['y'].isin([0])]

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(positive['X1'], positive['X2'], s=50, marker='x', label='Positive')
ax.scatter(negative['X1'], negative['X2'], s=50, marker='o', label='Negative')
ax.legend()

Diğerlerinden ayrı duran bir aykırı pozitif örnek olduğuna dikkat edin.

Sınıflar hala doğrusal olarak ayrılabilir, ancak çok sıkı bir uyum içindeler.

Sınıf sınırını öğrenmek için doğrusal bir destek vektör makinesini eğiteceğiz. 

In [None]:
from sklearn import svm
svc = svm.LinearSVC(C=1, loss='hinge', max_iter=1000)
svc

İlk deney için C=1 kullanacağız ve nasıl performans gösterdiğini göreceğiz.

In [None]:
svc.fit(data[['X1', 'X2']], data['y'])
svc.score(data[['X1', 'X2']], data['y'])

Aykırı değeri yanlış sınıflandırdığı anlaşılıyor. Daha büyük bir C değeriyle ne olduğunu görelim.

In [None]:
svc2 = svm.LinearSVC(C=100, loss='hinge', max_iter=1000)
svc2.fit(data[['X1', 'X2']], data['y'])
svc2.score(data[['X1', 'X2']], data['y'])

Bu sefer eğitim verilerinin mükemmel bir sınıflandırmasını elde ettik, ancak C'nin değerini artırarak, artık veriler için doğal olarak uygun olmayan bir karar sınırı oluşturduk. Bunu, noktanın hiper düzlemden uzaklığının bir fonksiyonu olan her sınıf tahmini için güven düzeyine bakarak görselleştirebiliriz.

In [None]:
data['SVM 1 Confidence'] = svc.decision_function(data[['X1', 'X2']])

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(data['X1'], data['X2'], s=50, c=data['SVM 1 Confidence'], cmap='seismic')
ax.set_title('SVM (C=1) Decision Confidence')

#
plt.plot(data['X1'], -(svc.coef_[0][0]*data['X1']+svc.intercept_[0])/svc.coef_[0][1], c='green')

In [None]:
data['SVM 2 Confidence'] = svc2.decision_function(data[['X1', 'X2']])

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(data['X1'], data['X2'], s=50, c=data['SVM 2 Confidence'], cmap='seismic')
ax.set_title('SVM (C=100) Decision Confidence')
#
plt.plot(data['X1'], -(svc2.coef_[0][0]*data['X1']+svc2.intercept_[0])/svc2.coef_[0][1], c='green')

Fark biraz ince ama sınıra yakın noktaların rengine bakın. 

Şimdi doğrusal bir SVM'den, çekirdekleri kullanarak doğrusal olmayan sınıflandırma yapabilen bir SVM'ye geçeceğiz. 

Önce bir gauss çekirdeği işlevi uygulamakla görevlendirildik. 

scikit-learn yerleşik bir gauss çekirdeğine sahip olsa da, şeffaflık için bir tanesini sıfırdan uygulayacağız.

In [None]:
def gaussian_kernel(x1, x2, sigma):
    return np.exp(-(np.sum((x1 - x2) ** 2) / (2 * (sigma ** 2))))

In [None]:
x1 = np.array([1.0, 2.0, 1.0])
x2 = np.array([0.0, 4.0, -1.0])
sigma = 2

gaussian_kernel(x1, x2, sigma)

Bu sonuç, alıştırmadan beklenen değerle eşleşiyor. 

Daha sonra, bu sefer doğrusal olmayan bir karar sınırına sahip başka bir veri kümesini inceleyeceğiz.

In [None]:
raw_data = loadmat(DATASET_PATH+'ex6data2.mat')

data = pd.DataFrame(raw_data['X'], columns=['X1', 'X2'])
data['y'] = raw_data['y']

positive = data[data['y'].isin([1])]
negative = data[data['y'].isin([0])]

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(positive['X1'], positive['X2'], s=30, marker='x', label='Positive')
ax.scatter(negative['X1'], negative['X2'], s=30, marker='o', label='Negative')
ax.legend()

Bu veri kümesi için, yerleşik RBF çekirdeğini kullanarak bir destek vektör makine sınıflandırıcısı oluşturacağız ve eğitim verileri üzerindeki doğruluğunu inceleyeceğiz. Karar sınırını görselleştirmek için, bu sefer örneğin negatif bir sınıf etiketine sahip olduğu tahmin edilen olasılığa dayalı olarak noktaları gölgeleyeceğiz. Sonuçtan çoğunu doğru yaptığını göreceğiz.

In [None]:
svc = svm.SVC(C=100, gamma=10, probability=True)
svc

In [None]:
svc.fit(data[['X1', 'X2']], data['y'])
svc.score(data[['X1', 'X2']], data['y'])

In [None]:
data['Probability'] = svc.predict_proba(data[['X1', 'X2']])[:,0]

fig, ax = plt.subplots(figsize=(12,8))
ax.scatter(data['X1'], data['X2'], s=30, c=data['Probability'], cmap='Reds')

Üçüncü veri kümesi için bize hem eğitim hem de doğrulama setleri verildi ve doğrulama seti performansına dayalı bir SVM modeli için optimal hiper parametreleri bulmakla görevlendirildik. Bunu oldukça kolay bir şekilde yapmak için scikit-learn'in yerleşik Grid_Search'ü kullanabilmemize rağmen, alıştırma yönergelerini izleme ruhuyla sıfırdan basit bir ızgara araması uygulayacağız.

In [None]:
raw_data = loadmat(DATASET_PATH+'ex6data3.mat')

X = raw_data['X']
Xval = raw_data['Xval']
y = raw_data['y'].ravel()
yval = raw_data['yval'].ravel()

C_values = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]
gamma_values = [0.01, 0.03, 0.1, 0.3, 1, 3, 10, 30, 100]

best_score = 0
best_params = {'C': None, 'gamma': None}

for C in C_values:
    for gamma in gamma_values:
        svc = svm.SVC(C=C, gamma=gamma)
        svc.fit(X, y)
        score = svc.score(Xval, yval)
        
        if score > best_score:
            best_score = score
            best_params['C'] = C
            best_params['gamma'] = gamma

best_score, best_params

In [None]:
X.shape

# SPAM FILTER - SVM

Şimdi alıştırmanın ikinci kısmına geçeceğiz. 

Bu bölümde amacımız, bir spam filtresi oluşturmak için SVM'leri kullanmaktır. Alıştırma metninde, verilerimizi bir SVM'nin işlemesi için uygun bir formatta almak için bazı metin ön işlemelerini içeren bir görev vardır. Ancak, görev oldukça önemsizdir (alıştırma için sağlanan bir sözlükten sözcükleri bir kimliğe eşlemek) ve HTML kaldırma, kök çıkarma, normalleştirme vb. gibi ön işleme adımlarının geri kalanı zaten yapılmıştır. Bu ön işleme adımlarını yeniden oluşturmak yerine, önceden işlenmiş trenden bir sınıflandırıcı oluşturmayı içeren makine öğrenimi görevine atlayacağım ve kelime oluşum vektörlerine dönüştürülmüş spam ve istenmeyen e-posta olmayan e-postalardan oluşan veri kümelerini test edeceğim.

In [None]:
spam_train = loadmat(DATASET_PATH+'spamTrain.mat')
spam_test = loadmat(DATASET_PATH+'spamTest.mat')

spam_train

In [None]:
X = spam_train['X']
Xtest = spam_test['Xtest']
y = spam_train['y'].ravel()
ytest = spam_test['ytest'].ravel()

X.shape, y.shape, Xtest.shape, ytest.shape

Her belge, sözlükteki 1.899 kelimeye karşılık gelen 1.899 boyutlu bir vektöre dönüştürülmüştür. Değerler ikili olup, belgede kelimenin varlığını veya yokluğunu gösterir. Bu noktada, eğitim ve değerlendirme, yalnızca sınıflandırıcıyı test etmeye uydurma meselesidir.

In [None]:
svc = svm.SVC()
svc.fit(X, y)
print('Training accuracy = {0}%'.format(np.round(svc.score(X, y) * 100, 2)))

In [None]:
print('Test accuracy = {0}%'.format(np.round(svc.score(Xtest, ytest) * 100, 2)))

Bu sonuç varsayılan parametrelerledir. Bazı parametre ayarlarını kullanarak muhtemelen biraz daha yükseğe çıkarabiliriz, ancak %95 doğruluk yine de fena değil.

Bu, egzersiz 6'yı sonuçlandırıyor! Bir sonraki alıştırmada, K-Means ve temel bileşen analizi ile kümeleme ve görüntü sıkıştırma gerçekleştireceğiz.