In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

from sklearn.datasets import fetch_openml
from sklearn.datasets import load_breast_cancer, load_iris, load_wine
from sklearn.datasets import make_circles, make_blobs
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer
from sklearn import metrics

import statistics
from sklearn import svm
from sklearn.metrics import accuracy_score, plot_roc_curve, plot_precision_recall_curve, roc_curve, auc
from sklearn.metrics import f1_score
from sklearn.metrics import classification_report, confusion_matrix, plot_confusion_matrix
from sklearn.metrics import plot_roc_curve, plot_precision_recall_curve
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from mpl_toolkits.mplot3d import Axes3D

import warnings
warnings.filterwarnings('ignore')

# Görev 1

SVM (Destek Vektör Makinesi) - iki kategoriden birine ait olmanın değerlendirilmesini sağlayan bir sınıflandırma modeli. 
Doğrusal veriler için idealdir. 
Bu model, verileri sınıflarına göre bölen bir hiper düzlem arar. 
Tüm olası düzlemler arasından, en büyük marjı olan seçilir (hiper düzlem ile sınıflardan en yakın noktalar arasındaki mesafe).

  ![](https://drive.google.com/uc?id=1ecb_cgEsQgz0MwtmMLq0oAf4gYOyT_28)

Veriler doğrusal olarak ayrılabilir ise, model çok iyi çalışır. 
Ancak, durumun böyle olmadığı durumlarla çok sık karşılaşıyoruz. Hafif doğrusal olmama durumunda, eğitim sırasında sınıflandırmada küçük hatalar yapmamıza izin verebiliriz, böylece verileri hiper düzleme bölebiliriz. Biz sözde kuruyoruz parametre C - sınıflandırma doğruluğu ve marj genişliği arasındaki uzlaşmayı ayarlamaya izin verir.

![](https://drive.google.com/uc?id=1PbVm-npunWGtn0R8k0aK95KUTctJfRjl)

Peki ya tamamen ayrılamaz veriler? Böyle bir durumda hiper düzlemi etkili bir şekilde bulmak imkansızdır. Daha sonra, verileri daha kolay ayırmak için problemi daha yüksek bir boyuta taşıyabiliriz (daha büyük bir boyuttaki hiperdüzlem). Girdi verilerini daha yüksek boyuttaki noktalara eşleyen bir işlev arıyoruz. Ancak bu çözüm, genellikle büyük hesaplamalarla ilişkilendirilen böyle bir işlevin ve veri işlemenin bulunmasını gerektirir. Bu amaçla, sözde kullanabilirsiniz. çekirdek hilesi. Bu sayede, bir haritalama işlevi aramamıza ve girdi verilerinin boyutunu artırmamıza gerek kalmıyor. Uygun hiperdüzlemi bulmak için eşlenen vektörlerin tam değerlerini bilmemize gerek yoktur. Sadece aralarındaki nokta çarpımlarına ihtiyacımız var. Değerleri bilinmeyen vektörlerin çarpımı nasıl hesaplanır? RBF gibi çekirdek fonksiyonlarını kullanabiliriz.
Bu tür işlevler, orijinal verileri (başlangıç ​​boyutu) kullanarak daha yüksek bir boyutta vektörlerin nokta ürünlerini hesaplar.

In [None]:
#Yardımcı fonksiyonlar
def classification(X, Y, X_test, Y_test, kernel, c=1):
  classifier = svm.SVC(kernel = kernel, C =c)
  
  classifier.fit(X,Y)

  
  x_min = X[:, 0].min() - 5
  x_max = X[:, 0].max() + 5
  y_min = X[:, 1].min() - 5
  y_max = X[:, 1].max() + 5

  XX, YY = np.mgrid[x_min:x_max:200j, y_min:y_max:200j]
  decision_function = classifier.decision_function(np.c_[XX.ravel(), YY.ravel()])

  decision_function = decision_function.reshape(XX.shape)

  
  y_predicted = classifier.predict(X_test)
  
  accuracy = accuracy_score(Y_test, y_predicted)


  return XX, YY, decision_function, accuracy

def plot_classifications(train_data, train_labels, test_data, test_labels, c, data_type ): 
  kernels = ['linear','poly','sigmoid' , 'rbf'] 
  f, axis = plt.subplots(1, len(kernels), figsize=(20, 6),sharey=True)
  f.suptitle(data_type, fontsize=16)
  for i,kernel in enumerate(kernels):
    
    XX, YY, decision_function, accuracy = classification(train_data, train_labels, test_data, test_labels, kernel, c)
    axis[i].scatter(train_data[:, 0], train_data[:, 1], c=train_labels, s=100,cmap='RdYlGn', zorder=10, edgecolors='k')
    axis[i].pcolormesh(XX, YY, decision_function < 0, cmap=plt.cm.Pastel1)
    axis[i].contour(XX, YY, decision_function, colors=['k', 'k', 'k'], linestyles=['--', '-', '--'], levels=[-1, 0, 1])
    axis[i].set_title("kernel: "+kernel)
  
    print("Test verilerine çekirdek SVM sınıflandırıcısını uyguladıktan sonra doğruluk: {}: {:.3f}%".format(kernel,float(accuracy)*100.0))

## Mükemmel şekilde ayrılabilir veriler

In [None]:
# [2, 10] ve [10, 0]'daki ölçülerle rastgele 50 nokta
numPoints = 50
XY, labels = make_blobs(n_samples=numPoints, n_features=2, centers = [[2, 10], [10, 0]])

train_data, test_data, train_labels, test_labels = train_test_split(XY, 
                                        labels, train_size=0.75, random_state=0)

plt.scatter(train_data[:, 0], train_data[:, 1], c=train_labels,s =100, cmap='RdYlGn', edgecolors='k')

In [None]:
plot_classifications(train_data, train_labels,test_data, test_labels, 1, 'Mükemmel ayrılabilir veriler')

SVM sınıflandırıcının çok iyi çalıştığını görebilirsiniz (doğrusal sınıflandırıcı yeterlidir, önizleme için diğer çekirdekler). Ek olarak, doğrusal çekirdek hariç, sınıflandırma grafiklerinin yalnızca daha büyük boyutlu bir hiperdüzlemin projeksiyonları olduğu dikkate alınmalıdır. (dolayısıyla düz çizgiler değildir, orijinal veriler üzerindeki sınırları görselleştirmenize olanak tanır)

## Daha zayıf ayrılabilir veriler (kötü sınıflandırmalar olabilir)

In [None]:
a = np.array([(2,2),(2,8),(2,3),(6,2)])
XY_new = np.vstack((train_data, a))
labels_new = np.append(train_labels,[1,1,1,0])
plt.scatter(XY_new[:, 0], XY_new[:, 1], c=labels_new,s =100, cmap='RdYlGn', edgecolors='k')

**C parametresinin kullanımı - öğrenme sırasında sınıflandırmanın doğruluğu ile marj genişliği arasında bir uzlaşma - ne kadar yüksek olursa, doğruluk o kadar yüksek = daha dar marj**

In [None]:
plot_classifications(XY_new, labels_new,test_data,test_labels, 1, 'Daha az ayrılabilir veri')

### C parametresini değiştirme

In [None]:
plot_classifications(XY_new, labels_new,test_data, test_labels, 1000, 'Daha az ayrılabilir veri')

C parametresi çok yüksektir (1000), yani öğrenme sırasında sınıflandırmanın doğruluğunu önemseriz. Bu yaklaşım, "aşırı uyuma(overfitting)" neden olabilecek küçük marjlara neden olur (model, eğitim verileri için idealdir, ancak mutlaka genel bir çözüm değildir)

In [None]:
plot_classifications(XY_new, labels_new, test_data, test_labels, 0.01, 'Daha az ayrılabilir veri')

Bu durumda, C parametresi çok küçüktür ve bu da zayıf sınıflandırma doğruluğuna neden olur. "Sigmoid" ve "rbf" çekirdekleri için SVM'nin tüm verileri tek bir kategoride sınıflandırdığını görebilirsiniz.

## Ayrılamayan veriler

In [None]:
numPoints = 100
not_separable_data, not_separable_labels = make_circles(n_samples=numPoints,
  factor=.3, noise=.06)
not_separable_data = 10 * not_separable_data
not_separable_train_data, not_separable_test_data, not_separable_train_labels, not_separable_test_labels = train_test_split(not_separable_data, 
                                        not_separable_labels, train_size=0.75, random_state=0)
plt.scatter(not_separable_train_data[:, 0], not_separable_train_data[:, 1], c=not_separable_train_labels, s=100, zorder=10, cmap='RdYlGn',
                edgecolors='k')


### Çekirdek hilesi kullanmadan bir çözüm örneği

Daha büyük bir boyuta eşlenen bir fonksiyon buluyoruz ve ardından verileri iki sınıfa bölen bir hiperdüzlem oluşturuyoruz.

In [None]:
def f(x,y):
  return x**2 + y**2

In [None]:
z = f(not_separable_train_data[:, 0], not_separable_train_data[:, 1])
z_test = f(not_separable_test_data[:, 0], not_separable_test_data[:, 1])

fig = plt.figure(figsize=(10, 8)) 
ax = plt.axes(projection='3d')
ax.scatter(not_separable_train_data[:, 0], not_separable_train_data[:, 1], z, c=not_separable_train_labels, zorder=10, cmap='RdYlGn', edgecolors='k')



In [None]:
mapped_data = np.c_[not_separable_train_data, z]
mapped_test_data = np.c_[not_separable_test_data, z_test]
classifier = svm.SVC(kernel="linear")
classifier.fit(mapped_data, not_separable_train_labels)

predicted = classifier.predict(mapped_test_data)

accuracy = accuracy_score(not_separable_test_labels, predicted)
print("Test verilerine SVM sınıflandırıcı uygulandıktan sonra doğruluk: %.3f%%" % (float(accuracy)*100.0))

### Çekirdek hilesiyle

Verileri daha yüksek boyutlara işleyen bir haritalama işlevi ve hesaplamalar aramaktan kaçınırız

In [None]:
plot_classifications(not_separable_train_data, not_separable_train_labels, not_separable_test_data, not_separable_test_labels, 1, 'Doğrusal olmayan veriler')

In [None]:
plot_classifications(not_separable_train_data, not_separable_train_labels, not_separable_test_data, not_separable_test_labels, 1000, 'Doğrusal olmayan veriler')

"rbf" çekirdeğinin bu tür veriler (halkalar) için mükemmel olduğunu fark edeceksiniz.

## Model değerlendirme yöntemleri

--------------------------------------------------------------------------------

In [None]:
#Yardımcı fonksiyonlar
def calculate_f1_score(train_data, train_labels, test_data, test_labels, c, kernel):
    classifier = svm.SVC(kernel = kernel, C =c)

    classifier.fit(train_data, train_labels)
    predicted_labels = classifier.predict(test_data)
    return f1_score(test_labels, predicted_labels)

def plot_roc(train_data, train_labels, test_data, test_labels, c, kernel):
    classifier = svm.SVC(kernel = kernel, C =c)

    classifier.fit(train_data, train_labels)
    plot_roc_curve(classifier, test_data, test_labels)

    plt.title('Receiver Operating Characteristic')
    plt.legend(loc="lower right")
    plt.xlim([-0.05, 1.05])
    plt.ylim([-0.05, 1.05])

    plt.plot([0, 1], [0, 1], color='navy', linestyle='--')

def plot_PR(train_data, train_labels, test_data, test_labels, c, kernel):
    classifier = svm.SVC(kernel = kernel, C =c)

    classifier.fit(train_data, train_labels)

    plot_precision_recall_curve(classifier, test_data, test_labels)

    plt.title('Precision-Recall')
    plt.legend(loc="lower right")
    plt.xlim([-0.05, 1.05])
    plt.ylim([-0.05, 1.05])
  
def plot_classification(train_data, train_labels, test_data, test_labels, c, data_type, kernel):
    XX, YY, decision_function, accuracy = classification(train_data, train_labels, test_data, test_labels, kernel, c)

    f, axis = plt.subplots(1, 2, figsize=(20, 6),sharey=True)
    f.suptitle(data_type + '\nkernel: ' + kernel, fontsize=16)

    axis[0].scatter(train_data[:, 0], train_data[:, 1], c=train_labels, s=80,cmap='RdYlGn', zorder=10, edgecolors='k')
    axis[0].pcolormesh(XX, YY, decision_function < 0, cmap=plt.cm.Pastel1)
    axis[0].contour(XX, YY, decision_function, colors=['k', 'k', 'k'], linestyles=['--', '-', '--'], levels=[-1, 0, 1])
    axis[0].set_title('dane treningowe')

    axis[1].scatter(test_data[:, 0], test_data[:, 1], c=test_labels, s=80,cmap='RdYlGn', zorder=10, edgecolors='k')
    axis[1].pcolormesh(XX, YY, decision_function < 0, cmap=plt.cm.Pastel1)
    axis[1].contour(XX, YY, decision_function, colors=['k', 'k', 'k'], linestyles=['--', '-', '--'], levels=[-1, 0, 1])
    axis[1].set_title('dane testowe')

    print("SVM sınıflandırıcısını test verilerine uyguladıktan sonra doğruluk: %.3f%%" % (float(accuracy)*100.0))

def plot_contingency_table(train_data, train_labels, test_data, test_labels, c, kernel):
    classifier = svm.SVC(kernel = kernel, C =c)

    classifier.fit(train_data, train_labels)

    plot_confusion_matrix(classifier, test_data, test_labels, display_labels=['red', 'green'], cmap=plt.cm.Blues)

### Çapraz doğrulama

Veri setini bir eğitim seti ve bir test seti (basit doğrulama) olarak ayırdığımız, ardından modeli eğitim seti kullanarak eğitip test seti ile test ettiğimiz istatistiksel bir yöntem.

Ayrıca, veri kümesini muhtemelen eşit K alt kümelerine böldüğümüz, ardından her birini tam olarak bir kez bir test kümesi olarak ve kalan K-1'i bir eğitim kümesi olarak kullandığımız ve böylece K simülasyonları gerçekleştirdiğimiz bir K-katlama doğrulaması vardır.

### Receiver Operating Characteristic


ROC eğrisinin nereden geldiğini görelim:
- bir veri seti alıyoruz, üzerinde doğrusal bir SVC sınıflandırması yapıyoruz:

In [None]:
# test verileri - (2, 10) ve (10, 0) etrafında toplanan puan grupları
train_data, train_labels = make_blobs(n_samples=150, n_features=2, centers = [[2, 10], [4, 4], [10, 2]])
train_labels = [1 if x==1 else 0 for x in train_labels]

# hafif gürültü ekliyoruz
train_data = np.vstack((train_data, np.array([(2,10),(1,11),(3,12),(10, -2), (10, 2)])))
train_labels = np.append(train_labels,[1,1,1,0,1])

# öncekilere benzer şekilde oluşturulan test verileri
test_data, test_labels = make_blobs(n_samples=45, n_features=2, centers = [[2, 10], [4, 4], [10, 2]])
test_labels = [1 if x==1 else 0 for x in test_labels]
test_data = np.vstack((test_data, np.array([(2,10),(1,11),(3,12),(10, -2), (10, 2)])))
test_labels = np.append(test_labels,[1,1,1,0,1])

f, axis = plt.subplots(nrows=1, ncols=2, figsize=(18, 6))
axis[0].scatter(train_data[:, 0], train_data[:, 1], c=train_labels, s = 50,  cmap='RdYlGn', zorder=10, edgecolors='k')
axis[0].set_title("Eğitim verileri")
axis[1].scatter(test_data[:, 0], test_data[:, 1], c=test_labels, s = 50,cmap='RdYlGn', zorder=10, edgecolors='k')
axis[1].set_title("Test verileri")

In [None]:
plot_classification(train_data, train_labels, test_data, test_labels, 1, 'Test verileri', 'linear')

- Hata matrisini çiziyoruz (*karışıklık matrisi / beklenmedik durum tablosu ), Dört alandan oluşuyor:
   - *TP*: gerçek pozitifler, punky kırmızı olarak işaretlendi (Gerçek etiketler) ve böylece sınıflandırıldı (Öngörülen etiketler),
   - *FP*: yanlış pozitifler, kırmızı olarak sınıflandırılan yeşil noktalar,
   - *FN*: yanlış negatifler, yeşil olarak sınıflandırılan kırmızı noktalar,
   - *TN*: gerçek negatifler, yeşil olarak sınıflandırılan yeşil noktalar,

![confusion matrix ](https://drive.google.com/uc?id=1b04cjONAeZ479CBQjMcxuOcoJOhLRLHr)

In [None]:
plot_contingency_table(train_data, train_labels, test_data, test_labels, 1, 'linear')

Buna dayanarak, aşağıdaki değerleri hesaplayabiliriz:

<p>&nbsp;</p>

$$True \hspace{0.2cm} Positive \hspace{0.2cm} Rate = Sensitivity = \frac{True Positives}{True Positives + False Negatives}$$

<p>&nbsp;</p>

$$False \hspace{0.2cm} Positive \hspace{0.2cm} Rate = 1 - Specificity = \frac{False Positives}{False Positives + True Negatives}$$

*sınıflandırma* işlevinde, verilen noktaların her biri için bir değer döndüren *karar_ işlevi* işlevini kullanırız. Belirli bir eşiğin üzerindeki değerlerin, belirli bir noktanın bir sınıfa ve altının diğerine ait olduğu anlamına geldiğini varsayıyoruz (varsayılan olarak bu eşik 0'dır).

Bu eşik değiştirilebilir, bu da modelin noktaları bir veya diğer sınıfa (bizim durumumuzda yeşil veya kırmızı olarak) ait olarak işaretleme eğiliminin artmasına neden olur. Modelin trendi değiştikçe hata matrisindeki değerler de değişmektedir.

**ROC** eğrisi, belirli bir eşik için *True Positive Rate* (ROC eğrisinin dikey ekseni) ve False Positive Rate (ROC eğrisinin yatay ekseni) değeri hesaplanarak oluşturulur.

Eğrinin eksenin sol üst köşesine mümkün olduğunca yakın olması için True Positive Rate = 1 ve False Positive Rate = 0 olması en iyisidir.

İhtiyaçlarımıza en uygun eşiği seçebiliriz - yüksek Gerçek Pozitif Oranı, düşük Yanlış Pozitif Oranı veya optimal bir modeli vardır, yani eksen üzerindeki noktaya (0,1) en yakın sonucu verir.

- bizim durumumuz ve lineer çekirdek için ROC eğrisini çiziyoruz

In [None]:
plot_roc(train_data, train_labels, test_data, test_labels, 1, 'linear')

### Precision-Recall

Eğriyi oluşturma prensibi ROC eğrisi ile aynı kalır, sadece eksenler değişir, burada elimizde:


<p>&nbsp;</p>

$$Precision = \frac{True Positives}{True Positives + False Positives}$$

<p>&nbsp;</p>

$$Recall = \frac{True Positives}{True Positives + False Negatives}$$

<p>&nbsp;</p>

Örneğimizde, eğri şöyle görünecektir:

In [None]:
plot_PR(train_data, train_labels, test_data, test_labels, 1, 'linear')

Na tej krzywej idealnym punktem jest punkt (1, 1), ponieważ oznacza on, że *False Positives* = *False Negatives* = 0. 

Najlepiej jest więc wybierać próg, który sprawi, że zarówno *precision* jak i *recall* będą możliwie blisko 1, z przewagą jednego lub drugiego, w zależności od tego czy wolimy mieć z większym prawdopodobieństwem wyniki fałszywe były klasyfikowane jako wyniki z pierwszej czy drugiej klasy.



Bu eğride ideal nokta (1, 1)'dir çünkü *False Positives* = *False Negatives* = 0 anlamına gelir.

Bu nedenle, daha olası yanlış sonuçlara sahip olmayı tercih edip etmememize bağlı olarak, hem *kesinliği (precision)* hem de *duyarlılık (recall)* mümkün olduğunca 1'e yakınlaştıracak bir eşik seçmek en iyisidir. birinci veya ikinci sınıfın sonuçları olarak sınıflandırılır.

### ROC ve Recision-Recall Karşılaştırması

Bu eğrilerin her ikisi de bizim için hangi eşiğin uygun olacağına karar vermemize yardımcı olabilir, ancak prensipte:

- ROC eğrisi oldukça basittir ve her iki sınıfa ait oldukça eşit olarak dağıtılmış verilere sahip olduğumuzda kullanılabilir,
- bir sınıftan gelen veriler baskın olduğunda, PR eğrisini kullanmalıyız,

Bunun nedeni, eşit olmayan verilerle ROC eğrisinin bize modelin performansının iyimser bir resmini sunabilmesidir [bknz. örnek](https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/), PR eğrisi ise modelin gerçek davranışını daha iyi yansıtır.

Eşik değiştirilirken eğrilerin nasıl çizileceğini gösteren örnek:

![alt text](https://miro.medium.com/max/1400/1*Dmsoecp2PPYRIXJk_ESBdw.gif)

### Eğrinin Altındaki Alan

Çizimin altındaki alan, belirli bir problem için kullanılan farklı modelleri karşılaştırırken faydalı olabilir. Genel olarak, AUC ne kadar büyük olursa, model o kadar iyi olur.

Örneğin, verilerimiz için kullanılan iki çekirdeği karşılaştıralım:

In [None]:
plot_roc(train_data, train_labels, test_data, test_labels, 1, 'linear')

In [None]:
plot_roc(train_data, train_labels, test_data, test_labels, 1, 'rbf')

Açıklamada görülebileceği gibi, her iki çekirdeğin AUC'si ve grafiğin kendisi farklıdır. * rbf * çekirdeği daha iyisini yapmalıdır, çünkü bu veri kurulumu ile onu iyi ayıran düz bir çizgi çizmek mümkün değildir ve aynı zamanda yanlış sınıflandırılan miktarı azaltacak yeşil noktaların etrafına bölünmüş bir çizgi çizebilirsiniz. veri.

### Doğruluk (Accurancy)

Doğruluk, bir sınıflandırmanın kalitesini değerlendirmek için bir ölçüdür. Şu formülden hesaplanır:

<p>&nbsp;</p>

$$Accurancy = \frac{True Positive + True Negative}{True Positive + True Negative + False Positive + False Negative}$$

<p>&nbsp;</p>

Tüm durumlara doğru bir şekilde sınıflandırılan vakaların bir ölçüsüdür.

In [None]:
_, _, _, accuracy = classification(train_data, train_labels, test_data, test_labels, 'linear', 1)
print(accuracy)

### F1

F1 skoru, Precision (Kesinlik) ve Precision(Duyarlılık)'in harmonik ortalaması olarak hesaplanır:


<p>&nbsp;</p>

$$F1 = 2 * \frac{Precision * Recall}{Precision + Recall}$$

<p>&nbsp;</p>

Her iki önlem de hata matrisinin dört alanını da hesaba katar ve modelin kalitesini belirlemeye izin verir. Aradaki fark, F1'in **False Positive** ve **False Negative** arasındaki farka daha duyarlı olmasıdır.

In [None]:
calculate_f1_score(train_data, train_labels, test_data, test_labels, 1, 'linear')

# Görev 2

SVM sınıflandırıcısının farklı çekirdekler için nasıl çalıştığını gösterin. Çapraz doğrulama (Cross-validate). 

ROC ve PR eğrilerinin yanı sıra F-1 skoru ve bunların altındaki alanları karşılaştırın.

In [None]:
cancer = load_breast_cancer()

In [None]:
df_cancer = pd.DataFrame(np.c_[cancer['data'], cancer['target']], columns = np.append(cancer['feature_names'], ['target']))

df_cancer.head()

In [None]:
print("Öznitelik isimleri:",df_cancer.columns)
print("(Örnek sayısı, Öznitelik sayısı):",df_cancer.shape)

In [None]:
# VERİ HAZIRLAMA
X = df_cancer.drop(['target'], axis = 1)
y = df_cancer['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

#normalleştirme
X_train_min = X_test.min()
X_train_range = (X_train - X_train_min).max()
X_train_scaled = (X_train - X_train_min)/X_train_range

X_test_min = X_test.min()
X_test_range = (X_test - X_test_min).max()
X_test_scaled = (X_test - X_test_min)/X_test_range

In [None]:
def classification(train_data, train_labels, test_data, test_labels, c, kernel):
    classifier = svm.SVC(kernel = kernel, C =c)
  
    classifier.fit(train_data,train_labels)
    predicted_labels = classifier.predict(test_data)
    accuracy = accuracy_score(test_labels, predicted_labels)
    
    return (classifier, predicted_labels, accuracy, kernel)

In [None]:
kernels = ['linear','poly','sigmoid' , 'rbf'] 

classification_results = []
for kernel in kernels:
   classification_results.append(classification(X_train_scaled, y_train, X_test_scaled, y_test, 1, kernel))

In [None]:
#plotting confusion matrix
display_labels = ['cancer', 'no cancer']
f, axis = plt.subplots(1, len(classification_results), figsize=(16, 4),sharey=True)

for i, result in enumerate(classification_results):
  axis[i].set_title("Kernel: {}".format(result[3]))
  plot_confusion_matrix(result[0], X_test_scaled, y_test, display_labels=display_labels, cmap=plt.cm.Blues, ax = axis[i] )

In [None]:
def plot_classification_quality(classification_result, test_data, test_labels):
  f, axis = plt.subplots(1, 2, figsize=(10, 4),sharey=True)
  f.tight_layout(pad=4.0)
  plot_roc_curve(classification_result[0], test_data, test_labels, ax = axis[0])

  axis[0].set_xlim([-0.05, 1.05])
  axis[0].set_ylim([-0.05, 1.05])
  axis[0].plot([0, 1], [0, 1], color='navy', linestyle='--')
  axis[1].set_title(" eğri: {}".format( "Precision-Recall"))
  

  plot_precision_recall_curve(classification_result[0], test_data, test_labels, ax = axis[1])


  axis[1].set_xlim([-0.05, 1.05])
  axis[1].set_ylim([-0.05, 1.05])
      
  
  print("Sınıflandırıcıyı kullandıktan sonra doğruluk: %.3f%%" % (float(classification_result[2])*100.0))
  print("F1 skoru: {}".format(f1_score(test_labels, classification_result[1])))
  plt.show()

## Kalite kontrolü

Bir sınıfın baskın olduğu ve bu daha küçük sınıfın öğelerini tespit etmek istediğimiz veriler için, doğruluk yüzdesinden ziyade diğer kalite sınıflandırıcılarını kullanmak daha iyidir. Örneğin, nadiren yanlış olan bir kanser tespit modelini (örneğimizde olduğu gibi) alın. Yüksek doğruluk yüzdesine rağmen, modelimiz birinin yaşamının bağlı olduğu böylesine önemli bir noktada yanlıştır. <br>

Modelin kalitesini daha iyi kontrol etmeye yardımcı olacak sınıflandırıcılar şunlar olabilir:
- ROC eğrisi
- Hassas-Geri Çağırma eğrisi
- F1 Skoru

In [None]:
for i, result in enumerate(classification_results):
  print("Kernel: ", result[3])
  plot_classification_quality(result, X_test_scaled, y_test)

# Görev 3

PCA yöntemini kullandıktan sonra görev 2'deki küme için sınıflandırma sonuçları

In [None]:
def plot_results_with_pca(test_data, test_labels, predicted_labels): 
  
  #VERİLERİN HAZIRLANMASI
  scaler = StandardScaler()
  scaled_test_data = scaler.fit_transform(test_data)

  pca = PCA(n_components=2)
  pca_data = pca.fit_transform(scaled_test_data) 

  f, axis = plt.subplots(1, 2, figsize=(10, 4),sharey=True)
  f.tight_layout(pad=4.0)

  #etiket değerlerinin dizilerin görev 4 için eşleme
  mapped_prediction = map(lambda x: int(x),predicted_labels)
  mapped_original = map(lambda x: int(x),test_labels)

  axis[0].scatter(pca_data[:, 0], pca_data[:, 1], c=list(mapped_original), s=100,cmap='RdYlGn', zorder=10, edgecolors='k')
  axis[0].set_title("Gerçek sınıflandırmalar")
  axis[1].scatter(pca_data[:, 0], pca_data[:, 1], c=list(mapped_prediction), s=100,cmap='RdYlGn', zorder=10, edgecolors='k')
  axis[1].set_title("Öngörülen sınıflandırmalar")
  plt.show()

In [None]:
for i, result in enumerate(classification_results):
  print("Kernel: ", result[3])
  plot_results_with_pca(X_test,y_test, result[1])