<a href="https://colab.research.google.com/github/busrasencan/Siniflandirma_Modelleri/blob/master/s%C4%B1n%C4%B1fland%C4%B1rma_modelleri_kar%C5%9F%C4%B1la%C5%9Ft%C4%B1rmas%C4%B1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Breast Cancer Wisconsin (Original) dataset (Meme Kanseri Wisconsin veri kümesi)** 

UCI makine öğrenimi havuzundan Meme Kanseri Wisconsin (Orijinal) veri kümesi, meme kanseri vakaları için ölçümleri kaydeden bir sınıflandırma veri kümesidir. Bağımlı değişken iyi huylu ve kötü huylu olmak üzere iki sınıftan oluşmaktadır.

    Sample code number: Hataların ID numarası
    Clump Thickness: 1 - 10
    Uniformity of Cell Size: 1 - 10
    Uniformity of Cell Shape: 1 - 10
    Marginal Adhesion: 1 - 10
    Single Epithelial Cell Size: 1 - 10
    Bare Nuclei: 1 - 10
    Bland Chromatin: 1 - 10
    Normal Nucleoli: 1 - 10
    Mitoses: 1 - 10
    Class: (2 iyi huylu, 4 kötü huylu)

https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(original)

### *Analiz için gerekli kütüphaneler*

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### *Verinin yüklenmesi ve bağımlı, bağımsız değişkenlerin belirtilmesi*

In [None]:
dataset = pd.read_csv('Data.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
dataset.head(10)

Unnamed: 0,Sample code number,Clump Thickness,Uniformity of Cell Size,Uniformity of Cell Shape,Marginal Adhesion,Single Epithelial Cell Size,Bare Nuclei,Bland Chromatin,Normal Nucleoli,Mitoses,Class
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2
5,1017122,8,10,10,8,7,10,9,7,1,4
6,1018099,1,1,1,1,2,10,3,1,1,2
7,1018561,2,1,2,1,2,1,3,1,1,2
8,1033078,2,1,1,1,2,1,1,1,5,2
9,1033078,4,2,1,1,2,1,2,1,1,2


### *Veri setinin eğitim ve test seti olarak ayrılması*

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

### *Özellik ölçeklendirme*

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

# **Lojistik Regresyon** 

Lojistik regresyonda amaç sınıflandırma problemi için bağımlı ve bağımsız değişkenler arasındaki ilişkiyi tanımlayan doğrusal bir model kurmaktır. Çoklu doğrusal regresyonun sınıflandırma problemlerine uyarlanmış ufak farklılıklara tabi tutulmuş versiyonu diyebiliriz.
Lojistik regresyonda bağımlı değişken kategoriktir yani sınıflardan oluşur. İsmini bağımlı değişkene uygulanan lojit dönüşümünden alır ve doğrusal regresyonda aranan varsayımlar burada aranmadığı için daha esnek kullanılabilirliği vardır.

###*Lojistik Regresyon Modeli*


In [None]:
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(random_state = 0)
classifier.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=0, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

### *Lojistik regresyon modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[103   4]
 [  5  59]]


0.9473684210526315

# **K - En Yakın Komşu ( K - Nearest Neighbors)**

K-NN modelinde gözlemlerin birbirine olan benzerlikleri üzerinden tahmin yapılır. Öklid ya da benzeri bir uzaklık hesabı ile her bir gözleme uzaklık hesaplanır. Bunun sonucunda değerin hangi sınıfa ait olduğu belirlenir.



### *K-NN Modeli*

In [None]:
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

### *K - NN modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[103   4]
 [  5  59]]


0.9473684210526315

# **Destek Vektör Sınıflandırması (SVM)**

Destek vektör sınıflandırmasında amaç iki sınıf arasındaki ayrımın optimum olmasını sağlayacak hiper düzlemi bulmaktır.

### *SVM Modeli*

In [None]:
from sklearn.svm import SVC
classifier = SVC(kernel = 'linear', random_state = 0)
classifier.fit(X_train, y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=False, random_state=0, shrinking=True, tol=0.001,
    verbose=False)

### *SVM modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[102   5]
 [  5  59]]


0.9415204678362573

# **Kernel SVM (Gaussian radial basis function -RBF- )**

Basit SVM algoritması doğrusal olarak ayrılabilir veriler için karar sınırını bulmakta kullanılan yöntemdir.Bununla birlikte, doğrusal olarak ayrılamayan veriler söz konusu olduğunda, düz bir çizgi karar sınırı olarak kullanılamaz.Doğrusal olarak ayrılamayan verilerde, Kernel SVM adı verilen değiştirilmiş bir SVM sürümü kullanılır.

### *Kernel SVM Modeli*

In [None]:
from sklearn.svm import SVC
classifier = SVC(kernel = 'rbf', random_state = 0)
classifier.fit(X_train, y_train)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=0, shrinking=True, tol=0.001,
    verbose=False)

### *Kernel SVM modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[102   5]
 [  3  61]]


0.9532163742690059

# **Naive Bayes**

Naive Bayes sınıflandırıcısı, sınıflandırma görevi için kullanılan olasılıklı bir makine öğrenme modelidir. Sınıflandırıcının noktası, Bayes teoremine dayanır.

### *Naive Bayes Modeli*

In [None]:
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

### *Naive Bayes modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[99  8]
 [ 2 62]]


0.9415204678362573

# **Karar Ağacı Sınıflandırması**

Karar ağacı sınıflandırmasın amacı veri özelliklerinden basit kurallar çıkarıp bu kuralları öğrenerek bir değişkenin değerini tahmin eden modeli oluşturmaktır.

### *Karar Ağacı Modeli*

In [None]:
from sklearn.tree import DecisionTreeClassifier
classifier = DecisionTreeClassifier(criterion = 'entropy', random_state = 0)
classifier.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='entropy',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='best')

### *Karar Ağacı modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[103   4]
 [  3  61]]


0.9590643274853801

# **Rastgele Orman Sınıflandırması (Random Forest)**

Random forest sınıflandırma modelinin çalışma mantığı birden fazla karar ağacı oluşturur ve bir sonuç üreteceği zaman bu karar ağaçlarındaki ortalama değeri alarak sonuç üretir.

### *Random Forest Modeli*

In [None]:
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0)
classifier.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='entropy', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

### *Random Forest modelinin karışıklık matrisi(confusion matrix) ve doğruluk oranı*

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
y_pred = classifier.predict(X_test)
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[102   5]
 [  6  58]]


0.935672514619883

# **Sonuç**

Sınıflandırma modellerinin doğruluk oranları karşılaştırıldığında en büyük değere sahip olan modelin Karar Ağacı Sınıflandırması olduğu görülmektedir. Bu veri seti için Karar Ağacı modelini uygulamak diğer sınıflandırma modellerine kıyasla daha iyi ve doğru sonuçlar verecektir.

https://www.udemy.com/course/machinelearning/