# GİRİŞ - DEMO 1

## Tablo olarak veri

Temel tablo, satırların veri kümesinin ayrı öğelerini temsil ettiği ve sütunların bu öğelerin her biriyle ilgili miktarları temsil ettiği iki boyutlu bir veri ızgarasıdır. 

Örneğin, 1936'da Ronald Fisher tarafından analiz edilen [Iris veri kümesini](https://en.wikipedia.org/wiki/Iris_flower_data_set) ele alalım. 

**Süsen (Iris) Çiçeği**

<img src="https://drive.google.com/uc?id=1uYS2KKfWyIOMlsROpdryTuxRRwYsCQBU">

In [None]:
import seaborn as sns
df_iris = sns.load_dataset('iris')
df_iris

[n_samples, n_features] = 150 sample x 5 feature

Örneğin, önceki verilerde, diğer ölçümlere dayalı olarak çiçek türlerini tahmin edebilen bir model oluşturmak isteyebiliriz; bu durumda, türler sütunu (**species**) hedef dizi olarak kabul edilecektir.

In [None]:
%matplotlib inline
import seaborn as sns; 
sns.set()
sns.pairplot(df_iris, hue='species', size=1.5);

DataFrame'den özellikler matrisini (features matrix) ve hedef diziyi (target array) çıkaracağız: 

In [None]:
X_iris = df_iris.drop('species', axis=1)
X_iris.shape

In [None]:
X_iris

In [None]:
y_iris = df_iris['species']
y_iris.shape

In [None]:
y_iris

# Denetimli öğrenme örneği: Basit doğrusal regresyon

Bu işlemin bir örneği olarak, basit bir doğrusal regresyon düşünelim; 
bu, $(x, y)$ verisine bir çizgi uydurmanın genel durumudur.
Regresyon örneğimiz için aşağıdaki basit verileri kullanacağız:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

rng = np.random.RandomState(34)

x = 10 * rng.rand(50)
y = 2 * x - 1 + rng.randn(50)

plt.scatter(x, y);

## 1. Model Seçimi

In [None]:
from sklearn.linear_model import LinearRegression

Diğer doğrusal regresyon modelleri için [sklearn.linear_model modülü](https://scikit-learn.org/stable/modules/linear_model.html) resmi dökümantasyonuna göz atabilirsiniz.

## 2. Model Hiperparametrelerinin Seçimi

Model sınıfımıza karar verdikten sonra çalıştığımız model sınıfına bağlı olarak, aşağıdaki gibi bir veya daha fazla soruyu yanıtlamamız gerekebilir:

* Ofseti (yani, y-kesişimi) sığdırmak ister miyiz?
* Modelin normalleştirilmesini ister miyiz?
* Model esnekliği eklemek için özelliklerimizi önceden işlemek ister miyiz?
* Modelimizde ne derece düzenlileştirme kullanmak isteriz?
* Kaç model bileşeni kullanmak istiyoruz?

Bunlar, model sınıfı seçildikten sonra yapılması gereken önemli seçimlerin örnekleridir. Bu seçenekler genellikle hiperparametreler olarak adlandırılır.

Doğrusal regresyon örneğimiz için, **LinearRegression** sınıfı üzerinde `fit_intercept` hiperparametresini kullanarak kesişimi sığdırmak istediğimizi belirtebiliriz: 

In [None]:
model = LinearRegression(fit_intercept=True)
model

## 3. Verileri bir özellik matrisi ve hedef vektörü olarak düzenleme

Burada hedef değişkenimiz `y` - `n_samples` uzunluğunda bir dizi.
Ama burada `x`i, `[n_samples, n_features]` şeklinde bir matrix haline dönüştürmemiz gerekiyor. 

In [None]:
X = x[:, np.newaxis]
X.shape

## 4. Model Eğitimi


In [None]:
model.fit(X, y)

In [None]:
model.coef_

In [None]:
model.intercept_

Bu iki parametre, verilere basit doğrusal uyumun eğimini ve kesişimini temsil eder. Veri tanımıyla karşılaştırıldığında, 2'nin giriş eğimine ve -1'in kesişim noktasına çok yakın olduklarını görüyoruz.

## 5. Bilinmeyen veriler için etiketleri tahmin etme

Model eğitildikten sonra, denetimli makine öğreniminin ana görevi, onu eğitim setinin parçası olmayan yeni veriler hakkında söylediklerine dayanarak değerlendirmektir.

Scikit-Learn'de bu, ``predict()`` yöntemi kullanılarak yapılabilir.

Bu örnek için, "yeni verimiz" *x* değerlerinden oluşan bir matris olacak ve modelin hangi *y* değerlerini tahmin ettiğini soracağız:

In [None]:
xfit = np.linspace(-1, 11)

In [None]:
Xfit = xfit[:, np.newaxis]
yfit = model.predict(Xfit)

Son olarak, önce ham verileri çizerek sonuçları görselleştirelim ve ardından eğitilen modeli:

In [None]:
plt.scatter(x, y)
plt.plot(xfit, yfit);

# Denetimli öğrenme örneği: İris sınıflandırması

Daha önce tartıştığımız Iris veri setini kullanarak bu işlemin başka bir örneğine bakalım.

**Sorumuz şu olacak: Iris verilerinin bir kısmı üzerinde eğitilmiş bir model verildiğinde, kalan etiketleri ne kadar iyi tahmin edebiliriz?**

Bu görev için, her sınıfın eksen hizalı bir Gauss dağılımından çizildiğini varsayarak ilerleyen Gaussian naive Bayes olarak bilinen son derece basit bir üretici model kullanacağız.

Çok hızlı olduğu ve seçilecek hiperparametresi olmadığı için, Gaussian naive Bayes, iyileştirmelerin daha karmaşık modellerle bulunup bulunamayacağını keşfetmeden önce, genellikle temel sınıflandırma olarak kullanmak için iyi bir modeldir.

Modeli daha önce görmediği veriler üzerinde değerlendirmek istiyoruz ve bu nedenle verileri bir *eğitim seti* ve bir *test seti* olarak ayıracağız.

Bu elle yapılabilir, ancak `train_test_split` yardımcı fonksiyonu kullanmak daha uygundur:

In [None]:
#from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X_iris, y_iris, random_state=1)

Düzenlenen verilerle, etiketleri tahmin etmek için aşağıdaki yöntemleri kullanalım

In [None]:
from sklearn.naive_bayes import GaussianNB # 1. model seçimi

model = GaussianNB()

model.fit(Xtrain, ytrain)                  # veriler ile modeli eğitme

y_model = model.predict(Xtest)             # yeni veriler ile tahmin(predict) yapma

Son olarak, tahmin edilen etiketlerin gerçek değerleriyle başarımını `accuracy_score` yardımcı ile ölçebilirsiniz

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(ytest, y_model)

%97'yi aşan bir doğrulukla, bu çok Gaussian naive Bayes sınıflandırma algoritmasının bile bu belirli veri kümesi için etkili olduğunu görüyoruz!

# Denetimsiz Öğrenme Örneği: Iris verilerinin boyutlarının azaltılması

Denetimsiz öğrenme problemine bir örnek olarak, daha kolay görselleştirmek için Iris verilerinin boyutsallığını azaltmaya bir göz atalım.

İris verilerinin dört boyutlu olduğunu hatırlayın: Her örnek için kaydedilen dört özellik vardır.

Boyut indirgemenin görevi, verilerin temel özelliklerini koruyan uygun bir düşük boyutlu temsilin olup olmadığını sormaktır.

Genellikle boyutluluk azaltma, verileri görselleştirmeye yardımcı olarak kullanılır: sonuçta, verileri iki boyutlu olarak çizmek, dört veya daha yüksek boyuttan çok daha kolaydır!

Burada, hızlı bir doğrusal boyut azaltma tekniği olan PCA (temel bileşen analizini) kullanacağız.

Modelden iki bileşeni, yani verilerin iki boyutlu bir temsilini döndürmesini isteyeceğiz.


In [None]:
from sklearn.decomposition import PCA  

model = PCA(n_components=2)     
      
model.fit(X_iris)               

X_2D = model.transform(X_iris)       

In [None]:
X_2D.shape

Şimdi sonuçları çizelim. 

Bunu yapmanın hızlı bir yolu, sonuçları orjinal Irıs `DataFrame`i içerisine eklemek ve sonuçları göstermek için Seaborn'un `lmplot` fonskiyonunu kullanmaktır.

In [None]:
df_iris['PCA1'] = X_2D[:, 0]
df_iris['PCA2'] = X_2D[:, 1]

sns.lmplot("PCA1", "PCA2", hue='species', data=df_iris, fit_reg=False);

PCA algoritmasının tür etiketleri hakkında hiçbir bilgisi olmamasına rağmen, iki boyutlu gösterimde türlerin oldukça iyi ayrıldığını görüyoruz!

Bu bize, daha önce gördüğümüz gibi, nispeten basit bir sınıflandırmanın veri kümesi üzerinde muhtemelen etkili olacağını gösteriyor.

# Denetimsiz Öğrenme: Iris Kümeleme

Şimdi, Iris verilerine kümeleme uygulamasına bakalım.

Bir kümeleme algoritması, herhangi bir etikete başvurmadan farklı veri gruplarını bulmaya çalışır.

Burada, Gauss karışım modeli (Gaussian mixture model)(GMM) adı verilen güçlü bir kümeleme yöntemini kullanacağız.

Bir GMM, verileri Gauss bloblarının bir koleksiyonu olarak modellemeye çalışır.

Gauss karışım modelini aşağıdaki gibi uydurabiliriz:

In [None]:
#from sklearn.mixture import GMM      
from sklearn import mixture

model = mixture.GaussianMixture(n_components=3, covariance_type='full')  

model.fit(X_iris)                   

y_gmm = model.predict(X_iris)      

In [None]:
df_iris['cluster'] = y_gmm
sns.lmplot("PCA1", "PCA2", data=df_iris, hue='species', col='cluster', fit_reg=False);

Verileri küme numarasına göre bölerek, GMM algoritmasının temel etiketi ne kadar iyi kurtardığını tam olarak görüyoruz: *setosa* türleri küme 0 içinde mükemmel bir şekilde ayrılırken *versicolor* ve *virginica* arasında az miktarda karışım kalır .

Bu, bize tek tek çiçeklerin tür etiketlerini söyleyecek bir uzman olmasa bile, bu çiçeklerin ölçümlerinin, basit bir kümeleme algoritmasıyla bu farklı tür gruplarının varlığını *otomatik olarak* tespit edebileceğimiz kadar belirgin olduğu anlamına gelir!

Bu tür bir algoritma, alandaki uzmanlara gözlemledikleri örnekler arasındaki ilişkiye dair ipuçları da verebilir.

# Uygulama: Elle Yazılmış Rakamları Keşfetmek

Şimdi OCR (optik karakter tanıma) probleminin bir parçasını ele alalım: 
Elle yazılmış rakamların tanımlanması.

Burada Scikit-Learn'ün kendi frameworkü içerisindeki yerleşik olan önceden biçimlendirilmiş rakam setini kullanacağız.

## Rakam verilerini yükleme ve görselleştirme

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()
digits.images.shape

Görüntü verileri üç boyutlu bir dizidir: her biri 8 × 8 piksel matristen oluşan 1.797 örnek.
Bunlardan ilk yüz tanesini görselleştirelim:

In [None]:
import matplotlib.pyplot as plt
 
fig, axes = plt.subplots(10, 10, figsize=(8, 8),
                         subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))

for i, ax in enumerate(axes.flat):
    ax.imshow(digits.images[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(digits.target[i]),
            transform=ax.transAxes, color='green')

Bu verilerle Scikit-Learn içinde çalışmak için iki boyutlu bir `[n_samples, n_features]` gösterimine ihtiyacımız var.
Bunu, görüntüdeki her pikseli bir özellik olarak ele alarak gerçekleştirebiliriz: yani, piksel dizilerini düzleştirerek, böylece her basamağı temsil eden uzunluğu 64 olan piksel dizisine sahip oluruz.
Ek olarak, her basamak için önceden belirlenmiş etiketi veren hedef diziye ihtiyacımız var.

In [None]:
X = digits.data
X.shape

In [None]:
y = digits.target
y.shape

Burada 1.797 örnek ve 64 özellik olduğunu görüyoruz.

## Denetimsiz öğrenme: Boyut azaltma

Noktalarımızı 64-boyutlu parametre uzayı içinde görselleştirmek istiyoruz, ama böyle yüksek-boyutlu bir uzayda noktaları etkin bir şekilde görselleştirmek zordur.

Bunun yerine denetimsiz bir yöntem kullanarak boyutları 2'ye indireceğiz.

Burada, *Isomap* adlı çok yönlü bir öğrenme algoritmasını kullanacağız ve verileri iki boyuta dönüştüreceğiz:

In [None]:
from sklearn.manifold import Isomap

iso = Isomap(n_components=2)

iso.fit(digits.data)

data_projected = iso.transform(digits.data)
data_projected.shape

Yansıtılan verilerin artık iki boyutlu olduğunu görüyoruz.

In [None]:
plt.scatter(data_projected[:, 0], data_projected[:, 1], c=digits.target,
            edgecolor='none', alpha=0.5,
            cmap=plt.cm.get_cmap('Spectral', 10))

plt.colorbar(label='digit label', ticks=range(10))
plt.clim(-0.5, 9.5);

Bu çizim bize, daha geniş 64 boyutlu uzayda çeşitli sayıların ne kadar iyi ayrıldığına dair iyi bir sezgi verir.

Bununla birlikte, genel olarak, farklı gruplar parametre uzayında oldukça iyi ayrılmış görünmektedir: bu bize, çok basit bir denetimli sınıflandırma algoritmasının bile bu veriler üzerinde uygun şekilde çalışması gerektiğini söyler.
Bir deneyelim.

## Rakam Sınıflandırma

Daha önce Iris verilerinde olduğu gibi, rakam sınıflandırma verileri bir eğitim ve test kümesine böleceğiz ve Gaussian naive Bayes modeline uygulayacağız:

In [None]:
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, random_state=0)

In [None]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()

model.fit(Xtrain, ytrain)

y_model = model.predict(Xtest)

Artık modelimizi tahmin ettiğimize göre, test setinin gerçek değerlerini tahminlerle karşılaştırarak doğruluğunu ölçebiliriz:

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(ytest, y_model)

Bu son derece basit modelle bile, rakamların sınıflandırılması için yaklaşık %80 doğruluk buluyoruz!

Ancak bu tek sayı bize *nerede* yanlış gittiğimizi söylemez—bunu yapmanın güzel bir yolu, Scikit-Learn ile hesaplayıp Seaborn ile çizebileceğimiz *karışıklık matrisini (confusion matrix)* kullanmaktır:

In [None]:
from sklearn.metrics import confusion_matrix

mat = confusion_matrix(ytest, y_model)

sns.heatmap(mat, square=True, annot=True, cbar=False)
plt.xlabel('predicted value')
plt.ylabel('true value');

Bu bize yanlış etiketlenmiş noktaların nerede olduğunu gösterir: örneğin, burada çok sayıda iki, birler veya sekizler olarak yanlış sınıflandırılır.

Modelin özelliklerine dair bir sezgi kazanmanın bir başka yolu da girdileri tahmin edilen etiketleriyle yeniden çizmektir.

Doğru etiketler için yeşil, yanlış etiketler için kırmızı kullanacağız:

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(8, 8),
                         subplot_kw={'xticks':[], 'yticks':[]},
                         gridspec_kw=dict(hspace=0.1, wspace=0.1))

test_images = Xtest.reshape(-1, 8, 8)

for i, ax in enumerate(axes.flat):
    ax.imshow(test_images[i], cmap='binary', interpolation='nearest')
    ax.text(0.05, 0.05, str(y_model[i]),
            transform=ax.transAxes,
            color='green' if (ytest[i] == y_model[i]) else 'red')

Verilerin bu alt kümesini inceleyerek, algoritmanın nerede optimal performans göstermediği konusunda fikir edinebiliriz.

%80 sınıflandırma oranımızı aşmak için, Destek Vektör Makineleri, Karar Ağaçları ve Rastgele Ormanlar gibi başka bir sınıflandırma yaklaşımı kullanılabilir.