# Convolutional Neural Nets

Bu notebook'ta öncelikle hard disk'teki imageları parçalar halinde okuyup, sonrasında bir CNN öğreneceğiz. CNNlerle ilgili en anlaşılır bilgiyi [şu](http://www.deeplearningbook.org/contents/convnets.html) linkte bulabilirsiniz (İngilizce kaynak).

Bu CNN'in amacı, köpek fotoğraflarından köpeklerin hangi türe ait olduğunu öğrenmek. Bu verisetini kullanabilmek için Kaggle'daki [yarışmadan](https://www.kaggle.com/c/dog-breed-identification) indirmek gerekiyor. Ben train verisetini indirip "dog_data/train" diye bir klasörün içine attım. Sınıfların etiketleri ise "dog_data/labels.csv" içinde. Siz farklı bir klasör kullanırsanız aşağıdaki directory değişkenlerini ona göre belirlemeniz gerek.

Şimdi kütüphaneleri ve fonksiyonları oluşturalım.

In [1]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import os

import numpy as np
from PIL import Image
import tensorflow as tf
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import preprocessing
import string

def load_images(input_dir, batch_shape):
    """Girdi klasöründen görselleri parça parça oku,
        Image'ı istenilen boyuta resize edip kare hale getirmek için siyah padding ekle.
      Args:
        input_dir: Görsellerin bulunduğu girdi klasörünün adresi
        batch_shape: parça şekli, i.e. [batch_size, height, width, 3]
      Yields:
        filenames: Dosyaların adres ve uzantı olmadan isimleri
        images: bu batch'teki görselleri içeren bir array
    """
    images = []
    filenames = []
    idx = 0
    batch_size = batch_shape[0]
    for filepath in tf.gfile.Glob(os.path.join(input_dir, '*.jpg')):
        image = Image.open(filepath)
        img_w, img_h = image.size
        ims = [img_w, img_h]
        max_p = np.argmax(ims)
        max_v = ims[max_p]
        min_v = ims[1-max_p]
        new_size = (batch_shape[1], batch_shape[2])
        bg = Image.new("RGB", new_size)
        rat = float(batch_shape[1])/max_v
        new_max = rat*max_v
        new_min = rat*min_v
        ims[max_p] = int(new_max)
        ims[1-max_p] = int(new_min)
        image = image.resize(ims)
        bg.paste(image, (int((new_size[0]-ims[0])/2),
                      int((new_size[1]-ims[1])/2)))
        image = np.array(bg).astype(np.float) / 255 # 0-255 arasındaki image'ı 0-1 arasına getir
        images.append(image)
        filenames.append(os.path.basename(filepath))
        idx += 1
        if idx == batch_size:
            images = np.array(images)
            yield filenames, images
            filenames = []
            images = []
            idx = 0
    if idx > 0:
        images = np.array(images)
        yield filenames, images

def get_labels(all_labels, filenames):
    classes = []
    for fname in filenames:
        fname = fname.replace(".jpg","")
        classes.append(all_labels[fname])
    return(classes)

Öncelikle yapmak istediğimiz şey, görsellerimizi yükleyip, istediğimiz formata getirip bize verecek bir fonksiyon yazmak. Veri setimizdeki görseller maalesef aynı boyutta değil, hatta boyutları birbirinden gerçekten çok farklı. Bu yüzden bu görselleri CNN'e verebilmek için standartlaştırmamız gerekiyor. Standartlaştırmamız gerekmeyen CNN yapıları da mevcut ancak şimdilik oraya girmiyoruz. Ben gayet rastgele olarak görsellerin 128 x 128 olması gerektiğine karar verdim. Bu değeri siz aşağıdaki 'im_size' değerini değiştirerek belirleyebilirsiniz. 

Dikkat edilmesi gereken bir diğer nokta görsellerin kare olmadığı gerçeği. Bu yüzden, görseldeki objelerin proporsiyonunu bozmamak adına kısa olan kenara siyah şeritler eklemeye karar verdim. Bu önişleme yöntemi tamamen kişinin seçimine kalmış bir şey. Siz başka şeyler de deneyebilirsiniz.

'load_images' fonksiyonu, veri setimizi yüklemek için oluşturduğumuz bir generator fonksiyonu. Bu fonksiyon sırasıyla şunları yapıyor:

- Dosyaların olduğu klasörün adresini alıyor
- Bu adresteki '.jpg' uzantılı dosyaları buluyor.
- Bu dosyaları, sırasıyla, batch_size'a kadar olacak şekilde açıyor
- Açtığı image'ı belli bir boyuta getirmek için şunları yapıyor:
    - Image'ın hangi boyutunun büyük olduğunu buluyor
    - im_size'ın büyük olan kenara oranını buluyor
    - Bu orana göre büyük olan kenarı im_size'a, küçük olan kenarı ise yine bu orana bağlı olarak daha küçük bir değere çekiyor
    - Küçük olan kenarı im_size'a tamamlamak için siyah bir şerit çekiyor.
- Image istenilen boyuta geldikten sonra image'ı normalize edip array'e ekliyor
- Array boyutu batch_size'a ulaşınca bu array'i ve array'deki dosyaların isimlerini döndürüyor
- Bunu klasördeki tüm imagelar dönene kadar yapıyor

Dikkat ederseniz bu fonksiyon klasördeki image sayısından bağımsız olarak çalışıyor. Bu python generatorlarının bir getirisi. 'yield' anahtar kelimesini araştırarak generatorlar nasıl çalışıyor öğrenebilirsiniz.

İkinci oluşturduğumuz fonksiyon ise dosya ismiyle bize sınıfı döndürüyor.

Aşağıdaki hücre'de önce görsellerin etiketlerini alıyoruz. Bu etiketler kategorik olarak verilmiş durumda. Ancak tensorflow'da kategorik değişkenlerle çalışamıyoruz. Bu kategorik sınıfları, numerik sınıflara çevirmek gerekiyor. Bunu da Scikit-learn kütüphanesinden 'LabelEncoder' fonksiyonu ile yapabiliriz.

In [3]:
image_dir = os.getcwd() + "/dog_data/train/"
label_dir = os.getcwd() + "/dog_data/labels.csv"
labels = pd.read_csv(label_dir)
batch_size = 100 # Kafamıza göre belirledik, normalde 16, 32, 50 gibi değerler olur
im_size = 28 # Kafamıza göre belirledik
batch_shape = [batch_size, im_size, im_size, 3]

# Kategorik değişkeni numerik yap
le = preprocessing.LabelEncoder()
le.fit(labels["breed"])
num_class = len(le.classes_)
print(num_class)
labels["num_labels"] = le.transform(labels["breed"])
labels.head()

120


Unnamed: 0,id,breed,num_labels
0,000bec180eb18c7604dcecc8fe0dba07,boston_bull,19
1,001513dfcb2ffafc82cccf4d8bbaba97,dingo,37
2,001cdf01b096e06d78e9e5112d419397,pekinese,85
3,00214f311d5d2247d5dfe4fe24b2303d,bluetick,15
4,0021f9ceb3235effd7fcde7f7538ed62,golden_retriever,49


In [4]:
# DataFrame'i dictionary'ye çevir
all_labels = labels.set_index('id')['num_labels'].to_dict()

Şimdi hep yaptığımız gibi tensorflow değişkenlerini ve graph'ı tanımlıyoruz.

In [5]:
# Ağırlıkları ve bias'ı başlatacak fonksiyonlar
def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev=0.1)
    return tf.Variable(initial)

def bias_variable(shape):
    initial = tf.constant(0.1, shape=shape)
    return tf.Variable(initial)

# Layerları oluşturan fonksiyonlar
def conv2d(x, W): # Convolution layer
    return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x): # Max pool layer
    return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

conv_size = 15

# 5x5 convolution 32 feature
W_conv1 = weight_variable([conv_size, conv_size, 3, 32])

# 32 bias
b_conv1 = bias_variable([32])

x = tf.placeholder(tf.float32, shape = (None, im_size, im_size, 3), name = "x")
y_ = tf.placeholder(tf.int64, shape = (None), name = "y_")

h_conv1 = tf.nn.relu(conv2d(x, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

W_conv2 = weight_variable([conv_size, conv_size, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

W_fc1 = weight_variable([int(im_size/4) * int(im_size/4) * 64, 1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, int(im_size/4)*int(im_size/4)*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

W_fc2 = weight_variable([1024, num_class])
b_fc2 = bias_variable([num_class])

y_conv = tf.matmul(h_fc1_drop, W_fc2) + b_fc2

cross_entropy = tf.reduce_mean(
    tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y_, logits=y_conv))

correct = tf.nn.in_top_k(y_conv, y_, 1)
accuracy = tf.reduce_mean(tf.cast(correct, tf.float32))

Oluşturduğumuz CNN modelinde 2 convolutional layer, 2 de max pool layer'ı bulunuyor. CNN modelinin tüm yapısı şu şekildedir:

![alt text](images/CNN.png "CNN")


Bu modeli olduğu gibi [tensorflow dökümanından](https://www.tensorflow.org/tutorials/deep_cnn) aldım. Sadece resim ve filtre boyutları farklı. Siz isterseniz layerlarınızı değiştirerek yeni modeller deneyebilirsiniz. Ancak dikkat etmeniz gereken bazı noktalar var.

1- Layerların output'u ve bir sonraki layerların inputunun boyutu uyuşmalı. Boyut uyuşmazlığı olduğu zaman hata verecektir. Ben bunu sağlayabilmek için önce resimleri belli bir boyuta getirdim. Eğer resimler kare değilse kısa kenarını uzun kenarına tamamlayacak şekilde siyah bant ekledim. Sonrasında ise her layer bir önceki layerla uyumlu olsun diye filtre boyutunu resim boyutuna bağladım.

2- Filtre dizaynı ve boyutlarına dair detayları ilgili [kitaptan](http://www.deeplearningbook.org/) ulaşabilirsiniz.

3- Eğer kendiniz denemek isterseniz diye baştan belirteyim, training GPU ile bile biraz uzun sürüyor. Bu ufak model bile oldukça zaman alıyor.

In [7]:
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())

    for i in range(90):
        bname = 0
        tr_accur = 0
        for filenames, images in load_images(image_dir, batch_shape):
            bname += 1
            y_temp = get_labels(all_labels, filenames)
            train_step.run(feed_dict={x: images, y_: y_temp, keep_prob: 0.8})
            train_accuracy = accuracy.eval(feed_dict={
            x: images, y_: y_temp, keep_prob: 1.0})
            tr_accur += train_accuracy
        tr_accur /= bname
        if(i%10 == 0):
            print('step %d, training batch average accuracy %g' % (i, tr_accur))

step 0, training batch average accuracy 0.00834951
step 10, training batch average accuracy 0.0408473
step 20, training batch average accuracy 0.148129
step 30, training batch average accuracy 0.357326
step 40, training batch average accuracy 0.603689
step 50, training batch average accuracy 0.784078
step 60, training batch average accuracy 0.895922
step 70, training batch average accuracy 0.964757
step 80, training batch average accuracy 0.992621


Bu noktada dikkat etmeniz gereken bazı şeyler var. Normalde, bu tip bir öğrenme cross-validation ile yapılmalıdır. Çünkü yapay sinir ağları (veya herhangi diğer bir makine öğrenmesi modeli, yeterince büyükse) training verisini ezberlemeye meyillidir. Bunu takip edebilmek için, her epoch'ta daha önce görmediği bir validation verisiyle performansını test etmek gerekir. Cross-validation ise bunu birden fazla kez, farklı farklı setlerle yapan yöntem. Ancak burada amaç CNN eğitimini göstermek olduğu için ben bunu eklemedim. Kodu değiştirirken sizin bunu eklemenizi tavsiye ederim.

Daha detaylı uygulamalı bilgiler için [Hands-On Machine Learning with Scikit-Learn and TensorFlow](http://shop.oreilly.com/product/0636920052289.do) kitabına bakabilirsiniz. Hem machine learning için en iyi yaklaşımları, hem de tensorflow kodlarını içeriyor.