Bu yazıda Yolo modellerinin tespit algoritmasının nasıl çalıştığını anlatacağım. Yazıda YoloV3-320 ağırlık ve config dosyalarını kullandım. Başlamadan önce kütüphanelerimizi import edelim.

In [22]:
import cv2 as cv
import numpy as np

İlk olarak model içerisinde bulunan sınıfların isimlerini barındıran dosyayı içe aktarıp daha sonrasında değerleri bir liste içerisine kayıt edelim. Burada kullanılan coco.names dosyası Yolo'nun kendi modellerini barındıran isim dosyasıdır. Kendi modelleriniz için kendi isim dosyalarınızı oluşturmanız gerekecektir.

In [23]:
nameOfClasses = []
with open("files/yolov3/coco.names", "r") as f:
    nameOfClasses = [line.strip() for line in f.readlines()]

print("Yolo Classes",nameOfClasses)

Yolo Classes ['person', 'bicycle', 'car', 'motorbike', 'aeroplane', 'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant', 'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse', 'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack', 'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis', 'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove', 'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass', 'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich', 'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake', 'chair', 'sofa', 'pottedplant', 'bed', 'diningtable', 'toilet', 'tvmonitor', 'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave', 'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase', 'scissors', 'teddy bear', 'hair drier', 'toothbrush']


Sonrasında model için gerekli olan dosyaları, weights ve config dosyalarını içe aktarıyor ve Darknet üzerinden modelimizi oluşturuyoruz.

In [24]:
modelConfig = "files/yolov3/yolov3-320.cfg"
modelWeights = "files/yolov3/yolov3-320.weights"

model = cv.dnn.readNetFromDarknet(modelConfig, modelWeights)

Modelimizin çalışırken kullanacağı ortam ve cihazları belirtiyoruz. Burada ilk seçenek CPU üzerinden işlem yapmayı sağlar iken ikinci seçenek GPU üzerinden işlem yapmayı sağlar. Ama GPU üzerinden işlem yapabilmek için OpenCV kütüphanesinin CUDA uyumlu şekilde kurulmuş olması gerekmektedir.

In [25]:
# For CPU
model.setPreferableBackend(cv.dnn.DNN_BACKEND_OPENCV)
model.setPreferableTarget(cv.dnn.DNN_TARGET_CPU)

In [26]:
# For GPU
model.setPreferableBackend(cv.dnn.DNN_BACKEND_CUDA)
model.setPreferableTarget(cv.dnn.DNN_TARGET_CUDA)

Daha sonrasında tespit için kullanacağımız resimi içe aktaralım. İçe aktardığımız resimi model için hazır hale getirmemiz gerekmektedir. Bunu da resmi blob formatına getirerek yaparız. Burada dikkat edilmesi gereken blob resimin boyutudur. Her model belirli bir resim boyutu ile çalışır. Örneğin yolov3-320 320x320, yolov3-tiny 416x416 piksel resimlerile çalışırlar.

In [27]:
img = cv.imread("test.jpeg")
#                                        Resimin Boyutu
blob = cv.dnn.blobFromImage(img, 1 / 255, (320, 320), [0, 0, 0], 1, crop=False)

Artık hazır olan resimimizi model içerisine gönderebiliriz.

In [28]:
model.setInput(blob)

Bu noktada resimimizi modele gönderdik ve bir sonuç oluştu. Artık yapmamız gereken şey bu oluşan sonuçları modelden çekmek. Bunu yapmamnın yolu ise YoloV3 böral ağında bulunan 3 çıktı katmanını tespit edip tutukları değerleri okumaktır. Bu yüzden ilk olarak nöral ağdaki yani modeldeki tüm katmanları tutan bir değişken oluşturuyoruz.

In [29]:
layerNames = model.getLayerNames()

print("Katman Sayısı :: ",len(layerNames), "Katman İsimleri :")
print("\n", layerNames)

Katman Sayısı ::  254 Katman İsimleri :

 ('conv_0', 'bn_0', 'leaky_1', 'conv_1', 'bn_1', 'leaky_2', 'conv_2', 'bn_2', 'leaky_3', 'conv_3', 'bn_3', 'leaky_4', 'shortcut_4', 'conv_5', 'bn_5', 'leaky_6', 'conv_6', 'bn_6', 'leaky_7', 'conv_7', 'bn_7', 'leaky_8', 'shortcut_8', 'conv_9', 'bn_9', 'leaky_10', 'conv_10', 'bn_10', 'leaky_11', 'shortcut_11', 'conv_12', 'bn_12', 'leaky_13', 'conv_13', 'bn_13', 'leaky_14', 'conv_14', 'bn_14', 'leaky_15', 'shortcut_15', 'conv_16', 'bn_16', 'leaky_17', 'conv_17', 'bn_17', 'leaky_18', 'shortcut_18', 'conv_19', 'bn_19', 'leaky_20', 'conv_20', 'bn_20', 'leaky_21', 'shortcut_21', 'conv_22', 'bn_22', 'leaky_23', 'conv_23', 'bn_23', 'leaky_24', 'shortcut_24', 'conv_25', 'bn_25', 'leaky_26', 'conv_26', 'bn_26', 'leaky_27', 'shortcut_27', 'conv_28', 'bn_28', 'leaky_29', 'conv_29', 'bn_29', 'leaky_30', 'shortcut_30', 'conv_31', 'bn_31', 'leaky_32', 'conv_32', 'bn_32', 'leaky_33', 'shortcut_33', 'conv_34', 'bn_34', 'leaky_35', 'conv_35', 'bn_35', 'leaky_36', 

Şimdi ise tüm katmanlardan 3 çıktı katmanını ayırma işlemini yapacağız. Bunun için bir for döngüsü içinde tüm katmanları inceliyoruz. Kendinden sonra bir şeye bağlı olmayan yani UnconnectedOutLayer halinde olan katmanlar bizim çıktı katmanlarımızdır ve for döngüsü ile bunlarıda " outputLayerNames " içerisine depoluyoruz. (Burada - List Comperhension - yönetemi kullanılara for döngüsü tek satır haline getirilmiştir.)

In [30]:
outputLayerNames = [(layerNames[i - 1]) for i in model.getUnconnectedOutLayers()]

print("Çıktı Katmanları ::",outputLayerNames)

Çıktı Katmanları :: ['yolo_82', 'yolo_94', 'yolo_106']


Artık çıktı katmanlarını da bildiğimize göre içerlerinde tuttukları sonuçları çekebiliriz.

In [31]:
outputs =  model.forward(outputLayerNames)

Daha fazla ilerlemeden bilmeyenleriniz için YoloV3'ün ağ yapısından kısaca bahsetmeliyim. YoloV3 nöral ağ yapısı aşağıdaki şekildedir.

![](images/structure.jpeg)

 Çıktı katmanlarının yapısını incelyeccek olursak, her bir katmanın resim üzerinde belirli sayıda kutusu vardır ve bu kutular içerisinde tanıma işlemi gerçekleştirir. Bu sayede klasik kayan pencereden çok ve çok daha hızlı şekilde tüm resimde tespit denemelerini yapmış olur. Diagramdaki pembe kareler aslında resim üzerindeki ilgili çıktı katmanının bounding box'larının çizilmiş hali. O kadar fazla ve iç içelerki resim pembe bir kutu olarak görünüyor.

Birazda matematiksel olarak çıktı katmanlarını inceleyelim. 3 çıktı katmanınında boyutlarını inceleyecek olursak eğer . . .

In [32]:
print(outputs[0].shape)
print(outputs[1].shape)
print(outputs[2].shape)

(300, 85)
(1200, 85)
(4800, 85)


. . . çıktılarını elde ederiz. Buradaki ilk değerler katmanın kaç kutuya sahip olduğu, ikinci değer ise kaç stünunun olduğudur. Stünlari çıktı katmanlarının buldukları sonuçları depolarlar ama bunu ilerde detaylandıracağız o yüzden kutulara geri dönelim. Eğer tüm çıktı katmanlarındaki kutuları toplarsak tek bir resimde toplam 7300 kutu içerisinde eş zamanlı olrak tespit işlemi gerçekleşiyor. Böylece resimi küçük - büyük, yakın-uzak her açıdan tespite sokmuş oluyoruz. Daha derine inecek olursak eğer . . .

In [33]:
print(len(outputs))

3


In [34]:
print(outputs)

(array([[0.05675942, 0.06507903, 0.4949374 , ..., 0.        , 0.        ,
        0.        ],
       [0.06522804, 0.0505011 , 0.3891846 , ..., 0.        , 0.        ,
        0.        ],
       [0.06652524, 0.05380305, 1.0433797 , ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.947155  , 0.9361667 , 0.5393416 , ..., 0.        , 0.        ,
        0.        ],
       [0.9567341 , 0.95334876, 0.41188383, ..., 0.        , 0.        ,
        0.        ],
       [0.96219033, 0.9553744 , 1.104331  , ..., 0.        , 0.        ,
        0.        ]], dtype=float32), array([[0.01956277, 0.03172309, 0.05403508, ..., 0.        , 0.        ,
        0.        ],
       [0.02241009, 0.02457943, 0.46454987, ..., 0.        , 0.        ,
        0.        ],
       [0.02971033, 0.02151005, 0.08663657, ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.96918625, 0.9692611 , 0.05536738, ..., 0.        , 0.        ,
        0.        ],
       [0.9735462 

Yukarıdaki listeyi sadeleştirecek olursak eğer bu sonucu elde ederiz :
  1.çıktı katmanını içerisindeki kutuların 85 stündak için değerleri,
 (array([[box1 values],
          [box2 values],
           . . . ]])
  2.çıktı katmanını içerisindeki kutuların 85 stündak için değerleri,
  array([[box1 values],
          [box2 values],
           . . . ]])
  3.çıktı katmanını içerisindeki kutuların 85 stündak için değerleri,
  array([[box1 values],
          [box2 values],
           . . . ]]))

Tek bir katmanın sonuçlarını inceleyecek olursak eğer :

In [35]:
print(outputs[0])

[[0.05675942 0.06507903 0.4949374  ... 0.         0.         0.        ]
 [0.06522804 0.0505011  0.3891846  ... 0.         0.         0.        ]
 [0.06652524 0.05380305 1.0433797  ... 0.         0.         0.        ]
 ...
 [0.947155   0.9361667  0.5393416  ... 0.         0.         0.        ]
 [0.9567341  0.95334876 0.41188383 ... 0.         0.         0.        ]
 [0.96219033 0.9553744  1.104331   ... 0.         0.         0.        ]]


Şimdi ise çıktı katmnanını ill kutusunun içerisindeki değerlere bakalım :

In [36]:
print(outputs[0][0])

[5.6759425e-02 6.5079026e-02 4.9493739e-01 1.8464674e-01 8.8470316e-08
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00 0.0000000e+00
 0.000

Evet işte karşımızda ilk katmanın ilk kutusunun 85 stün için değerleri. Bu 85 stünun neyi temsil ettiğini açıklayayım hemen. İlk 5 stün standarttır ve kutu ile ilgili bilgileri verir. Sırası ile sol üst köşesi için x, y, kutu eni, kutu boyu ve içerisinde bir obje olma olasılığıdır. Geriye kalan 80 stün ise kullandığımız model içerisine yani YoloV3-320 içerinde tespit edilebilir olan objeleri temsil eder. Örneğin 6.stün arabayı temsil eder, tuttuğu değer ise kutu içerisindeki objenin (eğer var ise) arabaya benzerlik yüzdesidir. Bu şekilde geriye kalan 79 sütun da kutu içerisindeki objenin temsil ettikleri objelere benzerlik oranını tutar.

Biz de bu sütunların tuttukları değerlere göre objenin olup olmasığını ve eğer varsa hangi obje olduğunu anlamı oluruz. Tabi biz bu işlemi tüm 7300 kutucuğa yapıyoruz. Bu işlemide ileryeyen kısımlarda koda dökeceğiz tabiki.

Eğer stünlura bir tablo ile temsil edecek olursak eğer :

![](images/table.png)

Burada bilmeniz gereken en öenmli şey ise sütunlardaki en-boy oranlarının 320x320 piksel bir resime göre ayarlanmış olamsıdır yani ilerleyen kısımlarda bu değeri kendi resimimizin boyutuna göre yeniden ayarlayacağız. O zaman başlayalım. İlk olarak resimimizin orjinal en-boy ölçğlerini alalım.

In [37]:
height, width, channel = img.shape

Sonrasında ise bir obje tespit edilen kutuların bilgilerini saklayacak listeler oluşturalı. Eğer ki istediğimiz oranın üzerisnde bir benzerlik oranı var ise kutunun değerleini bu listelerde saklayacağız.

In [38]:
boundingBoxes = []
objectsIds = []
confidenceRates = []

Şimdi ise tüm çıktı katmanlarının içerisinden tek tek çıktı katmanını, bu çıktı katmanının da içerisindeki her bir kutuyu inceleme zamanı. Bunun için bir döngü içerisinde döngü açıyoruz.

In [None]:
for output in outputs:
    for detection in output:

Daha sonrasında ise stünlar içerisindeki en yüksek doğruluk skoruna sahip stünu bulacağız. Bunun için ilk adımımız ilk 5 sütunu işlemden çıkarmak çünkü farklı değerler tutuyorlar. Sonrasında ise np.argmax() ile en yüksek skora sahip stünun indeksini öreniyor ve bunulada sütunun benzerlik oranını çekiyoruz.

In [None]:
        detectionScores = detection[5:]
        objectId = np.argmax(detectionScores)
        confidence = detectionScores[objectId]

Sonrasında ise eğer bu benzerlik oranı bizim belirlediğimzi oranın üstünde ise, bizim durumumuzda %70, kutunun değerlerini kayıt ediyoruz. Ama öncesinde orjinal resim boyutuna göre yeniden şekillendirerek.

In [None]:
        if confidence > 0.7:
            w, h = int(detection[2] * width), int(detection[3] * height)
            x, y = int((detection[0] * width) - w / 2), int((detection[1] * height) - h / 2)
            boundingBoxes.append([x, y, w, h])
            objectsIds.append(objectId)
            confidenceRates.append(float(confidence))

Evet artık çıktı katmanlarının sonuçlarından elde ettiğimiz nesne tespiti sonuçlarımız var. Aslında buradan sonra sahip olduğumuz tüm kutuları çizerek işlemi bitirebiliriz ama böyle yaptığımızda yeni bir sorun ile karşılaşacağız buda üst üste binmiş kutular, yani tespit nesnesinin birden fazla kutunun alanı içersinde olmasından dolayı aynı nesneyi tespit etmiş birden fazla kutu. Bunu çözmek içinde OpenCV'nin bize sunduğu NMSBoxes() methodunu kullanacağız. Bu methodun açılımı Non Maximum Supperresion'dur, yaptığı işlem ise üst üsse binen kutuları bularak aralarında benzerlik oranı yüksek oranı saklar, diğerini veya diğerlerini de siler. Böylece temiz bir sonuzcumuz olur.

In [None]:
indexes = cv.dnn.NMSBoxes(boundingBoxes, confidenceRates, 0.5, 0.2)

Artık elimizdeki temiz sounçlar ile reim üzerinde bu snuçları gösterme zamanı. Bunun için ilk olarak sakladığımız x, y, w ve h değerleri ile bir dikdörtgen çizdiriyoruz sonrasında ise tespit edilen sütunun isim dosyasında ki karşılığını hesaplıyor ve bunuda ekrana yazdırıyoruz. İsim dosyasının önemide tam olarak burada eğer çok sınıflı bir model ile çalışıyor iseniz bu çıkt değerlerinin isimleriş bilmeniz de önemli. Bunun içinde isim dosyalarındaki isimler, sütunlar ile aynı sırada olur ve bu sayede basit bir işlemle daha önce liste içerinde depoladığımız isimlerden sütunun temsil ettiği objenin ismini bulabiliriz.

In [None]:
for i in indexes:
    box = boundingBoxes[i]
    x, y, w, h = box[0], box[1], box[2], box[3]
    cv.rectangle(img, (x, y), (x + w, y + h), (255, 0, 255), 2)
    cv.putText(img, "{}, %{}".format(nameOfClasses[objectsIds[i]].upper(), int(confidenceRates[i] * 100)),
               (x, y - 10), cv.FONT_HERSHEY_COMPLEX_SMALL, 1, (255,0,255), 2)

Artık geriye kalan tek şey resimi ekran yazdırmak . . .

In [None]:
cv.imshow('Image', img)
cv.waitKey(0)
cv.destroyAllWindows()