<div style="text-align: justify;">
    <h1>Latar Belakang</h1>
    <p>
        Salah satu masalah yang kerap kali ditemukan pada masyarakat Indonesia adalah keamanan. Keamanan menjadi perhatian utama di berbagai tempat seperti sekolah, perkantoran, jalan raya, dan fasilitas umum lainnya. Salah satu ancaman yang sering muncul adalah pembegalan atau tindakan kriminal yang dilakukan dengan cara merampok atau mencuri disertai dengan ancaman kekerasan. Biasanya begal mengancam korban diikuti dengan senjata, baik itu senjata api seperti pistol atau pun senjata tajam seperti pisau, golok, dll. Salah satu yang dapat meningkatkan keamanan dan mencegah pembegalan adalah dengan implementasi kamera CCTV. Namun, pengawasan kamera CCTV secara manual sering kali tidak efektif karena terbatasnya kemampuan manusia untuk memantau banyak kamera secara simultan dalam jangka waktu yang lama. Oleh karena itu, diperlukan suatu solusi otomatis berbasis kecerdasan buatan (AI) yang dapat mendeteksi keberadaan senjata tajam atau senjata api secara real-time dari rekaman CCTV. Sistem ini dapat membantu petugas keamanan merespons ancaman lebih cepat dan lebih efisien sehingga meningkatkan keamanan publik.
    </p>
    <p>
        Dataset yang akan digunakan adalah kumpulan foto seseorang yang sedang memegang senjata api atau senjata tajam. Dataset ini mencakup berbagai bentuk senjata tajam dan beragam macam senjata api (pistol, senapan, dll.) dalam berbagai skenario, termasuk lingkungan dalam ruangan, luar ruangan, kamera CCTV, dan dalam berbagai pencahayaan. Jika diperlukan, dataset akan dilengkapi dengan data custom yang diperoleh melalui anotasi manual untuk menyesuaikan dengan kebutuhan proyek.
    </p>
    <p>
        Untuk mencapai keseimbangan antara akurasi yang tinggi dan kemampuan komputasi yang cepat dan real-time, arsitektur AI yang akan digunakan adalah YOLO (You Only Look Once) dan RT-DETR(Real-Time Detection Transformer). YOLO adalah salah satu model deteksi objek terbaru yang dirancang untuk memiliki efisiensi tinggi dengan akurasi yang tetap baik. Yolo ini mampu mendeteksi objek dalam satu pass (single-shot). RT-DETR adalah arsitektur deteksi objek berbasis transformer yang dirancang untuk memberikan deteksi objek secara real-time dengan akurasi dan kecepatan tinggi menggunakan teknik pemrosesan paralel dan mekanisme perhatian (attention).
    </p>
</div>


# Dataset

Berikut ini adalah tautan untuk dataset yang digunakan:
https://universe.roboflow.com/aditikulkarni-1710-gmail-com/sohas-weapon-detection

<img src="images/tes.png" alt="tes.png" width="650">
<img src="images/tes1.png" alt="tes1.png" width="650">


Selain dari dataset tersebut, kami juga melakukan anotasi manual dengan menggunakan LabelImg dan Roboflow untuk menambah dataset yang dapat mencukupi skenario khusus, seperti jarak deteksi yang jauh, sudut deteksi yang kurang baik, dan posisi arah senjata.

<img src="images/annot xe.png" alt="annot xe.png" width="650">
<img src="images/annot xe1.png" alt="annot xe1.png" width="650">
<img src="images/Screenshot_6.png" alt="annot xe1.png" width="1000">

# YOLO

YOLO (You Only Look Once) adalah salah satu algoritma terkemuka untuk deteksi objek real-time. Dikembangkan pertama kali oleh Joseph Redmon, YOLO dikenal karena kecepatan dan efisiensinya dibandingkan metode lain seperti R-CNN atau Faster R-CNN. Tujuan YOLO adalah untuk mendeteksi dan mengklasifikasikan objek dalam sebuah gambar atau video dengan cepat. 

Kami memutuskan untuk menggunakan YOLO dengan versi 8 yaitu YOLOv8. YOLOv8 adalah iterasi terbaru dari keluarga YOLO yang dikembangkan oleh Ultralytics. Dibandingkan versi sebelumnya (YOLOv5), YOLOv8 memperkenalkan sejumlah peningkatan pada arsitektur dan performa.

Arsitektur YOLOv8
1. Backbone:
    - Menggunakan CSP-Darknet (Cross Stage Partial Network) dengan modifikasi untuk meningkatkan efisiensi fitur.
    - Backbone bertugas mengekstraksi fitur penting dari gambar input.

2. Neck:
    - Menggunakan Path Aggregation Network (PAN) untuk menggabungkan fitur dari berbagai skala.
    - Neck meningkatkan kemampuan model dalam mendeteksi objek dari ukuran kecil hingga besar.

3. Head:
    - Bagian ini bertugas menghasilkan prediksi akhir:
        - Bounding box.
        - Confidence score.
        - Kelas objek.



<div style="text-align: center;">
    <img src="images/yolov8 arsi.png" alt="yolov8 arsi" width="900">
    <img src="images/Screenshot_1.png" alt="yolov8 arsi" width="900">
    <img src="images/Screenshot_2.png" alt="yolov8 arsi" width="900">
    <img src="images/Screenshot_3.png" alt="yolov8 arsi" width="900">
</div>


# RT DETR

RT-DETR (Relation-Enhanced Detection Transformer) adalah sebuah metode dalam domain object detection yang berusaha meningkatkan kinerja model transformer untuk mendeteksi objek. Model ini merupakan pengembangan dari DETR (DEtection TRansformer), yang mengintegrasikan mekanisme perhatian (attention) dengan arsitektur transformer untuk deteksi objek end-to-end.

Arsitektur RT-DETR sebagai berikut:

<div style="text-align: center;">
    <img src="images/Screenshot_4.png" alt="RT-DETR" width="1100">
    <img src="images/Screenshot_5.png" alt="RT-DETR" width="1100">
</div>


# YOLOv8 (Pre-trained)

Berikut hasil deteksi dengan menggunakan YOLOv8 pre-trained:

<div style="text-align: center;">
    <div style="display: flex; justify-content: center; flex-wrap: wrap;">
        <img src="images/Screenshot 2024-12-11 152053.png" alt="Image 1" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 152117.png" alt="Image 2" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 152041.png" alt="Image 3" width="400" style="margin: 10px;">
    </div>
</div>


Hasil yang ditangkap sudah bagus namun tidak memenuhi tujuan akhir. Senjata berupa pistol atau pisau terdeteksi sebagai benda lain.


# YOLOv8 (Trained)

Berikut hasil deteksi dengan menggunakan YOLOv8 yang sudah dilatih:

<div style="text-align: center;">
    <div style="display: flex; justify-content: center; flex-wrap: wrap;">
        <img src="images/results_yolo.png" alt="Image 1" width="1000" style="margin: 10px;">
    </div>
    <div style="display: flex; justify-content: center; flex-wrap: wrap;">
        <img src="images/Screenshot 2024-12-11 150243.png" alt="Image 1" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 150319.png" alt="Image 2" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 150346.png" alt="Image 3" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 150357.png" alt="Image 4" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 151036.png" alt="Image 5" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 151058.png" alt="Image 6" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 152614.png" alt="Image 7" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 152803.png" alt="Image 8" width="400" style="margin: 10px;">
    </div>
</div>



Hasil yang ditangkap sudah bagus dan target juga tercapai. Hasil deteksi terhadap senjata api dan tajam memiliki nilai performance yang cukup tinggi juga. 

# RT-DETR

Berikut hasil deteksi dengan menggunakan RT-DETR:

<div style="text-align: center;">
    <div style="display: flex; justify-content: center; flex-wrap: wrap;">        
        <img src="images/results_RTDETR.png" alt="Image 1" width="1000" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 151609.png" alt="Image 1" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 151708.png" alt="Image 2" width="400" style="margin: 10px;">
        <img src="images/Screenshot 2024-12-11 151216.png" alt="Image 3" width="400" style="margin: 10px;">
    </div>
</div>


Hasil yang ditangkap sudah cukup bagus namun target tidak tercapai sepenuhnya. Masih terdapat hasil deteksi yang memiliki value false positive, seperti muka manusia dideteksi sebagai pistol

# Kesimpulan

YOLOv8 Trained memiliki hasil yang paling bagus dibandingkan dengan YOLOv8 Pre-Trained dan RT-DETR. Dapat dilihat dari jarak kamera kepada objek target serta nilai performance.

# Train

In [None]:
from ultralytics import YOLO

# Define the paths
data_yaml_path = r"C:/Users/Wesley/Documents/Kuliah/Sem 7/Ilmu Data 2/Proyek/testing livestream/yolo-Weights/yolov8m.pt"
model_path = "yolov8m.pt"  # Path to the pre-trained YOLOv8 model

# Initialize the YOLO model
model = YOLO(model_path)

# Train the model
model.train(
    data=data_yaml_path,  # Path to the data.yaml file
    epochs=100,            # Number of training epochs
    imgsz=640,            # Image size for training
    batch=16,             # Batch size
    project="sohas_dataset_extended_v8m_epoch100",  # Directory to save the project
    name="ini_uji_coba_dataset_extended_v8m_epoch100",              # Name of the training run
    device=0               # Set device to 0 for GPU or 'cpu' for CPU training
)


# YOLO pretrained

In [2]:
from ultralytics import YOLO
model = YOLO("yolov8m.pt")

## Livestream

In [3]:
import cv2
import math 
# start webcam
cap = cv2.VideoCapture(0)
cap.set(3, 640)
cap.set(4, 480)

# model
# model = YOLO("C:/Users/Wesley/Documents/Kuliah/Sem 7/Ilmu Data 2/Proyek/testing livestream/yolo-Weights/yolov8n.pt")

# object classes
classNames = ["person", "bicycle", "car", "motorbike", "aeroplane", "bus", "train", "truck", "boat",
              "traffic light", "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat",
              "dog", "horse", "sheep", "cow", "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella",
              "handbag", "tie", "suitcase", "frisbee", "skis", "snowboard", "sports ball", "kite", "baseball bat",
              "baseball glove", "skateboard", "surfboard", "tennis racket", "bottle", "wine glass", "cup",
              "fork", "knife", "spoon", "bowl", "banana", "apple", "sandwich", "orange", "broccoli",
              "carrot", "hot dog", "pizza", "donut", "cake", "chair", "sofa", "pottedplant", "bed",
              "diningtable", "toilet", "tvmonitor", "laptop", "mouse", "remote", "keyboard", "cell phone",
              "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors",
              "teddy bear", "hair drier", "toothbrush"
              ]


while True:
    success, img = cap.read()
    results = model(img, stream=True)

    # coordinates
    for r in results:
        boxes = r.boxes

        for box in boxes:
            # bounding box
            x1, y1, x2, y2 = box.xyxy[0]
            x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2) # convert to int values

            # put box in cam
            cv2.rectangle(img, (x1, y1), (x2, y2), (255, 0, 255), 3)

            # confidence
            confidence = math.ceil((box.conf[0]*100))/100
            print("Confidence --->",confidence)

            # class name
            cls = int(box.cls[0])
            print("Class name -->", classNames[cls])

            # object details
            org = [x1, y1]
            font = cv2.FONT_HERSHEY_SIMPLEX
            fontScale = 1
            color = (255, 0, 0)
            thickness = 2

            cv2.putText(img, classNames[cls], org, font, fontScale, color, thickness)

    cv2.imshow('Webcam', img)
    if cv2.waitKey(1) == ord('q'):
        break

cap.release()
cv2.destroyAllWindows()


0: 480x640 2 persons, 1 suitcase, 41.8ms
Confidence ---> 0.96
Class name --> person
Confidence ---> 0.36
Class name --> person
Confidence ---> 0.28
Class name --> suitcase
Speed: 2.1ms preprocess, 41.8ms inference, 73.3ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 12.0ms
Confidence ---> 0.95
Class name --> person
Speed: 1.0ms preprocess, 12.0ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 1 suitcase, 12.0ms
Confidence ---> 0.95
Class name --> person
Confidence ---> 0.27
Class name --> suitcase
Speed: 1.0ms preprocess, 12.0ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 12.0ms
Confidence ---> 0.95
Class name --> person
Speed: 1.0ms preprocess, 12.0ms inference, 2.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 1 person, 1 suitcase, 11.9ms
Confidence ---> 0.95
Class name --> person
Confidence ---> 0.38
Class name --> suitcase
Speed: 0.0ms preprocess, 11.9ms infe

# YOLO Finetuned

In [4]:
from ultralytics import YOLO
model = YOLO("yolo_extended_database_epoch100.pt")

## Livestream

In [5]:
from ultralytics import YOLO
import cv2
import math 
# start webcam
cap = cv2.VideoCapture(0)
cap.set(3, 640)
cap.set(4, 480)

# model
# model = YOLO("sohas_dataset_extended_v8m_epoch100/ini_uji_coba_dataset_extended_v8m_epoch100/weights/best.pt")

# object classes
classNames =['pistol', 'smartphone', 'knife', 'purse', 'cash', 'card']

# Specify the classes you want to display
desired_classes = ['pistol', 'knife']

while True:
    success, img = cap.read()
    if not success:
        break

    # Inference
    results = model(img, stream=True)

    # Process results
    for r in results:
        boxes = r.boxes

        for box in boxes:
            # Bounding box
            x1, y1, x2, y2 = box.xyxy[0]
            x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)  # Convert to integers

            # Confidence
            confidence = box.conf[0].item()  # Convert to float

            # Class name
            cls = int(box.cls[0])
            class_name = classNames[cls]

            # Check if the detected class is in the desired_classes list
            if class_name in desired_classes:
                # Draw bounding box
                cv2.rectangle(img, (x1, y1), (x2, y2), (255, 0, 255), 3)

                # Display text (class name + confidence)
                label = f"{class_name} {confidence:.2f}"
                font = cv2.FONT_HERSHEY_SIMPLEX
                fontScale = 0.5
                color = (0, 255, 0)
                thickness = 1

                # Display label above the bounding box
                label_size, _ = cv2.getTextSize(label, font, fontScale, thickness)
                label_y = max(y1 - 10, label_size[1])
                cv2.rectangle(img, (x1, label_y - label_size[1] - 5), (x1 + label_size[0], label_y + 5), (255, 0, 255), -1)
                cv2.putText(img, label, (x1, label_y), font, fontScale, (255, 255, 255), thickness)

    # Show the webcam feed
    cv2.imshow('Webcam', img)
    if cv2.waitKey(1) == ord('q'):  # Quit on 'q'
        break

cap.release()
cv2.destroyAllWindows()




0: 480x640 (no detections), 15.4ms
Speed: 1.0ms preprocess, 15.4ms inference, 0.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 12.0ms
Speed: 1.0ms preprocess, 12.0ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 10.0ms
Speed: 1.0ms preprocess, 10.0ms inference, 1.5ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 10.3ms
Speed: 2.0ms preprocess, 10.3ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 11.0ms
Speed: 1.0ms preprocess, 11.0ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 10.4ms
Speed: 1.0ms preprocess, 10.4ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 10.0ms
Speed: 1.0ms preprocess, 10.0ms inference, 1.0ms postprocess per image at shape (1, 3, 480, 640)

0: 480x640 (no detections), 10.0ms
Speed: 1.0ms preprocess, 10.0ms i

# RT-DETR

In [None]:
from ultralytics import RTDETR

# Load the model
model = RTDETR("RTDETR new dataset.pt")

## Livestream

In [None]:
from ultralytics import RTDETR
import cv2
import math 
# start webcam
cap = cv2.VideoCapture(0)
cap.set(3, 640)
cap.set(4, 480)

# model
# model = RTDETR("RTDETR new dataset.pt")

# object classes
classNames =['pistol', 'smartphone', 'knife', 'purse', 'cash', 'card']

# Define the classes you want to display
desired_classes = ['pistol', 'knife']  # Change this list to include only the classes you want to show

while True:
    success, img = cap.read()
    if not success:
        break

    # Inference
    results = model(img, stream=True)

    # Process results
    for r in results:
        boxes = r.boxes

        for box in boxes:
            # Bounding box
            x1, y1, x2, y2 = box.xyxy[0]
            x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)  # Convert to integers

            # Confidence
            confidence = box.conf[0].item()  # Convert to float
            confidence_text = f"{confidence:.2f}"  # Format to two decimal places

            # Class name
            cls = int(box.cls[0])
            class_name = classNames[cls]

            # Check if the detected class is in the desired list
            if class_name not in desired_classes:
                continue

            # Draw the bounding box
            cv2.rectangle(img, (x1, y1), (x2, y2), (255, 0, 255), 3)

            # Display text (class name + confidence)
            label = f"{class_name} {confidence_text}"
            font = cv2.FONT_HERSHEY_SIMPLEX
            fontScale = 0.5
            color = (0, 255, 0)
            thickness = 1

            # Display label above the bounding box
            label_size, _ = cv2.getTextSize(label, font, fontScale, thickness)
            label_y = max(y1 - 10, label_size[1])
            cv2.rectangle(img, (x1, label_y - label_size[1] - 5), (x1 + label_size[0], label_y + 5), (255, 0, 255), -1)
            cv2.putText(img, label, (x1, label_y), font, fontScale, (255, 255, 255), thickness)

    # Show the webcam feed
    cv2.imshow('Webcam', img)
    if cv2.waitKey(1) == ord('q'):  # Quit on 'q'
        break

cap.release()
cv2.destroyAllWindows()



0: 640x640 1 pistol, 1 knife, 30.4ms
Speed: 3.0ms preprocess, 30.4ms inference, 1.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 pistol, 1 smartphone, 24.7ms
Speed: 3.0ms preprocess, 24.7ms inference, 1.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 pistol, 1 smartphone, 25.0ms
Speed: 2.0ms preprocess, 25.0ms inference, 1.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 smartphone, 27.5ms
Speed: 2.0ms preprocess, 27.5ms inference, 1.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 smartphone, 25.0ms
Speed: 3.1ms preprocess, 25.0ms inference, 0.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 smartphone, 24.3ms
Speed: 2.0ms preprocess, 24.3ms inference, 0.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 smartphone, 25.2ms
Speed: 2.0ms preprocess, 25.2ms inference, 1.0ms postprocess per image at shape (1, 3, 640, 640)

0: 640x640 1 smartphone, 26.1ms
Speed: 3.0ms preprocess, 26.1ms 