# Projeto Final de Machine Learning
## Alunos: Vitor Bandeira e Rafael Malcervelli

## Introduction

Neste projeto, exploramos o uso de redes neurais para detectar objetos específicos em um restaurante, como pessoas, garçons, mesas e pratos. A ideia é combinar técnicas de visão computacional e aprendizado de máquina para criar um modelo que possa identificar e localizar esses elementos em tempo real, oferecendo potenciais aplicações práticas como otimização do serviço e gerenciamento do espaço.

In [1]:
"""
For cloud environments.
"""
!pip install matplotlib
!pip install pycocotools
!pip uninstall opencv-python -y
!pip uninstall opencv-python-headless -y
!pip install opencv-python-headless

Found existing installation: opencv-python 4.8.0.76
Uninstalling opencv-python-4.8.0.76:
  Successfully uninstalled opencv-python-4.8.0.76
Found existing installation: opencv-python-headless 4.8.1.78
Uninstalling opencv-python-headless-4.8.1.78:
  Successfully uninstalled opencv-python-headless-4.8.1.78
Collecting opencv-python-headless
  Downloading opencv_python_headless-4.8.1.78-cp37-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (49.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.1/49.1 MB[0m [31m13.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: opencv-python-headless
Successfully installed opencv-python-headless-4.8.1.78


In [2]:
!pip install keras-cv==0.5.1

Collecting keras-cv==0.5.1
  Downloading keras_cv-0.5.1-py3-none-any.whl (742 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m742.0/742.0 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: keras-cv
Successfully installed keras-cv-0.5.1


In [3]:
!pip install keras-core

Collecting keras-core
  Downloading keras_core-0.1.7-py3-none-any.whl (950 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m950.8/950.8 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
Collecting namex (from keras-core)
  Downloading namex-0.0.7-py3-none-any.whl (5.8 kB)
Installing collected packages: namex, keras-core
Successfully installed keras-core-0.1.7 namex-0.0.7


## Imports

Começamos configurando nosso ambiente de desenvolvimento com a instalação de bibliotecas essenciais. matplotlib é usado para visualização de dados, pycocotools para manipulação de formatos de dados específicos de visão computacional, opencv-python para processamento de imagens, e keras-cv e keras-core para construção e treinamento de modelos de redes neurais. Cada uma dessas ferramentas desempenha um papel fundamental em diferentes etapas do nosso projeto.

In [1]:
import os
import xml.etree.ElementTree as ET
import tensorflow as tf
import keras_cv
import requests
import zipfile
import os
import shutil


from tqdm.auto import tqdm
from tensorflow import keras
from keras_cv import bounding_box
from keras_cv import visualization




  from .autonotebook import tqdm as notebook_tqdm


## Download Dataset

A qualidade e o formato dos dados são cruciais em qualquer projeto de machine learning. Aqui, lidamos com um conjunto de imagens de restaurante e seus respectivos arquivos XML para anotações. Após baixar e descompactar os dados, realizamos o pré-processamento necessário. Isso inclui a leitura e o processamento das imagens e anotações, além da criação de um conjunto de dados TensorFlow. As etapas de pré-processamento como redimensionamento e aumento de dados são aplicadas para melhorar o desempenho do nosso modelo.

In [5]:
# Download dataset.
def download_file(url, save_name):
    if not os.path.exists(save_name):
        print(f"Downloading file")
        file = requests.get(url, stream=True)
        total_size = int(file.headers.get('content-length', 0))
        block_size = 1024
        progress_bar = tqdm(
            total=total_size,
            unit='iB',
            unit_scale=True
        )
        with open(os.path.join(save_name), 'wb') as f:
            for data in file.iter_content(block_size):
                progress_bar.update(len(data))
                f.write(data)
        progress_bar.close()
    else:
        print('File already present')

download_file(
    'https://universe.roboflow.com/ds/ohoz775s3A?key=XmeEEVBjtE',
    'restaurant_dataset.zip'
)

Downloading file


  0%|          | 0.00/127M [00:00<?, ?iB/s]

In [6]:
# Unzip the data file
def unzip(zip_file=None):
    try:
        with zipfile.ZipFile(zip_file) as z:
            z.extractall("./")
            print("Extracted all")
    except:
        print("Invalid file")

unzip('restaurant_dataset.zip')

Extracted all


## Dataset and Training Parameters

In [10]:
SPLIT_RATIO = 0.2
BATCH_SIZE = 8
LEARNING_RATE = 0.0001
EPOCH = 7
GLOBAL_CLIPNORM = 10.0
IMG_SIZE = (640, 640)

## Dataset Preparation

In [8]:
def separate_images_and_xmls(source_folder, images_folder, xmls_folder):
    # Create destination folders if they don't exist
    os.makedirs(images_folder, exist_ok=True)
    os.makedirs(xmls_folder, exist_ok=True)

    # Get a list of files in the source folder
    files = sorted(os.listdir(source_folder))

    # Iterate through each file and move it to the appropriate folder
    for file in files:
        if file.lower().endswith(('.jpg', '.jpeg', '.png', '.gif')):
            # Image file, move to the images folder
            shutil.move(os.path.join(source_folder, file), os.path.join(images_folder, file))
        elif file.lower().endswith('.xml'):
            # XML file, move to the XMLs folder
            shutil.move(os.path.join(source_folder, file), os.path.join(xmls_folder, file))

# Specify your source folder and destination folders
train_source_folder = "train"
val_source_folder = "valid"

images_folder = "train_images"
xmls_folder = "train_xmls"


# Call the function to separate images and XMLs
separate_images_and_xmls(train_source_folder, images_folder, xmls_folder)
separate_images_and_xmls(val_source_folder, images_folder, xmls_folder)

In [9]:
class_ids = ['QR code', 'bag', 'bag with straw', 'basket of food', 'beer mug', 'blue QR code', 'bottle', 'bowl of food', 'chopstick', 'cup', 'fork', 'glass', 'jug', 'knife', 'menu', 'mobile', 'napkin', 'pan of food', 'people', 'pepper', 'plate of food', 'salt', 'soda can', 'spoon', 'table', 'tray of food', 'vase with flower', 'waiter', 'wine glass']
class_mapping = dict(zip(range(len(class_ids)), class_ids))

# Path to images and annotations
path_images = "train_images"
path_annot = "train_xmls"

# Get all XML file paths in path_annot and sort them
xml_files = sorted(
    [
        os.path.join(path_annot, file_name)
        for file_name in os.listdir(path_annot)
        if file_name.endswith(".xml")
    ]
)

# Get all JPEG image file paths in path_images and sort them
jpg_files = sorted(
    [
        os.path.join(path_images, file_name)
        for file_name in os.listdir(path_images)
        if file_name.endswith(".jpg")
    ]
)

In [11]:
def parse_annotation(xml_file):
    tree = ET.parse(xml_file)
    root = tree.getroot()

    image_name = root.find("filename").text
    image_path = os.path.join(path_images, image_name)

    boxes = []
    classes = []
    for obj in root.iter("object"):
        cls = obj.find("name").text
        classes.append(cls)

        bbox = obj.find("bndbox")
        xmin = float(bbox.find("xmin").text)
        ymin = float(bbox.find("ymin").text)
        xmax = float(bbox.find("xmax").text)
        ymax = float(bbox.find("ymax").text)
        boxes.append([xmin, ymin, xmax, ymax])

    class_ids = [
        list(class_mapping.keys())[list(class_mapping.values()).index(cls)]
        for cls in classes
    ]
    return image_path, boxes, class_ids


image_paths = []
bbox = []
classes = []
for xml_file in tqdm(xml_files):
    image_path, boxes, class_ids = parse_annotation(xml_file)
    image_paths.append(image_path)
    bbox.append(boxes)
    classes.append(class_ids)

  0%|          | 0/1544 [00:00<?, ?it/s]

In [12]:
bbox = tf.ragged.constant(bbox)
classes = tf.ragged.constant(classes)
image_paths = tf.ragged.constant(image_paths)

data = tf.data.Dataset.from_tensor_slices((image_paths, classes, bbox))

In [13]:
# Determine the number of validation samples
num_val = int(len(xml_files) * SPLIT_RATIO)

# Split the dataset into train and validation sets
val_data = data.take(num_val)
train_data = data.skip(num_val)

In [14]:
def load_image(image_path):
    image = tf.io.read_file(image_path)
    image = tf.image.decode_jpeg(image, channels=3)
    return image


def load_dataset(image_path, classes, bbox):
    # Read Image
    image = load_image(image_path)
    bounding_boxes = {
        "classes": tf.cast(classes, dtype=tf.float32),
        "boxes": bbox,
    }
    return {"images": tf.cast(image, tf.float32), "bounding_boxes": bounding_boxes}

In [15]:
augmenter = keras.Sequential(
    layers=[
        keras_cv.layers.RandomFlip(mode="horizontal", bounding_box_format="xyxy"),
        # keras_cv.layers.RandomGaussianBlur(kernel_size=(3, 3), factor=(0.5, 0.5)),
        # keras_cv.layers.RandomBrightness(factor=(0.5, 0.5)),
        # keras_cv.layers.RandomContrast(value_range=(0, 255), factor=(0.1, 0.9)),
        keras_cv.layers.JitteredResize(
            target_size=IMG_SIZE,
            scale_factor=(0.75, 1.3),
            bounding_box_format="xyxy",
        ),
    ]
)

In [16]:
train_ds = train_data.map(load_dataset, num_parallel_calls=tf.data.AUTOTUNE)
train_ds = train_ds.shuffle(BATCH_SIZE * 4)
train_ds = train_ds.ragged_batch(BATCH_SIZE, drop_remainder=True)
train_ds = train_ds.map(augmenter, num_parallel_calls=tf.data.AUTOTUNE)

In [17]:
resizing = keras_cv.layers.JitteredResize(
    target_size=IMG_SIZE,
    scale_factor=(1.0, 1.0),
    bounding_box_format="xyxy",
)

val_ds = val_data.map(load_dataset, num_parallel_calls=tf.data.AUTOTUNE)
val_ds = val_ds.shuffle(BATCH_SIZE * 4)
val_ds = val_ds.ragged_batch(BATCH_SIZE, drop_remainder=True)
val_ds = val_ds.map(resizing, num_parallel_calls=tf.data.AUTOTUNE)

In [19]:

def visualize_dataset(inputs, value_range, rows, cols, bounding_box_format):
    inputs = next(iter(inputs.take(20)))
    images, bounding_boxes = inputs["images"], inputs["bounding_boxes"]
    visualization.plot_bounding_box_gallery(
        images,
        value_range=value_range,
        rows=rows,
        cols=cols,
        y_true=bounding_boxes,
        scale=5,
        font_scale=0.7,
        bounding_box_format=bounding_box_format,
        class_mapping=class_mapping,
    )


visualize_dataset(
    train_ds, bounding_box_format="xyxy", value_range=(0, 255), rows=2, cols=2
)

visualize_dataset(
    val_ds, bounding_box_format="xyxy", value_range=(0, 255), rows=2, cols=2
)

Output hidden; open in https://colab.research.google.com to view.

In [20]:
def dict_to_tuple(inputs):
    return inputs["images"], inputs["bounding_boxes"]


train_ds = train_ds.map(dict_to_tuple, num_parallel_calls=tf.data.AUTOTUNE)
train_ds = train_ds.prefetch(tf.data.AUTOTUNE)

val_ds = val_ds.map(dict_to_tuple, num_parallel_calls=tf.data.AUTOTUNE)
val_ds = val_ds.prefetch(tf.data.AUTOTUNE)

## YOLOv8 Model

Para a detecção de objetos, escolhemos a arquitetura YOLOv8, conhecida por sua eficiência em tempo real. Com os presets do keras-cv, adaptamos o YOLOv8 ao nosso contexto específico, ajustando parâmetros para otimizar a detecção em um ambiente de restaurante. Esta escolha de arquitetura reflete nossa busca por um equilíbrio entre velocidade e precisão na detecção de objetos.

In [21]:
backbone = keras_cv.models.YOLOV8Backbone.from_preset(
    "yolo_v8_l_backbone_coco",
    load_weights=True
)

Downloading data from https://storage.googleapis.com/keras-cv/models/yolov8/coco/yolov8_l_backbone.h5


In [22]:
yolo = keras_cv.models.YOLOV8Detector(
    num_classes=len(class_mapping),
    bounding_box_format="xyxy",
    backbone=backbone,
    fpn_depth=3,
)

In [23]:
yolo.summary()

Model: "yolov8_detector"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_2 (InputLayer)        [(None, None, None, 3)]      0         []                            
                                                                                                  
 model (Functional)          {'P3': (None, None, None,    1983174   ['input_2[0][0]']             
                             256),                        4                                       
                              'P4': (None, None, None,                                            
                             512),                                                                
                              'P5': (None, None, None,                                            
                             512)}                                                  

In [24]:
optimizer = tf.keras.optimizers.Adam(
    learning_rate=LEARNING_RATE,
    global_clipnorm=GLOBAL_CLIPNORM,
)

yolo.compile(
    optimizer=optimizer, classification_loss="binary_crossentropy", box_loss="ciou"
)

#### Evaluation Metrics

In [25]:
class EvaluateCOCOMetricsCallback(keras.callbacks.Callback):
    def __init__(self, data, save_path):
        super().__init__()
        self.data = data
        self.metrics = keras_cv.metrics.BoxCOCOMetrics(
            bounding_box_format="xyxy",
            evaluate_freq=1e9,
        )

        self.save_path = save_path
        self.best_map = -1.0

    def on_epoch_end(self, epoch, logs):
        self.metrics.reset_state()
        for batch in self.data:
            images, y_true = batch[0], batch[1]
            y_pred = self.model.predict(images, verbose=0)
            self.metrics.update_state(y_true, y_pred)

        metrics = self.metrics.result(force=True)
        logs.update(metrics)

        current_map = metrics["MaP"]
        if current_map > self.best_map:
            self.best_map = current_map
            self.model.save(self.save_path)  # Save the model when mAP improves

        return logs

#### Tensorboard Callback

In [26]:
tensorboard_callback = tf.keras.callbacks.TensorBoard(log_dir="logs_yolov8large")

## Training

O treinamento do modelo é uma etapa crucial. Preparamos o conjunto de dados de treinamento com as augmentações necessárias e procedemos com a compilação do modelo, definindo o otimizador e as funções de perda. Durante o treinamento, utilizamos callbacks como EvaluateCOCOMetricsCallback para monitorar o desempenho do modelo. Isso nos permite ajustar e melhorar continuamente o processo de treinamento, buscando a melhor precisão possível na detecção de objetos.

In [None]:
history = yolo.fit(
    train_ds,
    validation_data=val_ds,
    epochs=EPOCH,
    callbacks=[
        EvaluateCOCOMetricsCallback(val_ds, "model_yolov8large.h5"),
        tensorboard_callback
    ],
)

Epoch 1/7

  saving_api.save_model(


Epoch 2/7
Epoch 3/7
Epoch 4/7
Epoch 5/7

## Inference on Validation Images using the Trained Model

Com o modelo treinado, passamos para a fase de inferência. Nessa fase, colocamos nosso modelo treinado à prova, aplicando-o a imagens novas e não vistas durante o treinamento. Este é o verdadeiro teste da eficácia do nosso modelo. Aqui, nos concentramos na precisão com que o modelo identifica e localiza objetos dentro do ambiente de restaurante. Utilizamos uma variedade de imagens para garantir que o modelo possa lidar com diferentes cenários e condições de iluminação. Além disso, implementamos técnicas de pós-processamento para refinar os resultados da detecção, como a supressão de caixas delimitadoras não máximas para eliminar detecções redundantes ou sobrepostas. A visualização desses resultados é crucial, não só para validar a precisão do modelo, mas também para oferecer insights sobre como ele pode ser melhorado. A capacidade de nosso modelo de realizar inferências rápidas e precisas é vital, considerando a natureza dinâmica e às vezes caótica de um ambiente de restaurante.

In [2]:
backbone = keras_cv.models.YOLOV8Backbone.from_preset(
    "yolo_v8_l_backbone_coco"
)





In [3]:
model = keras_cv.models.YOLOV8Detector(
    num_classes=29,
    bounding_box_format="xyxy",
    backbone=backbone,
    fpn_depth=3,
)

In [None]:
model.load_weights('model_yolov8large.h5')
print(model.summary())

Após a inferência, analisamos os resultados para avaliar o sucesso do nosso modelo. Incluímos métricas de desempenho e exemplos de saídas, discutindo o que cada um desses elementos revela sobre a precisão e a eficácia das detecções feitas pelo modelo.

In [None]:
def visualize_detections(model, dataset, bounding_box_format):
    for i in range(3):
        images, y_true = next(iter(dataset.take(i+100)))
        #print(images, y_true)
        y_pred = model.predict(images)
        y_pred = bounding_box.to_ragged(y_pred)
        visualization.plot_bounding_box_gallery(
            images,
            value_range=(0, 255),
            bounding_box_format=bounding_box_format,
            y_true=y_true,
            y_pred=y_pred,
            scale=4,
            rows=2,
            cols=2,
            show=True,
            font_scale=0.7,
            class_mapping=class_mapping,
        )
visualize_detections(yolo, dataset=val_ds, bounding_box_format="xyxy")

Output hidden; open in https://colab.research.google.com to view.

In [6]:
!python infer_video.py --input drive/MyDrive/restaurente_vod.mp4

Model: "yolov8_detector"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_2 (InputLayer)        [(None, None, None, 3)]      0         []                            
                                                                                                  
 model (Functional)          {'P3': (None, None, None,    1983174   ['input_2[0][0]']             
                             256),                        4                                       
                              'P4': (None, None, None,                                            
                             512),                                                                
                              'P5': (None, None, None,                                            
                             512)}                                                  

2023-11-24 12:37:16.873194: I tensorflow/core/util/port.cc:113] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.


2023-11-24 12:37:25.016500: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: SSE SSE2 SSE3 SSE4.1 SSE4.2 AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.

Traceback (most recent call last):
  File "c:\Users\Windows10\Desktop\insper7s\visaocomp\proj\projetov2\infer_video.py", line 66, in <module>
    frame = plot_boxes(frame, boxes, classes, scores, threshold, class_names)
  File "c:\Users\Windows10\Desktop\insper7s\visaocomp\proj\projetov2\infer_utils.py", line 56, in plot_boxes
    color=colo

## Conclusao

Este projeto representou um desafio notavel e uma oportunidade de aprendizado. Conseguimos desenvolver um modelo de detecção de objetos que não só atende às exigências de um ambiente de restaurante em termos de precisão, mas também em velocidade e eficiência. Este modelo tem o potencial de ser implementado em aplicações reais, proporcionando uma ferramenta valiosa para a gestão e otimização de espaços em restaurantes. As lições aprendidas vão além da detecção de objetos, abrangendo áreas como tratamento de dados, arquitetura de redes neurais e otimização de modelos. Estamos confiantes de que nosso trabalho pode servir de base para futuras pesquisas e desenvolvimentos nesta área. O potencial para melhorias e adaptações é vasto, abrindo caminho para novas inovações em inteligência artificial aplicada ao setor de hospitalidade e além.