# Projeto Final

O objetivo deste projeto √© criar as bases de um sistema capaz de auxiliar deficientes visuais na identifica√ß√£o de objetos no mundo √† sua volta.

Primeiramente √© necess√°rio garantir que todas as depend√™ncias est√£o instaladas.

Estes s√£o todos os imports necess√°rios para rodar este Notebook.

In [1]:
import torch
import pandas as pd
from gtts import gTTS

  from .autonotebook import tqdm as notebook_tqdm


Agora vamos carregar o modelo pr√©-treinado do hub do Torch. Esse modelo √© baseado na YOLOv5 e est√° pr√©-treinada com a base COCO Dataset. Caso seja a primeira execu√ß√£o, a API vai realizar o download autom√°tico do modelo. Mas caso o modelo j√° tiver sido baixado, a API do Torch consegue reaproveitar o arquivo, ficando mais r√°pida a carga.

Esse dataset de imagens possui 80 categorias de objetos diversos. Futuramente √© poss√≠vel treinar o modelo com outros datasets, como o do OpenImages do Google, que possui 600 categorias por exemplo.

O endere√ßo do projeto YOLOv5 √©: https://github.com/ultralytics/yolov5
O endere√ßo do projeto COCO Dataset √©: https://cocodataset.org/

In [2]:
# Load Model (yolov5s, yolov5x6)
model = torch.hub.load('ultralytics/yolov5', 'yolov5x6')

Using cache found in /Users/diego/.cache/torch/hub/ultralytics_yolov5_master
YOLOv5 üöÄ 2022-10-23 Python-3.10.7 torch-1.12.1 CPU

Fusing layers... 
YOLOv5x6 summary: 574 layers, 140730220 parameters, 0 gradients
Adding AutoShape... 


Esta fun√ß√£o recebe uma imagem, que √© ent√£o enviada para o modelo realizar a detec√ß√£o dos objetos contidos na mesma. A fun√ß√£o retorna um dataframe do Pandas com as informa√ß√µes de todos os objetos identificados.

In [3]:
def infer_img(img):
    '''
    Esta fun√ß√£o recebe uma imagem e retorna um Pandas dataframe com os objetos identificados.
    '''
    results = model(img)

    df = pd.DataFrame(results.pandas().xyxy[0])
    return df

Esta fun√ß√£o recebe o dataframe gerado e √© respons√°vel por "contar" os objetos dentro da imagem. Ela retorna um dicion√°rio onde o 'key' √© o nome do objeto e o 'value' √© o n√∫mero de ocorr√™ncias dentro da imagem.

In [4]:
def get_result(df):
    result = {}
    def count_names(name):
        i = 0
        try:
            i = result[name]
        except:
            pass
        i += 1
        result[name] = i

    df['name'].map(count_names)
    return result

Estas duas fun√ß√µes s√£o respons√°veis por gerar um texto reprensentando os objetos encontrados (ou n√£o) na imagem. A fun√ß√£o 'get_text' retorna uma string com a descri√ß√£o dos objetos da imagem.

In [5]:
def get_plural(word, count):
    if count > 1:
        return word + 's'
    else:
        return word

def get_text(result):
    text = ''
    if len(result) == 0:
        text = 'I wasn\'t able to identify anything in front of you.'
    else:
        text = 'There are '
        i = 0
        for name in result:
            i += 1
            count = result[name]
            text += str(count) + ' ' + get_plural(name, count)
            if i == len(result) - 1:
                text += ' and '
            elif i == len(result):
                text += ' '
            else:
                text += ', '
        text += 'in front of you'
    return text

Esta fun√ß√£o recebe o texto gerado o transforma em √°udio usando a API do Google Text-to-Speech. Por fim, ela executa o √°udio gerado usando a biblioteca 'playsound'.

In [6]:
def play(text):
    if not text:
        return
    
    lang = 'en'

    gtts_obj = gTTS(text=text, lang=lang)
    gtts_obj.save('audio.wav')

    print(text)
    from playsound import playsound
    playsound('audio.wav')

Esta fun√ß√£o √© respons√°vel por executar o c√≥digo externo que tira uma foto usando a c√¢mera padr√£o do dispositivo. Aqui √© usado OpenCV para acessar a c√¢mera, tirar a foto e salv√°-la temporariamente.

In [7]:
def take_photo():
    !python camera.py

Este √© o c√≥digo que poder√° ser executado sempre que for necess√°rio identificar os objetos. Posteriormente a id√©ia √© fazer com que o sistema execute esse c√≥digo atravez de um comando de voz, tornando a itera√ß√£o manual quase inexistente e facilitando a acessibilidade do usu√°rio final.

In [8]:

take_photo()
df = infer_img('image.jpg')
result = get_result(df)
text = get_text(result)
play(text)

There are 1 person in front of you
