<a href="https://colab.research.google.com/github/souza-denys/Projeto_Visao_Sonora_AI/blob/main/Imers%C3%A3o_Intelig%C3%AAncia_Artificial_2%C2%AA_Edi%C3%A7%C3%A3o_Projeto_Vis%C3%A3o_Sonora_AI_para_Pessoas_com_Defici%C3%AAncia_Visual.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Projeto: Visão Sonora AI para Pessoas com Deficiência Visual
Introdução:

A barreira da deficiência visual limita a percepção do mundo, dificultando tarefas simples do dia a dia. A tecnologia surge como um farol de esperança, abrindo portas para a inclusão e autonomia. Este projeto propõe o desenvolvimento de um aplicativo Vizu inovador que utiliza inteligência artificial (IA) para auxiliar pessoas com deficiência visual a lerem imagens em tempo real.

**Funcionalidades:**

Leitura de Imagens em Tempo Real: O aplicativo utilizará técnicas de IA, como reconhecimento de objetos para interpretar o conteúdo de imagens capturadas.

Descrição em Áudio Detalhada: A IA fornecerá uma descrição da imagem, incluindo objetos, cores, texturas e até mesmo texto presente em documentos.

Interação Intuitiva: A interface do aplicativo será acessível, permitindo que usuários naveguem facilmente com comandos de voz.

**Requisitos:**

Este projeto utiliza a API do Google Gemini conectada ao Google Colab para descrever imagens em tempo real durante chamadas de vídeo, auxiliando pessoas com deficiência visual.

In [1]:
# Instalar bibliotecas.
!pip install -q -U google-generativeai
!pip install gTTS

Collecting gTTS
  Downloading gTTS-2.5.1-py3-none-any.whl (29 kB)
Installing collected packages: gTTS
Successfully installed gTTS-2.5.1


In [2]:
# Importar bibliotecas.
import google.generativeai as genai
from gtts import gTTS
from google.colab import userdata

from PIL import Image
from io import BytesIO

import google.ai.generativelanguage as glm

import os

In [3]:
# Configurar a API_KEY e o modelo.
API_KEY = userdata.get('SECRET_KEY')

model = genai.GenerativeModel('gemini-1.0-pro-latest')

In [4]:
def get_blob(path):
  pil_image = Image.open(path)

  img_byte_arr = BytesIO()

  pil_image.save(img_byte_arr, format='JPEG')

  return glm.Blob(
    mime_type='image/jpeg',
    data=img_byte_arr.getvalue()
  )

In [5]:
def sintetizar_audio(texto):
    """Sintetiza o texto em áudio.

    Args:
        texto (str): Texto a ser sintetizado.
    """

    # Language in which you want to convert
    language = 'pt'

    # Passing the text and language to the engine,
    # here we have marked slow=False. Which tells
    # the module that the converted audio should
    # have a high speed
    myobj = gTTS(text=texto, lang=language, slow=False)

    # Saving the converted audio in a mp3 file named
    # welcome
    myobj.save("audio.mp3")

In [None]:
# Chatbot.
convo = model.start_chat(history=[])

image_path = input("Qual a imagem que deseja usar? ")

image_blob = get_blob(image_path)

image_text = convo.send_message(["Descreva a imagem a seguir: ", image_blob], stream=True)

audio_path = sintetizar_audio(image_text)

os.system(f"start {audio_path}")

# Considerações:
Este projeto é um exemplo básico e pode ser expandido com funcionalidades adicionais, como comandos de voz para controlar o aplicativo. A qualidade da descrição gerada pelo Google Gemini depende da qualidade da imagem capturada. É importante garantir a acessibilidade do aplicativo, utilizando bibliotecas e práticas recomendadas para desenvolvimento acessível.