<a href="https://colab.research.google.com/github/EllenMatte/Python_Algorithms/blob/main/Assistente_de_Voz_Multi_idiomas_Com_Whisper_e_ChatGPT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [77]:
Language = 'pt'

##1. Gravação de Áudio com Python (e uma pitada de JavaSccript)

In [78]:
#todas as importacoes
from IPython.display import Javascript #Módulo IPython para executar código JavaScript no contexto do notebook.
from IPython.display import Audio #Módulo IPython para exibir elementos de áudio
from google.colab import output #Módulo do Google Colab para controlar a saída de células de código.
from base64 import b64decode #Função para decodificar dados codificados em base64.
from io import BytesIO  #Classe para manipulação de dados binários em memória.
!pip -q install pydub
from pydub import AudioSegment #Biblioteca para manipulação de áudio em Python.

#Código JavaScript (dentro de uma string)
#Define uma função sleep que retorna uma Promise que resolve após um período de tempo.
#Define uma função b2text que converte um blob para texto base64 usando FileReader.
#Define a função record que captura áudio do dispositivo, grava em chunks e retorna o áudio codificado em base64.
RECORD = """
const sleep  = time => new Promise(resolve => setTimeout(resolve, time))
const b2text = blob => new Promise(resolve => {
  const reader = new FileReader()
  reader.onloadend = e => resolve(e.srcElement.result)
  reader.readAsDataURL(blob)
})
var record = time => new Promise(async resolve => {
  stream = await navigator.mediaDevices.getUserMedia({ audio: true })
  recorder = new MediaRecorder(stream)
  chunks = []
  recorder.ondataavailable = e => chunks.push(e.data)
  recorder.start()
  await sleep(time)
  recorder.onstop = async ()=>{
    blob = new Blob(chunks)
    text = await b2text(blob)
    resolve(text)
  }
  recorder.stop()
})
"""

#Função Python para Gravação de Áudio:

def record(sec=5):
  display(Javascript(RECORD)) #Usa display(Javascript(...)) para executar o código JavaScript no notebook.
  js_result = output.eval_js('record(%s)' % (sec * 1000)) #output.eval_js recupera o resultado da execução do código JavaScript.
  audio = b64decode(js_result.split(',')[1]) #b64decode decodifica o áudio em base64.
  file_name = 'request_audio.wav' #O áudio é salvo em um arquivo binário no formato WAV.
   #Exibe o áudio usando 'Audio'
  with open(file_name, 'wb') as f:
   f.write(audio)
  return f'/content/{file_name}'

print(' Fale, estou ouvindo...\n')
#chamando a função
record_file = record()
display(Audio(record_file, autoplay=True))



 Fale, estou ouvindo...



<IPython.core.display.Javascript object>

##2. Reconhecimento de fala com Whisper (OpenAI):

In [68]:
!pip install cohere openai -q

In [22]:
!pip install git+https://github.com/openai/whisper.git -q

  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone


In [79]:
import whisper #Importa o módulo 'whisper'

model = whisper.load_model("small") #Carrega um modelo para transcrição de fala
result = model.transcribe(record_file, fp16=False, language=Language) #Chama o método transcribe do modelo para realizar a transcrição da fala.
transcription = result["text"] #Extrai o texto da transcrição do resultado retornado
print(transcription) #Imprime o texto transcrito no console ou saída do programa.

 Em poucas palavras, o que é o chat GPT?


##3. Integração com a API do ChatGPT

In [47]:
!pip install openai==0.28





In [55]:
!pip install openai --upgrade

Collecting openai
  Using cached openai-1.3.3-py3-none-any.whl (220 kB)
Installing collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 0.28.0
    Uninstalling openai-0.28.0:
      Successfully uninstalled openai-0.28.0
Successfully installed openai-1.3.3


In [64]:
from openai import OpenAI


In [80]:
client = OpenAI(
    api_key="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") #Essa instância é utilizada para fazer chamadas à API do OpenAI


response = client.chat.completions.create(
    model="gpt-3.5-turbo",
    messages = [{ "role": "user", "content": transcription}]) #Isso faz uma chamada à API do OpenAI para gerar uma conclusão para uma conversa de chat. Ele usa o modelo GPT-3.5-turbo.
chatgpt_response = response.choices[0].message.content #Obtém a resposta gerada
print(chatgpt_response) #Exibe a resposta gerada pelo modelo

O chat GPT é um modelo de linguagem de inteligência artificial (IA) desenvolvido pelo OpenAI que pode gerar respostas humanas em conversas de texto. Ele utiliza a arquitetura de transformador GPT (Generative Pretrained Transformer) e foi treinado em uma ampla variedade de dados da internet para entender e responder a perguntas de forma coerente e natural.


##4. Sintetizando a resposta do ChatGPT como Voz (gTTS)

In [75]:
!pip install gTTS

Collecting gTTS
  Downloading gTTS-2.4.0-py3-none-any.whl (29 kB)
Installing collected packages: gTTS
Successfully installed gTTS-2.4.0


In [82]:
from gtts import gTTS

gtts_object = gTTS(text=chatgpt_response, lang=Language, slow=False)
response_audio = "/content/response_audio.wav"
gtts_object.save(response_audio)
display(Audio(response_audio, autoplay=True))