#### Instala os módulos necessários

In [None]:
%pip install gTTS
%pip install os
%pip install playsound
%pip install warnings
%pip install google-cloud-speech

#### Importa os módulos necessários

In [1]:
from google.oauth2 import service_account
from google.cloud import speech
from gtts import gTTS
from playsound import playsound
import warnings

#### Ignora warnings que serão gerados

In [2]:
warnings.filterwarnings("ignore")

#### Definição dos diretórios dos arquivos

In [1]:
%%bash 
rm -rf audio*
sleep 3
mkdir audio audio/central audio/customer

#### Definição da função para converter texto em áudio

In [4]:
def text_to_speech(phrases : list, mode : str) -> None:
    """
    A função converte uma lista de textos escritos em português (brasileiro) e converte em arquivos MP3 em português (brasileiro).
    
    Args:
        phrases (list): Lista de textos.
        mode (str): Nome do diretório onde serão salvos os arquivos de áudio.
    """

    counter = 0 

    for phrase in phrases:
        audio = gTTS(text=phrase, lang="pt", slow=False)
        audio.save(f"./audio/{mode}/{counter}.mp3")
        print(f'\nArquivo MP3 salvo no diretório: "./audio/{mode}/{counter}.mp3".')
        counter += 1

#### Definição da função para converter áudio em texto

In [5]:
def speech_to_text(audio_file_path : str) -> str:
    """
    A função recebe um arquivo MP3 em português (brasileiro) e retorna o conteúdo do áudio convertido em texto.

    Args:
        audio_file_path (str): Nome do diretório

    Returns:
        str: _description_
    """

    # Realiza a autenticação e inicializa a comunicação com a API da Google Cloud Platform
    json_file_path = "/home/leonardo/workspace/keys/google_access_key.json"
    credentials = service_account.Credentials.from_service_account_file(json_file_path)
    client = speech.SpeechClient(credentials=credentials)
    
    # Abre o arquivo MP3 como binário e armazena o seu conteúdo na variável "content"
    with open(audio_file_path, "rb") as audio_file:
        content = audio_file.read()

    # Processa o conteúdo da variável "content" com o módulo de TTS
    audio = speech.RecognitionAudio(content=content)

    # Define as configurações de reconhecimento de falar (formato, qualidade e idioma do áudio)    
    config = speech.RecognitionConfig(
        encoding=speech.RecognitionConfig.AudioEncoding.MP3,
        sample_rate_hertz=44100,
        language_code="pt-BR",
    )

    # Informa a configuração e o áudio a ser convertido para texto usando a API
    response = client.recognize(config=config, audio=audio)

    # Retorna o resultado da API
    for result in response.results:
        return result.alternatives[0].transcript

#### Gravação das falas da central de atendimento e do cliente

In [None]:
central_phrases = [
    "Olá, você entrou em contato com o Banco de Konoha!", 
    
    "Para consultar o saldo em conta, diga saldo em conta.", 
    "Você escolheu a opção consultar saldo em conta.", 
    "O seu saldo em conta é cinco mil reais.",
    
    "Para simular uma compra internacional, diga compra internacional.", 
    "Você escolheu a opção simular uma compra internacional.", 
    "Infelizmente a opção não está disponível no momento, pedimos que tente novamente mais tarde.",
    
    "Para falar com um de nossos atendentes, diga falar com atendimento.", 
    "Você escolheu a opção falar com um de nossos atendentes.", 
    "Aguarde enquanto encaminhamos você para um de nossos atendentes.",

    "Caso queira encerrar a ligação, diga encerrar ligação.",
    "Vocẽ escolheu a opção encerrar a ligação.",
    "A ligação será encerrada nos próximos segundos."]

text_to_speech(central_phrases, "central")


customer_phrases = [
    "Saldo em conta.", 
    
    "Compra internacional.", 
    
    "Falar com atendimento.", 
    
    "Encerrar ligação."]

text_to_speech(customer_phrases, "customer")

#### Simulação de interação do cliente com a central de atendimento

In [8]:
def simulate(customer_choice : str) -> None:
    # Central de atendimento informa as opções disponíveis
    for option in [0, 1, 4, 7, 10]:
        playsound(f"audio/central/{option}.mp3")
        reading = speech_to_text(f"audio/central/{option}.mp3").capitalize().join(".")
        print(f"Central\n-> {reading}")

    # Cliente seleciona uma das opções
    playsound(f"audio/customer/{customer_choice}.mp3")
    answer = speech_to_text(f"audio/customer/{customer_choice}.mp3").capitalize().join(".")
    print(f"\nCliente\n-> {answer}")

    # Lógica para reprodução dos aúdios
    if answer == "Saldo em conta":
        playsound("audio/central/2.mp3")
        playsound("audio/central/3.mp3")
        reading_a = speech_to_text(f"audio/central/2.mp3").capitalize().join(".")
        reading_b = speech_to_text(f"audio/central/3.mp3").capitalize().join(".")
        print(f"\nCentral\n-> {reading_a}")
        print(f"Central\n-> {reading_b}")
    
    elif answer == "Compra internacional":
        playsound("audio/central/5.mp3")
        playsound("audio/central/6.mp3")
        reading_a = speech_to_text(f"audio/central/5.mp3").capitalize().join(".")
        reading_b = speech_to_text(f"audio/central/6.mp3").capitalize().join(".")
        print(f"\nCentral\n-> {reading_a}")
        print(f"Central\n-> {reading_b}")

    elif answer == "Falar com atendimento":
        playsound("audio/central/8.mp3")
        playsound("audio/central/9.mp3")
        reading_a = speech_to_text(f"audio/central/8.mp3").capitalize().join(".")
        reading_b = speech_to_text(f"audio/central/9.mp3").capitalize().join(".")
        print(f"\nCentral\n-> {reading_a}")
        print(f"Central\n-> {reading_b}")
    
    else:
        playsound("audio/central/11.mp3")
        playsound("audio/central/12.mp3")
        reading_a = speech_to_text(f"audio/central/11.mp3").capitalize().join(".")
        reading_b = speech_to_text(f"audio/central/12.mp3").capitalize().join(".")
        print(f"\nCentral\n-> {reading_a}")
        print(f"Central\n-> {reading_b}")

Caso de uso: saldo em conta

In [None]:
simulate("0")

Caso de uso: compra internacional

In [None]:
simulate("1")

Caso de uso: falar com atendimento

In [None]:
simulate("2")

Caso de uso: encerrar ligação

In [None]:
simulate("3")