### Master of Applied Artificial Intelligence

**Course: TC4031 - Cloud Computing**

<img src="./../../../assets/logo.png" alt="Image Alt Text" width="500"/>

**Cloud Translation API**

Tutor: Dr. Eduardo Antonio Cendejas


Team members:
* Alejandro Calderon Aguilar - A01795353

In [19]:
import os
import json
from dotenv import load_dotenv
from google.cloud import speech_v1 as speech
from pydub import AudioSegment
import wave

# Load .env file
load_dotenv()


True

In [None]:
class Speech2Text:
    
    def __init__(self):
        pass
    
    def _open_audio(self, file_path):
        """
        Método privado para abrir un archivo WAV y obtener su tasa de muestreo (sample rate).
        
        Args:
            file_path (str): Ruta del archivo de audio.
        
        Returns:
            int: Frecuencia de muestreo del archivo de audio.
        """
        
        with wave.open(file_path, "rb") as wav_file:
            # Abre el archivo en modo lectura binaria
            sample_rate = wav_file.getframerate()
            # Obtiene la tasa de muestreo del audio
            print(f"Sample rate: {sample_rate}")
            return sample_rate
        
    
    def convert2mono(self, input_file, output_file):
        """
        Convierte un archivo de audio a formato mono (1 canal) y lo guarda en formato WAV.
        
        Args:
            input_file (str): Ruta del archivo de audio de entrada.
            output_file (str): Ruta donde se guardará el archivo convertido.
        """
        # Carga el archivo de audio en cualquier formato soportado
        audio = AudioSegment.from_file(input_file)
        # Convierte el audio a mono (1 canal)
        audio = audio.set_channels(1)
         # Exporta el audio en formato WAV
        audio.export(output_file, format="wav")
        print("converted to mono")
        
    def transcribe_audio(self,input_file):
        """
        Transcribe un archivo de audio a texto usando Google Cloud Speech-to-Text.
        
        Args:
            input_file (str): Ruta del archivo de audio a transcribir.
        
        Returns:
            response: Respuesta de Google Cloud Speech-to-Text con la transcripción.
        """
        with open(input_file, "rb") as audio_file:
            # Lee el contenido del archivo de audio
            content = audio_file.read()
            # Prepara el objeto de audio para Google Cloud
            audio = speech.RecognitionAudio(content=content)
            
            # Configuración para la transcripción de audio
            config = speech.RecognitionConfig(
                encoding = speech.RecognitionConfig.AudioEncoding.LINEAR16, # Codificación de audio en formato WAV (PCM)
                sample_rate_hertz = self._open_audio(input_file), # Obtiene la tasa de muestreo del archivo
                language_code = "fr" # Especifica el idioma (francés en este caso)
            )
            
            # Carga las credenciales de Google Cloud desde un archivo JSON
            client = speech.SpeechClient.from_service_account_file("./../../../speech2text_credentials.json")
            
            # Envía el audio a Google Cloud Speech-to-Text para la transcripción
            response = client.recognize(config=config, audio=audio)
            
            for result in response.results:
                print(f"Transcript: {result.alternatives[0].transcript}")
                print(f"confidence: {result.alternatives[0].confidence}")
            
        return response

In [23]:
speech2Text = Speech2Text()
file_input = "./../../../assets/audio1.wav"
file_output = "./../../../assets/audio1_mono.wav"
speech2Text.convert2mono(file_input,file_output)

converted to mono


In [24]:
response = speech2Text.transcribe_audio(file_output)

Sample rate: 24000
Transcript: tu habites une belle ville dans le nord de la France il y a encore qui est très agréable pour aller se balader lorsqu'il fait beau il est possible de faire du vélo dans un parc autour d'une citadelle fortifiée
confidence: 0.8756152391433716
