# **üéôÔ∏è Proyecto de Reconocimiento de Voz a Texto usando Google Cloud Speech-to-Text**
Este proyecto utiliza la API de Google Cloud Speech-to-Text para transcribir audio en texto. A trav√©s de este proceso, se configuran las credenciales, se carga un archivo de audio y se realiza la transcripci√≥n.

üéØ Objetivo
El objetivo de este proyecto es implementar la tecnolog√≠a de reconocimiento de voz a texto de Google Cloud para convertir archivos de audio en texto de manera precisa y eficiente. Utilizando esta API, se busca facilitar la transcripci√≥n de conversaciones o grabaciones en formato de texto, lo que tiene aplicaciones clave en campos como la accesibilidad, la automatizaci√≥n de transcripciones, y la creaci√≥n de sistemas de interacci√≥n por voz m√°s avanzados. Este proyecto permite explorar la integraci√≥n de servicios de inteligencia artificial que ayudan a mejorar la interacci√≥n humana-m√°quina, proporcionando soluciones innovadoras en √°reas como la atenci√≥n al cliente, la toma de notas autom√°ticas y los asistentes virtuales.

# Requisitos
Librer√≠as necesarias:
google-cloud-speech: Para interactuar con la API de Speech-to-Text.
pydub: Para manejar y convertir archivos de audio a un formato compatible.
pydub.playback: Para reproducir archivos de audio.

In [19]:
pip install google-cloud-speech pydub pyaudio -q

Note: you may need to restart the kernel to use updated packages.


## Configuraci√≥n de Autenticaci√≥n

Configura tus credenciales para Google Cloud de forma similar a Text-to-Speech:

In [2]:
import os
os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = r"E:\proyecto\STT-GCP\CREDENCIAL.json"

# Inicializaci√≥n del Cliente de Speech-to-Text
Creamos un cliente para interactuar con la API de Google Cloud Speech-to-Text:

In [3]:
from google.cloud import speech

# Crear el cliente
client = speech.SpeechClient()

## Conversi√≥n de Audio a Formato FLAC
Google Cloud Speech-to-Text funciona mejor con archivos en formato FLAC o LINEAR16. Usamos pydub para convertir el archivo de audio si es necesario:

In [18]:
from pydub import AudioSegment

def convertir_audio(input_path, output_path="output1.flac"):
    audio = AudioSegment.from_file(input_path)
    audio.export(output_path, format="flac")
    return output_path

## Grabaci√≥n de Audio desde el Micr√≥fono

Usamos la librer√≠a pyaudio para grabar audio desde el micr√≥fono:

In [12]:
import pyaudio
import wave

# Configuraci√≥n para la grabaci√≥n
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
CHUNK = 1024
TIMEOUT = 2

# Inicializaci√≥n de pyaudio
p = pyaudio.PyAudio()

def grabar_audio():
    stream = p.open(format=FORMAT, channels=CHANNELS,
                    rate=RATE, input=True, frames_per_buffer=CHUNK)
    print("Grabando...")

    frames = []
    for i in range(0, int(RATE / CHUNK * TIMEOUT)):  # Graba durante TIMEOUT segundos
        data = stream.read(CHUNK)
        frames.append(data)

    stream.stop_stream()
    stream.close()

    # Guardar el archivo de audio
    archivo_audio = "audio_grabado.wav"
    wf = wave.open(archivo_audio, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()

    return archivo_audio

## Transcripci√≥n del Audio con Google Cloud

Una vez que tenemos el archivo de audio grabado, podemos enviarlo a la API para transcribirlo a texto:

In [7]:
def transcribir_audio(audio_path):
    with open(audio_path, "rb") as audio_file:
        audio_content = audio_file.read()

    audio = speech.RecognitionAudio(content=audio_content)
    config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,  # Cambio aqu√≠
    sample_rate_hertz=16000,  # Ajusta seg√∫n la frecuencia de tu audio
    language_code="es-ES",   # Idioma espa√±ol
)

    response = client.recognize(config=config, audio=audio)

    for result in response.results:
        print(f"Transcripci√≥n: {result.alternatives[0].transcript}")


## Ejecuci√≥n del Proyecto
- Grabar el audio: Usa la funci√≥n grabar_audio() para capturar el sonido.
- Convertir a FLAC: Si es necesario, convertir_audio() convierte el archivo a FLAC.
- Transcribir el audio: transcribir_audio() env√≠a el archivo a la API de Google para obtener la transcripci√≥n.

In [31]:
# Grabar audio y transcribir
archivo_audio = grabar_audio()
transcribir_audio(archivo_audio)

Grabando...
Transcripci√≥n: hola mundo
