# 📌 Laboratorio: Speech-to-Text API - Inicio Rápido

## 🌐 Descripción General
La **Speech-to-Text API** de Google Cloud convierte audio en texto escrito utilizando tecnología de reconocimiento de voz avanzada. Esta herramienta es útil en múltiples industrias, incluyendo la contabilidad, para transcribir reuniones, dictados o entrevistas, mejorando la eficiencia y reduciendo tareas administrativas.

💡 **Contexto empresarial**: Similar a transcribir automáticamente notas de reuniones financieras o dictados de reportes contables, ahorrando tiempo y minimizando errores manuales.

### Objetivos del Laboratorio
- Crear una **API Key** para autenticar el acceso.
- Elaborar una solicitud (**request**) en formato JSON.
- Ejecutar una llamada a la **Speech-to-Text API** para transcribir un archivo de audio.

💡 **Beneficio empresarial**: Automatiza la captura de datos de audios, como actas de reuniones o notas contables, optimizando procesos administrativos.

Para más información, consulta la [Documentación de Speech-to-Text API](https://cloud.google.com/speech-to-text/docs).

## 🔧 Requisitos y Preparación

Antes de comenzar:
- **Duración**: 30 minutos.
- Usa un navegador moderno (recomendado: Google Chrome en modo incógnito).
- No uses cuentas personales de Google Cloud para evitar cargos.
- Utiliza las credenciales temporales proporcionadas.
- No pauses el laboratorio una vez iniciado.

### Iniciar Sesión en Google Cloud Console
1. Haz clic en **Start Lab**.
2. Copia el **Username** y **Password** proporcionados.
3. Acepta los términos y condiciones.
4. No configures autenticación en dos pasos ni pruebas gratuitas.
5. Accede a los servicios desde el **Menú de Navegación** o la barra de búsqueda.

💡 **Propósito**: Garantiza un entorno seguro y controlado, como preparar un sistema contable antes de procesar transacciones.

Para más información, consulta la [Documentación de Google Cloud Console](https://cloud.google.com/docs/overview).

## 🔑 Tarea 1: Crear una API Key

### Pasos
1. Ve a **Navigation menu > APIs & services > Credentials**.
2. Haz clic en **Create credentials** y selecciona **API key**.
3. Copia la clave generada.
4. Ve a **Compute Engine** y conéctate a la instancia `linux-instance` mediante **SSH**.
5. Guarda la API Key como variable de entorno:


In [None]:
export API_KEY=<TU_API_KEY>

💡 **Propósito**: Configura la autenticación para la **Speech-to-Text API**, como asignar una contraseña segura a un sistema contable.

💡 **Beneficio empresarial**: Garantiza acceso seguro a herramientas de transcripción, como para procesar audios de reuniones financieras.

Para más información, consulta la [Documentación de Compute Engine](https://cloud.google.com/compute/docs).

## 📝 Tarea 2: Crear una Solicitud a la API

Usaremos un archivo de audio de ejemplo alojado en **Cloud Storage**:
`gs://cloud-samples-tests/speech/brooklyn.flac`

### Pasos
1. Crea un archivo JSON llamado `request.json`:


In [None]:
touch request.json
nano request.json

2. Ingresa el siguiente contenido en `request.json`:


In [None]:
{
  "config": {
    "encoding": "FLAC",
    "languageCode": "en-US"
  },
  "audio": {
    "uri": "gs://cloud-samples-tests/speech/brooklyn.flac"
  }
}

3. Guarda y cierra el archivo (Ctrl + X, Y, Enter).

| Campo | Descripción |
|-------|-------------|
| `config.encoding` | Formato del audio (FLAC). |
| `config.languageCode` | Idioma del audio (en-US). |
| `audio.uri` | Ubicación del archivo en Cloud Storage. |

💡 **Propósito**: Define la configuración para procesar el audio, como completar un formulario contable con los detalles de una transacción.

💡 **Analogía contable**: Similar a preparar un archivo con instrucciones para procesar registros financieros.

Para más información, consulta la [Documentación de Cloud Storage](https://cloud.google.com/storage/docs).

## 🎙️ Tarea 3: Llamar a la Speech-to-Text API

### Paso 1: Ejecutar la Llamada a la API
Envía la solicitud a la **Speech-to-Text API**:


In [None]:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

💡 **Propósito**: Procesa el audio y genera una transcripción, como convertir notas habladas en un informe escrito.

#### Ejemplo de Salida JSON


In [None]:
{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "confidence": 0.98267895
        }
      ]
    }
  ]
}

| Campo | Descripción |
|-------|-------------|
| `transcript` | Texto transcrito del audio. |
| `confidence` | Nivel de confianza en la transcripción (0 a 1). |

💡 **Beneficio empresarial**: Automatiza la transcripción de reuniones o dictados, como actas financieras, con alta precisión.

### Paso 2: Guardar el Resultado
Guarda la respuesta en un archivo JSON:


In [None]:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

💡 **Propósito**: Almacena la transcripción para revisión, como guardar un informe contable para auditorías.

💡 **Beneficio empresarial**: Facilita la documentación y el archivo de registros transcritos, como notas de reuniones financieras.

## 📋 Cuadro Resumen Final

| Elemento | Descripción |
|----------|-------------|
| **Nombre del laboratorio** | Speech-to-Text API: Qwik Start |
| **Duración** | 30 minutos |
| **Objetivo principal** | Transcribir un archivo de audio a texto usando la API |
| **Tareas realizadas** | Crear API key, generar `request.json`, llamar a la API con `curl` |
| **Herramientas usadas** | Google Cloud Console, Compute Engine, SSH, JSON, curl |
| **Archivo de audio** | `gs://cloud-samples-tests/speech/brooklyn.flac` |
| **Resultado esperado** | Texto: “how old is the Brooklyn Bridge” |
| **Nivel de confianza** | 0.98267895 |
| **Aplicación contable** | Transcripción automática de audios para registro de reuniones o notas |

💡 **Conclusión empresarial**: La **Speech-to-Text API** automatiza la transcripción de audios, como actas de reuniones financieras, reduciendo tiempo y errores en la documentación.

## 🚀 Conclusión

Este laboratorio te permitió:
1. Crear una **API Key** para autenticar la **Speech-to-Text API**.
2. Elaborar una solicitud JSON para procesar un archivo de audio.
3. Transcribir un audio y guardar los resultados en un archivo JSON.

💡 **Beneficio empresarial**: Simplifica la captura de datos de audios, como reuniones financieras o dictados contables, optimizando procesos administrativos y auditorías.

Para más información, consulta la [Documentación de Speech-to-Text API](https://cloud.google.com/speech-to-text/docs), [Documentación de Cloud Storage](https://cloud.google.com/storage/docs), y [Documentación de Compute Engine](https://cloud.google.com/compute/docs).