# 🎙️ Laboratorio: Inicio Rápido con la API Speech-to-Text

**Google Cloud Speech-to-Text API** es un servicio que convierte audio en texto mediante técnicas avanzadas de reconocimiento de voz. Este laboratorio te guiará a través de la creación de una clave de API y el uso de la API para transcribir un archivo de audio alojado en **Cloud Storage**.

💡 **Beneficio empresarial**: La **Speech-to-Text API** permite a las empresas transcribir automáticamente grabaciones de reuniones, entrevistas o comunicaciones con clientes, agilizando procesos como auditorías, análisis de interacciones o documentación, lo que reduce costos y mejora la eficiencia.

Para más información, consulta la [Documentación de Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text/docs).

## 📚 Objetivos
- ✔️ Crear una clave de API.
- ✔️ Hacer una solicitud a la **Speech-to-Text API**.
- ✔️ Obtener y analizar el resultado de la transcripción.

## 🛠️ Tarea 1: Crear una clave de API

En esta tarea, generarás una clave de API para autenticar solicitudes a la **Speech-to-Text API** y te conectarás a una máquina virtual mediante SSH.

### Paso 1.1: Crear la clave de API

1. Ve a **Navigation menu** ☰ > **APIs & Services** > **Credentials**.
2. Haz clic en **Create Credentials** > selecciona **API Key**.
3. Copia la clave generada.

**Explicación**:
- La clave de API permite autenticar solicitudes a la **Speech-to-Text API**.

💡 **Contexto empresarial**: Crear una clave es como generar una contraseña para acceder a un sistema contable que procesa grabaciones financieras.

### Paso 1.2: Conectarse por SSH

1. Ve a **Navigation menu** ☰ > **Compute Engine** > **VM Instances**.
2. Haz clic en **SSH** junto a la instancia para abrir una terminal interactiva.

**Explicación**:
- La conexión SSH te permite ejecutar comandos en una máquina virtual en la nube.

💡 **Contexto empresarial**: Esto es como acceder a un servidor remoto para procesar documentos o grabaciones.

### Paso 1.3: Guardar la clave como variable de entorno

1. En la terminal SSH, ejecuta:

In [None]:
export API_KEY=<TU_API_KEY>

**Desglose del comando**:
- `export`: Crea una variable de entorno temporal.
- `API_KEY`: Nombre de la variable.
- `<TU_API_KEY>`: Reemplaza con la clave de API copiada.

**Explicación**:
- Almacena la clave para usarla en solicitudes posteriores sin necesidad de pegarla manualmente.

💡 **Contexto empresarial**: Esto es como guardar las credenciales de un sistema contable para un acceso rápido y seguro.

## 🛠️ Tarea 2: Crear la solicitud a la API

En esta tarea, crearás un archivo JSON con la configuración para enviar un archivo de audio a la **Speech-to-Text API**.

### Paso 2.1: Crear el archivo de solicitud

1. En la terminal SSH, crea el archivo:

In [None]:
touch request.json

2. Abre el archivo para editar:

In [None]:
nano request.json

3. Pega el siguiente contenido:

In [None]:
{
  "config": {
    "encoding": "FLAC",
    "languageCode": "en-US"
  },
  "audio": {
    "uri": "gs://cloud-samples-tests/speech/brooklyn.flac"
  }
}

4. Guarda el archivo:
   - Presiona **Ctrl + X**, luego **Y**, y finalmente **Enter**.

**Desglose del archivo JSON**:
| **Objeto** | **Descripción** |
|------------|-----------------|
| `config` | Configuración para interpretar el audio: <br> - `encoding`: Tipo de compresión del audio (`FLAC`). <br> - `languageCode`: Idioma hablado (`en-US` para inglés estadounidense). |
| `audio` | URL del archivo de audio en **Cloud Storage** (`gs://cloud-samples-tests/speech/brooklyn.flac`). |

**Explicación**:
- El archivo `request.json` define cómo la API debe procesar el audio y la ubicación del archivo a transcribir.

💡 **Contexto empresarial**: Esto es como preparar un formulario con instrucciones para transcribir una grabación de una reunión financiera.

## 🛠️ Tarea 3: Llamar a la API de Speech-to-Text

En esta tarea, enviarás la solicitud a la API y guardarás la transcripción.

### Paso 3.1: Ejecutar la solicitud

1. En la terminal SSH, ejecuta:

In [None]:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"

**Desglose del comando**:
| **Componente** | **Significado** |
|---------------|-----------------|
| `curl` | Herramienta para hacer solicitudes a URLs desde la terminal. |
| `-s` | Ejecuta en modo silencioso (sin mostrar progreso). |
| `-X POST` | Indica una solicitud de tipo POST. |
| `-H "Content-Type: application/json"` | Especifica que el contenido es JSON. |
| `--data-binary @request.json` | Envía el contenido del archivo `request.json`. |
| `"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}"` | Endpoint de la API con la clave de autenticación. |

**Explicación**:
- Envía el archivo de audio a la API para su transcripción.

**Resultado esperado**:
```json
{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "how old is the Brooklyn Bridge",
          "confidence": 0.98267895
        }
      ]
    }
  ]
}
```

**Desglose del resultado**:
| **Campo** | **Significado** |
|-----------|-----------------|
| `transcript` | Transcripción en texto del audio. |
| `confidence` | Nivel de confianza (0 a 1) de la precisión de la transcripción. |

💡 **Contexto empresarial**: Esto es como recibir un informe que transcribe una grabación de una reunión financiera, con un indicador de precisión.

### Paso 3.2: Guardar la respuesta en un archivo

1. Ejecuta:

In [None]:
curl -s -X POST -H "Content-Type: application/json" --data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" > result.json

**Explicación**:
- Guarda la respuesta de la API en un archivo `result.json` para su posterior análisis.

💡 **Contexto empresarial**: Esto es como archivar un informe financiero transcrito para auditorías o revisiones futuras.

## 🚀 Resumen

| **Concepto** | **Explicación contable simplificada** |
|--------------|--------------------------------------|
| **Speech-to-Text API** | Herramienta que convierte grabaciones de reuniones o entrevistas en texto, facilitando la documentación. |
| **Clave de API** | Credencial para acceder de forma segura al sistema de transcripción. |
| **Transcripción** | Proceso que transforma audio en texto, como convertir una reunión financiera en un informe escrito. |
| **Cloud Storage** | Almacén digital para guardar archivos de audio o resultados de transcripciones. |

💡 **Conclusión empresarial**: La **Speech-to-Text API** automatiza la transcripción de grabaciones, como reuniones financieras o interacciones con clientes, reduciendo el tiempo de documentación manual, mejorando la precisión y optimizando costos operativos.

Para más información, consulta la [Documentación de Google Cloud Speech-to-Text](https://cloud.google.com/speech-to-text/docs).