## 1. Importar Librer√≠as

Usamos el SDK de Azure Cognitive Services Speech.

In [None]:
import os
import azure.cognitiveservices.speech as speechsdk
from dotenv import load_dotenv

## 2. Cargar Credenciales

Necesitamos dos valores del archivo `.env`:
- `SPEECH_KEY`: La clave de API del servicio de Speech
- `SPEECH_REGION`: La regi√≥n donde est√° desplegado el servicio

In [None]:
load_dotenv()

speech_key = os.getenv("SPEECH_KEY")
service_region = os.getenv("SPEECH_REGION")

if not speech_key or not service_region:
    raise RuntimeError("Faltan SPEECH_KEY y/o SPEECH_REGION en el archivo .env")

print(f"‚úÖ Regi√≥n configurada: {service_region}")
print(f"‚úÖ Key configurada: {'*' * 10}{speech_key[-4:]}")

## 3. Configurar el Servicio de Speech

Configuramos:
- La clave y regi√≥n del servicio
- El idioma de reconocimiento (espa√±ol en este caso)

In [None]:
speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, 
    region=service_region
)

# Configurar idioma a espa√±ol de Espa√±a
speech_config.speech_recognition_language = "es-ES"

print("‚úÖ Configuraci√≥n de Speech creada")
print(f"   Idioma: {speech_config.speech_recognition_language}")

## 4. Idiomas Disponibles

Azure Speech soporta m√∫ltiples idiomas. Aqu√≠ algunos ejemplos:

In [None]:
idiomas_comunes = {
    "es-ES": "Espa√±ol (Espa√±a)",
    "es-MX": "Espa√±ol (M√©xico)",
    "en-US": "English (United States)",
    "en-GB": "English (United Kingdom)",
    "fr-FR": "Fran√ßais (France)",
    "de-DE": "Deutsch (Deutschland)",
    "it-IT": "Italiano (Italia)",
    "pt-BR": "Portugu√™s (Brasil)",
    "ja-JP": "Êó•Êú¨Ë™û (Êó•Êú¨)",
    "zh-CN": "‰∏≠Êñá (ÁÆÄ‰Ωì)",
}

print("üåç Idiomas soportados (ejemplos):")
for code, name in idiomas_comunes.items():
    print(f"   {code}: {name}")

## 5. Configurar la Entrada de Audio

Configuramos el sistema para usar el micr√≥fono predeterminado del sistema.

In [None]:
audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)

print("‚úÖ Audio configurado para usar micr√≥fono predeterminado")

## 6. Crear el Reconocedor de Voz

Combinamos la configuraci√≥n de speech y audio para crear el reconocedor.

In [None]:
speech_recognizer = speechsdk.SpeechRecognizer(
    speech_config=speech_config, 
    audio_config=audio_config
)

print("‚úÖ Reconocedor de voz creado y listo")

## 7. Realizar Reconocimiento de Voz

Ejecuta esta celda y habla en espa√±ol cuando veas el mensaje.

**Importante**: 
- Aseg√∫rate de que tu micr√≥fono est√© funcionando
- Habla claramente
- El reconocimiento se detiene autom√°ticamente despu√©s de una pausa

In [None]:
print("\n" + "="*80)
print("üé§ RECONOCIMIENTO DE VOZ INICIADO")
print("="*80)
print("\nüëâ Habla algo en espa√±ol...\n")

# Realizar reconocimiento √∫nico
result = speech_recognizer.recognize_once()

print("\n" + "‚îÄ"*80)

## 8. Procesar el Resultado

El resultado puede tener diferentes estados:
- `RecognizedSpeech`: √âxito, se reconoci√≥ el texto
- `NoMatch`: No se pudo reconocer
- `Canceled`: El reconocimiento fue cancelado (error)

In [None]:
if result.reason == speechsdk.ResultReason.RecognizedSpeech:
    print("\n‚úÖ RECONOCIMIENTO EXITOSO")
    print("\nüìù Texto reconocido:")
    print(f"\n    \"{result.text}\"\n")
    
elif result.reason == speechsdk.ResultReason.NoMatch:
    print("\n‚ùå NO SE PUDO RECONOCER LA VOZ")
    print("\nPosibles razones:")
    print("   - El audio era muy bajo")
    print("   - Hab√≠a mucho ruido de fondo")
    print("   - No se detect√≥ habla")
    print(f"\nDetalles: {result.no_match_details}")
    
elif result.reason == speechsdk.ResultReason.Canceled:
    cancellation_details = result.cancellation_details
    print("\n‚ö†Ô∏è RECONOCIMIENTO CANCELADO")
    print(f"\nRaz√≥n: {cancellation_details.reason}")
    
    if cancellation_details.reason == speechsdk.CancellationReason.Error:
        print("\n‚ùå ERROR DETECTADO:")
        if cancellation_details.error_details:
            print(f"   {cancellation_details.error_details}")
        print("\nVerifica:")
        print("   - SPEECH_KEY es correcta")
        print("   - SPEECH_REGION es correcta")
        print("   - Tienes conexi√≥n a internet")

print("\n" + "="*80)

## 9. Funci√≥n Reutilizable

Creamos una funci√≥n para facilitar el reconocimiento de voz.

In [None]:
def recognize_speech(language="es-ES"):
    """Reconoce voz desde el micr√≥fono."""
    # Configurar
    config = speechsdk.SpeechConfig(
        subscription=speech_key, 
        region=service_region
    )
    config.speech_recognition_language = language
    
    audio = speechsdk.audio.AudioConfig(use_default_microphone=True)
    recognizer = speechsdk.SpeechRecognizer(
        speech_config=config, 
        audio_config=audio
    )
    
    # Reconocer
    print(f"üé§ Escuchando ({language})...")
    result = recognizer.recognize_once()
    
    # Procesar
    if result.reason == speechsdk.ResultReason.RecognizedSpeech:
        return result.text
    elif result.reason == speechsdk.ResultReason.NoMatch:
        return None
    else:
        raise Exception(f"Error: {result.cancellation_details.reason}")

print("‚úÖ Funci√≥n recognize_speech() definida")

## 10. Probar la Funci√≥n (Opcional)

Descomenta y ejecuta para probar la funci√≥n.

In [None]:
# texto = recognize_speech("es-ES")
# if texto:
#     print(f"‚úÖ Reconocido: {texto}")
# else:
#     print("‚ùå No se reconoci√≥ nada")

print("üí° Descomenta el c√≥digo anterior para probar la funci√≥n")

## 11. Reconocimiento en Otros Idiomas

Podemos cambiar f√°cilmente el idioma de reconocimiento.

In [None]:
# Ejemplo con ingl√©s
# texto_en = recognize_speech("en-US")
# print(f"English: {texto_en}")

# Ejemplo con franc√©s
# texto_fr = recognize_speech("fr-FR")
# print(f"Fran√ßais: {texto_fr}")

print("üí° Descomenta para probar otros idiomas")

## Conclusi√≥n

Este ejemplo demuestra:

### 1. **Azure Speech Service**
- Reconocimiento de voz en tiempo real
- Soporte para m√∫ltiples idiomas
- Alta precisi√≥n en el reconocimiento

### 2. **Configuraci√≥n Simple**
- Solo necesitas key y regi√≥n
- Configuraci√≥n de idioma flexible
- F√°cil cambio entre idiomas

### 3. **Manejo de Errores**
- Distintos estados de resultado
- Mensajes de error claros
- F√°cil depuraci√≥n

### Aplicaciones Pr√°cticas:
- **Asistentes de voz**: Siri, Alexa, Google Assistant
- **Transcripci√≥n**: Reuniones, entrevistas, conferencias
- **Subtitulado**: Videos en tiempo real
- **Accesibilidad**: Interfaces para personas con discapacidades
- **Dictado**: Aplicaciones de escritura por voz
- **Call centers**: Transcripci√≥n de llamadas

### Caracter√≠sticas Avanzadas:
Azure Speech tambi√©n soporta:
- **Reconocimiento continuo**: Para audio largo
- **Custom Speech**: Entrenar modelos personalizados
- **Identificaci√≥n de hablantes**: Distinguir entre personas
- **Traducci√≥n de voz**: Speech-to-Speech translation
- **Text-to-Speech**: Convertir texto a voz

### Notas Importantes:
1. **Privacidad**: El audio se procesa en Azure, no localmente
2. **Costos**: El servicio tiene costos por minuto de audio procesado
3. **Latencia**: Requiere conexi√≥n a internet estable
4. **Calidad**: El ruido de fondo afecta la precisi√≥n