In [None]:
import os
import time
import threading
from dotenv import load_dotenv
import azure.cognitiveservices.speech as speechsdk
from azure.ai.translation.text import TextTranslationClient
from azure.core.credentials import AzureKeyCredential
from pydub import AudioSegment
from datetime import datetime

# 환경변수 로드
load_dotenv()

# Azure 설정
speech_api_key = os.getenv("SPEECH_API_KEY")
region = os.getenv("SPEECH_REGION")
translator_api_key = os.getenv("TRANSLATOR_API_KEY")
translator_region = os.getenv("TRANSLATOR_REGION")
translator_endpoint = os.getenv("TRANSLATOR_ENDPOINT")

# ==================== 언어 설정 ====================
INPUT_LANGUAGE = "영어"      # STT 입력 언어
OUTPUT_LANGUAGE = "한국어"       # 번역 출력 + TTS 출력 언어

# 언어 매핑 테이블
LANGUAGE_MAPPING = {
    "한국어": ("ko-KR", "ko", "ko-KR-SunHiNeural"),
    "영어": ("en-US", "en", "en-US-AvaMultilingualNeural"),
    "중국어(간체)": ("zh-CN", "zh-Hans", "zh-CN-XiaoxiaoNeural"),
    "일본어": ("ja-JP", "ja", "ja-JP-NanamiNeural"),
    "독일어": ("de-DE", "de", "de-DE-KatjaNeural"),
    "프랑스어": ("fr-FR", "fr", "fr-FR-DeniseNeural"),
    "스페인어": ("es-ES", "es", "es-ES-ElviraNeural"),
    "이탈리아어": ("it-IT", "it", "it-IT-IsabellaNeural"),
    "러시아어": ("ru-RU", "ru", "ru-RU-DariyaNeural"),
    "포르투갈어": ("pt-BR", "pt", "pt-BR-FranciscaNeural"),
}

INPUT_STT_CODE, INPUT_TRANSLATE_CODE, INPUT_TTS_VOICE = LANGUAGE_MAPPING[INPUT_LANGUAGE]
OUTPUT_STT_CODE, OUTPUT_TRANSLATE_CODE, OUTPUT_TTS_VOICE = LANGUAGE_MAPPING[OUTPUT_LANGUAGE]

print(f"🎤 입력 언어: {INPUT_LANGUAGE} ({INPUT_STT_CODE})")
print(f"🔄 출력 언어: {OUTPUT_LANGUAGE} ({OUTPUT_TRANSLATE_CODE})")
print("=" * 50)

# STT 설정
speech_config = speechsdk.SpeechConfig(subscription=speech_api_key, region=region)
speech_config.speech_recognition_language = INPUT_STT_CODE

# FFmpeg 경로 설정
AudioSegment.converter = r"C:\\ffmpeg\\bin\\ffmpeg.exe"
AudioSegment.ffprobe = r"C:\\ffmpeg\\bin\\ffprobe.exe"

# 번역기 설정
translator_credential = AzureKeyCredential(translator_api_key)
translator = TextTranslationClient(
    credential=translator_credential,
    endpoint=translator_endpoint,
    region=translator_region
)

# TTS 설정
tts_config = speechsdk.SpeechConfig(subscription=speech_api_key, region=region)
tts_config.speech_synthesis_voice_name = OUTPUT_TTS_VOICE

# ==================== 번역 함수 ====================
def translate_text(text, target_language=OUTPUT_TRANSLATE_CODE):
    """텍스트 번역"""
    try:
        response = translator.translate(
            body=[{"text": text}],
            to_language=[target_language]
        )
        
        # 응답이 리스트 형태이므로 올바르게 접근
        if isinstance(response, list) and len(response) > 0:
            translation_result = response
            
            # translations도 리스트 형태
            if hasattr(translation_result, 'translations') and len(translation_result.translations) > 0:
                translated_text = translation_result.translations.text
            else:
                print(f"❌ 번역 결과 구조 오류: {translation_result}")
                return {"original_text": text, "translated_text": None, "error": "Invalid response structure"}
            
            # 언어 감지 결과
            detected_language = None
            if hasattr(translation_result, 'detected_language') and translation_result.detected_language:
                detected_language = translation_result.detected_language.language
            
            return {
                "original_text": text,
                "translated_text": translated_text,
                "detected_language": detected_language
            }
        else:
            print(f"❌ 빈 응답: {response}")
            return {"original_text": text, "translated_text": None, "error": "Empty response"}
            
    except Exception as e:
        print(f"❌ 번역 오류: {e}")
        print(f"   원본 텍스트: {text}")
        return {"original_text": text, "translated_text": None, "error": str(e)}


# ==================== TTS 함수 ====================
def speak_text(text, output_method="speaker"):
    """TTS 음성 출력"""
    if not text.strip():
        return None
    
    try:
        if output_method == "speaker":
            audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
        else:  # file
            now = datetime.now().strftime("%y%m%d_%H%M%S")
            filename = f"tts_output_{now}.wav"
            audio_config = speechsdk.audio.AudioOutputConfig(filename=filename)
        
        synthesizer = speechsdk.SpeechSynthesizer(tts_config, audio_config)
        result = synthesizer.speak_text_async(text).get()
        
        if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
            if output_method == "speaker":
                print(f"🔊 [{OUTPUT_LANGUAGE}] TTS 출력 완료")
                return True
            else:
                print(f"💾 [{OUTPUT_LANGUAGE}] 파일 저장: {filename}")
                return filename
        else:
            print(f"❌ TTS 실패: {result.cancellation_details.reason}")
            return False
    except Exception as e:
        print(f"❌ TTS 오류: {e}")
        return None

# ==================== 실시간 연속 음성 인식 (사용자 입력까지 계속 실행) ====================
def continuous_microphone_recognition():
    """사용자가 종료 명령을 입력하기 전까지 계속 실행되는 음성 인식"""
    
    print(f"🎤 {INPUT_LANGUAGE} 실시간 음성 인식 시작")
    print("말씀하시면 자동으로 번역되고 음성 출력됩니다.")
    print("종료하려면 'q' 또는 'quit'을 입력하세요.")
    print("-" * 50)
    
    # 마이크 입력 설정
    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config, audio_config)
    
    # 인식 완료 플래그
    done = False
    
    def recognized_handler(evt):
        """음성 인식 완료 시 자동으로 번역 및 TTS 실행"""
        if evt.result.reason == speechsdk.ResultReason.RecognizedSpeech and evt.result.text.strip():
            original_text = evt.result.text.strip()
            print(f"\n✅ 인식: {original_text}")
            
            # 자동 번역
            result = translate_text(original_text)
            if result.get("translated_text"):
                translated = result["translated_text"]
                detected = result.get("detected_language", "unknown")
                print(f"🔄 번역: {translated} (감지언어: {detected})")
                
                # 자동 TTS
                speak_text(translated, "speaker")
            else:
                print("❌ 번역 실패")
            
            print("-" * 30)
    
    def recognizing_handler(evt):
        """실시간 인식 중 (부분 결과)"""
        if evt.result.reason == speechsdk.ResultReason.RecognizingSpeech and evt.result.text.strip():
            print(f"🎤 인식중: {evt.result.text.strip()}", end='\r')
    
    def stop_handler(evt):
        """세션 종료 핸들러"""
        nonlocal done
        print(f"🛑 세션 종료: {evt}")
        done = True
    
    def canceled_handler(evt):
        """취소 핸들러"""
        nonlocal done
        print(f"❌ 인식 취소: {evt}")
        done = True
    
    # 이벤트 핸들러 연결
    speech_recognizer.recognized.connect(recognized_handler)
    speech_recognizer.recognizing.connect(recognizing_handler)
    speech_recognizer.session_stopped.connect(stop_handler)
    speech_recognizer.canceled.connect(canceled_handler)
    
    # 연속 인식 시작
    speech_recognizer.start_continuous_recognition()
    
    # 사용자 입력을 별도 스레드에서 처리
    def wait_for_user_input():
        nonlocal done
        while not done:
            try:
                user_input = input().strip().lower()
                if user_input in ['q', 'quit', 'exit', '종료']:
                    print("👋 사용자가 종료를 요청했습니다.")
                    done = True
                    break
            except (EOFError, KeyboardInterrupt):
                print("\n👋 키보드 인터럽트로 종료합니다.")
                done = True
                break
    
    # 입력 대기 스레드 시작
    input_thread = threading.Thread(target=wait_for_user_input, daemon=True)
    input_thread.start()
    
    # 메인 루프 (done이 True가 될 때까지 계속 실행)
    try:
        while not done:
            time.sleep(0.5)
    except KeyboardInterrupt:
        print("\n👋 키보드 인터럽트로 종료합니다.")
        done = True
    finally:
        # 인식 중지
        print("🛑 음성 인식을 중지합니다...")
        speech_recognizer.stop_continuous_recognition()


# ==================== 디버깅 ========================
def translate_text_debug(text, target_language=OUTPUT_TRANSLATE_CODE):
    """디버깅을 위한 번역 함수"""
    try:
        print(f"🔍 번역 요청: '{text}' -> {target_language}")
        
        response = translator.translate(
            body=[{"text": text}],
            to_language=[target_language]
        )
        
        print(f"🔍 응답 타입: {type(response)}")
        print(f"🔍 응답 내용: {response}")
        
        if isinstance(response, list) and len(response) > 0:
            translation_result = response
            print(f"🔍 첫 번째 결과: {type(translation_result)}")
            print(f"🔍 결과 속성: {dir(translation_result)}")
            
            if hasattr(translation_result, 'translations'):
                print(f"🔍 translations 타입: {type(translation_result.translations)}")
                print(f"🔍 translations 내용: {translation_result.translations}")
                
                if len(translation_result.translations) > 0:
                    translated_text = translation_result.translations.text
                    print(f"✅ 번역 성공: {translated_text}")
                    return translated_text
        
        return None
        
    except Exception as e:
        print(f"❌ 번역 오류 상세: {e}")
        import traceback
        traceback.print_exc()
        return None



# ==================== 메인 실행부 ====================
def main():
    print("🎯 Azure STT → 번역 → TTS 통합 시스템")
    print("=" * 50)
    print("1. 마이크 실시간 처리 (계속 실행)")
    print("2. 오디오 파일 처리")
    print("0. 종료")
    
    while True:
        choice = input("\n선택하세요 > ").strip()
        
        if choice == "1":
            # 실시간 연속 인식 (사용자가 종료하기 전까지 계속)
            continuous_microphone_recognition()
            
        elif choice == "2":
            # 파일 입력 처리  
            file_path = input("오디오 파일 경로 입력 > ").strip()
            
            if not os.path.exists(file_path):
                print("❌ 파일이 존재하지 않습니다.")
                continue
            
            print(f"📁 파일 처리 중: {file_path}")
            
            # 파일 형식 확인 및 변환
            direct_process_exts = [".wav", ".pcm", ".wave", ".flac"]
            file_ext = os.path.splitext(file_path).lower()
            
            if file_ext in direct_process_exts:
                print(f"{file_ext} 형식, 변환 없이 인식 처리")
                audio_filepath = file_path
            else:
                print(f"{file_ext} 형식, WAV PCM으로 변환 수행")
                audio_converted = "audio_converted.wav"
                sound = AudioSegment.from_file(file_path)
                sound = sound.set_channels(1).set_frame_rate(16000)
                sound.export(audio_converted, format="wav", parameters=["-ac", "1", "-ar", "16000"])
                audio_filepath = audio_converted
            
            # STT 처리
            audio_input = speechsdk.audio.AudioConfig(filename=audio_filepath)
            speech_recognizer = speechsdk.SpeechRecognizer(speech_config, audio_input)
            
            all_results = []
            
            def recognized_handler(evt):
                if evt.result.reason == speechsdk.ResultReason.RecognizedSpeech:
                    print(f"✅ 인식: {evt.result.text}")
                    all_results.append(evt.result.text)
            
            def stop_handler(evt):
                print("🛑 인식 세션 종료")
                speech_recognizer.stop_continuous_recognition()
            
            speech_recognizer.recognized.connect(recognized_handler)
            speech_recognizer.session_stopped.connect(stop_handler)
            speech_recognizer.canceled.connect(stop_handler)
            
            # 연속 인식 시작
            speech_recognizer.start_continuous_recognition()
            
            # 오디오 길이 계산 및 대기
            if os.path.exists(audio_filepath):
                audio = AudioSegment.from_file(audio_filepath)
                duration_sec = len(audio) / 1000.0
                print(f"⏱️ 인식할 오디오 길이: {duration_sec:.2f}초")
                time.sleep(duration_sec + 2)
            
            speech_recognizer.stop_continuous_recognition()
            
            # 결과 처리
            if all_results:
                original_text = " ".join(all_results)
                print(f"\n📝 원본 텍스트 ({INPUT_LANGUAGE}): {original_text}")
                
                # 번역
                result = translate_text(original_text)
                if result.get("translated_text"):
                    translated = result["translated_text"]
                    detected = result.get("detected_language", "unknown")
                    print(f"🔄 번역 결과 ({OUTPUT_LANGUAGE}): {translated}")
                    print(f"   감지된 언어: {detected}")
                    
                    # TTS 출력
                    speak_text(translated, "speaker")
                else:
                    print("❌ 번역 실패")
            else:
                print("❌ 인식된 텍스트가 없습니다.")
            
        elif choice == "0":
            print("👋 프로그램을 종료합니다.")
            break
            
        else:
            print("❌ 잘못된 선택입니다.")

if __name__ == "__main__":
    main()


🎤 입력 언어: 영어 (en-US)
🔄 출력 언어: 한국어 (ko)
🎯 Azure STT → 번역 → TTS 통합 시스템
1. 마이크 실시간 처리 (계속 실행)
2. 오디오 파일 처리
0. 종료
🎤 영어 실시간 음성 인식 시작
말씀하시면 자동으로 번역되고 음성 출력됩니다.
종료하려면 'q' 또는 'quit'을 입력하세요.
--------------------------------------------------
👋 사용자가 종료를 요청했습니다.
🛑 음성 인식을 중지합니다...
🛑 세션 종료: SessionEventArgs(session_id=3663f456a6fd4dedb769e9cc561cf29b)
👋 프로그램을 종료합니다.
