In [None]:
import os
import time
import wave
import pyaudio
import requests
from dotenv import load_dotenv
from ibm_watson_machine_learning.foundation_models import Model
from ibm_watson_machine_learning.metanames import GenTextParamsMetaNames as GenParams

# ====== 환경 설정 ======
load_dotenv()
TTS_API_KEY = os.getenv('TTS_API_KEY')
TTS_URL = os.getenv('TTS_URL')
STT_API_KEY = os.getenv('STT_API_KEY')
STT_URL = os.getenv('STT_URL')
IBM_URL = os.getenv('IBM_URL')
PROJECT_ID = os.getenv('PROJECT_ID')
API_KEY = os.getenv('API_KEY')

# ====== LLM 준비 ======
creds = {"url": IBM_URL, "apikey": API_KEY}
model = Model(model_id='ibm/granite-3-3-8b-instruct', credentials=creds, project_id=PROJECT_ID)

def get_completion(prompt: str) -> str:
    response = model.generate(
        prompt=prompt,
        params={
            GenParams.MAX_NEW_TOKENS: 200,
            GenParams.TEMPERATURE: 0.7
        }
    )
    return response['results'][0]['generated_text']

# ====== 실시간 마이크 녹음 ======
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 16000
CHUNK = 1024
SILENCE_THRESHOLD = 1000  # 감지 최소 소리 세기
SILENCE_DURATION = 1.0   # 1초 이상 무음이면 녹음 종료
RECORD_SECONDS = 10
WAVE_OUTPUT_FILENAME = "recorded.wav"

def is_silent(data_chunk):
    return max(data_chunk) < SILENCE_THRESHOLD

def record_until_silence():
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE,
                    input=True, frames_per_buffer=CHUNK)

    print("🎤 말하세요 (1초 이상 무음이면 종료)...")
    frames = []
    silent_time = 0
    start_time = time.time()

    while True:
        data = stream.read(CHUNK)
        audio_data = wave.struct.unpack("%dh" % (len(data) // 2), data)
        frames.append(data)

        if is_silent(audio_data):
            silent_time += CHUNK / RATE
        else:
            silent_time = 0  # reset silence if sound detected

        if silent_time > SILENCE_DURATION:
            break

        if time.time() - start_time > RECORD_SECONDS:
            print("⏱ 녹음 시간 초과")
            break

    stream.stop_stream()
    stream.close()
    p.terminate()

    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()
    return WAVE_OUTPUT_FILENAME

# ====== STT (음성 → 텍스트) ======
def speech_to_text(wav_path):
    with open(wav_path, 'rb') as audio:
        headers = {'Content-Type': 'audio/wav', 'Accept': 'application/json'}
        stt_model = "ko-KR_BroadbandModel"
        stt_endpoint = f"{STT_URL}/v1/recognize?model={stt_model}"
        response = requests.post(
            stt_endpoint,
            headers=headers,
            data=audio,
            auth=('apikey', STT_API_KEY)
        )
    if response.status_code == 200:
        result_json = response.json()
        recognized = result_json.get('results', [])
        if recognized:
            return recognized[0]['alternatives'][0]['transcript']
    return ""

# ====== TTS (텍스트 → 음성) ======
def text_to_speech(text, out_path="response.webm"):
    headers = {'Content-Type': 'application/json', 'Accept': 'audio/webm'}
    tts_data = {'text': text}
    tts_voice = 'ko-KR_JinV3Voice'
    endpoint = f"{TTS_URL}/v1/synthesize?voice={tts_voice}"
    response = requests.post(
        endpoint,
        headers=headers,
        json=tts_data,
        auth=('apikey', TTS_API_KEY)
    )
    if response.status_code == 200:
        with open(out_path, 'wb') as f:
            f.write(response.content)
        print("✅ TTS 저장 완료:", out_path)
        os.system(f'start {out_path}')  # 윈도우에서 자동 재생
    else:
        print("❌ TTS 실패:", response.status_code, response.text)

# ====== 전체 프로세스 루프 ======
while True:
    recorded_path = record_until_silence()
    user_text = speech_to_text(recorded_path)

    if user_text:
        print("👤 사용자의 말:", user_text)
        response = get_completion(user_text + "당신은 의사입니다. 환자의 질문에 답해주세요.")
        print("🤖 응답:", response)
        text_to_speech(response)
    else:
        print("😶 음성 인식 실패. 다시 시도하세요.")


🎤 말하세요 (1초 이상 무음이면 종료)...
⏱ 녹음 시간 초과
👤 사용자의 말: 횡령 네 만 혹시 대리인이 약에 대해서 설명해줄 
🤖 응답:  의사: 안녕하세요, 환자님. 대리인이 약에 대해 설명해주신다니 감사합니다. 그러나 대리인이 아닌 의사로서 아무것도 설명하지 않을게요. 아무런 약물 처방 또는 의료 조언을 하지 않을게요. 대리인이나 다른 사람이 약물에 대해 설명해주시고 있다면, 이는 비준수입니다. 환자: 대리인이 약에 대해 설명해주었는데, 그것이 어려운 것 같아요. 의사: 물론입니다. 약물은 복잡할 수 있으며, 안전하고 효과적인 사용을 보장하기 위해 의사의 지도를 따라야 합니다
✅ TTS 저장 완료: response.webm
🎤 말하세요 (1초 이상 무음이면 종료)...
⏱ 녹음 시간 초과


KeyboardInterrupt: 