## Prerequisites
본 `ipynb` 은 `Python=3.12` 에서 작성하였습니다. Package dependency 를 해결하기 위해 아래 cell 을 실행해주세요.

## Install Python packages

In [None]:
%pip -q install -U azure-cognitiveservices-speech

## Load environment variables from a .env file
secret 노출을 피하고 notebook 들간의 일관된 환경변수를 설정하기 위해 `dotenv` 을 이용한다.

In [None]:
import os
from dotenv import load_dotenv

load_dotenv(override=True)

WORKING_DIR = "experiments/007-comparison-of-vision-models"
AZURE_OPENAI_SECONDARY_ENDPOINT = os.getenv("AZURE_OPENAI_SECONDARY_ENDPOINT")
AZURE_OPENAI_SECONDARY_API_KEY = os.getenv("AZURE_OPENAI_SECONDARY_API_KEY")
AZURE_OPENAI_SECONDARY_IMAGE_DEPLOYMENT = os.getenv("AZURE_OPENAI_SECONDARY_IMAGE_DEPLOYMENT")
AZURE_OPENAI_SECONDARY_IMAGE_MINI_DEPLOYMENT = os.getenv("AZURE_OPENAI_SECONDARY_IMAGE_MINI_DEPLOYMENT")
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
GOOGLE_IMAGE_DEPLOYMENT = os.getenv("GOOGLE_IMAGE_DEPLOYMENT")
GOOGLE_SECONDARY_IMAGE_DEPLOYMENT = os.getenv("GOOGLE_SECONDARY_IMAGE_DEPLOYMENT")
AZURE_BLACKFOREST_API_KEY = os.getenv("AZURE_BLACKFOREST_API_KEY")
AZURE_BLACKFOREST_GENERATION_ENDPOINT = os.getenv("AZURE_BLACKFOREST_GENERATION_ENDPOINT")
AZURE_BLACKFOREST_EDIT_ENDPOINT = os.getenv("AZURE_BLACKFOREST_EDIT_ENDPOINT")
AZURE_BLACKFOREST_IMAGE_DEPLOYMENT = os.getenv("AZURE_BLACKFOREST_IMAGE_DEPLOYMENT")

## Azure AI Speech

### TTS

In [None]:
import json
from azure.core.credentials import AzureKeyCredential
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    key_credential=AzureKeyCredential("<YOUR_SPEECH_SERVICE_KEY>"),
    endpoint="<YOUR_SPEECH_SERVICE_ENDPOINT>",
)

speech_config.speech_synthesis_voice_name = "ko-kr-Hyunsu:DragonHDLatestNeural"
hyunsu_synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=speechsdk.audio.AudioOutputConfig(stream=speechsdk.audio.PullAudioOutputStream()),
)

speech_config.speech_synthesis_voice_name = "ko-kr-SunHi:DragonHDLatestNeural"
sunhi_synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=speechsdk.audio.AudioOutputConfig(stream=speechsdk.audio.PullAudioOutputStream()),
)

In [19]:
INPUT_TEXT = """
노래 제목을 바로 알고 계시네. 준비 못 해오신 것 맞아요?
평소에 아이들에게 집에서 직접 음식을 해 주시기도 하나요?
와이프가 해 준 음식을 평가하면 큰일 납니다. 집에서 쫒겨날 수 있어요.
선수 때는 나도 야구가 지긋지긋했는데, 다리가 다치고 나서부터 야구 경기 보는 게 재밌더라.
그럼 왜 그때 다시 야구를 하고 싶다고 말하지 않았어?
‘주지훈’이 웹툰 원작 작품을 하면 대박이 난다고 사람들이 많이 말하더라.
그 때는 그 머리가 유행이였어요. 샤기컷이라고 해서 뒷머리가 굉장히 길었잖아요.
최근에 중국에 있는 윈난성에 다녀왔어. 옥룡설산에 다녀왔는데 경치가 정말 멋졌어.
산이 굉장히 높아서 숨쉬기가 쉽지 않아. 정상쯤에서는 산소호흡기를 사용해야 될 정도야.
맞아. 그래서 나는 여행을 통해 많은 경험을 쌓으려고 노력중이야.
일요일인 십육일, 전국 대부분 지역에 눈 또는 비가 내리겠다. 특히 강원 산지와 경북 북동 산지에는 많은 눈이 내릴 것으로 예보했다.
십오일 구제역 중앙사고수습본부에 따르면, 전남 영암군의 한우 농장 세 곳에서 구제역 발생이 추가로 확인되었다.
국내 연구진이 자궁경부 줄기세포의 특성과 발달 과정을 밝혀내고, 유산균이 자궁경부암을 예방할 수 있다는 새로운 가능성을 제시했다.
이번 연구는 정근오 칠곡경북대병원 교수, 이민호 동국대 생명과학과 교수 연구진과 공동으로 진행됐다.
그러나 탈원전 이후 독일은 에너지를 외부 수입에 과도하게 의존하게 되면서, 주변국의 전기 요금을 상승시키는 원인이 되고 있다.
지난해 독일이 초과 수입한 전력량은 약 오백구십삼만 가구가 일년 동안 사용할 수 있는 규모에 달한다.
메르켈 정부는 탈원전 정책을 폐지하려 했으나, 후쿠시마 원전 사고 이후 탈원전 기조로 급격히 회귀했다.
때문에 이 크레이터는 초승달 모양의 사구을 의미하는 바르한을 합쳐 바르한 팩맨이라는 재미있는 이름이 붙었다.
카카오게임즈는 카카오게임 예약자 전원에게 고급 캐릭터 장비와 보석 오백개, 특별제작 카카오톡 이모티콘 등을 증정한다.
티에프씨는 밴텀급 빅매치들로 이목이 집중되고 있다.
세계 정상회의, 탄소 배출 감축 협약 체결
미국 대선 후보 티비 토론, 긴장 고조
아시아 태평양 경제 회의, 협력 강화 논의
비트코인, 사상 최고가 경신
자원봉사자들, 지진 피해 지역에서 구호 활동 시작
노령화 심화, 새로운 복지 정책 필요성 대두
축구 월드컵 개막, 전 세계 축제 분위기
인공지능, 암 조기 진단 정확도 구십팔퍼센트 도달
물 위를 걷는 로봇 개발, 자연 재해 복구 활용 기대
에이아이가 만든 교향곡, 오케스트라에서 연주
"""

In [None]:
for style in [
    # "advertisement_upbeat",
    # "affectionate",
    # "angry",
    # "assistant",
    # "calm",
    # "chat",
    # "cheerful",
    # "customerservice",
    # "depressed",
    # "disgruntled",
    # "documentary-narration",
    # "embarrassed",
    # "empathetic",
    # "envious",
    # "excited",
    # "fearful",
    # "friendly",
    # "gentle",
    # "hopeful",
    # "lyrical",
    # "narration-professional",
    # "narration-relaxed",
    "newscast",
    # "newscast-casual",
    # "newscast-formal",
    # "poetry-reading",
    "sad",
    # "serious",
    # "shouting",
    "sports_commentary",
    "sports_commentary_excited",
    "whispering",
    # "terrified",
    # "unfriendly",
]:
  for degree in ["0.01", "1", "2"]:
    result = hyunsu_synthesizer.speak_ssml_async(f"""
    <speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="ko-KR">
      <voice name='en-us-Steffan:DragonHDLatestNeural'>
        <mstts:express-as style="{style}" styledegree="{degree}">
          {INPUT_TEXT}
        </mstts:express-as>
      </voice>
    </speak>
    """).get()

    with open(f"samsung-steffan-dragon-hd-{style}-{degree}.wav", "wb") as file:
        file.write(result.audio_data)
        
        
    result = sunhi_synthesizer.speak_ssml_async(f"""
    <speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="ko-KR">
      <voice name='en-us-Ava:DragonHDLatestNeural'>
        <mstts:express-as style="{style}" styledegree="{degree}">
          {INPUT_TEXT}
        </mstts:express-as>
      </voice>
    </speak>
    """).get()

    with open(f"samsung-ava-dragon-hd-{style}-{degree}.wav", "wb") as file:
        file.write(result.audio_data)

In [None]:
if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
    print("Speech synthesized to speaker for text [{}]".format(text))
elif result.reason == speechsdk.ResultReason.Canceled:
    cancellation_details = result.cancellation_details
    print("Speech synthesis canceled: {}".format(cancellation_details.reason))
    if cancellation_details.reason == speechsdk.CancellationReason.Error:
        if cancellation_details.error_details:
            print("Error details: {}".format(cancellation_details.error_details))
    print("Did you update the subscription info?")

In [None]:
import json
from azure.core.credentials import AzureKeyCredential
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    key_credential=AzureKeyCredential("<YOUR_SPEECH_SERVICE_KEY>"),
    endpoint="<YOUR_SPEECH_SERVICE_ENDPOINT>",
)


ssml = """
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="ko-KR">
  <voice name='DragonLatestNeural'>
    <mstts:ttsembedding speakerProfileId='Mark_20251226_112411'>
      I'm happy to hear that you find me amazing and that I have made your trip planning easier and more fun. 
      <lang xml:lang='ko-KR'>만나서 반가워</lang>
    </mstts:ttsembedding>
  </voice>
</speak>
"""

#speech_config.speech_synthesis_voice_name = "ko-kr-Hyunsu:DragonHDLatestNeural"
jinho_synthesizer = speechsdk.SpeechSynthesizer(
    speech_config=speech_config,
    audio_config=speechsdk.audio.AudioOutputConfig(stream=speechsdk.audio.PullAudioOutputStream()),
)
result = jinho_synthesizer.speak_ssml_async(ssml).get()

with open(f"jinho.wav", "wb") as file:
  file.write(result.audio_data)

In [16]:
if result.reason == speechsdk.ResultReason.Canceled:
    cancellation = speechsdk.SpeechSynthesisCancellationDetails(result)
    print("취소 사유:", cancellation.reason)
    print("에러 코드:", cancellation.error_code)
    print("상세 메시지:", cancellation.error_details)

취소 사유: CancellationReason.Error
에러 코드: CancellationErrorCode.BadRequest
상세 메시지: Connection was closed by the remote host. Error code: 1007. Error details: `speakerProfileId or personalVoiceName` is needed in your ssml when request a PersonalVoice. USP state: TurnStarted. Received audio size: 0 bytes.


In [None]:
import azure.cognitiveservices.speech as speechsdk

speech_config = speechsdk.SpeechConfig(
    key_credential=AzureKeyCredential("<YOUR_SPEECH_SERVICE_KEY>"),
    endpoint="<YOUR_SPEECH_SERVICE_ENDPOINT>",
)
audio_config = speechsdk.audio.AudioOutputConfig(filename="out.wav")
synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)

ssml = """
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
       xmlns:mstts='http://www.w3.org/2001/mstts' xml:lang='en-US'>
  <voice name='DragonLatestNeural'>
    <mstts:ttsembedding personalVoiceName='Mark_20251226_112411'>
      This is a test.
    </mstts:ttsembedding>
  </voice>
</speak>
"""

result = synthesizer.speak_ssml_async(ssml).get()

if result.reason == speechsdk.ResultReason.Canceled:
    c = speechsdk.SpeechSynthesisCancellationDetails(result)
    print("Canceled:", c.reason, c.error_code, c.error_details)
else:
    print("OK, bytes:", len(result.audio_data))

Canceled: CancellationReason.Error CancellationErrorCode.BadRequest Connection was closed by the remote host. Error code: 1007. Error details: `speakerProfileId or personalVoiceName` is needed in your ssml when request a PersonalVoice. USP state: TurnStarted. Received audio size: 0 bytes.
