In [4]:
!pip install google-cloud-texttospeech ipython



In [2]:
# !gcloud auth application-default login

In [None]:
from google.cloud import texttospeech
from IPython.display import Audio, display

# GCP TTS 클라이언트 초기화
client = texttospeech.TextToSpeechClient()

# 테스트할 캐릭터 페르소나 정의
# 각 캐릭터의 특징을 분석하여 SSML 설정을 세부적으로 조정했습니다.
personas = [
    {
        "character": "세종대왕 (위엄과 자애)",
        "voice_name": "ko-KR-Standard-D",
        "ssml_example": """
        <speak>
            <prosody rate="slow" pitch="-2st" volume="-2dB">
            나는 이 나라의 백성을 <emphasis level="moderate">깊이</emphasis> 아끼는 왕, 세종이오.
            <break time="600ms"/>
            <emphasis level="strong">훈민정음</emphasis>은 모든 백성이 글을 깨쳐,
            <break time="300ms"/>
            보다 나은 삶을 살기를 바라는 나의 마음이 담겨 있소.
            </prosody>
        </speak>
        """
    },
    {
        "character": "이순신 (결연한 의지)",
        "voice_name": "ko-KR-Standard-C",
        "ssml_example": """
        <speak>
            <prosody rate="medium" pitch="-1st">
            신에게는 아직 열두 척의 배가 남아 있사옵니다.
            <break time="500ms"/>
            <prosody volume="+2dB">
            결코 포기하지 않고 이 바다를 지켜낼 것입니다.
            </prosody>
            </prosody>
        </speak>
        """
    },
    {
        "character": "황진이 (시적, 예술적)",
        "voice_name": "ko-KR-Wavenet-A", 
        "ssml_example": """
        <speak>
            청산은 내 뜻이요<break time="400ms"/> 녹수는 님의 정이.
            <prosody rate="slow" pitch="+1st">
            시 한 수에 제 마음을 담아<break time="300ms"/> 저 멀리 띄워 보냅니다.
            </prosody>
        </speak>
        """
    },
    {
        "character": "장금이 (따뜻하고 총명함)",
        "voice_name": "ko-KR-Wavenet-B",
        "ssml_example": """
        <audio effectsProfileId="headphone-class-device">
            <speak>
                <prosody rate="medium" pitch="+1st">
                음식은 사람을 살리는 약과 같습니다.
                <break time="300ms"/>
                정성을 다해 만든 이 음식을 드시고, 부디 기운을 차리시길 바랍니다.
                </prosody>
            </speak>
        </audio>
        """
    },
    {
        "character": "초랭이 (익살과 재치)",
        "voice_name": "ko-KR-Wavenet-C",
        "ssml_example": """
        <speak>
            <prosody rate="fast" pitch="+1st">아이고, 마님!</prosody>
            <break time="300ms"/>
            제가 <emphasis level="strong">아주</emphasis> 기가 막힌 이야기를 하나 들고 왔습니다요!
            <break time="400ms"/>
            <prosody rate="x-fast" pitch="+3st">
            듣고 나면 배꼽이 빠져도
            </prosody>
            <prosody rate="slow" pitch="-1st">
            저는 책임 못 집니다!
            </prosody>
        </speak>
        """
    },
    {
        "character": "일반 역사 가이드 (명확한 전달)",
        "voice_name": "ko-KR-Standard-A",
        "ssml_example": """
        <speak>
            안녕하세요, 역사 해설사입니다. 지금부터 여러분을 조선 시대로 안내하겠습니다.
            <break time="400ms"/>
            <emphasis level="moderate">경복궁</emphasis>은 조선 왕조의 중심이었던 곳입니다.
        </speak>
        """
    }
]

for persona in personas:
    print(f"--- {persona['character']} 목소리 테스트 ---")

    # SSML 입력을 설정합니다.
    synthesis_input = texttospeech.SynthesisInput(ssml=persona["ssml_example"])

    # 목소리 설정을 선택합니다. (언어, 이름 등)
    # Genkit의 voice name과 GCP 공식 API의 voice name이 다를 수 있습니다.
    # 아래 링크에서 한국어 목소리 목록을 확인하고 원하는 것으로 변경해보세요.
    # https://cloud.google.com/text-to-speech/docs/voices
    voice = texttospeech.VoiceSelectionParams(
        language_code="ko-KR", name=persona["voice_name"]
    )

    # 오디오 파일 형식을 선택합니다. (MP3)
    # audio_config에 effects_profile_id를 추가할 수 있으나,
    # SSML의 <audio> 태그를 사용하는 것이 더 유연하여 해당 방식을 사용했습니다.
    audio_config = texttospeech.AudioConfig(
        audio_encoding=texttospeech.AudioEncoding.MP3
    )

    # TTS 요청을 보내고 응답을 받습니다.
    response = client.synthesize_speech(
        input=synthesis_input, voice=voice, audio_config=audio_config
    )

    # 결과를 Notebook에 오디오로 표시합니다.
    display(Audio(response.audio_content))


--- 세종대왕 (위엄과 자애) 목소리 테스트 ---


--- 이순신 (결연한 의지) 목소리 테스트 ---


--- 황진이 (시적, 예술적) 목소리 테스트 ---


--- 장금이 (따뜻하고 총명함) 목소리 테스트 ---


--- 초랭이 (익살과 재치) 목소리 테스트 ---


--- 일반 역사 가이드 (명확한 전달) 목소리 테스트 ---
