# Voice Generator - Gemini TTS

対話スクリプトから感情豊かな音声を生成します。

## 使い方
1. 「1. セットアップ」を実行
2. 「2. スクリプト入力」にスクリプトを貼り付け
3. 「3. 音声生成」を実行
4. 生成された音声をダウンロード

## 1. セットアップ（最初に1回実行）

In [None]:
# 必要なパッケージをインストール
!pip install -q google-genai pydub

# FFmpegインストール確認
!apt-get -qq install ffmpeg

print("セットアップ完了！")

In [None]:
# APIキーを設定
GEMINI_API_KEY = "AIzaSyDGQxe0Tz71mg9020Eh1XR_L8i0O7_y5ic"  # @param {type:"string"}

import os
os.environ["GEMINI_API_KEY"] = GEMINI_API_KEY
print("APIキー設定完了！")

## 2. スクリプト入力

下のテキストエリアにスクリプトを貼り付けてください。

**形式:**
```
[話者1]: セリフ
[話者2]: セリフ
```

In [None]:
# スクリプトを入力（この中にスクリプトを貼り付け）
SCRIPT = """
[話者1]: こんにちは、今日は不動産投資についてお話しします
[話者2]: よろしくお願いします！とても興味があります
[話者1]: まず最初に、リスクについて理解することが大切です
[話者2]: なるほど、具体的にはどんなリスクがありますか？
"""  # @param {type:"string"}

print(f"スクリプト読み込み完了！")

## 3. 音声生成

In [None]:
import re
import wave
from pathlib import Path
from google import genai
from google.genai import types
from pydub import AudioSegment
from google.colab import files

# クライアント初期化
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

# スクリプト解析
def parse_dialogue(content):
    segments = []
    pattern = r'\[(話者\d+|[^\]]+)\]:\s*(.+)'
    for match in re.finditer(pattern, content):
        speaker = match.group(1).strip()
        text = match.group(2).strip()
        if text:
            segments.append({"speaker": speaker, "text": text})
    return segments

# 音声生成
def generate_audio(segments):
    # 話者の音声設定
    speakers = list(set(seg["speaker"] for seg in segments))
    female_voices = ["Aoede", "Kore", "Leda", "Zephyr"]
    male_voices = ["Charon", "Puck", "Orus", "Fenrir"]
    
    speaker_voices = {}
    speaker_styles = {}
    
    for i, speaker in enumerate(sorted(speakers)):
        if i % 2 == 0:
            speaker_voices[speaker] = female_voices[i // 2 % len(female_voices)]
            speaker_styles[speaker] = "as an expressive young woman speaking Japanese"
        else:
            speaker_voices[speaker] = male_voices[i // 2 % len(male_voices)]
            speaker_styles[speaker] = "as a calm knowledgeable expert speaking Japanese"
    
    print("話者設定:")
    for speaker, voice in speaker_voices.items():
        print(f"  {speaker}: {voice}")
    
    # 各セグメントの音声を生成
    temp_files = []
    for i, segment in enumerate(segments):
        speaker = segment["speaker"]
        text = segment["text"]
        voice = speaker_voices.get(speaker, "Kore")
        style = speaker_styles.get(speaker, "")
        
        prompt = f"Say {style}: {text}" if style else text
        
        try:
            response = client.models.generate_content(
                model="gemini-2.5-flash-preview-tts",
                contents=prompt,
                config=types.GenerateContentConfig(
                    response_modalities=["AUDIO"],
                    speech_config=types.SpeechConfig(
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name=voice,
                            )
                        )
                    ),
                ),
            )
            
            audio_data = response.candidates[0].content.parts[0].inline_data.data
            temp_path = f"_temp_{i}.wav"
            
            with wave.open(temp_path, "wb") as wf:
                wf.setnchannels(1)
                wf.setsampwidth(2)
                wf.setframerate(24000)
                wf.writeframes(audio_data)
            
            temp_files.append(temp_path)
            print(f"  [{i+1}/{len(segments)}] {speaker}: {text[:30]}...")
            
        except Exception as e:
            print(f"  エラー {i}: {e}")
    
    # 音声を結合
    combined = AudioSegment.empty()
    silence = AudioSegment.silent(duration=300)
    
    for f in temp_files:
        segment = AudioSegment.from_wav(f)
        combined += segment + silence
        os.remove(f)
    
    output_path = "output.mp3"
    combined.export(output_path, format="mp3")
    return output_path

# 実行
segments = parse_dialogue(SCRIPT)
print(f"\nセグメント数: {len(segments)}")

if segments:
    print("\n音声生成中...\n")
    output = generate_audio(segments)
    print(f"\n完了: {output}")
else:
    print("スクリプトが見つかりません。形式を確認してください。")

## 4. ダウンロード

In [None]:
# 生成した音声をダウンロード
from google.colab import files
files.download("output.mp3")

---

## Google Docs からスクリプトを読み込む場合

In [None]:
# Google Docs のURLを入力
GOOGLE_DOC_URL = ""  # @param {type:"string"}

# Google Docs ID を抽出
import re
match = re.search(r'/d/([a-zA-Z0-9_-]+)', GOOGLE_DOC_URL)
if match:
    doc_id = match.group(1)
    print(f"ドキュメントID: {doc_id}")
    
    # エクスポートURLでテキスト取得
    import requests
    export_url = f"https://docs.google.com/document/d/{doc_id}/export?format=txt"
    response = requests.get(export_url)
    
    if response.status_code == 200:
        SCRIPT = response.text
        # Speaker 1/2 を 話者1/2 に変換
        SCRIPT = SCRIPT.replace('Speaker 1:', '[話者1]:')
        SCRIPT = SCRIPT.replace('Speaker 2:', '[話者2]:')
        print("スクリプト読み込み完了！")
        print(f"\n最初の500文字:\n{SCRIPT[:500]}...")
    else:
        print("エラー: ドキュメントを読み込めませんでした。共有設定を確認してください。")
else:
    print("URLを入力してください")