# TTS
In diesem Notebook sehen wir uns insgesamt drei verschiedene TTS Lösungen an. Zwei davon sind Cloud basiert. Eine ist lokal.
## Google TTS
Google TTS ist eine TTS Lösung von Google. Es diejenige Stimme, welche auch beim Vorlesen eines Textes von Google Translate verwendet wird.
### API
Nachfolgend sehen wir beispielhaft, wie die Google TTS API verwendet werden kann.

In [32]:
from gtts import gTTS
import pygame
import io

In [33]:
def speak_text_google(text, lang='en'):
    """
    Wandelt Text in Audio um und spielt es ab.

    :param text: (str) Der Text, der gesprochen werden soll.
    :param lang: (str) Sprachcode, z. B. 'en' für Englisch, 'de' für Deutsch, etc.
    """
    try:
        # Text zu Audio konvertieren
        tts = gTTS(text, lang=lang, slow=False)

        # In einen BytesIO-Stream schreiben
        audio_stream = io.BytesIO()
        tts.write_to_fp(audio_stream)
        audio_stream.seek(0)

        # Mit pygame abspielen
        pygame.mixer.init()
        pygame.mixer.music.load(audio_stream)
        pygame.mixer.music.play()
        while pygame.mixer.music.get_busy():
            pygame.time.Clock().tick(10)
    except Exception as e:
        print("Fehler:", str(e))

In [34]:
# Beispiel-Nutzung
text_to_speak = 'Hallo, das ist ein Test, gesprochen von Google Text to Speech.'
speak_text_google(text_to_speak, lang='de')

### Klasse GoogleTTS
Hierbei handelt es sich um eine Klasse, welche die Google TTS API verwendet.

In [35]:
from gpt_bot.tts import GoogleTTS

In [36]:
# Beispiel-Nutzung
google_tts = GoogleTTS()
google_tts.tts(text_to_speak)

# Fazit Google TTS
+ Einfach zu verwenden
+ Schnell
+ Kostenlos
+ Keine Installation notwendig
+ Keine Anmeldung notwendig
+ Keine API Keys notwendig

- Cloud basiert
- Keine Kontrolle über die Daten
- Keine Kontrolle über die Stimme
- Mittelmässige Qualität

## Coqui TTS
Coqui TTS ist eine TTS Lösung, welche lokal auf dem Computer ausgeführt werden kann. Es gibt verschiedene Stimmen, die verwendet werden können. Die Stimme, die wir hier verwenden, ist Thorsten. Die Sprache wird synthetisiert. Dies geschieht über ein neuronales Netzwerk. Das ist wiederum relativ Ressourcen intensiv. Daher kann es sein, dass die Sprachsynthese einige Sekunden dauert.
### API (lokal)
Hier sehen wir beispielhaft, wie die Coqui TTS API verwendet werden kann.

In [37]:
import tempfile
import pygame
from TTS.api import TTS

In [38]:
def speak_text_coqui(text, model_name='tts_models/de/thorsten/vits', play=True):
    """
    Methode zur Umwandlung von Text in Sprache

    :param text: str: Text, der in Sprache umgewandelt werden soll
    :param model_name: str: Pfad/Name des TTS-Modells
    :param play: bool: Wenn True, spielt das Audio ab, sonst gibt den Dateipfad zurück
    :return: None oder str: Gibt None zurück, wenn play=True, andernfalls den Dateipfad zur Audiodatei
    """
    # Hier sollte dein Modell initialisiert und zum Konvertieren des Texts verwendet werden.
    # Zum Beispiel: 
    model = TTS(model_name=model_name)
    
    # Erstelle eine temporäre Datei
    tf = tempfile.NamedTemporaryFile(suffix='.wav', delete=False)
    model.tts_to_file(text, file_path=tf)

    # Wenn `play` True ist, Audio abspielen
    if play:
        pygame.mixer.init()
        pygame.mixer.music.load(tf)
        pygame.mixer.music.play()
        while pygame.mixer.music.get_busy():
            pygame.time.Clock().tick(10)
        pygame.mixer.music.stop()
        return None
    # Wenn `play` False ist, Dateipfad zurückgeben
    else:
        return tf.name

In [39]:
# Beispiel-Nutzung
text_to_speak = 'Hallo, das ist ein Test, gesprochen von Coqui Text to Speech. Die Sprechende Stimme ist Thorsten'
speak_text_coqui(text_to_speak, model_name='tts_models/de/thorsten/vits')

 > tts_models/de/thorsten/vits is already downloaded.
 > Using model: vits
 > Setting up Audio Processor...
 | > sample_rate:22050
 | > resample:False
 | > num_mels:80
 | > log_func:np.log10
 | > min_level_db:0
 | > frame_shift_ms:None
 | > frame_length_ms:None
 | > ref_level_db:None
 | > fft_size:1024
 | > power:None
 | > preemphasis:0.0
 | > griffin_lim_iters:None
 | > signal_norm:None
 | > symmetric_norm:None
 | > mel_fmin:0
 | > mel_fmax:None
 | > pitch_fmin:None
 | > pitch_fmax:None
 | > spec_gain:20.0
 | > stft_pad_mode:reflect
 | > max_norm:1.0
 | > clip_norm:True
 | > do_trim_silence:False
 | > trim_db:60
 | > do_sound_norm:False
 | > do_amp_to_db_linear:True
 | > do_amp_to_db_mel:True
 | > do_rms_norm:False
 | > db_level:None
 | > stats_path:None
 | > base:10
 | > hop_length:256
 | > win_length:1024
 > Text splitted to sentences.
['Hallo, das ist ein Test, gesprochen von Coqui Text to Speech.', 'Die Sprechende Stimme ist Thorsten']
 > Processing time: 4.454474687576294
 > Real

### Klasse CoquiTTS
Das ist die Implementierung der Coqui TTS API als Klasse.

In [40]:
from gpt_bot.tts import CoquiTTS

In [41]:
# Beispiel-Nutzung
coqui_tts = CoquiTTS()
coqui_tts.tts(text_to_speak)

 > tts_models/de/thorsten/vits is already downloaded.
 > Using model: vits
 > Setting up Audio Processor...
 | > sample_rate:22050
 | > resample:False
 | > num_mels:80
 | > log_func:np.log10
 | > min_level_db:0
 | > frame_shift_ms:None
 | > frame_length_ms:None
 | > ref_level_db:None
 | > fft_size:1024
 | > power:None
 | > preemphasis:0.0
 | > griffin_lim_iters:None
 | > signal_norm:None
 | > symmetric_norm:None
 | > mel_fmin:0
 | > mel_fmax:None
 | > pitch_fmin:None
 | > pitch_fmax:None
 | > spec_gain:20.0
 | > stft_pad_mode:reflect
 | > max_norm:1.0
 | > clip_norm:True
 | > do_trim_silence:False
 | > trim_db:60
 | > do_sound_norm:False
 | > do_amp_to_db_linear:True
 | > do_amp_to_db_mel:True
 | > do_rms_norm:False
 | > db_level:None
 | > stats_path:None
 | > base:10
 | > hop_length:256
 | > win_length:1024
 > Text splitted to sentences.
['Hallo, das ist ein Test, gesprochen von Coqui Text to Speech.', 'Die Sprechende Stimme ist Thorsten']
 > Processing time: 4.390752553939819
 > Real

# Fazit Coqui TTS
+ Lokal
+ Kontrolle über die Daten
+ Kontrolle über die Stimme
+ Gute Qualität
+ Kostenlos
+ Open Source
+ Keine Anmeldung notwendig
+ Keine API Keys notwendig
+ Eigene Stimmen können trainiert werden

- Relativ Ressourcen intensiv
- Installation notwendig (je nach Stime)
- Schlechte Aussprache von Fremdwörtern (je nach Stimme)

## Azure TTS
Dies ist die TTS Lösung von Microsoft Azure cognitive services. Es gibt verschiedene Stimmen, die verwendet werden können. Die Stimme, die wir hier verwenden, ist Conrad. Die Sprache wird synthetisiert. Dies geschieht in der Cloud.

In [42]:
subscription_key = 'DEIN_AZURE_SUBSCRIPTION_KEY'
region = 'DEIN_AZURE_SERVICE_REGION'

### API
Nachfolgend sehen wir, wie die Azure TTS API verwendet werden kann.

In [43]:
import tempfile
import azure.cognitiveservices.speech as speechsdk

In [44]:
def speak_text_azure(text, subscription_key, region, model_name='de-DE-ConradNeural', play=True):
    """
    Methode zur Umwandlung von Text in Sprache mit Azure

    :param text: str: Text, der in Sprache umgewandelt werden soll
    :param api_key: str: API-Schlüssel für Azure
    :param region: str: Region für Azure
    :param model_name: str: Stimmenname für Azure TTS
    :param play: bool: Wenn True, spielt das Audio ab, sonst gibt den Dateipfad zurück
    :return: None oder str: Gibt None zurück, wenn play=True, andernfalls den Dateipfad zur Audiodatei
    """
    
    # Erstellen der Azure Speech-Konfiguration
    speech_config = speechsdk.SpeechConfig(subscription=subscription_key, region=region)
    speech_config.speech_synthesis_voice_name = model_name

    # Audio-Konfiguration abhängig von `play`
    if play:
        audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
    else:
        tf = tempfile.NamedTemporaryFile(suffix='.wav', delete=False)
        audio_config = speechsdk.audio.AudioOutputConfig(filename=tf.name)
    
    # Erstellen des Sprachsynthetisierers und Synthetisieren des Textes
    speech_synthesizer = speechsdk.SpeechSynthesizer(speech_config=speech_config, audio_config=audio_config)
    speech_synthesis_result = speech_synthesizer.speak_text_async(text).get()
    
    # Überprüfen des Ergebnisses
    if speech_synthesis_result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
        print("Speech synthesized for text [{}]".format(text))
    elif speech_synthesis_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_synthesis_result.cancellation_details
        print("Speech synthesis canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            if cancellation_details.error_details:
                print("Error details: {}".format(cancellation_details.error_details))
                print("Did you update the subscription info?")
    
    # Rückgabe abhängig von `play`
    if play:
        return None
    else:
        return tf.name

In [45]:
# Beispiel-Nutzung
text_to_speak = 'Hallo, das ist ein Test, gesprochen von Azure Text to Speech. Die Sprechende Stimme ist Conrad.'
speak_text_azure(text_to_speak, subscription_key, region, model_name='de-DE-ConradNeural')

Speech synthesized for text [Hallo, das ist ein Test, gesprochen von Azure Text to Speech. Die Sprechende Stimme ist Conrad.]


### Klasse AzureTTS
Hierbei handelt es sich um eine Klasse, welche die Azure TTS API verwendet.

In [46]:
from gpt_bot.tts import AzureTTS

In [47]:
# Beispiel-Nutzung
azure_tts = AzureTTS(subscription_key, region)
azure_tts.tts(text_to_speak)

Speech synthesized for text [Hallo, das ist ein Test, gesprochen von Azure Text to Speech. Die Sprechende Stimme ist Conrad.]


# Fazit Azure TTS
+ Cloud basiert
+ Kontrolle über die Stimme
+ Sehr gute Qualität
+ Kostenlos (für Studierende)
+ Gute Synthese von Fremdwörtern und Eigennamen

- Nicht lokal
- Keine Kontrolle über die Daten
- Nicht kostenlos
- Anmeldung notwendig
- API Keys notwendig
- Eigene Stimmen können nicht trainiert werden