# 文字轉語音Text to Speech

Text-to-Speech（TTS）是一種技術，用於將文本轉換為語音。這種技術使得計算機能夠將書面文字讀取為口語語音，使得使用者能夠以聽覺方式接收文本信息。

Text-to-Speech 技術的運作方式通常包括以下步驟：

1. **文本處理**：將輸入的文本進行預處理，例如分詞、詞性標注等。
2. **語音生成模型**：使用預訓練的 TTS 模型，通常基於深度學習的模型，如 WaveNet、Tacotron 等，來將文本轉換為語音。
3. **語音合成**：根據模型生成的音頻特徵，使用合成技術將其轉換為自然流暢的語音流。

Text-to-Speech 技術的應用範圍非常廣泛，包括但不限於：

1. **可訪問性工具**：幫助視覺障礙者、語言障礙者等人群輕鬆地獲取書面文字信息。
2. **語音助手**：如智能音箱、語音應答系統等，使得用戶可以通過語音與設備進行交互。
3. **教育應用**：用於教育和培訓領域，例如語音化教學材料、電子書朗讀等。
4. **自動化工具**：用於自動提示、語音報警、語音導航等場景中。

總之，Text-to-Speech 是一種將文本轉換為語音的技術，它在多個領域中發揮著重要作用，為用戶提供了更多的可訪問性和便利性。

- 如果您想在自己的電腦上執行此程式碼，您可以安裝以下內容:

```
    !pip install transformers
    !pip install gradio
    !pip install timm    
    !pip install inflect
    !pip install phonemizer
    
```

In [None]:
!pip install -q -U gradio timm inflect phonemizer

**注意：** `py-espeak-ng` 僅適用於 Linux 作業系統。

若要在 Linux 電腦上本機運行，請執行下列命令:
```
    sudo apt-get update
    sudo apt-get install espeak-ng
    pip install py-espeak-ng
```

In [None]:
!sudo apt-get update
!sudo apt-get install espeak-ng
!pip install py-espeak-ng

### 使用 🤗 Transformers 庫建立「文字轉語音」管道

- 這是一些抑制警告訊息的程式碼。

In [None]:
from transformers.utils import logging

logging.set_verbosity_error()

kakao-enterprise/vits-ljs

In [None]:
from transformers import pipeline

narrator = pipeline('text-to-speech','kakao-enterprise/vits-ljs')

更多資訊: [kakao-enterprise/vits-ljs](https://huggingface.co/kakao-enterprise/vits-ljs)

In [None]:
text = """
Researchers at the Allen Institute for AI, \
HuggingFace, Microsoft, the University of Washington, \
Carnegie Mellon University, and the Hebrew University of \
Jerusalem developed a tool that measures atmospheric \
carbon emitted by cloud servers while training machine \
learning models. After a model’s size, the biggest variables \
were the server’s location and time of day it was active.
"""
narrated_text = narrator(text)
# 播放音訊結果
from IPython.display import Audio as IPythonAudio
IPythonAudio(narrated_text['audio'][0],
             rate=narrated_text['sampling_rate'])


In [None]:
import gradio as gr

def text_to_speech(text):
    narrated_text = narrator(text)
    return (narrated_text['sampling_rate'], narrated_text['audio'][0])

iface = gr.Interface(fn=text_to_speech,
                     inputs=gr.Textbox(label='文字',lines=3),
                     outputs=gr.Audio(label='旁白'))
iface.launch(share=True)