# Setup

In [None]:
# !pip install --upgrade openai python-dotenv

Collecting openai
  Downloading openai-1.59.3-py3-none-any.whl.metadata (27 kB)
Downloading openai-1.59.3-py3-none-any.whl (454 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m454.8/454.8 kB[0m [31m25.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 1.57.4
    Uninstalling openai-1.57.4:
      Successfully uninstalled openai-1.57.4
Successfully installed openai-1.59.3


In [None]:
from openai import OpenAI
import IPython
from google.colab import userdata


In [4]:
class CFG:
    model = "tts-1"
    voice = "nova"

## Klasa CFG do konfiguracji text-to-speech (TTS)

Klasa **CFG** (Configuration) służy do zdefiniowania podstawowych parametrów dla systemu **text-to-speech** (TTS).

---

### 🔹 **Model TTS:**
- **`model = "tts-1"`** – Określa model text-to-speech, który będzie używany do generowania mowy.  
  - **"tts-1"** to specjalistyczny model OpenAI zaprojektowany do zamiany tekstu na naturalnie brzmiącą mowę.  

---

### 🔹 **Wybór głosu:**
- **`voice = "nova"`** – Wskazuje głos, który zostanie użyty do syntezowania mowy.  
  - **"Nova"** to jeden z predefiniowanych głosów dostępnych w API OpenAI.  
  - Wybór głosu "nova" wpływa na brzmienie, ton i charakterystykę mowy, jakby wybierać konkretną osobę spośród zespołu lektorów.  

---

### 🔹 **Zalety konfiguracji w klasie CFG:**
- **Łatwość zmiany ustawień:** Jeśli chcemy zmienić model lub głos w całej aplikacji, wystarczy zmienić wartość w jednym miejscu.  
- **Spójność:** Program może łatwo odwoływać się do ustawień za pomocą `CFG.model` lub `CFG.voice`, co zapewnia jednolitość w całym kodzie.  


In [None]:
import os
from dotenv import load_dotenv

load_dotenv()

def assert_env_key(key: str | None, name: str) -> None:
    if not key:
        raise ValueError(f"{name} is not set, please update .env file")
    
OPENAI_API_KEY_NAME = "OPENAI_API_KEY"
OPENAI_API_KEY = os.getenv(OPENAI_API_KEY_NAME)
# OPENAI_API_KEY = userdata.get(OPENAI_API_KEY_NAME) # Google colab env retrieval option
assert_env_key(OPENAI_API_KEY, OPENAI_API_KEY_NAME)

client = OpenAI(api_key=OPENAI_API_KEY)

# Eksperyment

In [None]:
text = "In a hole in the ground there lived a hobbit. Not a nasty, dirty,\
        wet hole, filled with the ends of worms and an oozy smell, nor yet a dry,\
        bare, sandy hole with nothing in it to sit down on or to eat:\
        it was a hobbit-hole, and that means comfort."

speech_file_path = f"text_{CFG.voice}.mp3"

## Generowanie mowy z tekstu przy użyciu API OpenAI

Ta linia kodu reprezentuje kluczowy moment tworzenia mowy syntetycznej za pomocą API OpenAI. Przyjrzyjmy się szczegółowo, jak działa ten proces.

---

### 🔹 **Wywołanie metody:**
- **`client.audio.speech.create()`** – Wywołuje specjalną metodę do generowania mowy.  
  - To jak wysłanie szczegółowej instrukcji do wirtualnego studia nagraniowego. OpenAI przetwarza nasz tekst na naturalnie brzmiącą mowę.  

---

### 🔹 **Parametry:**
- **`model = CFG.model`** – Określa model syntezy mowy do użycia. W naszym przypadku jest to "tts-1", wcześniej zdefiniowany w klasie **CFG**.  
  - Model ten zawiera wiedzę o tym, jak przekształcić tekst na dźwięk mowy.  

- **`voice = CFG.voice`** – Określa głos do użycia w syntezowanej mowie.  
  - Wybór głosu "nova" jest jak wybór lektora w studiu nagraniowym - każdy głos ma swoje unikalne cechy.  

- **`input = tekst`** – Dostarcza tekst do przeczytania (np. fragment "Hobbita").  
  - To jak przekazanie skryptu lektorowi do przeczytania.

---

### 🔹 **Wynik:**
- Wynik wywołania jest zapisywany w zmiennej **`response`**, która zawiera wygenerowany dźwięk w formie cyfrowej.  
  - To jak otrzymanie gotowego nagrania, które możemy wykorzystać według potrzeb.  

---

### 🔹 **Przetwarzanie w chmurze:**
- Cały proces odbywa się w chmurze OpenAI - nasz kod wysyła instrukcje, a przetwarzanie mowy dzieje się na serwerach OpenAI.  


In [None]:
response = client.audio.speech.create(
  model = CFG.model,
  voice = CFG.voice,
  input = text
)

In [11]:
response.stream_to_file(speech_file_path)

  response.stream_to_file(speech_file_path)


In [12]:
IPython.display.Audio(speech_file_path)