# Setup

In [1]:
!pip install -qU git+https://github.com/huggingface/parler-tts.git transformers soundfile

  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.0/44.0 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.1/44.1 kB[0m [31m124.9 kB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.6/59.6 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.2/64.2 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m87.2/87.2 kB[0m [31m8.6 MB/s[0m eta [36m0:0

GitHub: `git+https://github.com/huggingface/parler-tts.git`. Jest to biblioteka stworzona przez Hugging Face do generowania mowy syntetycznej.

Dodatkowo instalowane są dwa pakiety pomocnicze:
- `transformers` - biblioteka zawierająca modele uczenia maszynowego
- `soundfile` - narzędzie do obsługi plików dźwiękowych

In [2]:
import IPython
import os

# Third-party library imports
import soundfile as sf
from transformers import AutoTokenizer

# Local/application-specific imports
from parler_tts import ParlerTTSForConditionalGeneration

os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"



`Soundfile (sf)` służy do odczytu i zapisu plików dźwiękowych.
`AutoTokenizer` z biblioteki transformers odpowiada za przetwarzanie tekstu na format zrozumiały dla modelu.

W trzeciej sekcji zaimportowany zostaje własny moduł `ParlerTTSForConditionalGeneration`, który zawiera główną logikę modelu TTS.

In [3]:
import torch

class CFG:
    model = "parler-tts/parler-tts-mini-v1"
    device = 'cpu'

if torch.backends.mps.is_available():
    CFG.device = "mps"
if torch.cuda.is_available():
    CFG.device = "cuda"


print("Device: ", CFG.device)

Device:  cuda


Pierwsza zmienna `model` wskazuje na konkretną wersję modelu Parler TTS, który będzie używany. Nazwa "parler-tts-mini-v1" mówi nam kilka rzeczy - jest to wersja "mini", czyli zoptymalizowana pod kątem rozmiaru i szybkości działania kosztem potencjalnie nieco niższej jakości w porównaniu z większymi modelami. Sufiks "v1" wskazuje, że jest to pierwsza wersja tego modelu.

# Model

In [4]:
model = ParlerTTSForConditionalGeneration.from_pretrained(CFG.model).to(CFG.device)
tokenizer = AutoTokenizer.from_pretrained(CFG.model)

config.json:   0%|          | 0.00/6.93k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/3.51G [00:00<?, ?B/s]

  WeightNorm.apply(module, name, dim)
  "_name_or_path": "google/flan-t5-large",
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "classifier_dropout": 0.0,
  "d_ff": 2816,
  "d_kv": 64,
  "d_model": 1024,
  "decoder_start_token_id": 0,
  "dense_act_fn": "gelu_new",
  "dropout_rate": 0.1,
  "eos_token_id": 1,
  "feed_forward_proj": "gated-gelu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": true,
  "layer_norm_epsilon": 1e-06,
  "model_type": "t5",
  "n_positions": 512,
  "num_decoder_layers": 24,
  "num_heads": 16,
  "num_layers": 24,
  "output_past": true,
  "pad_token_id": 0,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "tie_word_embeddings": false,
  "transformers_version": "4.46.1",
  "use_cache": true,
  "vocab_size": 32128
}

  "_name_or_path": "parler-tts/dac_44khZ_8kbps",
  "architectures": [
    "DACModel"
  ],
  "codebook_size": 1024,
  "frame_rate": 86,
  "latent_dim": 1024,
  "model_bitrate":

generation_config.json:   0%|          | 0.00/265 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/20.8k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.42M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.54k [00:00<?, ?B/s]

```python
model = ParlerTTSForConditionalGeneration.from_pretrained(CFG.model1).to(CFG.device)
```
Metoda `from_pretrained()` pobiera wytrenowany wcześniej model z serwisu Hugging Face. Jest to bardzo wygodne rozwiązanie - zamiast trenować model od zera, co wymagałoby ogromnych zasobów obliczeniowych i dużych zbiorów danych, możemy skorzystać z gotowego modelu. Następnie metoda `.to(CFG.device)` przenosi model na odpowiednie urządzenie obliczeniowe.

```python
tokenizer = AutoTokenizer.from_pretrained(CFG.model1)
```
Inicjalizuje tokenizer, czyli narzędzie, które przetwarza tekst wejściowy na format zrozumiały dla modelu. Tokenizer dzieli tekst na mniejsze jednostki (tokeny) i przekształca je na liczby, które model może przetwarzać. Używamy tego samego modelu jako źródła tokenizera, co zapewnia spójność - tokenizer zna dokładnie te same reguły podziału tekstu, które były używane podczas treningu modelu.


In [5]:
prompt = "It was the best of times, it was the worst of times, it was the age of wisdom,\
        it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity,\
            it was the season of light, it was the season of darkness, it was the spring of hope,\
            it was the winter of despair."

# Claude generated description of the voice of Michael Caine
description = "Male voice with a distinct Cockney English accent. Deep and gravelly timbre with a slight raspiness.\
            Slow, deliberate pace of speech with clear enunciation. Tendency to emphasize certain words\
            for dramatic effect. Warm and slightly nasal tone. Occasional elongation of vowel sounds.\
            Subtle rise and fall in pitch throughout sentences. Authoritative yet friendly overall quality.\
            Occasional pauses between phrases for emphasis. Hints of dry humor in the delivery,\
            even when speaking seriously."

In [6]:
inputs = tokenizer(description, return_tensors="pt", padding=True, truncation=True)
input_ids = inputs.input_ids.to(CFG.device)
attention_mask = inputs.attention_mask.to(CFG.device)

prompt_inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True)
prompt_input_ids = prompt_inputs.input_ids.to(CFG.device)
prompt_attention_mask = prompt_inputs.attention_mask.to(CFG.device)

#### 🔹 1. Tokenizacja opisu (`description`)  
- Tokenizuje tekst i zwraca tensory PyTorch (`pt`).  
- **`padding=True`** – Wyrównuje długość sekwencji, aby można było przetwarzać je w batchach.  
- **`truncation=True`** – Obcina dłuższe sekwencje do maksymalnej długości modelu.  

#### 🔹 2. Przeniesienie `input_ids` i `attention_mask` na urządzenie (`CPU/GPU`)  
- `input_ids` to identyfikatory tokenów, które są przesyłane na `CFG.device`.  
- `attention_mask` wskazuje modelowi, które tokeny należą do rzeczywistego tekstu, a które są paddingiem.  

---

#### 🔹 3. Tokenizacja promptu (`prompt`)  
- Proces identyczny jak dla `description` – tokenizacja z paddingiem i obcięciem do maksymalnej długości.  

#### 🔹 4. Przeniesienie `prompt_input_ids` i `prompt_attention_mask` na urządzenie  
- `prompt_input_ids` i `prompt_attention_mask` są przesyłane na `CFG.device`, aby model działał na odpowiednim sprzęcie (CPU/GPU).  

---

#### 🎯 Dlaczego to jest ważne?  
✅ **Zgodność z GPU/CPU** – Model działa poprawnie na wybranym urządzeniu.  
✅ **Obsługa paddingu** – Model nie przetwarza sztucznych tokenów.  
✅ **Zapewnienie spójności** – Zarówno opis (`description`), jak i prompt są traktowane identycznie.  


In [7]:
generation = model.generate(
    input_ids=input_ids,
    attention_mask=attention_mask,
    prompt_input_ids=prompt_input_ids)

audio_arr = generation.cpu().numpy().squeeze()

sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)

```python
audio_arr = generation.cpu().numpy().squeeze()
```
Ta linia przekształca wygenerowane dane do formatu odpowiedniego do zapisania jako plik dźwiękowy. Dzieje się tu kilka rzeczy: najpierw `.cpu()` przenosi dane z karty graficznej z powrotem do głównego procesora (CPU), następnie `.numpy()` konwertuje tensor PyTorch na tablicę NumPy (format powszechnie używany w Pythonie do obliczeń numerycznych), a `.squeeze()` usuwa niepotrzebne wymiary z tablicy, upraszczając jej strukturę. To jak przygotowanie nagrania do eksportu w studiu dźwiękowym - przekształcenie surowego materiału w format, który może być odtworzony przez standardowe odtwarzacze.

In [8]:
IPython.display.Audio("parler_tts_out.wav")