# Pitch Statistics per emotion

In [None]:
# pitch mean and std deviation calculations per emotion


In [2]:
from omegaconf import OmegaConf
from hydra.utils import instantiate
import torch
from tqdm import tqdm

In [3]:
# manifest_path = "/DataEmotionalTTS/datasets_v2/openslr110/thorsten-emotional_v02/train_manifest_phonemes.json"
manifest_path = "/DataEmotionalTTS/datasets_v2/openslr110/thorsten-emotional_v02/test_manifest_phonemes_tmp.json"
sup_path = "/DataGermanTTS/datasets_v2/openslr110/thorsten-emotional_v02/sup_data/"
emo_map = {8:"neutral", 1:"amused", 2:"angry", 3:"disgusted", 4:"drunk", 5:"sleepy", 6:"surprised", 7:"whisper"}

In [4]:
def get_pitch_stats(pitch_list):
#     print(pitch_list)
    pitch_tensor = torch.cat(pitch_list)
    pitch_mean, pitch_std = pitch_tensor.mean().item(), pitch_tensor.std().item()
    pitch_min, pitch_max = pitch_tensor.min().item(), pitch_tensor.max().item()
    print(f"PITCH_MEAN={pitch_mean}, PITCH_STD={pitch_std}")
    print(f"PITCH_MIN={pitch_min}, PITCH_MAX={pitch_max}")

def preprocess_ds_for_fastpitch_align(dataloader):
    pitch_list = {k: [] for k in range(1,1+len(emo_map))}
    for batch in tqdm(dataloader, total=len(dataloader)):
        audios, audio_lengths, tokens, tokens_lengths, align_prior_matrices, pitches, pitches_lengths, emotion_ids = batch
        emotion_ext = emotion_ids.squeeze(0).item()
        pitch = pitches.squeeze(0)
        pitch_list[emotion_ext].append(pitch[pitch != 0])
        
#     print(pitch_list)
    for emotion in range(1,len(emo_map)+1):
        if pitch_list[emotion] != []:
            print("Pitch statistics for emotionid: ", emotion, " = ", emo_map[emotion])
            get_pitch_stats(pitch_list[emotion])

In [5]:
cfg = OmegaConf.load("scripts/dataset_processing/tts/openslr_emotional/ds_conf/ds_for_fastpitch_align.yaml")
cfg.manifest_filepath = manifest_path
cfg.sup_data_path = sup_path
dataset = instantiate(cfg.dataset)

    
[NeMo W 2022-09-30 03:31:04 experimental:27] Module <class 'nemo.collections.tts.torch.tts_tokenizers.IPATokenizer'> is experimental, not ready for production and is not fully supported. Use at your own risk.


[NeMo I 2022-09-30 03:31:05 tokenize_and_classify:81] Creating ClassifyFst grammars. This might take some time...
[NeMo I 2022-09-30 03:31:21 data:188] Loading dataset from /DataEmotionalTTS/datasets_v2/openslr110/thorsten-emotional_v02/test_manifest_phonemes_tmp.json.


8it [00:00, 18137.53it/s]

[NeMo I 2022-09-30 03:31:21 data:227] Loaded dataset with 8 files.
[NeMo I 2022-09-30 03:31:21 data:228] Loaded emotions: 8
[NeMo I 2022-09-30 03:31:21 data:230] Dataset contains 0.02 hours.
[NeMo I 2022-09-30 03:31:21 data:328] Pruned 0 files. Final dataset contains 8 files
[NeMo I 2022-09-30 03:31:21 data:330] Pruned 0.00 hours. Final dataset contains 0.02 hours.





In [6]:
dataloader = torch.utils.data.DataLoader(
        dataset=dataset, batch_size=1, collate_fn=dataset._collate_fn, num_workers=cfg.dataloader_params.num_workers
    )

In [7]:
preprocess_ds_for_fastpitch_align(dataloader)

100%|█████████████████████████████████████████████| 8/8 [00:00<00:00, 18.18it/s]

Pitch statistics for emotionid:  1  =  amused
PITCH_MEAN=180.87083435058594, PITCH_STD=57.548248291015625
PITCH_MIN=96.87324523925781, PITCH_MAX=347.2168273925781
Pitch statistics for emotionid:  2  =  angry
PITCH_MEAN=228.29937744140625, PITCH_STD=63.06633377075195
PITCH_MIN=80.52471160888672, PITCH_MAX=374.2935485839844
Pitch statistics for emotionid:  3  =  disgusted
PITCH_MEAN=186.79696655273438, PITCH_STD=56.79970932006836
PITCH_MIN=82.88426971435547, PITCH_MAX=463.4788513183594
Pitch statistics for emotionid:  4  =  drunk
PITCH_MEAN=167.3087921142578, PITCH_STD=48.126434326171875
PITCH_MIN=88.32151794433594, PITCH_MAX=297.0769958496094
Pitch statistics for emotionid:  5  =  sleepy
PITCH_MEAN=134.2330780029297, PITCH_STD=32.633056640625
PITCH_MIN=88.83316040039062, PITCH_MAX=244.10528564453125
Pitch statistics for emotionid:  6  =  surprised
PITCH_MEAN=143.5443878173828, PITCH_STD=39.36917495727539
PITCH_MIN=99.1375503540039, PITCH_MAX=254.17759704589844
Pitch statistics for emoti




### sentence_1

```json
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/amused/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 4.3, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 1, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/angry/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 3.96, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 2, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/disgusted/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 5.130023, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 3, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/drunk/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 5.930023, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 4, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/sleepy/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 6.430023, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 5, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/surprised/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 3.950023, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 6, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/whisper/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 4.810023, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 7, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/neutral/0dab10b16c7b606c059abe21d1eb2900.wav", "duration": 3.981633, "text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "normalized_text": "Tragen Sie die Adressen Ihrer Stra\u00dfe bitte in OpenStreetMap ein!", "emotion_id": 8, "is_phoneme": 0}
```

### sentence_2

```json
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/amused/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 3.910023, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 1, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/angry/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 4.86, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 2, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/disgusted/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 5.070023, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 3, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/drunk/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 5.74, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 4, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/sleepy/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 6.050023, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 5, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/surprised/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 3.730023, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 6, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/whisper/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 4.610023, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 7, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/neutral/aff5db4056eb7a6273f41537f3b9798c.wav", "duration": 4.036599, "text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "normalized_text": "Wie berechnet man die optimale konvexe H\u00fclle beliebiger K\u00f6rper?", "emotion_id": 8, "is_phoneme": 0}
```

### sentence_3

```json
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/amused/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 6.74, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 1, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/angry/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 6.72, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 2, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/disgusted/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 8.04, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 3, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/drunk/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 9.170023, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 4, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/sleepy/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 10.4, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 5, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/surprised/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 5.770023, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 6, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/whisper/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 7.190023, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 7, "is_phoneme": 0}
{"audio_filepath": "/DataEmotionalTTS/thorsten-emotional_v02/neutral/0713e7bbc2f8815f238e9ad44cf30eb8.wav", "duration": 6.451927, "text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "normalized_text": "Das werden sehr interessante und auch sehr spannende und sicherlich auch keine ganz einfachen Verhandlungen werden.", "emotion_id": 8, "is_phoneme": 0}
```