In [None]:
from transformers import pipeline
import scipy

model_id = "./Finetune/finetune-hf-vits/models/mms-tts-nova-train"
synthesiser = pipeline("text-to-speech", model_id, device=0) # add device=0 if you want to use a GPU

speech = synthesiser("ၾႃႉၾူၼ်သွမ်ႇတႃ ႁၢင်ႈလီၼႃႇၼႃႇ")

scipy.io.wavfile.write("finetuned_output.wav", rate=speech["sampling_rate"], data=speech["audio"][0])

In [None]:
from transformers import VitsTokenizer

tokenizer = VitsTokenizer.from_pretrained("./Finetune/finetune-hf-vits/models/mms-tts-nova-train")
text = "ၾႃႉၾူၼ်ၵမ်ႇလမ်သွမ်ႇ ၸွမ်းၾင်ႇၼမ်ႉၾင်ႇၼွင်"

tokenizer.decode(tokenizer.encode(text))

In [11]:
from transformers import VitsModel, VitsTokenizer, set_seed
import torch
from shannlp import util, word_tokenize

def preprocess_string(input_string: str):
    string_token = word_tokenize(input_string)
    num_to_shanword = util.num_to_shanword

    result = []
    for token in string_token:
        if token.strip().isdigit():
            result.append(num_to_shanword(int(token)))
        else:
            result.append(token)

    full_token = ''.join(result)
    return full_token

model_name = "./Finetune/finetune-hf-vits/models/mms-tts-nova-train"
model = VitsModel.from_pretrained(model_name)
tokenizer = VitsTokenizer.from_pretrained(model_name)

text = """မိူဝ်ႈပီ 1958 လိူၼ်မေႊ 21 ဝၼ်းၼၼ်ႉ ၸဝ်ႈၼွႆႉသေႃးယၼ်ႇတ ဢမ်ႇၼၼ် ၸဝ်ႈၼွႆႉ ဢွၼ်ႁူဝ် ၽူႈႁၵ်ႉၸိူဝ်ႉၸၢတ်ႈ 31 ၵေႃႉသေ တိူင်ႇၵၢဝ်ႇယၼ်ႇၸႂ် ၵိၼ်ၼမ်ႉသတ်ႉၸႃႇ တႃႇၵေႃႇတင်ႈပူၵ်းပွင် ၵၢၼ်လုၵ်ႉၽိုၼ်ႉ တီႈႁူၺ်ႈပူႉ ႁိမ်းသူပ်းၼမ်ႉၵျွတ်ႈ ၼႂ်းဢိူင်ႇမိူင်းႁၢင် ၸႄႈဝဵင်းမိူင်းတူၼ် ၸိုင်ႈတႆးပွတ်းဢွၵ်ႇၶူင်း လႅၼ်လိၼ်ၸိုင်ႈထႆး။"""
text2 = """သိုၵ်းမၢၼ်ႈဢဝ်ၶိူင်ႈမိၼ်တိုၵ်းပွႆႇမၢၵ်ႇ ဢဝ်ၵွင်ႈလူင်ယိုဝ်းလႄႈမၢၵ်ႇၾင်လိၼ် ႁဵတ်းႁႂ်ႈၵူၼ်းမိူင်းလုတၢႆ 7 ၵေႃႉ၊ မၢတ်ႇၸဵပ်း 20 ၼႂ်းၸႄႈဝဵင်းၼွင်ၶဵဝ်လႄႈ မၢတ်ႇၸဵပ်း 3 ၵေႃႉၼႂ်းၸႄႈဝဵင်းမိူင်းမိတ်ႈ ၸိုင်ႈတႆးပွတ်းႁွင်ႇ"""
text3 = """ၵူၺ်းသမ်ႉမၢၵ်ႈမီးမႃးၵွပ်ႈမၼ်းၼမ်လၢႆ ငိုၼ်းၶီႈငိုၼ်းၶွၼ်ႇ ငိုၼ်းၶွင်လၢႆၵေႃႈလႆႈၵိၼ်ပႃး တေလီဢမ်ႇလီတႃႇပိူၼ်ႈတႄႉဢမ်ႇႁူႉ"""
text4 = """ၾႃႈၾူၼ်ၵမ်ႇလမ်သႃး ႁေႃႈၵႃးၵႂႃႇလႄႇလဵၼ်ႈ တိုင်းၾႃႉတိုင်းၾူၼ် ႁူၼ်ၶႂ်ႈၼွၼ်းဝၼ်း ၾၼ်ႁၼ်ႁၢင်ႈလီ ၼၢင်းၽီၼိူဝ်ၾႃႉ"""

processed_string = preprocess_string(text4)
inputs = tokenizer(processed_string, return_tensors="pt")
set_seed(456)

model.speaking_rate = 1.2
model.noise_scale = 0.8

with torch.no_grad():
    output = model(**inputs)

waveform = output.waveform[0]


In [10]:
from IPython.display import Audio

Audio(waveform, rate=model.config.sampling_rate)


In [None]:
print(inputs)

In [None]:
print(output)

In [None]:
print(model.config.sampling_rate)

In [None]:
preprocess_string(text)

In [None]:
from huggingface_hub import login

login()

In [None]:
model.push_to_hub("haohaa/mms-tts-shn-train")

In [None]:
tokenizer.push_to_hub("haohaa/mms-tts-shn-train")

In [12]:
from transformers import VitsModel, VitsTokenizer, set_seed
import torch
from IPython.display import Audio

model = VitsModel.from_pretrained("./Finetune/finetune-hf-vits/models/mms-tts-shn-train")
tokenizer = VitsTokenizer.from_pretrained("./Finetune/finetune-hf-vits/models/mms-tts-shn-train")

text = """မိူဝ်ႈပီ 1958 လိူၼ်မေႊ 21 ဝၼ်းၼၼ်ႉ ၸဝ်ႈၼွႆႉသေႃးယၼ်ႇတ ဢမ်ႇၼၼ် ၸဝ်ႈၼွႆႉ ဢွၼ်ႁူဝ် ၽူႈႁၵ်ႉၸိူဝ်ႉၸၢတ်ႈ 31 ၵေႃႉသေ တိူင်ႇၵၢဝ်ႇယၼ်ႇၸႂ် ၵိၼ်ၼမ်ႉသတ်ႉၸႃႇ တႃႇၵေႃႇတင်ႈပူၵ်းပွင် ၵၢၼ်လုၵ်ႉၽိုၼ်ႉ တီႈႁူၺ်ႈပူႉ ႁိမ်းသူပ်းၼမ်ႉၵျွတ်ႈ ၼႂ်းဢိူင်ႇမိူင်းႁၢင် ၸႄႈဝဵင်းမိူင်းတူၼ် ၸိုင်ႈတႆးပွတ်းဢွၵ်ႇၶူင်း လႅၼ်လိၼ်ၸိုင်ႈထႆး။"""
inputs = tokenizer(text4, return_tensors="pt")
set_seed(456)

model.speaking_rate = 0.9
model.noise_scale = 0.8

with torch.no_grad():
    output = model(**inputs)

waveform = output.waveform[0]

Audio(waveform, rate=model.config.sampling_rate)

In [None]:


model = VitsModel.from_pretrained("NorHsangPha/mms-tts-shn-train")
processor = VitsTokenizer.from_pretrained("NorHsangPha/mms-tts-shn-train")

text = """မိူဝ်ႈပီ 1958 လိူၼ်မေႊ 21 ဝၼ်းၼၼ်ႉ ၸဝ်ႈၼွႆႉသေႃးယၼ်ႇတ ဢမ်ႇၼၼ် ၸဝ်ႈၼွႆႉ ဢွၼ်ႁူဝ် ၽူႈႁၵ်ႉၸိူဝ်ႉၸၢတ်ႈ 31 ၵေႃႉသေ တိူင်ႇၵၢဝ်ႇယၼ်ႇၸႂ် ၵိၼ်ၼမ်ႉသတ်ႉၸႃႇ တႃႇၵေႃႇတင်ႈပူၵ်းပွင် ၵၢၼ်လုၵ်ႉၽိုၼ်ႉ တီႈႁူၺ်ႈပူႉ ႁိမ်းသူပ်းၼမ်ႉၵျွတ်ႈ ၼႂ်းဢိူင်ႇမိူင်းႁၢင် ၸႄႈဝဵင်းမိူင်းတူၼ် ၸိုင်ႈတႆးပွတ်းဢွၵ်ႇၶူင်း လႅၼ်လိၼ်ၸိုင်ႈထႆး။"""
inputs = tokenizer(text, return_tensors="pt")
set_seed(555)

model.speaking_rate = 0.9
model.noise_scale = 0.8

with torch.no_grad():
    output = model(**inputs)

waveform = output.waveform[0]

Audio(waveform, rate=model.config.sampling_rate)